Appearance
收束 — 端到端流程 + 模型对比
端到端 mermaid 流程图
Tensor 变化汇总表
| 步骤 | 操作 | shape(以尺度0为主) |
|---|---|---|
| 0 | 输入 x_enc | (2, 24, 3) |
| 1 | AvgPool → 多尺度列表 | [(2,24,3),(2,12,3),(2,6,3)] |
| 2 | Normalize(实例归一化) | 同上(值变,shape 不变) |
| 3 | CI reshape(B,T,N→B×N,T,1) | [(6,24,1),(6,12,1),(6,6,1)] |
| 4 | DataEmbedding_wo_pos(1→8) | [(6,24,8),(6,12,8),(6,6,8)] |
| 5 | series_decomp + permute | season/trend 各: [(6,8,24),(6,8,12),(6,8,6)] |
| 6 | SeasonMixing(底向上) | out_season: [(6,24,8),(6,12,8),(6,6,8)] |
| 7 | TrendMixing(顶向下) | out_trend: [(6,24,8),(6,12,8),(6,6,8)] |
| 8 | season+trend + residual | out_list: [(6,24,8),(6,12,8),(6,6,8)] |
| 9 | predict_layers[0] Linear(24→6) | 尺度0: (6,6,8)(permute后) |
| 10 | projection Linear(8→1) | (6,6,1) |
| 11 | reshape+permute(CI 还原) | (2,6,3) |
| 12 | stack 3尺度 + sum | (2,6,3) |
| 13 | Denormalize(还原原始量级) | (2,6,3) ← 最终输出 |
核心设计对比表
| 维度 | DLinear | PatchTST | Autoformer | DUET | TimeMixer |
|---|---|---|---|---|---|
| token 语义 | 无 token | patch(子序列) | 时间步 | 时间步 | 时间步(多尺度) |
| 注意力 | ❌ | 时间轴(patch 间) | Auto-Correlation | FullAttention | ❌ MLP mixing |
| 时序分解 | 静态移动均值 | ❌ | 编解码全程 | ❌ | PDM 块内每次 |
| 多尺度输入 | ❌ | ❌ | ❌ | ❌ | ✅ AvgPool 3层 |
| 季节混合方向 | — | — | 单尺度 | — | 底向上(细→粗) |
| 趋势混合方向 | — | — | 单尺度 | — | 顶向下(粗→细) |
| channel 处理 | CI | CI | 混合 | CI+CD 两路 | CI 或 CD |
| 预测头 | 单路 Linear | 单路 Linear | Decoder 生成 | linear_head | 每尺度 Linear → 求和 |
| 计算复杂度 |
TimeMixer 特色设计决策回顾
1. 多尺度 AvgPool 而非可学习下采样
无参数池化保持"下采样 = 信息丢弃"的语义,特征学习专注于 PDM 的 mixing 层;可学习下采样会引入特征变换,混淆分辨率和语义两个维度。
2. Bottom-up Season + Top-down Trend 方向性
周期性波动在高分辨率最清晰(细→粗传播是信息压缩,保留主振荡);趋势在低分辨率已被 AvgPool 天然提取(粗→细传播是信息广播,填补细粒度的趋势背景)。
3. CI 模式下 projection_layer = Linear(d_model→1)
每个变量独立处理,输出通道=1;CI reshape 前后用 B*N 和 B 的 reshape 来切换"独立样本"和"多变量"视角,避免了跨变量的注意力开销。
4. 多尺度预测等权求和
不引入混合参数,训练时各尺度的 predict_layer 自适应学习贡献权重。简洁设计在实验中与加权方案效果相近。