Skip to content

收束 — 端到端流程 + 模型对比

端到端 mermaid 流程图

Tensor 变化汇总表

步骤操作shape(以尺度0为主)
0输入 x_enc(2, 24, 3)
1AvgPool → 多尺度列表[(2,24,3),(2,12,3),(2,6,3)]
2Normalize(实例归一化)同上(值变,shape 不变)
3CI reshape(B,T,N→B×N,T,1)[(6,24,1),(6,12,1),(6,6,1)]
4DataEmbedding_wo_pos(1→8)[(6,24,8),(6,12,8),(6,6,8)]
5series_decomp + permuteseason/trend 各: [(6,8,24),(6,8,12),(6,8,6)]
6SeasonMixing(底向上)out_season: [(6,24,8),(6,12,8),(6,6,8)]
7TrendMixing(顶向下)out_trend: [(6,24,8),(6,12,8),(6,6,8)]
8season+trend + residualout_list: [(6,24,8),(6,12,8),(6,6,8)]
9predict_layers[0] Linear(24→6)尺度0: (6,6,8)(permute后)
10projection Linear(8→1)(6,6,1)
11reshape+permute(CI 还原)(2,6,3)
12stack 3尺度 + sum(2,6,3)
13Denormalize(还原原始量级)(2,6,3) ← 最终输出

核心设计对比表

维度DLinearPatchTSTAutoformerDUETTimeMixer
token 语义无 tokenpatch(子序列)时间步时间步时间步(多尺度)
注意力时间轴(patch 间)Auto-CorrelationFullAttention❌ MLP mixing
时序分解静态移动均值编解码全程PDM 块内每次
多尺度输入✅ AvgPool 3层
季节混合方向单尺度底向上(细→粗)
趋势混合方向单尺度顶向下(粗→细)
channel 处理CICI混合CI+CD 两路CI 或 CD
预测头单路 Linear单路 LinearDecoder 生成linear_head每尺度 Linear → 求和
计算复杂度O(L)O(P2)O(LlogL)O(L) + MoEO(L) mixing

TimeMixer 特色设计决策回顾

1. 多尺度 AvgPool 而非可学习下采样

无参数池化保持"下采样 = 信息丢弃"的语义,特征学习专注于 PDM 的 mixing 层;可学习下采样会引入特征变换,混淆分辨率和语义两个维度。

2. Bottom-up Season + Top-down Trend 方向性

周期性波动在高分辨率最清晰(细→粗传播是信息压缩,保留主振荡);趋势在低分辨率已被 AvgPool 天然提取(粗→细传播是信息广播,填补细粒度的趋势背景)。

3. CI 模式下 projection_layer = Linear(d_model→1)

每个变量独立处理,输出通道=1;CI reshape 前后用 B*N 和 B 的 reshape 来切换"独立样本"和"多变量"视角,避免了跨变量的注意力开销。

4. 多尺度预测等权求和

不引入混合参数,训练时各尺度的 predict_layer 自适应学习贡献权重。简洁设计在实验中与加权方案效果相近。

*记录并在线阅读我的笔记*