收束 — 端到端流程 + 模型对比

端到端 mermaid 流程图

维度	DLinear	PatchTST	Autoformer	DUET	TimeMixer
token 语义	无 token	patch（子序列）	时间步	时间步	时间步（多尺度）
注意力	❌	时间轴（patch 间）	Auto-Correlation	FullAttention	❌ MLP mixing
时序分解	静态移动均值	❌	编解码全程	❌	PDM 块内每次
多尺度输入	❌	❌	❌	❌	✅ AvgPool 3层
季节混合方向	—	—	单尺度	—	底向上（细→粗）
趋势混合方向	—	—	单尺度	—	顶向下（粗→细）
channel 处理	CI	CI	混合	CI+CD 两路	CI 或 CD
预测头	单路 Linear	单路 Linear	Decoder 生成	linear_head	每尺度 Linear → 求和
计算复杂度	$O (L)$	$O (P^{2})$	$O (L \log L)$	$O (L)$ + MoE	$O (L)$ mixing

1. 多尺度 AvgPool 而非可学习下采样

无参数池化保持"下采样 = 信息丢弃"的语义，特征学习专注于 PDM 的 mixing 层；可学习下采样会引入特征变换，混淆分辨率和语义两个维度。

2. Bottom-up Season + Top-down Trend 方向性

周期性波动在高分辨率最清晰（细→粗传播是信息压缩，保留主振荡）；趋势在低分辨率已被 AvgPool 天然提取（粗→细传播是信息广播，填补细粒度的趋势背景）。

3. CI 模式下 projection_layer = Linear(d_model→1)

每个变量独立处理，输出通道=1；CI reshape 前后用 B*N 和 B 的 reshape 来切换"独立样本"和"多变量"视角，避免了跨变量的注意力开销。

4. 多尺度预测等权求和

不引入混合参数，训练时各尺度的 predict_layer 自适应学习贡献权重。简洁设计在实验中与加权方案效果相近。