lrn.091705

没读懂的地方

[ ] informer: ProbAttention 的代码精读（理解停留在论文原理）
[ ] pytorch基础知识：建模4维tensor参数变换的能力（InnerAttention 的 queries、keys 的维度选择关系、AutoAttention 4维求mean的语法等等）
[ ] Autoformer/FEDformer/FITS: 频域建模 fft&rfft 以及相关频域操作的物理前置知识（傅里叶变换、小波变换、LPF低通滤波...）& 复数运算的前置知识
[ ] 总结CI CD的方式: CI 处理原因 (B, T, N) -> (C*N, T, 1)，主要还是tensor操作理解问题。
[ ] Non-stationary: Projector? (tao_learner, delta_learner)

学习过的论文/代码

综述

A Comprehensive Survey of Deep Learning for Time Series Forecasting: Architectural Diversity and Open Challenges

预测模型

一句话总结

[ ] iTransformer: 仅仅permute(0, 2, 1);
[ ] Non-stationary: 改公式：softmax((QK*tao+delta)/sqrt(d_k))
[ ] FITS: norm -> rfft + 高频置零 + 复数线性层 + 0 padding -> irfft + 能量补给 -> denorm
[ ] TimeMixer：norm/CI重排 -> embedding -> PDM(分细粒度分别S/T+残差合并) -> FMM(每个细粒度分别pred -> 合并) -> denorm

已掌握的范式覆盖

范式	已覆盖代表	代码能力迁移度
Transformer 变体	Informer / PatchTST / iTransformer / Autoformer / FEDformer / Non-stationary	非常高，相互迁移
MLP / Linear 极简	DLinear / FITS	高
CNN 混合	TimesNet	中
MoE	DUET	中
多尺度混合	TimeMixer	高

还没碰过的真正不同的范式

范式	代表模型	为什么值得读
SSM / Mamba	S-Mamba, TimeMamba, Mamba4TS	线性复杂度序列建模，与 Attention 路线根本不同；适合超长序列
扩散模型	TimeGrad, CSDI	概率预测，输出分布而非点估计；与确定性预测框架完全不同
TS Foundation Model	Moirai, Chronos, MOMENT	预训练 + 零样本泛化，代表当前最前沿趋势
LLM-for-TS	Time-LLM, GPT4TS	prompt / reprogramming 范式，把预训练 LLM 迁移到时序

TODO

[ ] pytorch基础可以专门在语法层面精进一下。
[ ] 继续learn一些近期的SOTA模型/其他范式的模型/读一些综述？