苏剑林博客精华整理:深度学习知识体系梳理
Published:
之前在学习机器学习和深度学习乃至现在大模型时代的很多内容的时候,都发现苏剑林老师的博客可以深入浅出的全面讲清楚具体的知识内容,从数学推理到应用让人看的酣畅淋漓。所以想在个人博客上,对于苏神的博客内容进行一个分类的备份。目前内容主要是搬运自知乎 @Grad2Chips 的苏剑林博客分类整理,后续再根据我自己看的进行补充和删改。
神经网络与深度学习基础
词向量与Embedding技术
- 词向量与Embedding究竟是怎么回事?
- 【不可思议的Word2Vec】 1.数学原理
- 【不可思议的Word2Vec】 2.训练好的模型
- 【不可思议的Word2Vec】 3.提取关键词
- 【不可思议的Word2Vec】 4.不一样的”相似”
- 【不可思议的Word2Vec】5. Tensorflow版的Word2Vec
- 【不可思议的Word2Vec】6. Keras版的Word2Vec
- 语言模型输出端共享Embedding的重新探索
- Lion/Tiger优化器训练下的Embedding异常和对策
奇异值分解(SVD)与应用
优化算法与梯度下降
- 梯度下降和EM算法:系出同源,一脉相承
- 从动力学角度看优化算法(一):从SGD到动量加速
- 从动力学角度看优化算法(二):自适应学习率算法
- 从动力学角度看优化算法(三):一个更整体的视角
- 从动力学角度看优化算法(四):GAN的第三个阶段
- 从动力学角度看优化算法(五):为什么学习率不宜过小?
- 从动力学角度看优化算法(六):为什么SimSiam不退化?
- 从动力学角度看优化算法(七):SGD ≈ SVM?
- 【备忘】谈谈dropout
- ChildTuning:试试把Dropout加到梯度上去?
- Dropout视角下的MLM和MAE:一些新的启发
- 梯度视角下的LoRA:简介、分析、猜测及推广
- 让炼丹更科学一些(一):SGD的平均损失收敛
- 隐藏在动量中的梯度累积:少更新几步,效果反而更好?
- 为什么梯度裁剪的默认模长是1?
- Google新搜出的优化器Lion:效率与效果兼得的”训练狮”
- Tiger:一个”抠”到极致的优化器
- 基于Amos优化器思想推导出来的一些”炼丹策略”
- 通向最优分布之路:概率空间的最小化
- 当Batch Size增大时,学习率该如何随之变化?
- Adam的epsilon如何影响学习率的Scaling Law?
- Muon优化器赏析:从向量到矩阵的本质跨越
- Muon续集:为什么我们选择尝试Muon?
- 从谱范数梯度到新式权重衰减的思考
- QK-Clip:让Muon在Scaleup之路上更进一步
- 流形上的最速下降:1. SGD + 超球面
正则化&损失函数
- 从loss的硬截断、软化到focal loss
- 再谈类别不平衡问题:调节权重与魔改Loss的对比联系
- L2正则没有想象那么好?可能是”权重尺度偏移”惹的祸
- 从SamplePairing到mixup:神奇的正则项
- 多标签”Softmax+交叉熵”的软标签版本
- EMO:基于最优传输思想设计的分类损失函数
- 缓解交叉熵过度自信的一个简明方案
自编码器与变分自编码器(VAE)
- VQ-VAE的简明介绍:量子化自编码器
- 变分自编码器 = 最小化先验分布 + 最大化互信息
- 变分自编码器(一):原来是这么一回事
- 变分自编码器(二):从贝叶斯观点出发
- 变分自编码器(三):这样做为什么能成?
- 变分自编码器(四):一步到位的聚类方案
- 变分自编码器(五):VAE + BN = 更好的VAE
- 变分自编码器(六):从几何视角来理解VAE的尝试
- 变分自编码器(七):球面上的VAE(vMF-VAE)
- 变分自编码器(八):估计样本概率密度
- EAE:自编码器 + BN + 最大熵 = 生成模型
生成模型与生成对抗网络(GAN)
- 互怼的艺术:从零直达WGAN-GP
- 用变分推断统一理解生成模型(VAE、GAN、AAE、ALI)
- f-GAN简介:GAN模型的生产车间
- 能量视角下的GAN模型(一):GAN=”挖坑”+”跳坑”
- 能量视角下的GAN模型(二):GAN=”分析”+”采样”
- 能量视角下的GAN模型(三):生成模型=能量模型
- 巧断梯度:单个loss实现GAN模型
- 非对抗式生成模型GLANN的简单介绍
- O-GAN:简单修改,让GAN的判别器变成一个编码器!
- 从DCGAN到SELF-MOD:GAN的模型架构发展一览
- RSGAN:对抗模型中的”图灵测试”思想
- WGAN-div:一个默默无闻的WGAN填坑者
- 不用L约束又不会梯度消失的GAN,了解一下?
- BiGAN-QP:简单清晰的编码&生成模型
- 对抗训练浅谈:意义、方法和思考(附Keras实现)
- WGAN的成功,可能跟Wasserstein距离没啥关系
- 幂等生成网络IGN:试图将判别和生成合二为一的GAN
- 细水长flow之NICE:流模型的基本概念与实现
- 细水长flow之f-VAEs:Glow与VAEs的联姻
- 细水长flow之RealNVP与Glow:流模型的传承与升华
- 细水长flow之可逆ResNet:极致的暴力美学
- 细水长flow之TARFLOW:流模型满血归来?
- 当生成模型肆虐:互联网将有”疯牛病”之忧?
生成扩散模型
- 生成扩散模型漫谈(一):DDPM = 拆楼 + 建楼
- 生成扩散模型漫谈(二):DDPM = 自回归式VAE
- 生成扩散模型漫谈(三):DDPM = 贝叶斯 + 去噪
- 生成扩散模型漫谈(四):DDIM = 高观点DDPM
- 生成扩散模型漫谈(五):一般框架之SDE篇
- 生成扩散模型漫谈(六):一般框架之ODE篇
- 生成扩散模型漫谈(七):最优扩散方差估计(上)
- 生成扩散模型漫谈(八):最优扩散方差估计(下)
- 生成扩散模型漫谈(九):条件控制生成结果
- 生成扩散模型漫谈(十):统一扩散模型(理论篇)
- 生成扩散模型漫谈(十一):统一扩散模型(应用篇)
- 生成扩散模型漫谈(十二):”硬刚”扩散ODE
- 生成扩散模型漫谈(十三):从万有引力到扩散模型
- 生成扩散模型漫谈(十四):构建ODE的一般步骤(上)
- 生成扩散模型漫谈(十五):构建ODE的一般步骤(中)
- 生成扩散模型漫谈(十六):W距离 ≤ 得分匹配
- 生成扩散模型漫谈(十七):构建ODE的一般步骤(下)
- 生成扩散模型漫谈(十八):得分匹配 = 条件得分匹配
- 生成扩散模型漫谈(十九):作为扩散ODE的GAN
- 生成扩散模型漫谈(二十):从ReFlow到WGAN-GP
- 生成扩散模型漫谈(二十一):中值定理加速ODE采样
- 生成扩散模型漫谈(二十二):信噪比与大图生成(上)
- 生成扩散模型漫谈(二十三):信噪比与大图生成(下)
- 生成扩散模型漫谈(二十四):少走捷径,更快到达
- 生成扩散模型漫谈(二十五):基于恒等式的蒸馏(上)
- 生成扩散模型漫谈(二十六):基于恒等式的蒸馏(下)
- 生成扩散模型漫谈(二十七):将步长作为条件输入
- 生成扩散模型漫谈(二十八):分步理解一致性模型
- 生成扩散模型漫谈(二十九):用DDPM来离散编码
- 生成扩散模型漫谈(三十):从瞬时速度到平均速度
Transformer模型
- 《Attention is All You Need》浅读(简介+代码)
- 从语言模型到Seq2Seq:Transformer如戏,全靠Mask
- ON-LSTM:用有序神经元表达层次结构
- 突破瓶颈,打造更强大的Transformer
- Transformer升级之路:1、Sinusoidal位置编码追根溯源
- Transformer升级之路:2、博采众长的旋转式位置编码
- Transformer升级之路:3、从Performer到线性Attention
- Transformer升级之路:4、二维位置的旋转式位置编码
- Transformer升级之路:5、作为无限维的线性Attention
- Transformer升级之路:6、旋转位置编码的完备性分析
- Transformer升级之路:7、长度外推性与局部注意力
- Transformer升级之路:8、长度外推性与位置鲁棒性
- Transformer升级之路:9、一种全局长度外推的新思路
- Transformer升级之路:10、RoPE是一种β进制编码
- Transformer升级之路:11、将β进制位置进行到底
- Transformer升级之路:12、无限外推的ReRoPE?
- Transformer升级之路:13、逆用Leaky ReRoPE
- Transformer升级之路:14、当HWFA遇见ReRoPE
- Transformer升级之路:15、Key归一化助力长度外推
- Transformer升级之路:16、”复盘”长度外推技术
- Transformer升级之路:17、多模态位置编码的简单思考
- Transformer升级之路:18、RoPE的底数选择原则
- Transformer升级之路:19、第二类旋转位置编码
- Transformer升级之路:20、MLA好在哪里?(上)
- Transformer升级之路:21、MLA好在哪里?(下)
- 为什么需要残差?一个来自DeepNet的视角
- 为什么Pre Norm的效果不如Post Norm?
- 相对位置编码Transformer的一个理论缺陷与对策
- RoFormerV2:自然语言理解的极限探索
- 线性Transformer应该不是你要等的那个模型
- 训练1000层的Transformer究竟有什么困难?
- 浅谈Transformer的初始化、参数化与标准化
- Bias项的神奇作用:RoPE + Bias = 更好的长度外推性
- 为什么现在的LLM都是Decoder-only的架构?
- 《为什么现在的LLM都是Decoder-only的架构?》FAQ
- Decoder-only的LLM为什么需要位置编码?
注意力机制
- 《Attention is All You Need》浅读(简介+代码)
- 为节约而生:从标准Attention到稀疏Attention
- 听说Attention与Softmax更配哦~
- Dropout视角下的MLM和MAE:一些新的启发
- 线性Attention的探索:Attention必须有个Softmax吗?
- Google新作Synthesizer:我们还不够了解自注意力
- FLASH:可能是近来最有意思的高效Transformer设计
- 从熵不变性看Attention的Scale操作
- 从梯度最大化看Attention的Scale操作
- 从JL引理看熵不变性Attention
- 注意力机制真的可以”集中注意力”吗?
- 线性注意力简史:从模仿、创新到反哺
- GAU-α:尝鲜体验快好省的下一代Attention
- VQ一下Key,Transformer的复杂度就变成线性了
- 我在Performer中发现了Transformer-VQ的踪迹
- Naive Bayes is all you need ?
- 缓存与效果的极限拉扯:从MHA、MQA、GQA到MLA
- 时空之章:将Attention视为平方复杂度的RNN
随机场与互信息
- 果壳中的条件随机场(CRF In A Nutshell)
- 深度学习的互信息:无监督提取特征
- 深度学习中的Lipschitz约束:泛化与生成模型
- 变分自编码器 = 最小化先验分布 + 最大化互信息
- 从变分编码、信息瓶颈到正态分布:论遗忘的重要性
多任务学习
分词器
- 【中文分词系列】 1. 基于AC自动机的快速分词
- 【中文分词系列】 2. 基于切分的新词发现
- 【中文分词系列】 3. 字标注法与HMM模型
- 【中文分词系列】 4. 基于双向LSTM的seq2seq字标注
- 【中文分词系列】 5. 基于语言模型的无监督分词
- 【中文分词系列】 6. 基于全卷积网络的中文分词
- 【中文分词系列】 7. 深度学习分词?只需一个词典!
- 【中文分词系列】 8. 更好的新词发现算法
- 大词表语言模型在续写任务上的一个问题及对策
- 随机分词浅探:从Viterbi Decoding到Viterbi Sampling
- 随机分词再探:从Viterbi Sampling到完美采样算法
- BytePiece:更纯粹、更高压缩率的Tokenizer
随机过程与贝叶斯
- 最小熵原理(一):无监督学习的原理
- 最小熵原理(二):”当机立断”之词库构建
- 最小熵原理(三):”飞象过河”之句模版和语言结构
- 最小熵原理(四):”物以类聚”之从图书馆到词向量
- 最小熵原理(五):”层层递进”之社区发现与聚类
- 最小熵原理(六):词向量的维度应该怎么选择?
OCR技术
- OCR技术浅探:1. 全文简述
- OCR技术浅探:2. 背景与假设
- OCR技术浅探:3. 特征提取(1)
- OCR技术浅探:3. 特征提取(2)
- OCR技术浅探:4. 文字定位
- OCR技术浅探:5. 文本切割
- OCR技术浅探:6. 光学识别
- OCR技术浅探:7. 语言模型
- OCR技术浅探:8. 综合评估
- OCR技术浅探:9. 代码共享(完)
低秩近似
- 低秩近似之路(一):伪逆
- 低秩近似之路(二):SVD
- 低秩近似之路(三):CR
- 低秩近似之路(四):ID
- 低秩近似之路(五):CUR
- 矩阵的有效秩(Effective Rank)
- 配置不同的学习率,LoRA还能再涨一点?
- 对齐全量微调!这是我看过最精彩的LoRA改进(一)
- 对齐全量微调!这是我看过最精彩的LoRA改进(二)
MoE
多模态
矩阵
- 分享:孟岩的《理解矩阵》一文
- 用二次方程判别式判断正定矩阵
- 高维空间的叉积及其几何意义
- 矩阵描述三维空间旋转
- 不确定性原理的矩阵形式
- 《新理解矩阵1》:矩阵是什么?
- 《新理解矩阵2》:矩阵是什么?
- 《新理解矩阵3》:行列式的点滴
- 《新理解矩阵4》:相似矩阵的那些事儿
- 《新理解矩阵5》:体积=行列式
- 《新理解矩阵6》:为什么只有方阵有行列式?
- 再谈非方阵的行列式
- 恒等式 det(exp(A)) = exp(Tr(A)) 赏析
- 构造一个显式的、总是可逆的矩阵
- 从一个单位向量变换到另一个单位向量的正交矩阵
- 两个多元正态分布的KL散度、巴氏距离和W距离
- 利用CUR分解加速交互式相似度模型的检索
- 重温SSM(一):线性系统和HiPPO矩阵
- 重温SSM(二):HiPPO的一些遗留问题
- 重温SSM(三):HiPPO的高效计算(S4)
- 重温SSM(四):有理生成函数的新视角
- Monarch矩阵:计算高效的稀疏型矩阵分解
- 矩阵的有效秩(Effective Rank)
- SVD的导数
- msign的导数
- 矩阵符号函数mcsgn能计算什么?
- 通过msign来计算奇异值裁剪mclip(上)
- 通过msign来计算奇异值裁剪mclip(下)
- “对角+低秩”三角阵的高效求逆方法
- 矩阵平方根和逆平方根的高效计算
- 矩阵r次方根和逆r次方根的高效计算
其他前沿技术
- CoSENT(一):比Sentence-BERT更有效的句向量方案
- CoSENT(二):特征式匹配与交互式匹配有多大差距?
- CoSENT(三):作为交互式相似度的损失函数
- 如何训练你的准确率?
- BN究竟起了什么作用?一个闭门造车的分析
- 用热传导方程来指导自监督学习
- Ladder Side-Tuning:预训练模型的”过墙梯”
- “维度灾难”之Hubness现象浅析
- 从局部到全局:语义相似度的测地线距离
- 基于量子化假设推导模型的尺度定律(Scaling Law)
- NBCE:使用朴素贝叶斯扩展LLM的Context处理长度
- 关于NBCE方法的一些补充说明和分析
- 脑洞大开:非线性RNN居然也可以并行计算?
- 简单得令人尴尬的FSQ:”四舍五入”超越了VQ-VAE
- 通向概率分布之路:盘点Softmax及其替代品
- Softmax后传:寻找Top-K的光滑近似
写在最后
声明:本文内容主要来源于苏剑林老师的原创博客和知乎相关整理文章,我只是进行了分类整理和补充更新。所有原创内容版权归原作者所有。我整理这份资料的初衷是为了方便学习查阅,并在个人博客上做一个备份记录。
如果你也对深度学习感兴趣,强烈推荐直接访问苏剑林老师的原博客获取第一手的学习资料。
