工作笔记 -- ai timeline

Posted on May 16, 2026 (twiki)

01:30 探索的缘起

07:25 怎么读论文？（用 AI 学 AI）

10:20 辅助小工具和路书

视频教程：

吴恩达的机器学习 / AI 课程
李宏毅：生成式 AI 时代下的机器学习（2025）
Andrej Karpathy YouTube
B 站：李沐论文精读系列
B 站：3Blue1Brown 的数学与神经网络介绍部分
B 站：王木头学科学
B 站：Zomi

书籍：

《一站式 LLM 底层技术原理入门指南》
《动手学深度学习（PyTorch 版）》：作者李沐本人有配套中文视频
《深度学习的数学》

19:35 Part 1：模型的范式变迁

故事要从 1999 年的第一颗 GPU 开始讲起

Brook: 用 GPU 进行计算（2004.08）

AlexNet: 深度学习的开端（2012.10）

对序列建模：seq2seq 和 Attention 的引入（2014.09）

蒸馏：模型能被学习吗？（2015.03）

ResNet: 比深更深（2015.12）

Transformer 来了！拉开一个时代的序幕（2017.06）

AlphaGo Zero: 强化学习的突破（2017.10）

现代 MoE 的开端（2017.01）

CoT: Prompt Engineering 的奠基之作（2022.01）

LoRA: 那个我们每天都在用的东西（2021.06）

ReAct: Agent 从理论到落地（2022.10）

The Bitter Lesson: 过去 70 年的教训（2018.08）

01:52:58 Part 2：Infra 与数据的变迁

ZeRO: 大规模的 GPU 并行计算（2019.10）

Scaling Law & Chinchilla: 上帝的指挥棒（2020.01 2022.03）

LAION-5B: 开源社区的英雄主义（2022.10）

The RefinedWeb: 互联网的数据也很够用（2023.06）

MegaScale: 万卡 GPU 集群的训练（2024.02）

02:21:29 Part 3：语言模型的发展

Word2Vec: 用机器学习将单词向量化（2013.01）

Google Translate: 神经网络的大规模线上部署（2016.09）

GPT-1，它来了（2018.06）

BERT: 曾经的王（2018.10）

GPT-2: 是时候告别微调了（2019.02）

GPT-3: ChatGPT 来临前夜（2020.05）

InstructGPT: 给 LLM 以文明（2022.03）

Tulu 3: 后训练的开源（2024.11）

03:08:08 Part 4：多模态模型的发展

DeepVideo: 深度学习进入视频领域，Andrej 初出茅庐（2014.06）

双流网络 : Karén 和学术重镇牛津登场（2014.06）

图像生成的序章 : GAN 来了（2014.06）

Diffusion: 在 GAN 的阴影下，悄然成长（2015.03）

DDPM: Diffusion 重回图像舞台的中央（2020.06）

ViT: 当图像遇到 Transformer（2020.10）

CLIP: 文生图的奠基石（2021.03）

Stable Diffusion，它来了（2021.12）

DiT: 人们期待一个融合的未来（2022.12）

03:56:38 最后的聊天

架构抱住了硬件的大腿

今天技术的边界到达了哪？

给“站在AI世界门外张望的人”和“已经在体系中工作多年的人”的建议

https://www.bilibili.com/video/BV1pkyqBxEdB/

参考资料快照

https://www.bilibili.com/video/BV1pkyqBxEdB/

参考资料快照