工作笔记 -- ai timeline

01:30 探索的缘起

07:25 怎么读论文?(用 AI 学 AI)

10:20 辅助小工具和路书

视频教程:

  • 吴恩达的机器学习 / AI 课程
  • 李宏毅:生成式 AI 时代下的机器学习(2025)
  • Andrej Karpathy YouTube
  • B 站:李沐论文精读系列
  • B 站:3Blue1Brown 的数学与神经网络介绍部分
  • B 站:王木头学科学
  • B 站:Zomi

书籍:

  • 《一站式 LLM 底层技术原理入门指南》
  • 《动手学深度学习(PyTorch 版)》:作者李沐本人有配套中文视频
  • 《深度学习的数学》

19:35 Part 1:模型的范式变迁

故事要从 1999 年的第一颗 GPU 开始讲起

Brook: 用 GPU 进行计算 (2004.08)

AlexNet: 深度学习的开端(2012.10)

对序列建模:seq2seq 和 Attention 的引入(2014.09)

蒸馏:模型能被学习吗?(2015.03)

ResNet: 比深更深(2015.12)

Transformer 来了!拉开一个时代的序幕(2017.06)

AlphaGo Zero: 强化学习的突破(2017.10)

现代 MoE 的开端(2017.01)

CoT: Prompt Engineering 的奠基之作(2022.01)

LoRA: 那个我们每天都在用的东西(2021.06)

ReAct: Agent 从理论到落地(2022.10)

The Bitter Lesson: 过去 70 年的教训(2018.08)

01:52:58 Part 2:Infra 与数据的变迁

ZeRO: 大规模的 GPU 并行计算(2019.10)

Scaling Law & Chinchilla: 上帝的指挥棒(2020.01 2022.03)

LAION-5B: 开源社区的英雄主义(2022.10)

The RefinedWeb: 互联网的数据也很够用(2023.06)

MegaScale: 万卡 GPU 集群的训练(2024.02)

02:21:29 Part 3:语言模型的发展

Word2Vec: 用机器学习将单词向量化(2013.01)

Google Translate: 神经网络的大规模线上部署(2016.09)

GPT-1,它来了(2018.06)

BERT: 曾经的王(2018.10)

GPT-2: 是时候告别微调了(2019.02)

GPT-3: ChatGPT 来临前夜(2020.05)

InstructGPT: 给 LLM 以文明(2022.03)

Tulu 3: 后训练的开源(2024.11)

03:08:08 Part 4:多模态模型的发展

DeepVideo: 深度学习进入视频领域,Andrej 初出茅庐(2014.06)

双流网络 : Karén 和学术重镇牛津登场(2014.06)

图像生成的序章 : GAN 来了(2014.06)

Diffusion: 在 GAN 的阴影下,悄然成长(2015.03)

DDPM: Diffusion 重回图像舞台的中央(2020.06)

ViT: 当图像遇到 Transformer(2020.10)

CLIP: 文生图的奠基石(2021.03)

Stable Diffusion,它来了(2021.12)

DiT: 人们期待一个融合的未来(2022.12)

03:56:38 最后的聊天

架构抱住了硬件的大腿

今天技术的边界到达了哪?

给“站在AI世界门外张望的人”和“已经在体系中工作多年的人”的建议

https://www.bilibili.com/video/BV1pkyqBxEdB/


参考资料快照
参考资料快照