大型语言模型简史:从 Transformers (2017) 到 DeepSeek-R1(2025) AI 发展太快了,以至于我们称:几个月前的技术为古代,2022 年 ChatGPT 诞生前是上古时代,BERT 之前是史前时代,Transformer 之前则是旧石器时代。 系统化知识传授(监督学习),实践探索(强化学习),监督学习只能从冗余的信息里面学习到知识,强化学习才是人工智能的未来。
GRPO 人工智能的每次发展,基本原理感觉都很简单,那些完成严格数学表达,完整代码实现的人,应该都是天才。 在尝试了大量可能后,找到了那条最优美的路。简洁的像诗歌,璀璨如星辰。 每当深夜阅读这些文章,总会令人惊叹与震撼,感受那纯粹的美妙。高雅又优雅! 不管什么奇奇怪怪的模型结构,不管多少维度的 Tensor 都能算梯度,并完成正向反向传播。 这些极度聪明的人推动了人工智能的发展。而我,不够聪明,无法参与其中。
Amount of Information for an event:
for a probability distribution:
KL 散度(也叫相对熵)公式:
\[D_{K L}(p \| q)=\sum_{i=1}^n p\left(x_i\right) \log \left(\frac{p\left(x_i\right)}{q\left(x_i\right)}\right)\]交叉熵 交叉熵主要应用:主要用于度量同一个随机变量 $X$ 的预测分布 $Q$ 与真实分布 $P$ 之间的差距。 差距可理解为:距离、误差、失望值、困难程度、混乱程度、一辆车、一套房。
\[\begin{aligned} & H(P, Q)=-\sum_{i=1}^n p\left(x_i\right) \log q\left(x_i\right) \\ & H(P, Q)=\sum_x p(x) \cdot \log \left(\frac{1}{q(x)}\right) \end{aligned}\]CrossEntropyLoss
\[\operatorname{loss}(x, \operatorname{class})=-\log \left(\frac{\exp (x[\operatorname{class}])}{\sum_j \exp (x[j])}\right)=-x[\operatorname{class}]+\log \left(\sum_j \exp (x[j])\right)\]程序算交叉熵:
entroy = nn.CrossEntropyLoss()
input = torch.Tensor([[-0.7715, -0.6205, -0.2562]])
target = torch.tensor([0])
output = entroy(input, target) # 打印输出:1.3447
为什么在很多的网络模型中,使用交叉熵做损失函数而不使用 KL 散度做损失函数呢?
DeepSeek-R1 GRPO 算法揭秘 https://www.bilibili.com/video/BV15zNyeXEVP/
https://blog.csdn.net/v_JULY_v/article/details/136656918
https://space.bilibili.com/288748846
https://huggingface.co/docs/trl/main/en/grpo_trainer
DeepSeek-R1 GRPO 原理 .pptx
单卡 20G 显存,复现 DeepSeek R1 顿悟时刻
https://www.bilibili.com/video/BV1XYRJYWE6A
Markov Chains: n-step Transition Matrix | Part - 3
回收这块,SpaceX 也就一乐,真回收还得是转转。
低代码编程全军覆没。 低代码的本意是想让不懂编程的人,像搭乐高积木那样建造自己的屋子。但现实中的楼房需要完备的设计图纸和专业的施工人员,只靠积木是搭不了几层的。实践证明,代码就是人机逻辑交互最好的语言。 这个世界是为人类设计的,所以人形机器人才是现阶段的最优解;电脑也是为人类设计的,像人一样使用电脑,才是现阶段 AI 的最优解。
端到端是大势所趋。 早期的自动驾驶采用流水线式的 workflow(pipeline)架构,后来逐步演变为端到端。如今,Agent 也面临类似的问题,并将经历相同的演进,实现端到端的降维打击。人类预设的 workflow 对于模型而言,更像是一种束缚,只有让其自由发挥,才能展现更强大的能力。 模型即应用,这一趋势愈发明显。 监督学习和半监督学习都受到人类知识的约束,只有强化学习才是未来,AI 自己去找规律。