有没有AI大手子评价一下DeepSeek

chris-Li

目前体验来说，感觉这DeepSeek在日常任务和数理问题的深度推理上都很强啊。
之前用GPT4o，感觉我是老板，给下属布置任务。用DeepSeek,感觉我是傻逼，他是智商250的天才给我讲常识┭┮﹏┭┮
DeepSeek真的是一个大突破吗？

Weyl

恋曲1980 我也有这种感觉，就是Deepseek总是默认用户啥也不懂，但是GPT就比较捧着用户一点。应该是Deepseek-r1 RLHF做的没有GPT多导致的，毕竟在这轮爆火之前用户反馈数据积累的肯定没有openai多。

kcaj-

在读了在读了，这里立个flag，读完在茶馆写个博客记录一下🧐🧐🧐

GRR

从V2就开始用了，24年六月份长文本就可以薄纱4o了，V3和R1也确实让人眼前一亮，便宜好用

Weyl

读了论文感觉字里行间透露出一句话就是RL is all you need。

大致总结一下，主要的工作是从基座模型DeepSeek-V3训练推理模型（也就是要求模型在推理基线测试上取得好结果）。推理还是基于CoT，毕竟必须得用上下文空间/推理时间来解决更高复杂度的问题。

主要训练了俩大模型R1-zero和R1，然后用R1蒸馏了几个通义千问和Llama的小模型。

R1-Zero

R1-zero主要贡献基本就是证明要提高模型推理能力，只需要RL就够了。具体训练方式就是rule-based reward+GRPO，但我在一篇知乎文章上看到更常用的PPO以及Prime也是可以复现一定结果的。基本上就是大模型后训练常见的策略梯度法都可以work。

细节如下：
Prompt提供CoT模版，要求模型将思考过程放到 <think> </think>标签里，回答放到<answer> </answer>标签里。Rule-based reward基于两点：1. answer里的答案是否正确，2. 回答是否符合模版规定的格式要求。没有基于过程的奖励，也不基于SFT，无需CoT数据。

仅通过RL训练，R1-zero就取得了几乎相当于o1的推理能力。并且在这个过程中自然涌现出类似反思、检查的行为。

但是R1-zero的思考过程缺乏可读性，并且会混杂多种语言，为了解决这些问题并且进一步提高推理能力训练了R1。

R1

R1基于四个阶段训练：

冷启动：用精心挑选的CoT数据进行SFT，提高了思考的可读性，以及（文章声称）利用人类数据的先验知识增加推理潜力。
用和R1-zero一样的方法进行RL训练
再次SFT，但这次用模型自己产生的CoT数据，结合正确结果让非推理模型V3打分，拒绝低分的样本（拒绝采样），并且筛去了包含语言混合，长段落，代码块等难懂的数据。最终筛选得到60万条推理数据。对于非推理数据，复用了V3 SFT的管线和数据集，20万条，对于其中的简单问题，不使用CoT prompt。
再次RL，但在综合场景上。除了推理任务，新增了一些通用任务，对齐人类偏好，增加一些模型安全性。类似于RLHF、安全性对齐。

这样得到的R1解决了R1-zero的缺乏可读性的问题，并在一些推理基线测试上超过o1。

蒸馏模型

接下来文章证明了推理模型可以蒸馏到小模型上。蒸馏的方法就是R1作为教师模型生成数据，只通过SFT蒸馏到小模型上。比较搞笑的结果是，R1蒸馏到通义千问Qwen-14B上的模型效果比阿里自己在Qwen-32B上练的推理模型效果还好。

然后证明了，直接在Qwen-32B上按和R1相同方法进行RL训练，无法达到R1蒸馏到Qwen-32B的推理能力。说明推理能力可能必须通过大模型得到，再蒸馏到小模型上。（V3参数量为671B）

最后提到尝试过但是失败的方向，一个是过程奖励模型，也就是利用人工标注的带有过程奖励的数据（比如解题按中间步骤给奖励）进行RL学习，分析原因主要还是因为过程奖励实际上存在太多人为引入的bias导致不可scalling/可能被滥用；另一个是MCTS，蒙特卡洛树搜索，失败的原因是搜索空间太大而且深度太深，计算开销大（计算LLM的状态转移比计算棋盘的状态转移成本高多了），限制扩展次数又会导致值函数估计错误陷入局部最优。（个人理解是在大模型RL微调上最好不要用过度依赖值迭代收敛性的方法，直接估计优势+策略梯度就好了）

为没有背景的同学解释一下英文缩写：
RL: Reinforcement Learning, 强化学习。基本上就是基于数据更新agent（智能体），使其策略（即根据当前状态/历史轨迹产生当前动作/动作分布的函数）最优化（最大化reward回报/最小化Cost代价）的一类学习方法。在大模型微调语境下，一般来说agent就是LLM，动作就是输出某个token，策略就是LLM给出的token的概率分布，当然也有单独训一个agent或者残差的。

CoT: Chain of Thought, 思维链。通过微调让大模型输出带有思考过程的文本，即思维链。因为LLM推理时能看到之前输出的结果，所以可以理解为CoT给LLM提供了草稿纸/推理时记忆/缓存来记录中间结果，也让LLM运行了更长时间，从而可以让LLM解决更复杂的问题。一般用CoT来实现大模型推理能力。

SFT: Supervised Fine Tuning, 监督微调。用人工产生/筛选的高质量数据让大模型训练，用交叉熵损失反向传播更新模型参数。本质上和pretrain过程一致，只是强调让模型在特定数据集上拟合，而且是在后训练环节，所以叫有监督的微调。

RLHF: RL with Human Feedback, 基于人类反馈的强化学习。有时chatGPT会问你两个生成结果（在RL意义下是trajectories或者rollouts）哪个更好，这就是获取人类反馈。根据人类反馈/或者说任何偏好，有一套RL方法，用这个来微调大模型的方法就是RLHF。

GRPO: 组相对策略优化。不用值迭代，直接分组排序得到一个启发式的优势然后用来做策略梯度。

Rule-based Reward: 基于规则的奖励。个人理解是相对于过程奖励/人工标注的奖励/人类偏好奖励而言的，毕竟是完全基于规则算出来的奖励。

Weyl

个人对R1的看法：

工作本身有启发性，也和我之前的思考方向（LLM训练过程（不论是预训练还是后训练）使用的Loss其实即为低效，低层次信息对Loss的影响很大，RL其实是一种强迫模型关注重要位置的有效手段。）一致，证明了即便只使用RL微调也是有效的。
试用感受是，在很多场景下都比chatGPT好用。尤其是联网搜索能力，R1综合的网页数量和总结精准程度都远超4o。推理速度比o1快，思维链也非常有可解释性。实际上我平时基本不用o1，因为一般问题4o可以解决，真正复杂的问题（其实也不用特别复杂，比如随便一门研究生数学课的作业），o1反思几分钟也做不出来，做出来也是错的。所以我更关心推理模型在普通难度问题以及搜集资料/分析文档方面的能力，这方面可以说R1体验比4o强太多。（除了R1目前不太稳定，以及完全免费有使用限制以外。不过完全可以买api搭个前端解决。）
感觉DeepSeek真的要卷掉不少人的饭碗，轻轻戳了一下这一轮吹的巨大的AI泡泡，狠狠给了天天boasting的Altaman一拳，是好事。但是一想到自己身处这个领域，也不知道是好是坏（bushi 总的来说肯定是好事
开源了，是好文明

冷静下来看，目前而言，AI这个领域是没有真正的不可逾越的（需要耗费五年甚至十年之久的）技术门槛的，任何所谓“技术”，即便像openAI一样保密，大家也很快能follow上，说到底只是用代码就能复现的“技术”或者idea而已；软件领域的idea所创造的门槛是脆弱的，一个有了好idea并且有行动力的初创公司（中国这种高度内卷+基础设施健全的环境下太容易产生了）就可以凭借更轻盈的身法逆袭大公司。而当一个成功的初创企业有了很多资金，也势必会像大公司一样，为了保住自己的领先地位而花钱雇研究员探索更多新的方向（或者说尽可能cover所有被认为可能是下一个创新点的方向），从而在一定程度上损失效率。也许有朝一日，获得一堆投资日渐庞大的DeepSeek，又会被另一个xxSeek横空逆袭；也许DeepSeek会不断发现（有效的）新技术，持续领先下去。（我希望至少是因为DeepSeek聚集/垄断了更多人才，而不是因为它垄断了计算基础设施）

如果不考虑组织学上的差异，这个领域目前还完全处于“某个随机产生的很棒的想法就可能会颠覆业界格局”的阶段，不论这个想法来自于大公司还是一个初创企业。openAI过去几年取得的短暂的垄断地位只是人才聚集+强运：openAI有Ilya，openAI恰好坚持了它所探索出的GPT的路线，然后成功了；而发明Transformer的Google造出了Bert，也很成功，但终究是失败了。所以Altman这么急着把影响力兑现成money，大张旗鼓搞基础设施，通过进入硬件这个行驶缓慢且高成本的行业来获得稳固的领先地位，以期换取未来长久的垄断——他知道自己不boasting的话，openAI很快就要被超越了，sora的失败已经敲了一次钟了。但现在看来，Altman的愿望可能真的要落空了。（Altman吹了过大的泡泡，其他大公司Google、Meta、Nvidia还有华尔街跟着一起装糊涂、boasting、吃肉喝汤，还是早点戳破/泻点气比较好）

抛开AI基于软件行业提供的健全基础设施带来的敏捷性不谈，这些年的AI行业就是这个世界技术发展的缩影：创新（将在未来被证明是伟大的创新）总是随机的，你无法预测，也不能把它攥在手心，不论你多么强大，也不论你过去的气运是多么的好。只有衰亡的或者被实质垄断的行业，才永远平静如水。

MD_SPer

Weyl 但如果deepseek确实是用gpt数据蒸馏出来的，是不是会影响泛化能力？个体用户很难测试出其能力上限，不太好判断这一点。

alexzeng

It does not have a virtual human to speak the answer, in that aspect, I think doubao is better