• 恋曲1980

      等级 17
      楼主
    • 已编辑

    目前体验来说,感觉这DeepSeek在日常任务和数理问题的深度推理上都很强啊。
    之前用GPT4o,感觉我是老板,给下属布置任务。用DeepSeek,感觉我是傻逼,他是智商250的天才给我讲常识┭┮﹏┭┮
    DeepSeek真的是一个大突破吗?

      • kcaj-

          等级 14

        在读了在读了,这里立个flag,读完在茶馆写个博客记录一下🧐🧐🧐

          • GRR

              等级 4

            从V2就开始用了,24年六月份长文本就可以薄纱4o了,V3和R1也确实让人眼前一亮,便宜好用

            • Weyl

              等级 101

            恋曲1980 我也有这种感觉,就是Deepseek总是默认用户啥也不懂,但是GPT就比较捧着用户一点。应该是Deepseek-r1 RLHF做的没有GPT多导致的,毕竟在这轮爆火之前用户反馈数据积累的肯定没有openai多。

            • Weyl

              等级 101
            • 已编辑

            读了论文感觉字里行间透露出一句话就是RL is all you need。

            大致总结一下,主要的工作是从基座模型DeepSeek-V3训练推理模型(也就是要求模型在推理基线测试上取得好结果)。推理还是基于CoT,毕竟必须得用上下文空间/推理时间来解决更高复杂度的问题。

            主要训练了俩大模型R1-zero和R1,然后用R1蒸馏了几个通义千问和Llama的小模型。

            R1-Zero

            R1-zero主要贡献基本就是证明要提高模型推理能力,只需要RL就够了。具体训练方式就是rule-based reward+GRPO,但我在一篇知乎文章上看到更常用的PPO以及Prime也是可以复现一定结果的。基本上就是大模型后训练常见的策略梯度法都可以work。

            细节如下:
            Prompt提供CoT模版,要求模型将思考过程放到 <think> </think>标签里,回答放到<answer> </answer>标签里。Rule-based reward基于两点:1. answer里的答案是否正确,2. 回答是否符合模版规定的格式要求。没有基于过程的奖励,也不基于SFT,无需CoT数据。

            仅通过RL训练,R1-zero就取得了几乎相当于o1的推理能力。并且在这个过程中自然涌现出类似反思、检查的行为。

            但是R1-zero的思考过程缺乏可读性,并且会混杂多种语言,为了解决这些问题并且进一步提高推理能力训练了R1。

            R1

            R1基于四个阶段训练:

            1. 冷启动:用精心挑选的CoT数据进行SFT,提高了思考的可读性,以及(文章声称)利用人类数据的先验知识增加推理潜力。
            2. 用和R1-zero一样的方法进行RL训练
            3. 再次SFT,但这次用模型自己产生的CoT数据,结合正确结果让非推理模型V3打分,拒绝低分的样本(拒绝采样),并且筛去了包含语言混合,长段落,代码块等难懂的数据。最终筛选得到60万条推理数据。对于非推理数据,复用了V3 SFT的管线和数据集,20万条,对于其中的简单问题,不使用CoT prompt。
            4. 再次RL,但在综合场景上。除了推理任务,新增了一些通用任务,对齐人类偏好,增加一些模型安全性。类似于RLHF、安全性对齐。

            这样得到的R1解决了R1-zero的缺乏可读性的问题,并在一些推理基线测试上超过o1。

            蒸馏模型

            接下来文章证明了推理模型可以蒸馏到小模型上。蒸馏的方法就是R1作为教师模型生成数据,只通过SFT蒸馏到小模型上。比较搞笑的结果是,R1蒸馏到通义千问Qwen-14B上的模型效果比阿里自己在Qwen-32B上练的推理模型效果还好。

            然后证明了,直接在Qwen-32B上按和R1相同方法进行RL训练,无法达到R1蒸馏到Qwen-32B的推理能力。说明推理能力可能必须通过大模型得到,再蒸馏到小模型上。(V3参数量为671B)

            最后提到尝试过但是失败的方向,一个是过程奖励模型,也就是利用人工标注的带有过程奖励的数据(比如解题按中间步骤给奖励)进行RL学习,分析原因主要还是因为过程奖励实际上存在太多人为引入的bias导致不可scalling/可能被滥用;另一个是MCTS,蒙特卡洛树搜索,失败的原因是搜索空间太大而且深度太深,计算开销大(计算LLM的状态转移比计算棋盘的状态转移成本高多了),限制扩展次数又会导致值函数估计错误陷入局部最优。(个人理解是在大模型RL微调上最好不要用过度依赖值迭代收敛性的方法,直接估计优势+策略梯度就好了)

            为没有背景的同学解释一下英文缩写:
            RL: Reinforcement Learning, 强化学习。基本上就是基于数据更新agent(智能体),使其策略(即根据当前状态/历史轨迹产生当前动作/动作分布的函数)最优化(最大化reward回报/最小化Cost代价)的一类学习方法。在大模型微调语境下,一般来说agent就是LLM,动作就是输出某个token,策略就是LLM给出的token的概率分布,当然也有单独训一个agent或者残差的。

            CoT: Chain of Thought, 思维链。通过微调让大模型输出带有思考过程的文本,即思维链。因为LLM推理时能看到之前输出的结果,所以可以理解为CoT给LLM提供了草稿纸/推理时记忆/缓存来记录中间结果,也让LLM运行了更长时间,从而可以让LLM解决更复杂的问题。一般用CoT来实现大模型推理能力。

            SFT: Supervised Fine Tuning, 监督微调。用人工产生/筛选的高质量数据让大模型训练,用交叉熵损失反向传播更新模型参数。本质上和pretrain过程一致,只是强调让模型在特定数据集上拟合,而且是在后训练环节,所以叫有监督的微调。

            RLHF: RL with Human Feedback, 基于人类反馈的强化学习。有时chatGPT会问你两个生成结果(在RL意义下是trajectories或者rollouts)哪个更好,这就是获取人类反馈。根据人类反馈/或者说任何偏好,有一套RL方法,用这个来微调大模型的方法就是RLHF。

            GRPO: 组相对策略优化。不用值迭代,直接分组排序得到一个启发式的优势然后用来做策略梯度。

            Rule-based Reward: 基于规则的奖励。个人理解是相对于过程奖励/人工标注的奖励/人类偏好奖励而言的,毕竟是完全基于规则算出来的奖励。

            • Weyl

              等级 101
            • 已编辑

            个人对R1的看法:

            1. 工作本身有启发性,也和我之前的思考方向(LLM训练过程(不论是预训练还是后训练)使用的Loss其实即为低效,低层次信息对Loss的影响很大,RL其实是一种强迫模型关注重要位置的有效手段。)一致,证明了即便只使用RL微调也是有效的。
            2. 试用感受是,在很多场景下都比chatGPT好用。尤其是联网搜索能力,R1综合的网页数量和总结精准程度都远超4o。推理速度比o1快,思维链也非常有可解释性。实际上我平时基本不用o1,因为一般问题4o可以解决,真正复杂的问题(其实也不用特别复杂,比如随便一门研究生数学课的作业),o1反思几分钟也做不出来,做出来也是错的。所以我更关心推理模型在普通难度问题以及搜集资料/分析文档方面的能力,这方面可以说R1体验比4o强太多。(除了R1目前不太稳定,以及完全免费有使用限制以外。不过完全可以买api搭个前端解决。)
            3. 感觉DeepSeek真的要卷掉不少人的饭碗,轻轻戳了一下这一轮吹的巨大的AI泡泡,狠狠给了天天boasting的Altaman一拳,是好事。但是一想到自己身处这个领域,也不知道是好是坏(bushi 总的来说肯定是好事
            4. 开源了,是好文明

            冷静下来看,目前而言,AI这个领域是没有真正的不可逾越的(需要耗费五年甚至十年之久的)技术门槛的,任何所谓“技术”,即便像openAI一样保密,大家也很快能follow上,说到底只是用代码就能复现的“技术”或者idea而已;软件领域的idea所创造的门槛是脆弱的,一个有了好idea并且有行动力的初创公司(中国这种高度内卷+基础设施健全的环境下太容易产生了)就可以凭借更轻盈的身法逆袭大公司。而当一个成功的初创企业有了很多资金,也势必会像大公司一样,为了保住自己的领先地位而花钱雇研究员探索更多新的方向(或者说尽可能cover所有被认为可能是下一个创新点的方向),从而在一定程度上损失效率。也许有朝一日,获得一堆投资日渐庞大的DeepSeek,又会被另一个xxSeek横空逆袭;也许DeepSeek会不断发现(有效的)新技术,持续领先下去。(我希望至少是因为DeepSeek聚集/垄断了更多人才,而不是因为它垄断了计算基础设施)

            如果不考虑组织学上的差异,这个领域目前还完全处于“某个随机产生的很棒的想法就可能会颠覆业界格局”的阶段,不论这个想法来自于大公司还是一个初创企业。openAI过去几年取得的短暂的垄断地位只是人才聚集+强运:openAI有Ilya,openAI恰好坚持了它所探索出的GPT的路线,然后成功了;而发明Transformer的Google造出了Bert,也很成功,但终究是失败了。所以Altman这么急着把影响力兑现成money,大张旗鼓搞基础设施,通过进入硬件这个行驶缓慢且高成本的行业来获得稳固的领先地位,以期换取未来长久的垄断——他知道自己不boasting的话,openAI很快就要被超越了,sora的失败已经敲了一次钟了。但现在看来,Altman的愿望可能真的要落空了。(Altman吹了过大的泡泡,其他大公司Google、Meta、Nvidia还有华尔街跟着一起装糊涂、boasting、吃肉喝汤,还是早点戳破/泻点气比较好)

            抛开AI基于软件行业提供的健全基础设施带来的敏捷性不谈,这些年的AI行业就是这个世界技术发展的缩影:创新(将在未来被证明是伟大的创新)总是随机的,你无法预测,也不能把它攥在手心,不论你多么强大,也不论你过去的气运是多么的好。只有衰亡的或者被实质垄断的行业,才永远平静如水。

              5 天 后
              • 橙七

                  等级 65

                Weyl 但如果deepseek确实是用gpt数据蒸馏出来的,是不是会影响泛化能力?个体用户很难测试出其能力上限,不太好判断这一点。

                  • Aalex

                      等级 86

                    It does not have a virtual human to speak the answer, in that aspect, I think doubao is better

                      说点什么吧...