李飞飞团队50美元训练出DeepSeek R1?
佚名
2025-02-07 22:00:54
0

今天下午简直被这条新闻刷屏了,“震惊”“李飞飞”“50美元”“Deep Seek R1”,这几个词连到一起,简直是掀了 OpenAI 和英伟达的桌子,即便是蒸馏出来的模型,那这么低的成本,OpenAI 花了几十、几百亿美元做出来的模型,被轻松复制,那 OpenAI 的估值不得打个骨折?

_团队拓展黑洞训练心得体会_加州大学洛杉矶分校李飞飞

我就赶紧看了下论文:

团队拓展黑洞训练心得体会_加州大学洛杉矶分校李飞飞_

Github:

结果发现并不是那么回事。

首先这个 50 美元咋来的?因为论文中提到用了 16 块 H100 GPU,而且只花了 26min,如果是租服务器的话,确实也就是几十美元。

_团队拓展黑洞训练心得体会_加州大学洛杉矶分校李飞飞

但问题是,论文中并不是训练出了 DeepSeek R1!

论文的核心内容是基于开源的 Qwen2.5 - 32B 模型,该模型是蒸馏出来的模型,32B 只能算是中等参数模型,作为本次实验对比的 R1 和 o1 都是大几千亿参数的模型。用小数据集进行监督微调,而且微调后的参数数量跟之前基本保持一致,然后在特定任务上把性能优化了,而这些任务的性能表现可以媲美 DeepSeek R1 和 OpenAI o1。

怎么经过中文博主翻译过来后,就成了 50 美元蒸馏出了 DeepSeek R1?

以下是论文解读(使用豆包解读):

研究背景与目标:语言模型性能提升多依赖训练时计算资源扩展,测试时缩放是新范式,OpenAI 的 o1 模型展示了其潜力,但方法未公开。本文旨在探寻实现测试时缩放和强推理性能的最简方法。

s1K 数据集构建

初始数据收集:依据质量、难度和多样性原则,从 16 个来源收集 59029 个问题,涵盖现有数据集整理和新的定量推理数据集创建,用 Google Gemini Flash Thinking API 生成推理轨迹和解决方案,并进行去重和去污染处理。

最终样本选择:经质量、难度和多样性三步筛选得到 1000 个样本的 s1K 数据集。质量筛选去除 API 错误和低质量样本;难度筛选依据两个模型的性能和推理轨迹长度排除过易问题;多样性筛选按数学学科分类,从不同领域采样,且倾向选择推理轨迹长的样本。

测试时缩放方法

方法分类与提出:将测试时缩放方法分为顺序和并行两类,重点研究顺序缩放。提出预算强制(Budget forcing)方法,通过强制设定思考令牌的最大或最小数量,控制模型思考时间,引导模型检查答案、修正推理步骤。

基准对比:将预算强制与条件长度控制方法(令牌条件控制、步骤条件控制、类别条件控制)和拒绝采样进行对比。使用控制(Control)、缩放(Scaling)和性能(Performance)三个指标评估,结果表明预算强制在控制、缩放和最终性能上表现最佳。

实验结果

实验设置:用 s1K 对 Qwen2.5-32B-Instruct 进行监督微调得到 s1-32B 模型,在 AIME24、MATH500 和 GPQA Diamond 三个推理基准上评估,并与 OpenAI o1 系列、DeepSeek r1 系列等模型对比。

性能表现:s1-32B 在测试时缩放中,性能随测试时计算资源增加而提升,在 AIME24 上超过 o1-preview 达 27%,且是最具样本效率的开源数据推理模型,接近 Gemini 2.0 在 AIME24 上的性能,验证了蒸馏过程的有效性。

消融实验

数据相关:测试数据质量、多样性和难度组合的重要性。随机选择(仅质量)、仅多样性选择、仅难度选择(选最长推理轨迹样本)的数据集性能均不如 s1K,训练 59K 全量样本虽性能强但资源消耗大,证明 s1K 构建方法的有效性。

测试时缩放方法:预算强制在 AIME24 测试中控制完美、缩放良好、得分最高,“Wait”作为扩展性能的字符串效果最佳。令牌条件控制在无预算强制时失败,步骤条件控制下模型可绕过计算约束,类别条件控制虽能提升性能但综合表现不如预算强制,拒绝采样呈现反向缩放趋势。

讨论与展望

样本高效推理:众多研究致力于复制 o1 性能,本文通过 1000 样本监督微调结合预算强制,构建出有竞争力的模型,推测预训练使模型具备推理能力,微调激活该能力。同时,介绍了相关基准和方法的发展情况。

测试时缩放:对比了并行和顺序测试时缩放方法,分析了预算强制的局限性,提出改进方向,如改进预算强制策略或结合强化学习探索新的测试时缩放方式 ,并指出并行缩放可作为突破顺序缩放限制的解决方案。

国内的网络环境真的是太浮躁了,这种信息,完全不确认一下就发出来误导大众,希望大家以后看到这种信息要多思考一下。

相关内容

展会虚拟与实体展厅结合方案...
摘要:随着会展行业数字化转型的深入,“展会虚拟展厅”与“实体展厅结...
2025-12-18 19:07:49
广州展台搭建哪家快?模块化...
2025展会展台设计搭建服务商优选指南:四大品牌深度解析据《202...
2025-12-04 23:17:37
还在靠经验规划展会?智会智...
还在靠经验规划展会?还在人工筛选潜在客户?别让“拍脑袋”决策拖慢你...
2025-11-17 19:42:26
游戏线下活动爆发!Chin...
今年,游戏主题线下活动的数量与规模显著提升,释放出广泛的经济与社会...
2025-11-12 23:10:59
展会行业传统模式遇瓶颈,智...
在当今快速发展的展会行业中,传统的管理模式已难以满足日益增长的专业...
2025-10-29 23:13:54
9月8日海关总署发布外贸数...
9月8日海关总署发布了最新的外贸数据。此外,近期一系列的投资、贸易...
2025-10-07 23:15:40

热门资讯

3000+人次到场,大量行业首... 3000+人次到场,大量行业首发内容,2024甲子引力年终盛典成功举办丨甲子引力,机器人,人工智能,...
用OLED怕烧屏,华为新专利“... 新款 iPad Pro 克服了此前传统 OLED 屏幕的亮度问题,在平板电脑的尺寸下做到了 1000...
华米 Ov 们把手机电池搞得大... 话说,今年的国产旗舰手机,有一个特质很突出 —— 电池容量大。除了少数几款标准版机型,大多新机的电池...
雷蛇推出USB 4拓展坞:10... 这款拓展坞采用铝合金外壳,似乎不支持RGB灯效。
英国首相为“AI 校园”揭幕:... IT之家 11 月 28 日消息,据路透社报道,当地时间 27 日,英国首相基尔・斯塔默(Keir ...
生成式人工智能安全大赛完美收官... 生成式人工智能安全大赛完美收官 院士专家共谈AI安全与治理
一文看懂索尼、三星、豪威的各种... 1,三大厂家名词统一首先,“双原生ISO”这个词最先在手机端出现,还得追溯至绿厂 Find X2 P...
刚刚,OpenAI首个智能体提... 刚刚,OpenAI首个智能体提前曝光!高级编码AI剑指400万年薪L6级工程师,编程,工程师,智能体...
靠七天无理由退货赚了200万?... 漏洞不是随便钻的。
对标DeepSeek的深度思考... 对标DeepSeek的深度思考模式?OpenAI推出新功能Deep research,大模型,dee...