超级推理模型正面对垒：谷歌版o1发布次日，OpenAI o1下一代o3登场_科技动态_华慧商务网

超级推理模型正面对垒：谷歌版o1发布次日，OpenAI o1下一代o3登场

佚名

2024-12-21 23:02:00

0次

圣诞节前，人工智能巨头上演了一场精彩的推理模型攻防战。谷歌和OpenAI正面对垒，谷歌刚发布自家的先进推理模型挑战OpenAI的o1，第二天，OpenAI就推出了升级版的最强推理模型o3。

美东时间12月20日周五，在为期12个工作日的线上新品发布活动最后一日，OpenAI宣布了“压轴大作”：o1的下一代模型o3，而且一开始就要推出两个版本，一个正式的o3，还有一个相对较小的精简版o3-mini。

OpenAI的CEO Sam Altman在直播中提到，OpenAI本次12日的活动第一天官宣了上线正式版o1、所谓满血o1。活动最后一天又有o3亮相，首尾都由介绍推理模型呼应，也算是一种精心设计。

逻辑上说，o1的下一代应该命名为o2，至于为什么新模型叫o3，之前媒体称，OpenAI是为了避免和名为O2的英国电信服务商冲突。Altman也确认了这点，说出于对O2的尊敬，并没有起同样的名字。

直播中，Altman称o3是“一个非常、非常聪明的模型”。OpenAi的评估结果也显示，无论在软件工程、编写代码，还是竞赛数学、掌握人类博士级别的自然科学知识能力方面，o3都明显高出o1一筹。同时测试显示，o3在OpenAI实现通用人工智能（AGI）这一奋斗目标上取得了突破，最高的测试成绩达到了类人水平。

o3软件工程测试准确率比o1高近47% 竞赛数学高15% 人类博士专家级生化物高近13%

今年9月，OpenAI 发布o1的预览版o1 preview时称，o1是第一个具备真正通用推理能力的大模型，它的核心能力推理在测试化学、物理和生物学专业知识的基准GPQA-diamond上得到了充分体现。据OpenAI评估，o1在该测试中全面超过了人类博士专家，准确率达到78.3%，而人类专家的得分为69.7%。

本周五的直播中，OpenAI展示了o3的测评表现：

根据OpenAI8月推出的SWE-bench Verified代码生成评估基准，在软件工程的能力测评中，o3的准确度得分71.7，即准确率71.7%，远超得分48.9的o1和得分41.3的o1 preview。也就是说，o3的准确率比o1正式版高将近47%，比o1预览版高将近74%。

在竞争性编程网站Codeforces的竞争性代码测评中，o3取得2727的Elo评分，o1评分1891，o1 preview评分1258。这个测评结果显示，竞争性代码方面，o3的评分比o1正式版高44%，是o1预览版的两倍多。

超级推理模型正面对垒：谷歌版o1发布次日，OpenAI o1下一代o3登场_超级推理模型正面对垒：谷歌版o1发布次日，OpenAI o1下一代o3登场_

经过2024年AIME数学竞赛的题目测试，o3的准确度得分为96.7、即准确率96.7%，o1和o1 preview分别得分83.8和56.7。从竞赛数学的角度看，o3的准确率比o1正式版高15%，比o1预览版高近71%。

以人类博士专家的测试考验，在测试化学、物理和生物学专业知识的基准GPQA-diamond上，o3的准确度得分为87.7，即准确率87.7%，o1和o1 preview分别得分78.0和78.3。o3的准确率比o1高将近13%，比o1预览版高12%。

超级推理模型正面对垒：谷歌版o1发布次日，OpenAI o1下一代o3登场_超级推理模型正面对垒：谷歌版o1发布次日，OpenAI o1下一代o3登场_

迈向类人智能取得突破 AGI相关测试最佳成绩达到人类水平

除了以上和o1对比的编码、数学、自然科学测评结果，OpenAI周五还展示了，o3的推理能力已经更加接近实现AGI。

OpenAI对o1和o3都进行了名为ARC-AGI的测试。ARC-AGI是一项旨在评估 AI 系统是否能有效在其训练数据之外获得新技能的测试，运用半私有评估集验证的测评结果。

下图可见，以100%为最高分的ARC-AGI评估结果显示，o1的得分在25%到32%，而o3的最低成绩为75.7%，最高成绩为87.5%。从这个结果看，o3的最佳成绩超过了标志着达到人类水平的门槛85%。

_超级推理模型正面对垒：谷歌版o1发布次日，OpenAI o1下一代o3登场_超级推理模型正面对垒：谷歌版o1发布次日，OpenAI o1下一代o3登场

创始ARC-AGI标准的前谷歌高级工程师、AI研究员François Chollet表示，OpenAI这些推理模型在AGI测试中取得进步是“稳健的”。

Chollet周五在社交媒体X发帖，公布了同OpenAI合作进行的ARC-AGI结果，称“我们相信这代表了让AI适应新任务的重大突破。”

Chollet解释说，在低计算模式下、即计算中每个任务 20 美元的半私人评估中，o3的得分为 75.7%，在高计算模式下、即每个任务数千美元的评估中，o3的得分为 87.5%。它不仅仅是蛮力，它是新领域的功能，需要科学领域认真关注。

超级推理模型正面对垒：谷歌版o1发布次日，OpenAI o1下一代o3登场__超级推理模型正面对垒：谷歌版o1发布次日，OpenAI o1下一代o3登场

OpenAI计划明年初发布o3 可能一段时间内都不会面向大众上线

虽然o3的测评看上去表现惊艳，但OpenAI应该不会很快面向大众上线这款新的超级推理模型。

从本周五开始，OpenAI允许安全研究人员可以注册访问o3 和 o3-mini的预览。OpenAI的一名发言人本周五称，OpenAI计划明年初正式发布这些新的o3模型。

周五的直播中，Altman暗示，o3系列可能在一段时间内都不会向普通大众推广使用。因为他说，在OpenAI正式发布新的推理模型之前，他更希望有一个联邦政府的测试框架，指导监控和减轻此类模型的风险。Altman说，

在OpenAI发布o3之前，“应该有某种联邦测试框架，说明我们最感兴趣的是监控和缓解危害，类似于这里有一组测试，在你发布它之前，你必须能够证明，这种模型在这些方面是安全的，就像你对一种新药或一架新飞机或其他什么的证明一样。”

本周四，谷歌宣布推出全新的测试模型——Gemini 2.0 Flash Thinking。它使用了类似o1模型的慢思维思考方式，可以深度可视化展示整个思维链过程，尤其是在执行数学、编程等复杂问题方面。

相比o1，Gemini 2.0 Flash Thinking的最大差别是，让用户能看到一步一步推理的过程，更清晰、更透明地了解模型如何得出结论。它刚亮相就登上了Chatbot Arena大模型评估的榜首。不过，谷歌的这一新模型还处于实验性阶段，只是一个早期版本。

模型人类谷歌推理模型框架对垒博士数学方面竞争性生物学大众上线水平思维工程师编程前谷登场代码面向能力专业知识物理方式领域功能专家成绩基准英国社交新品大作逻辑预览版新技能重大突破飞机电信媒体工作日压轴精心设计时称数据任务新药服务商发帖化学深度可视化李丹类人网站得出结论精彩科学评分研究员标准联邦政府联邦攻防战指导结果显示人工智能标志巨头级别阶段实验性准确率作者核心

上一篇：OpenAI正式发布o3 - 通往AGI的路上，已经没有了任何阻碍

下一篇：小米SU7，海外杀疯了

相关内容

印刷展会评测：四维模型解析...

在数字化转型与绿色发展的双重驱动下，印刷行业正迎来产业链重构的关键...

2025-11-25 19:54:37

今年华龙一号示范工程开工 ...

第十六届中国国际核电工业展览会正在北京举行，作为全球最具影响力的核...

2025-04-28 23:04:32

HEC 2025中国国际模...

点亮蓝字，关注沼原车站！HEC 2025中国国际模型博览会将于4月...

2025-04-17 22:51:05

2025年4月18 - 2...

全球模型行业瞩目的第23届中国国际模型博览会将于2025年4月18...

2025-04-10 09:25:25

2025年AWE展会：TC...

2025年AWE将通过场景化展示，生动呈现智能产品、智慧家庭解决方...

2025-03-28 22:06:45

2025中国家电及消费电子...

直击2025中国家电及消费电子博览会：家电新品用上AI大模型，人形...

2025-03-22 22:08:38

热门资讯

3000+人次到场，大量行业首... 3000+人次到场，大量行业首发内容，2024甲子引力年终盛典成功举办丨甲子引力,机器人,人工智能,...

用OLED怕烧屏，华为新专利“... 新款 iPad Pro 克服了此前传统 OLED 屏幕的亮度问题，在平板电脑的尺寸下做到了 1000...

华米 Ov 们把手机电池搞得大... 话说，今年的国产旗舰手机，有一个特质很突出 —— 电池容量大。除了少数几款标准版机型，大多新机的电池...

雷蛇推出USB 4拓展坞：10... 这款拓展坞采用铝合金外壳，似乎不支持RGB灯效。

英国首相为“AI 校园”揭幕：... IT之家 11 月 28 日消息，据路透社报道，当地时间 27 日，英国首相基尔・斯塔默（Keir ...

生成式人工智能安全大赛完美收官... 生成式人工智能安全大赛完美收官院士专家共谈AI安全与治理

一文看懂索尼、三星、豪威的各种... 1，三大厂家名词统一首先，“双原生ISO”这个词最先在手机端出现，还得追溯至绿厂 Find X2 P...

刚刚，OpenAI首个智能体提... 刚刚，OpenAI首个智能体提前曝光！高级编码AI剑指400万年薪L6级工程师,编程,工程师,智能体...

靠七天无理由退货赚了200万？... 漏洞不是随便钻的。

对标DeepSeek的深度思考... 对标DeepSeek的深度思考模式？OpenAI推出新功能Deep research,大模型,dee...