看了今天OpenAI的新品发布直播,我感觉被奥特曼耍了
佚名
2024-12-06 09:02:32
0

大家好,这里是知危编辑部,看完刚刚结束的 OpenAI 新品发布直播,我们的心里产生了巨大的疑惑:

就这?就这?就这???

昨天,OpenAI 的 CEO 奥特曼高调宣布了 OpenAI 将会从今天开始开启一个为期 12 天的开放日活动,宣称接下来每个工作日都会有一次直播,内容会包括新品发布或演示、一些大型活动和一些 “ 圣诞礼物 ”。

自打 9 月份发布了 o1 模型之后,OpenAI 憋了快一个季度没有新的大动作了,本来以为是要 “ 连开七天春晚 ” 的节奏,编辑部已经做好 “ 连续熬夜 12 天挑战 ”的准备。

结果,刚刚结束的本轮活动第一场直播,15 分钟就草草收场了,可以说是OpenAI 过往直播发布会里最无聊的一集,有一种被奥特曼耍了的感觉。。。

这就是 12 天超长活动的强度吗?也太低了吧???

好了,发完牢骚,还是跟大家介绍一下这场发布会的内容,虽然短,但也还是有一定有效信息。

首先,o1 完全体模型正式版上线,同时还推出了一个o1 Pro 模型并且相应推出了ChatGPT Pro 订阅以及高级语音功能,相较于之前Plus订阅 20 美元每月的价格,Pro 订阅高达 200 美元每月,不过可以不限次使用 o1 Pro 模型和高级语音功能,也算是量大管饱了。

而在模型效果上,官方纸面数据其实并没有特别大的飞跃性提升。。。

为什么这么说呢,因为根据官方给出的跑分数据,o1 正式版模型的能力仅在数学和编程方面有较大的提升,但在博士级别问题的提升上非常小,新推出的 o1 Pro 版本也仅在各方面比 o1 正式版模型提高了一点点。

奥特曼直播间_奥特曼游戏直播视频_

要知道,o1 模型发布时主打的就是能在博士级别的回答中有出色表现,结果正式版和 Pro 版在这方面相比预览版基本没有什么提升,也是有些让人期望落空的。

知危编辑部之前找过清华、北大、南京大学的三个博士测试评价过o1 预览版模型,三位博士表示 o1 确实在思维和知识储备上达到了博士的水准,但无法对课题进行探索和提供更深的研究思路,所以并没有真正达到 “ 做学术 ” 的水平。

现在是半夜我们没办法联系之前的博士进行测试,不过从官方公布的仅仅 5 分的提高上来看,估计效果体感应该不会有什么较大区别,数据是骗不了人的。

不过,虽然模型的回答能力提升不多,但是模型的体验还是提升很大的,o1 正式版模型的重大错误犯错率比 o1 预览模板少了约 34%,同时回答速度提高了约 50% 。

直播现场对比提问了 “列出二世纪的罗马皇帝,包括他们的时期和成就” 这个问题,o1 正式版给出回答用时仅有 14 秒,比 o1 预览版的 33 秒快了近 20 秒,体感差距还是很大的。

_奥特曼游戏直播视频_奥特曼直播间

而在回答的可靠性上,为了更明显的对比,OpenAI 采用了 “ 4/4 可靠性 ” 测试,具体来讲就是:仅当模型在四次问答中四次都能够正确回答问题,才被认为是解决了该问题。

在“ 4/4 可靠性”测试的评分上来看,o1 正式版在各个领域都比预览版有显著的可靠性提高,同时 Pro 版比正式版也有较大提高。

奥特曼直播间__奥特曼游戏直播视频

除了体验上的提升,还有交互上的提升,o1 正式版模型现在支持多模态输入了,你可以通过图+文字的形式向模型进行提问。

在直播现场,OpenAI团队画了一张 “ 太空数据中心 ” 草图,并让o1 模型回答图中设施给 GPU 散热的散热器面积理论上应该需要多大,并且回答是时要考虑到 “如何处理太阳和深空的影响?” 以及 “热力学第一定律在其中如何发挥作用?” 这两个问题。

测试草图

测试草图

o1 仅用 10 秒就回答了这个问题,他非常聪明的捕捉到了图中的 1GW 的输入功率元素,这是一个关键信息,同时指出了系统只能通过热辐射散热。

与此同时,工作人员在提问时故意规避了一个信息,那就是整个系统的正常工作温度应该是多少,但 o1 模型自己聪明的定义了系统应该在 300K 也就是 27 摄氏度的环境下工作,进而开始估算散热板所需要的面积。

_奥特曼游戏直播视频_奥特曼直播间

图中回答的大致翻译:所需的散热器面积对散热器的平衡温度高度敏感。较低的散热器温度意味着每单位面积的辐射量减少,因此需要更大的面积。而较高的散热器温度则可以减少所需面积,但可能增加工程复杂性(因为需要使用能够承受更高温度且仍保持高辐射率的材料)。

为了说明问题,我们选择一个相对适中的散热器温度,例如 T = 300 K(约27°C),这是电子设备或冷却循环系统温度的一个合理上限。这将为我们提供一个基准值。在计算面积下限时,我们假设没有寄生热负荷,并且系统处于理想条件。

(注:如果允许系统运行在更高温度,所需面积会减少。我们将在 300 K 下进行一个示例计算,并说明温度变化如何影响面积需求。)

整体来说,这次发布的东西虽然没有大家期望中的那么好,大家期望的 Sora 正式版、GPT-5、AI 搜索浏览器等产品都没有出现,但好在正式版 o1 和 o1 Pro 也勉强说得过去。

不知都后面剩下的11场直播内容会不会覆盖到大家期望的东西,搞不好 OpenAI 想压轴在临近圣诞节的时候给大家来个圣诞惊喜也没准~

哦,对了还有一件事情漏掉了,那就是因为o1 Pro 模型的思考深度比o1 要高,耗时会更长,所以为了用户体验,OpenAI 给模型加入了一个回答进度条,这么做可以非常有效的缓解用户在等待回答时候的焦虑。

奥特曼游戏直播视频__奥特曼直播间

毕竟进度条是计算机史上最伟大的设计之一了,所以 OpenAI 这波啊,可以说是 《 震惊!炸裂!OpenAI 史诗级更新 》了!

奥特曼游戏直播视频__奥特曼直播间

奥特曼游戏直播视频__奥特曼直播间

相关内容

2025年展会品牌传播新玩...
在2025年的展会现场,品牌传播早已不是“摆展位+发传单”的简单模...
2025-05-08 22:05:10
五一不休!外贸人追展会开拓...
早上七点多从家出发,晚上七点回家,他就是五一假期追展会的外贸人。“...
2025-05-07 09:24:13
4月27日株洲日报:202...
株洲日报讯(全媒体记者/任远 吴一帆)4月27日,在2025湖南内...
2025-04-29 22:09:09
里水镇第三届房展会5月1日...
嚟里水 够掂水五一游玩五一假期,约定你各位街坊“五一”假期即将到来...
2025-04-25 09:07:52
CCBN2025在京开幕:...
光明日报北京4月22日电(记者牛梦笛 通讯员胡晨冉)第三十一届中国...
2025-04-25 09:07:39
2025海南自贸港房展会圆...
来源:【人民网】人民网海口4月23日电 (记者李学山)4月20日,...
2025-04-25 08:15:00

热门资讯

靠七天无理由退货赚了200万?... 漏洞不是随便钻的。
刚刚,OpenAI首个智能体提... 刚刚,OpenAI首个智能体提前曝光!高级编码AI剑指400万年薪L6级工程师,编程,工程师,智能体...
英国首相为“AI 校园”揭幕:... IT之家 11 月 28 日消息,据路透社报道,当地时间 27 日,英国首相基尔・斯塔默(Keir ...
96GB大容量,芝奇推出DDR... 该套装将于2025年第一季度在全球各地陆续开售。
中国改变全球创新药估值!生物技... 中国改变全球创新药估值!生物技术的“DeepSeek时刻”已来,中国,医药,制药,创新药,生物技术,...
谷歌Pixel 9a手机渲染图... IT之家 2 月 10 日消息,爆料人士 Evan Blass 曝光了谷歌 Pixel 9a 的渲染...
国产雷克萨斯终于来了,但我怀疑... 国产的雷克萨斯电车,不可能再给你玩加价那一套了
连雷军都在劝你学AI,但这课我... 连雷军都在劝你学AI,但这课我劝你别买。。。,雷军,宇宙,编程,电脑,李飞飞,人工智能
一文看懂索尼、三星、豪威的各种... 1,三大厂家名词统一首先,“双原生ISO”这个词最先在手机端出现,还得追溯至绿厂 Find X2 P...
华米 Ov 们把手机电池搞得大... 话说,今年的国产旗舰手机,有一个特质很突出 —— 电池容量大。除了少数几款标准版机型,大多新机的电池...