查看: 6692| 回复: 24
收起左侧

OpenAI最新model o3在frontier math上取得25%准确率,写在AI超越数学家的前夜

 
Push-forward | 显示全部楼层
本楼:   👍  16
73%
27%
6   👎
全局:   283
77%
23%
83

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看附件。没有帐号?注册账号

x

即使早已相信实现Reasoning AGI的一天迟早会来,我也没想到这一天会来得这么快。都快失语了。给地里做个科普。


Frontier math是什么:
Frontier Math(https://arxiv.org/pdf/2411.04872)是一个由数学家们2024年十一月造的一个极难的数学题测试集。其中每道题都是由该领域数学专家贡献,并确保互联网没有一样/相似的题目。Fields medalist 得主Terrence Tao认为这些题“These are extremely challenging. I think that in the near term basically the only way to solve them, short of having a real domain expert in the area, is by a combination of a semi-expert like a graduate student in a related field, maybe paired with some combination of a modern AI and lots of other algebra packages...”


Frontier math和IMO数学竞赛题的区别是什么:
大家如果关注AI reasoning field的话应该知道,之前google的alphaproof和alpha geometry model在国际数学奥林匹克竞赛上取得了银牌的成绩。Frontier math和IMO的最大区别是,Frontier math中的每道题的解决需要用到非常多领域内的专业知识和抽象的概念,而IMO的题目只设计到非常有限的概念和数学工具。


2024年12月20日,OpenAI在发布会上宣布其最新的O3model成功的解决了Frontier math中百分之25的题目。


接下来我以一个pure math phd student,曾经string theory researcher,现在AI researcher的角度来说一下这个新闻震撼到我的点:
  • Frontier math太难了。这些题目需要非常抽象概念和专业的lemma才能解决。
  • Frontier math的题目太新了。这些题目有些甚至是数学家在最近的科研中正好遇到用到才正好贡献到这个数据集。互联网上关于这些题目的相关的知识和数据非常少。
  • O3做到了百分之25。这是一个非常significant的数字。



1和2意味着OpenAI找到了解决Reasoning数据bottleneck的方法,并且能够scale up。3意味着OpenAI离彻底解决frontier math只有1-3个月的距离,which means AI至少在涉及大量抽象概念和复杂推理的problem solving task上即将(1-3月内)达到人类最好的水平。


很难想象有什么well-formulated problem是AI解决不了的。我们距离Reasoning AGI可能真的只差半年了。


太快了!

上一篇:推荐一个ML youtube博主
下一篇:LLM eval应该怎么做以及求大米
本楼:   👍  8
100%
0%
0   👎
全局:   5099
93%
7%
378
o3是frontier发布之前还是之后trained?说实这个月他们有没有花几百万找一堆phd解题 想类似新题给model 我们也不知道。这玩意儿最难信他们没有explore leakage的点就是每次我真的去用,得到的回答都是一堆狗屎
回复

使用道具 举报

rymwer 2024-12-21 14:12:09 | 显示全部楼层
本楼:   👍  6
100%
0%
0   👎
全局:   8856
86%
14%
1396
openai 一贯操作都是ppt 期货。 当年sora也是 秒天秒地秒空气, 结果按揭一年后推出了一坨答辩。  营销能力堪比华为。
回复

使用道具 举报

zcreborn 2024-12-21 07:07:30 来自APP | 显示全部楼层
本楼:   👍  6
100%
0%
0   👎
全局:   1305
81%
19%
311
感谢科普,黎曼猜想有希望解决了
回复

使用道具 举报

248180238 2024-12-21 07:43:12 来自APP | 显示全部楼层
本楼:   👍  4
100%
0%
0   👎
全局:   3198
96%
4%
117
为什么3意味着解决所有问题只有1-3个月的距离呢
回复

使用道具 举报

 楼主| Push-forward 2024-12-21 07:48:47 | 显示全部楼层
本楼:   👍  1
100%
0%
0   👎
全局:   283
77%
23%
83
248180238 发表于 2024-12-20 15:43
为什么3意味着解决所有问题只有1-3个月的距离呢

这是personal perspective。我认为从0到百分之25意味着oai找到了解决涉及复杂concept和lemma的reasoning data 稀缺的bottleneck,无论是从inference端还是training端。既然解决了这个bottleneck,那剩下来的工作就是scale up。更好的gpu和更多的时间就能做到。
回复

使用道具 举报

take_a_nap 2024-12-21 07:52:42 来自APP | 显示全部楼层
本楼:   👍  1
100%
0%
0   👎
全局:   6397
97%
3%
209
解决 PvsNP 就靠它了….反正现在做理论的人也因为PvsNP太难不会去做,不如交给AI试一把。
回复

使用道具 举报

匿名账號 2024-12-21 10:18:13 来自APP | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   5704
93%
7%
452
先把IOI和IMO搞定吧
回复

使用道具 举报

619899442 2024-12-21 10:33:27 | 显示全部楼层
本楼:   👍  3
100%
0%
0   👎
全局:   171
99%
1%
2
来盆冷水:https://www.wsj.com/tech/ai/openai-gpt5-orion-delays-639e7693

"It is hiring people to write fresh software code or solve math problems for Orion to learn from. The workers, some of whom are software engineers and mathematicians, also share explanations for their work with Orion."
回复

使用道具 举报

stid 2024-12-21 10:35:33 来自APP | 显示全部楼层
本楼:   👍  2
100%
0%
0   👎
全局:   164
97%
3%
5
建议看看楼主过去的发文
回复

使用道具 举报

I母散 2024-12-21 12:09:59 | 显示全部楼层
本楼:   👍  5
100%
0%
0   👎
全局:   632
83%
17%
128
然后过了几个月发现还是只能跑跑benchmark
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号
隐私提醒:
  • ☑ 禁止发布广告,拉群,贴个人联系方式:找人请去🔗同学同事飞友,拉群请去🔗拉群结伴,广告请去🔗跳蚤市场,和 🔗租房广告|找室友
  • ☑ 论坛内容在发帖 30 分钟内可以编辑,过后则不能删帖。为防止被骚扰甚至人肉,不要公开留微信等联系方式,如有需求请以论坛私信方式发送。
  • ☑ 干货版块可免费使用 🔗超级匿名:面经(美国面经、中国面经、数科面经、PM面经),抖包袱(美国、中国)和录取汇报、定位选校版
  • ☑ 查阅全站 🔗各种匿名方法

本版积分规则

Advertisement
>
快速回复 返回顶部 返回列表