单靠推理Scaling Law无法成就o1，无限推理token，GPT-4o依然完败 [复制链接]

see122

军衔等级：

四级军士长

发表于 2024-9-29 22:47:20 |显示全部楼层

他们称，「虽然o1使用了逐步推理方法训练，但其性能改进，可能还存在其他的因素」。

o1的秘诀是什么？
上周，在o1-preview和o1-mini发布之后，Epoch AI研究人员开启了GPT-4o和o1-preview对比实验。

他们选择了一个具有挑战性的基准测试GPQA进行评估，其中包含STEM领域研究生级别的多项选择题，而且考虑到模型的随机性进行了多次运行。

结果发现o1-preview的性能远远好于GPT-4o，比Claude 3.5 Sonnet、Llama3.1 405B也拉开了相当大的差距。

从以上结果可以看出，仅仅扩大推理处理能力并不足以说明o1的卓越性能。

研究编辑认为，先进的强化学习技术和改进的搜索方法可能发挥了关键作用，凸显了在Scaling Law之外，算法创新对AI发展的重要性。

但是，大家也并不能确定算法改进是o1-preview优于GPT-4o的唯一因素，更高质量的训练数据也可能导致性能差异。

推理很强的o1，差在规划能力
虽然GPQA或AIME这类问题相当困难，但一般只会考察模型的在STEM领域的常识储备和推理能力。那么强如o1，它的规划能力如何？

2022年，亚利桑那州大学的学者们曾经提出过一个用于评测LLM规划能力的基准套件PlanBench，包括了来自Blocksworld领域的600个任务，要求将一定数量的积木按照指定顺序堆叠起来。

在MMLU、GSM8K等传统基准相继饱和时，两年前提出的PlanBench依旧没有饱和，可见当今的LLM在规划能力方面依旧有很大的提升空间。

相比准确性更高、成本更低的传统方法，如经典规划器Fast Downward或LLM-Modulo系统，o1这样的大型推理模型（LRM）非常缺乏正确性保证，而且使得可说明性几乎不可能，因此很难在实际应用中部署。

o1虽强，但绝不是万能的。OpenAI想要真正实现AGI，还需要走很长一段路。

参考资料：

https://the-decoder.com/openais-o1-probably-does-more-than-just-elaborate-step-by-step-prompting/

https://x.com/EpochAIResearch/status/1838720157545648315

https://the-decoder.com/researchers-put-openais-o1-through-its-paces-exposing-both-breakthroughs-and-limitations/

举报本楼

本帖有 4 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图

GMT+8, 2024-12-24 07:26 , Processed in 0.120899 second(s), 17 queries , Gzip On.

Discuz Licensed

回顶部

XML 地图 | Sitemap 地图

		自动登录	找回密码
密码			注册