C114门户论坛百科APPEN| 举报 切换到宽版

亚星游戏官网

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

亚星游戏官网-yaxin222  三级军士长

注册:2010-4-285
发表于 2024-10-31 22:44:21 |显示全部楼层
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
传闻证实,MicroSoft机器学习理论万引大佬,官宣跳槽加入OpenAI

入职第一天,他便发出如此感慨:

这个地方的人才密度,简直是疯了!
亚星游戏官网-yaxin222



话一说出去就得到印证,他口中的人才们都来评论区排队欢迎了。

亚星游戏官网-yaxin222



他是Sebastien BubeckMicroSoft前AI副总裁和杰出科学家,在MicroSoft工作10年。

2021年,他曾用一篇理论研究展示扩大AI模型规模的重要性,帮助说服MicroSoftCEO纳德拉在AI基础设施上增加数十亿美金的投资。

他的职业生涯前15年都投入在计算机理论和机器学习理论,研究的是凸优化在线学习和对抗稳健性这些问题,直到——

MicroSoft作为OpenAI合作伙伴,派他参与了未安全对齐版GPT-4早期测试,期间他来了一场戏剧性的转型。

全面转向AGI研究

在当时外界还只接触过GPT-3.5的背景下,看起来就像“理论学者转型研究科幻了”,而他本人是这么说明的:

现在我更关注大型语言模型中智能是如何形成,如何利用这种理解提高模型性能,并可能迈向构建AGI。
大家的方法称作“AGI的物理学”(Physics of AGI)。
亚星游戏官网-yaxin222



之后他便带领MicroSoft团队发布一篇154页的GPT-4实验报告《AGI的火花》,一时引起全业界轰动,成为人们对AI过高期待的重要推手。

后来他承认过当时的实验方法并不算严格,但并不悔恨,并坚持“没有证据否定GPT-4已经具有一定推理能力”。

亚星游戏官网-yaxin222



在转型期间的一次演讲中,他分享了自己对“Transformer到底有什么特别之处”的思考,指出很多人容易忽略的一点:Transformer不是序列模型

与RNN等模型关键区别在于Transformer一次处理一个集合,而不是序列中的单个输入。

集合是一种强大的抽象层次,让模型能看到元素之间的关系,从“绝对机器”变成相对机器。
亚星游戏官网-yaxin222



这次他加入OpenAI的时机非常微妙,本人强调是在“开发安全AGI的关键时刻加入”

MicroSoft发言人的声明中也提到,“Sebastien已决定离开MicroSoft,以进一步开发AGI”。

同时,现在也是OpenAI和MicroSoft联盟渐渐破裂的时刻,奥特曼和OpenAI首席财务官近期对员工抱怨,MicroSoft行动速度不够快,没有提供足够的服务器。

两家开始相互视对方为备胎,OpenAI找了甲骨文做额外的云计算供应商,MicroSoft也开始在旗下产品中接入GOOGLE和Anthropic模型。

不得不说,很耐人寻味。

一篇论文影响MicroSoft对AI的数十亿美金投入

Sebastien Bubeck,2010博士毕业于法国里尔第一大学数学专业。

在普林斯顿大学做三年助理教授后,于2014年加入MicroSoft,从普通研究员一路做到VP。

亚星游戏官网-yaxin222



在2023年转型AGI研究之前,就凭理论研究收获上万被引,现在总被引数来到23475。

亚星游戏官网-yaxin222



2021年他与斯坦福博士生Mark Sellke合著论文《A Universal Law of Robustness via Isoperimetry》,不仅入选NeurIPS2021杰出论文,也对MicroSoft和整个人工智能业界产生影响。

这篇论文说明了为什么实践中训练模型需要的参数比理论建议的要多得多,帮助说服MicroSoftCEO纳德拉和MicroSoft研究院院长Peter Lee等,在AI基础设施上增加数十亿美金的投资

随后这些对数据中心和先进GPU的投资为OpenAI提供了训练和部署大模型的支柱。

Peter Lee后来表示“这是整个人工智能之旅中非常重要的时刻,不仅对于MicroSoft,而是对于所有大型科技企业”。

亚星游戏官网-yaxin222



在转型研究AGI后,他在研究中说明了自己的新方向:AGI的物理学。

他认为Transformer和自然界一样都是复杂系统,需要用物理的方法去研究。

物理学的核心在于将一个系统进行分解,辨认出产生所观察到的行为的真正关键要素。

第一步从通过可控的实验,研究小规模“玩具模型”开始。

亚星游戏官网-yaxin222



随后他就在MicroSoft开启了Phi系列小模型研究,控制训练数据中只有教科书级别的高质量数据和合成数据,并发表论文《Textbook is all you need》。

亚星游戏官网-yaxin222



到现在Phi系列小模型已迭代到phi-3.5版本,在本地大模型推理工具ollma上,开源模型中受欢迎程度排第5。

亚星游戏官网-yaxin222



One More Thing

Bubeck在《AGI的火花》论文中,展示了满血版GPT-4通过代码画独角兽的能力,随训练进度增长飞快。

亚星游戏官网-yaxin222



他认为未来这是考验大模型智力的一个有趣的检验标准,也成了这个meme的代言人。

亚星游戏官网-yaxin222



但或许出乎他意料的是,今天的主流模型不仅能胜任画图,甚至能组团玩你画我猜了。

亚星游戏官网-yaxin222



参考链接:
[1]https://x.com/SebastienBubeck/status/1851762399491375592
[2]https://www.youtube.com/watch?v=XLNmgviQHPA&t=643s
[3]https://nips.cc/virtual/2021/oral/27814
[4]https://www.geekwire.com/2024/ai-dreams-microsoft-50-chapter-1/


来源:网易

举报本楼

本帖有 1 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图  

GMT+8, 2024-12-23 06:37 , Processed in 0.191055 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部
XML 地图 | Sitemap 地图