C114门户论坛百科APPEN| 举报 切换到宽版

亚星游戏官网

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

亚星游戏官网-yaxin222  三级军士长

注册:2010-4-285
发表于 2024-12-10 09:43:58 |显示全部楼层

亚星游戏官网-yaxin222


新智元报道

编辑:好困

【新智元导读】当初,由UC伯克利、斯坦福、UCSD等高校华人学生发起的AI擂台,如今已经成为了超过170款模型的大比竞技场!全世界的初创企业和科技巨头都在拼命争夺第一的位置。

就在GOOGLE庆祝自家大模型Gemini发布一周年之际,最新版本的gemini-exp-1206也成功强势回归!

不仅重新登顶Chatbot Arena总榜第一,而且还在代码能力榜上与o1并驾齐驱。

亚星游戏官网-yaxin222


亚星游戏官网-yaxin222


最新亮点(括号内为与gemini-exp-1121相比的进步):

  • 总排名登顶第一(从第2升至第1)
  • 在风格控制评测中与GPT-4o-1120并列第一(从第4升至第1)
  • 在代码能力榜单与o1并列第一(从第3升至第1)
  • 在复杂提示词测试中独占鳌头(从第2升至第1)

亚星游戏官网-yaxin222


亚星游戏官网-yaxin222


亚星游戏官网-yaxin222


亚星游戏官网-yaxin222


左右滑动查看

来自UC伯克利、斯坦福、UCSD等高校的学生联合项目,引发了AI界的狂热

有趣的是,当Chatbot Arena在去年年初刚刚发布时,没人会想到这个由学生主导的项目,竟会迅速成为全球最受瞩目的AI系统评测平台。

传统上,AI技术都是通过高等数学、科学和法律测试来评估的。相比之下,Chatbot Arena采用的则是一套完全不同的方式——用户提出问题,两个匿名AI模型给出答案,然后评判哪个回答更好。

最终,这些评分被汇总到一个排行榜上。在这里,OpenAI、GOOGLE和Meta等硅谷科技巨头会与来自中国和欧洲的初创或者大厂争夺霸主地位。

Meta AI产品管理总监Joseph Spisak表示:「每家企业都在努力争取登上这个排行榜的榜首。看到几个学生能够产生如此重大的影响力,真是令人赞叹。」

亚星游戏官网-yaxin222


随着科技企业投入数百亿美金押注AI将成为未来几十年的决定性技术,Chatbot Arena迅速走红。

在吸引客户和人才方面,任何领先竞争对手的优势都可能带来重大影响,这就是为什么众多科技高管和工程师像华尔街交易员盯盘一样密切关注Chatbot Arena。

亚星游戏官网-yaxin222


他们使用类似职业象棋排名的评分系统,将自己开发的AI技术与其他开源聊天机器人进行对比。并在仅仅一周的时间里,就收到了4,700个评分。

亚星游戏官网-yaxin222


很快,Chatbot Arena就引起了各大AI企业的关注,它们纷纷请求将自家技术纳入排名。

如今,项目中的模型已经从最初的9个,发展到了超过170个,并累计获得了200万张选票。

不仅如此,现在的排名还扩展到了创意写作、编程和指令实行等专门类别。

目前,这个项目由仍在攻读计算机科学博士学位的Anastasios Angelopoulos继续推动。不过,因为他把大部分精力都投入到了这个非营利的项目当中,学业进展比较缓慢。

对此,Angelopoulos调侃道:「我女朋友从早到晚听到的都是关于Chatbot Arena的事。」

亚星游戏官网-yaxin222


靠「感觉」来评分

研究人员表示,随着时间推移,学术基准测试变得越来越不实用,因为LLM已经接触过这些测试题。也就是说,它们已经提前掌握了答案。

Abacus AI的研究主管Colin White表示:「基准测试在刚发布时可能对LLM来说非常具有挑战性,但当新一代LLM出现后,它们很快就能达到近乎完美的表现。」

为此,他们也提出了一种号称「无法作弊」的基准——LiveBench,每个月都会更新新的测试题。

亚星游戏官网-yaxin222


无独有偶,MMLU的创始人之一Dan Hendrycks,也开始通过众包方式收集最具挑战性的问题,用来创建一个全新的基准测试——「人类的最后考试」。

亚星游戏官网-yaxin222


尽管Chatbot Arena采用的一对一对抗形式不会像标准测试那样被轻易攻克,但这种方式并不总能衡量客观标准,也无法判断聊天机器人是否严格遵循已验证的事实。这就是为什么一些研究人员将这种方法称为「基于主观感受的评估」。

亚星游戏官网-yaxin222


Chatbot Arena的负责人表示,他们始终对平台的局限性保持开放态度,并允许用户在查看排名时过滤掉一些风格因素,比如回复的长度和格式等。

Angelopoulos说:「用户的偏好是一个重要参考指标。毕竟这些测试查询本身就包含主观因素。」

亚星游戏官网-yaxin222


神秘的模型

随着Chatbot Arena的影响力不断扩大,AI爱好者们开始密切关注新加入的模型,希翼发现一些尚未公开的技术。

今年5月,一个名为「im-also-a-good-gpt2-chatbot」的神秘模型出现在Chatbot Arena上,并随即引发了激烈的讨论。

结果证明,这个模型正是OpenAI后来发布的GPT-4o。

当然,不只有OpenAI,马斯克的xAI、Meta和GOOGLE等,也都会在正式发布之前在Chatbot Arena上测试他们的模型。

11月,GOOGLE在Chatbot Arena上发布了Gemini技术的实验版本,随后与OpenAI并列第一。没过几天,OpenAI通过更新版的GPT-4o暂时领先,但GOOGLE很快又推出新模型追平了比分。

当时,负责监督Gemini开发的Oriol Vinyals分享了排行榜结果,还俏皮地配上了三个看戏吃瓜的爆米花表情。

亚星游戏官网-yaxin222


如今,Chatbot Arena收集的用户反馈已经成为开发者的重要数据来源。

具体来说,平台定期公开20%的收集数据——这个比例既能确保数据的实用性,又能防止企业利用数据操纵评分系统。

比如,GOOGLEAI产品经理Kate Olszewska就表示,他们会利用这些数据来分析懂技术的用户是如何与聊天机器人互动的。

目前,Chatbot Arena已经招募了十多名贡献者,他们希翼,能将这个项目打造成「AI领域的维基百科」。

即便前路漫漫,但团队并没有打算将其转变为营利性项目。

参考资料:

https://www.wsj.com/tech/ai/the-uc-berkeley-project-that-is-the-ai-industrys-obsession-bc68b3e3


来源:网易

举报本楼

本帖有 1 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图  

GMT+8, 2024-12-22 10:02 , Processed in 0.187653 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部
XML 地图 | Sitemap 地图