中科院自动化研究所孵化企业开源了一个阅读理解超过谷歌 Gemini Pro的大模型：YAYI2 [复制链接]

flyoncloud

军衔等级：

下士

发表于 2023-12-27 10:09:47 |显示全部楼层

上周五，中科闻歌开源了一个大语言模型YAYI2-30B，这是中科闻歌从头开始训练的一个大语言模型，参数规模300亿，基于2.65万亿tokens数据集预训练得到。中科闻歌是中科院自动化所孵化的一家人工智能企业。这个模型最大的特点是MMLU评测上得分80.5分，超过了谷歌 Gemini Pro，并且是目前全球第三个在MMLU得分超过80分的预训练大模型，前面两个是谷歌的Gemini Ultra和GPT-4。

YAYI2-30B模型信息卡地址：https://www.datalearner.com/ai-models/pretrained-models/YAYI2-30B

YAYI2-30B模型架构和训练细节
YAYI2-30B模型是一个基于transformer架构的decoder-only的模型，是中科闻歌基于自己收集的数据集从头开始训练得到的大语言模型，上下文长度为4K。

YAYI2-30B的原始预训练数据集来自240TB的文本数据，包括资讯、书籍、维基百科、代码等，其中41.5%是中文数据。

YAYI2-30B模型本身采用了许多技术来加速训练，提高主权虐心，包括FlashAttention 2、MQA（multi-query attention）等。YAYI2-30B还有一个经过有监督微调对齐的聊天大模型YAYI-30B-Chat，目前暂未开源。

YAYI2-30B模型的训练数据集
YAYI2-30B的预训练数据集可以概括为三类：

互联网数据集：包括社交媒体、开源数据集，占比49.6%；

精选一般数据集：包括不同的书本、代码、百科、学术论文等，占比19%；

领域数据集：财经、媒体、中药等，占比31.4%；

举报本楼

本帖有 3 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图

GMT+8, 2025-4-3 14:34 , Processed in 0.106078 second(s), 16 queries , Gzip On.

Discuz Licensed

回顶部

XML 地图 | Sitemap 地图

		自动登录	找回密码
密码			注册