李海军: 数据的量级和质量直接影响模型的表现,而大规模的使用离不开有效的数据管理。数据管理和 AI 的关系在于,大家需要从大量数据中进行准确的数据检索,例如在文本数据中找到特定的数学科学数据,或者在多模态领域中找到特定的服饰图片。数据管理需要具备数据检索和数据标签画像的能力。此外,数据管理还需要满足模型训练的需求,包括读写速度、tokenizer 的速度,以及在不同存储计算引擎上的成本和速度的考量。
邵轶琛: 在国内,数据隐私和合规性讨论较少,主要与国情和信息管制有关;而在全球范围,隐私计算问题,尤其在医疗和金融行业,讨论较为频繁。随着数据量增大,实时数据处理能力如何突破?传统 AI 在商品推荐中的应用可能会被新技术取代,数据吞吐量、并发量和实时更新成为关键问题。
模型训练是一个系统性工程,不仅仅是单一的数据平台或 AI 领域的事情。很多时候,在训练时可能还会涉及到分布式文件系统的设计。在 AI 时代,大家更多地需要考虑如何将所有与数据相关的组件服务于模型,无论是在训练场景还是推理场景。同时,对于多模态数据的高效存储和检索也是关键。因为未来的模型训练肯定是越来越往多模态方向发展,能够天然提供多模态的存储和查询能力也是非常重要的。
李海军: 我负责的 AI 业务部门最初并没有过多考虑 ROI,但随着成本的不断上升,ROI 成为了大家必须考虑的因素。
我首先关注的是如何在保证可用性和稳定性的基础上,优化存储和计算技术。面对阿里云每天提供的账单,我意识到每一条数据的存储和计算都是成本。因此,大家开始对数据进行分层分级,合理分配冷数据和热数据、高性能存储和低性能存储,检查是否有长期未被使用的数据被放置在高性能存储上,同时监控 CPU 和 GPU 的使用率,确保没有资源浪费,并提高任务自动化水平。
数据管理的目的是为了更好地服务于大模型训练。大家会评估数据管理到模型训练的效果,不仅看数据成本,还会看在 Benchmark 上的表现提升。如果模型效果有显著提升,那么 ROI 自然较高。例如,大家开源的多模态大模型 OVIS 在 open Compass 榜单上的各项指标不断提升,这表明大家的投入是值得的。
最后,大家会关注模型在业务上的表现,比如语言翻译和多模态应用的表现。如果这些表现足够高,那么我认为投入也是值得的。因此,我的 ROI 衡量标准包括模型在业界通用 Benchmark 上的效果评估,以及在业务领域内的表现,比如带动 GMV 的提升。
邵轶琛: 那大家可以归纳出两个主要的框架来衡量 ROI。第一个是数据增益率(Data Gain Rate)。实际上,AMAZON内部也使用类似的方法,用来衡量每批新训练数据对模型性能的提升。第二个是海军在垂直模型领域提到的观点,将数据管理的度量指标与业务目标对接,从而提升了效果。
人工智能的参与还能帮助数据实现跨平台集成,同时结合隐私计算的需求,大家可以利用 AI 技术来遵守 GDPR、CDPA 等法规,自动化监管训练数据和推理数据。这可能涉及到超分隐私和联邦学习等技术的应用。随着人工智能的加入,数据管理可能会更多地调度 GPU 算力,以服务于数据治理平台,这将是一个重大转变,因为传统上数据库存储和计算更多依赖于 CPU 集群。
李海军: 我从工业界的角度来看,随着大模型的落地应用,数据管理可能会有三个显著的进步。首先,数据管理与 AI 模型的迭代将变得更加紧密。目前,模型训练过程中数据的紧密程度还不够高,未来数据将更多地引导模型训练,并反馈到数据上进行补充和提升,包括定向数据整理等方面,这种融合将更加紧密。
其次,数据管理平台将显著发展。回顾过去数据仓库时代,从大型厂商如 Oracle 进入中国市场,到阿里云、HUAWEI云等云服务商的发展,数据平台的发展一直非常蓬勃。但截至目前,针对 Gen AI 的数据管理平台还不够成熟,市场上也没有一个典型的代表作,我预计未来将出现更加成熟的代表。
最后,数据管理系统将与整个 AI 系统工程更紧密地结合。它不仅仅是提供数据清洗和训练的过程,而是会更紧密地与 AI 系统功能结合,与整个生产链路、实际应用链路、从数据清洗到模型训练、模型上架应用、模型效果评估的整个系统,以及 AI 系统发挥的业务价值等方面结合得更加紧密。
邵轶琛: 今天的分享大家从各自的角度,实际上描述的是同一件事——从数据管理的角度来看 AGI。我个人和我的团队都相信,未来 5 到 10 年,所有应用都会是 AI 驱动的应用。作为 AI 应用的基础,数据的消费和常识管理至关重要。因此,大家的使命是将数据管理转变为常识管理。大家相信,未来这个行业的使命也将围绕这一点展开。