数据库 频道

什么是开源AI?OSAID未要求开放数据

10月28日,OSI(Open Source Initiative)发布了首个(OSAID)开源人工智能定义,这标志着开源人工智能运动取得了进展。虽然OSAID向前迈出了一步,但由于缺乏对训练数据开放性的要求,因此留下了一个最终需要填补的空白。

OSI 是一个标准机构,近三十年来一直致力于定义开放源代码的含义,并创建许可证以帮助发布开放源代码软件。

“这个过程是‘完善的、彻底的、包容的和公平的’。”OSI 董事会主席Carlo Piana说,“董事会确信,这一过程所产生的定义符合《开源定义》和《四项基本自由》中定义的开源标准,我们对这一定义如何使 OSI 为整个行业提供有意义和实用的开源指导充满信心。”

“四项基本自由”要求,对于任何软件,每个用户都必须能够自由地

  • “使用该系统或用于任何目的,无需征得许可”

  • “研究该系统如何工作并了解其结果是如何产生的”

  • “为任何目的修改系统,包括改变其输出结果”以及

  • “为任何目的共享系统供他人使用,无论是否经过修改”

根据OSAID 1.0 的定义,需要开放源码人工智能,以便 “让每个人都能从中受益”。人工智能定义要求开发人员必须提供用于训练和运行系统的完整源代码,包括 “数据处理和过滤的完整规范,以及训练是如何完成的”。

这包括 “用于处理和过滤数据的任何代码、用于训练的代码(包括使用的参数和设置)、验证和测试、支持库(如标记化器和超参数搜索代码)、推理代码和模型架构”。OSAID 下的开放式人工智能系统的作者还必须完全公开参数的完整说明,包括权重和配置设置。

但在涉及用于训练模型的数据时,OSAID 并不要求提供训练数据。相反,它只要求 “足够详细地提供用于训练系统的数据信息,以便熟练人员能够建立一个基本等同的系统”。

OSAID 的定义继续指出:

“特别是,这必须包括 (1) 用于训练的所有数据的完整描述,包括(如果使用)不可共享的数据,披露数据的来源、数据的范围和特征、数据的获取和选择方式、标注程序以及数据处理和过滤方法;(2) 所有可公开获取的训练数据的列表,以及从何处获取这些数据;(3) 所有可从第三方获取的训练数据的列表,以及从何处获取这些数据,包括付费获取的数据。”

Mozilla负责人工智能战略的Ayah Bdeir说,这超出了 “目前许多专有或表面上开源的模型所做的”。 不过,Bdeir 似乎也承认,不要求提供训练数据的完整副本代表了 OSAID 方面的妥协。

“这是解决如何对待人工智能训练数据的复杂性的起点,承认共享完整数据集的挑战,同时努力使开放数据集成为人工智能生态系统中更普遍的一部分,”她在新闻稿中表示。“开源人工智能对人工智能训练数据的这种看法可能并不完美,但坚持一种意识形态上原始的黄金标准,而实际上任何模型构建者都无法达到这种标准,最终可能会适得其反。”

Lightning AI公司首席技术官Luca Antiga希望OSI能更进一步,在开源人工智能的定义中要求开放训练数据。

“如果我们认为一个模型的源代码就是它的训练数据--或者至少很大一部分是它的训练数据--那么我们的开源人工智能的源代码就是不开放的。这不仅仅是学术上的区别,”他告诉 BigDATAwire,“我认为,要想具有实用价值,开源的定义必须包罗万象。”

Apache 2.0 许可证是开源的黄金标准,因为它规定开源软件的创建者不会起诉用户。但 Antiga 说,如果将训练数据排除在 OSAID 之外,就会削弱该定义,使用户无法像使用 Apache 2.0 许可产品的商业用户那样得到保证。

“这样一来,开放源代码就会被认为是可以在商业环境中使用的东西,这就有点太弱了。”他说。

可以肯定的是,这些都是难以解决的问题,尤其是在大型语言模型(LLM)的背景下,这种模型非常庞大、难以构建,而且需要在从开放网络和私人互联网网站获取的大量数据基础上进行训练。由于这些障碍,世界上只有少数几家最大的科技公司成功开发并训练了 LLM。

例如,Meta公司的Llama3模型非常受欢迎,功能强大,而且可以免费下载,但Meta公司并未将其称为开源模型,这很可能是因为该模型是在Facebook和Instagram对话等Meta公司不愿公开的专有数据上训练出来的。OpenAI 在 2022 年 11 月发布了 ChatGPT,掀起了 LLM 的热潮,尽管它的名字叫OpenAI,但它甚至没有假装自己的模型是开源的。

OSI 执行总监Stefano Maffulli似乎承认,将开放数据作为一项要求会给开源人工智能带来困难。

“今天的 OSAID 1.0 版本是一次艰难的旅程,对 OSI 社区来说充满了新的挑战。”Maffulli 在 OSI 的新闻稿中说,“尽管这个过程很微妙,充满了不同的意见和未知的技术前沿,偶尔也会有激烈的争论,但结果与两年过程开始时提出的期望是一致的。这是一个起点,随着我们与更广泛的开源社区一起开发阅读和应用 OSAID v.1.0 的知识,我们将继续努力与社区合作,逐步完善定义。”

Lightning AI 的 Antiga 承认为开源 AI 模型创建标准的难度,并对 OSI 首先提出这些问题表示赞赏。

“我不想为了批评而批评,我认为他们在讨论这个问题上做得很好,”他说。“我只是认为,由此产生的定义是一种妥协,这是当前人工智能需要在巨大的数据集上进行训练的方式所决定的。”

然而,Antiga 说,由于 OSAID 无法提供要求完全开放训练数据的人工智能定义所带来的法律赔偿,业界将在其他地方寻求解决方案。他说,企业、模型开发者和学界很可能会为训练数据寻找一种额外的许可,这种许可与 OSAID 结合在一起,将提供必要的信息披露,以解决伦理和法律问题。

“我认为,最终,实际需求会找到出路,”他说,“就像水一样,它总会找到流动的方向。因此,将会出现OSI定义加上一些数据条件,人们会接受A加X就是开源的东西。我认为,随着越来越多的人采用更合规的模型而不是那些不那么合规的模型,实践将完善这幅图景,帮助我们找到针对这两者缺失部分的定义。虽然OSI目前不会就另一部分进行表态,但它终究会出现。”

作者:Alex Woodie

0
相关文章