跳转到内容

第三节:法律考虑

我们将探讨法律对于大型语言模型开发和部署的影响。

正如我们之前讨论过的,例如在探讨社会偏见时,我们所讨论的很多内容并非专门针对大型语言模型——毕竟,并没有一部《大型语言模型法》。然而,每当出现一项强大的新技术时,我们都会面临一个问题:现有的法律是否仍然适用,或者是否合理。

举例来说,随着互联网的重要性日益增加,互联网法律(或称网络法)应运而生。它借鉴了知识产权法、隐私法和合同法等现有领域的内容。1996年,法官Frank Easterbrook提出了“马法”这一术语,质疑为何互联网法需要成为法律研究和诉讼的一个独立领域。

但互联网显然带来了其独特的挑战。法律通常有明确的管辖范围,比如州级或联邦级,但互联网并不受地理限制。在互联网上,人们可以保持匿名,任何人都可以发布内容,理论上这些内容可以被任何人查看。

除了法律,我们还应考虑非法律因素,比如法律与伦理的区别。法律可以由政府强制执行,而伦理则不然,它由任何组织制定,并且不具有强制力。例如,行为准则虽然不是法律,但仍然非常重要,如希波克拉底誓言ACM伦理与专业行为准则NeurIPS行为准则以及斯坦福荣誉守则。本文中,我们将专注于法律,但我们也不应忽视伦理和规范,它们可能更加灵活和适应性强。

管辖权也是我们需要注意的问题。根据你居住的地方,比如不同的国家或州,适用的法律会有所不同。不同的国家,如美国、中国、欧盟,都有各自不同的法律。例如,欧盟的数据隐私法律GDPR比美国现有的法律要全面得多。法律可能存在于联邦、州或地方层面。例如,加利福尼亚州有加州消费者隐私法案,这与GDPR类似,但美国并没有相应的联邦法律。在加利福尼亚州的鲍德温公园,骑自行车进入游泳池是违法的(参考)。我们将主要关注美国的法律,但也会不时提及欧盟,因为欧盟在数据隐私和人工智能法规方面处于领先地位(EU AI Act)。

法律体系可以根据其来源和性质分为三种主要类型:普通法、成文法和监管法。

  1. 普通法(司法)

    • 普通法,亦称案例法,是一种以先前法官对类似案件的裁决为基础的法律体系。
    • 法官在判决时会参考历史案例,形成具有指导意义的先例。
    • 例如,甲骨文诉谷歌案就是一个著名的普通法案例。
  2. 成文法(立法机构)

    • 成文法,又称书面法律,是通过立法机构的正式立法程序制定的法律。
    • 这通常涉及国会或类似的立法机构通过法案。
    • 1976年版权法就是一个典型的成文法例子。
    • 普通法在长期发展后,有时会被正式编纂进成文法中,如合理使用原则自19世纪40年代以来一直是普通法,直到1976年被正式纳入版权法中。
  3. 监管法(行政)

    • 监管法,亦称行政法,是由政府的行政分支根据立法机构授权制定的法律。
    • 这种法律通常关注于具体的执行程序和规章。
    • 例如,如果立法机构通过一项法律,设立了一个新的行政机构(如环境保护局),那么该机构将制定相应的规章来执行其职能。

这三种法律类型共同构成了一个国家或地区的法律体系,相互补充,确保法律的全面性和适应性。

接下来,我们将关注点转向大型语言模型。。 让我们回顾一下大型语言模型的生命周期

  1. 数据收集:例如,通过Common Crawl获取训练数据。
  2. 模型训练:例如,训练GPT-3这样的大型语言模型。
  3. 任务适配:将模型调整以适应性特定的下游任务,如对话系统。
  4. 模型部署:将训练好的语言模型部署给用户,例如用于客户服务的聊天机器人。

法律在大型语言模型的生命周期中主要涉及两个方面:

  • 数据问题:
    • 机器学习的核心是数据
    • 语言模型需要大量的数据,特别是那些并非为模型训练而创建的数据,它们常常在未经授权的情况下被收集。
    • 版权法旨在保护数据创作者的权益。那么,使用这些数据训练语言模型是否构成版权侵权?
    • 隐私法旨在保护个人的隐私权。使用公开或私有数据训练语言模型,是否会侵犯个人隐私? 对于私有数据,何时才能合法地收集和整合这些数据?
    • 这些法律虽然围绕数据展开,但如何处理这些数据也同样重要。
  • 应用问题:
    • 语言模型可以应用于多种下游任务,如回答问题、聊天机器人等。
    • 技术可能被用于恶意目的,例如垃圾邮件、网络钓鱼、骚扰或散布虚假信息。 现有的互联网欺诈和滥用法律可能覆盖了某些情况。
    • 语言模型可能被部署在风险较高的领域,如医疗保健、贷款或教育。 相应领域的现有法规,如医疗保健法规,可能覆盖了某些情况。
    • 当然,大型语言模型的增强能力,如逼真的文本生成和聊天机器人,将带来新的挑战。

今天我们将主要关注版权法

大型语言模型和其他机器学习模型的构建和训练都依赖于数据,这些数据是人类智慧劳动的结晶,包括作者的文稿、程序员的代码、摄影师的照片等。非创作者如何合法使用这些作品,是由知识产权法来规范的。

知识产权法的目的是促进各种智力成果的创造和分享。如果没有有效的法律保护,人们可能会因为担心自己的劳动成果被他人无偿占用而失去创作和分享的动力。知识产权主要包括以下几种类型:

  1. 版权:保护文学、艺术和学术作品。
  2. 专利:保护发明创造。
  3. 商标:保护品牌标识。
  4. 商业秘密:保护企业的专有信息。

版权法在美国,版权的法律依据是1976年版权法。以下是关于版权的几个关键点:

  • 版权保护的对象:版权保护适用于那些以任何有形媒介固定下来的原创作品,无论是现在已知的还是将来可能发展的媒介,只要这些作品可以被感知、复制或以其他方式传播。
  • 版权保护的范围:版权法的保护范围已经从原先的”已发表”作品扩展到了”已固定”的作品,这一变化是基于1886年的**伯尔尼公约(Berne Convention)**。
  • 版权登记:与专利不同,版权保护不需要注册。但是,为了能够在侵权案件中提起诉讼,创作者需要进行版权登记。
  • 版权门槛:版权的门槛非常低,许多你可能没有意识到的事物都受到版权保护。
  • 版权期限:版权保护期限为作者终生加上75年,之后作品进入公共领域,成为全人类共享的文化遗产。例如,莎士比亚和贝多芬的作品现在已经属于公共领域。
  • 公共领域作品:如古腾堡计划(Project Gutenberg)中的大部分书籍,它们不受版权保护,可以自由使用。

使用受版权保护的作品有两种合法方式:

  1. 获得许可:从版权持有者那里获得使用作品的正式许可。
  2. 合理使用:在符合合理使用原则的情况下使用作品,这通常包括评论、新闻报道、教学和研究等目的。

许可证(Licenses)

许可证是一种法律协议,由许可方向被许可方授予一定的权利。以下是关于许可证、合理使用和服务条款的详细说明:

  1. 许可证

    • 根据合同法,许可证由许可方授予被许可方,实质上是一种“不提起诉讼的承诺”。
    • 知识共享许可(Creative Commons license)允许在特定条件下自由分发版权作品。
    • 例如,维基百科、开放教程、可汗学院、自由音乐档案馆、Flickr的3.07亿张图片、MusicBrainz的3900万张图片、YouTube的1000万视频等,都是采用知识共享许可的作品。
  2. 合理使用(第107节)

    • 合理使用的概念自19世纪40年代以来就存在,是普通法的一部分。
    • 判断合理使用是否适用的四个因素包括:
      • 使用的目的和性质(教育用途通常优先于商业用途,转换性使用优先于复制性使用);
      • 版权作品的性质(虚构作品通常优先于事实作品,考虑其创造力的程度);
      • 使用的原作部分的数量和重要性;
      • 使用对市场(或潜在市场)的影响。
    • 合理使用的例子包括观看电影后写摘要,或重新实现算法而非复制代码。
  3. 服务条款(terms of service)

    • 服务条款可能会对用户使用版权作品施加额外的限制,这是使用作品时需要考虑的另一个重要因素。
    • 例如,YouTube的服务条款禁止下载视频,即使视频是在知识共享许可下授权的。

注意事项

  • 事实和思想本身不受版权保护。
  • 如果事实的整理或排列构成一种表达形式,那么事实数据库可以受版权保护。
  • 仅仅复制数据(如机器学习训练的第一步)可能已经构成侵权,即使你尚未将其用于任何其他目的。
  • 版权法第504节规定,法定赔偿额可高达每件作品15万美元。
  • 在版权侵权案件中,原告通常是小型版权所有者(如书籍作者),而被告往往是大型公司。

以上信息提供了关于版权、合理使用和服务条款的全面概述,以及在使用版权作品时需要考虑的法律和实际因素。

接下来,我们将回顾一些支持或反对合理使用的案例。

· 谷歌(Google)与美国作家协会案

该案件是合理使用原则在数字时代应用的一个重要案例,对版权法在新技术环境下的解释和应用具有指导意义。

  1. 案件概述
    • 谷歌图书搜索项目于2002年启动,通过扫描印刷书籍,实现了书籍内容的在线搜索功能,并提供部分内容预览。
  2. 争议内容
    • 美国作家协会指出,谷歌在未经他们许可的情况下,扫描了那些版权尚未过期的书籍,侵犯了作者的版权。
  3. 法院裁决
    • 2013年,地区法院对此案作出即决判决,认为谷歌的行为构成合理使用,因此判决谷歌胜诉。

· 谷歌诉甲骨文案

该案件是软件版权领域的一个重要案例,对API的版权地位以及合理使用原则在软件领域的应用具有深远影响。

  1. 案件概述
    • 谷歌在开发安卓操作系统时,复制了甲骨文公司所有的37个Java API。
  2. 争议内容
    • 甲骨文公司认为谷歌未经授权使用Java API,侵犯了其版权,并因此向谷歌提起诉讼。
  3. 法院裁决
    • 经过多年的诉讼,2021年4月,美国最高法院最终裁定谷歌的行为属于合理使用,因此谷歌胜诉。

该案件体现了合理使用原则在版权法中的应用,特别是在转换性使用与潜在市场影响之间的权衡。这一裁决对媒体监测服务的版权问题提供了法律指导。

  1. 案件概述
    • TVEyes公司开发了一项服务,用户可以通过文本搜索电视节目,并观看录制的10秒片段。
  2. 争议内容
    • 福克斯新闻认为TVEyes公司未经授权使用其节目内容,侵犯了其版权,因此提起诉讼。
  3. 法院裁决
    • 2018年,第二巡回法院判决TVEyes公司的行为不构成合理使用,福克斯新闻胜诉。
  4. 判决依据
    • 法院认为,虽然TVEyes的服务对电视节目内容进行了转换性(transformative)使用,但其服务模式实际上影响了福克斯新闻的潜在收入来源,因此不支持合理使用的辩护。

· 凯利(Kelly)诉Arriba软件公司案

该案件是关于搜索引擎使用图片缩略图的合理性的重要判例,对网络环境下的版权使用和合理使用原则的界定具有指导意义。

  1. 案件概述
    • Arriba软件公司开发了一个搜索引擎,该引擎能够索引图片并展示它们的缩略图。
  2. 争议内容
    • 凯利认为Arriba未经授权使用了他的图片,侵犯了他的版权,因此向Arriba提起诉讼。
  3. 法院裁决
    • 2003年,第九巡回法院审理此案,并最终裁定Arriba使用图片缩略图的行为构成合理使用
  4. 判决依据
    • 法院认为Arriba的搜索引擎对图片的使用具有转换性,且对原图片的市场影响有限,因此支持了Arriba的合理使用辩护。

· 世嘉(Sega)诉Accolade案

该案件是关于版权法中合理使用原则的重要判例,特别是在技术领域中对逆向工程的法律界定。这一裁决对后续的版权案件和市场竞争法有着深远的影响。

  1. 案件背景
    • 世嘉在1989年推出了Genesis游戏机。
  2. 争议内容
    • Accolade希望为Genesis开发游戏,但世嘉要求独家发布权并额外收费。
  3. 技术争议
    • Accolade通过逆向工程世嘉的代码,绕过了世嘉的安全锁定机制,开发了新游戏版本。
  4. 法律行动
    • 世嘉认为Accolade侵犯了其版权,于1991年提起诉讼。
  5. 法院裁决
    • 1992年,第九巡回法院判决Accolade胜诉,认为其行为构成合理使用
  6. 判决依据
    • 法院认为Accolade的游戏虽然使用了世嘉的代码,但内容大部分为原创,且促进了市场竞争,有利于公众利益。同时,没有证据表明Accolade的行为减少了世嘉的市场份额。
  7. 法律概念
    • 法院还指出,Accolade的行为是”非表达性”的,即它访问的是游戏的思想和事实,而非其表达方式。

公平学习一文中主张机器学习属于合理使用:

  1. 合理使用主张:机器学习对数据的使用具有转换性,它改变了数据的使用目的而非作品本身。
  2. 关注点区分:机器学习系统更关注于数据背后的思想,而非具体的表现形式。
  3. 支持理由
    • 允许机器学习使用数据可以促进社会整体技术进步。
    • 限制数据使用会阻碍创造新价值的能力。
    • 有研究认为使用版权数据在某些情况下可能更符合公平原则(Levendowski, 2018)。
  4. 反对理由
    • 机器学习系统可能不创造传统意义上的创造性产品,而只是商业盈利工具。
    • 机器学习生成模型可能与创意行业从业者形成竞争。
    • 机器学习系统可能带来社会问题,如散布虚假信息和支持监控等。
  5. 实际操作挑战:在机器学习领域,区分受版权保护的表达和不受保护的思想具有难度。
  6. 政策与法律考量:尽管机器学习系统可能存在多种问题,但需要探讨版权法是否是解决这些问题的最佳工具。

在大型语言模型的背景下,版权和机器学习的未来非常不确定。

回顾信息技术的历史,我们可以看到三个阶段

  • 第一阶段:文本数据挖掘,主要依赖于简单的模式匹配技术,如搜索引擎。
  • 第二阶段:内容分类和推荐系统,例如识别停止标志或进行情感分析。
  • 第三阶段:生成模型,这些模型学习并模仿原始表达方式。

生成模型的挑战

  • 从GPT-2等模型中提取训练数据可能引发隐私问题。
  • 语言模型如果逐字输出《哈利·波特》等作品,可能会违反合理使用原则。
  • 即使模型没有直接复制,但由于训练过程中使用了受版权保护的作品,版权问题依然存在。

版权与竞争问题

  • 语言模型可能与创作者形成竞争关系,例如,模型在训练了某作家的三本书后,自动生成第四本书。

未来展望

  • 大型语言模型对版权法和机器学习领域的影响是一个开放的问题,未来的发展和法律的适应性仍在进行中。

接下来,我们将简要讨论一些隐私法的例子。

Clearview AI

  • 该公司于2017年成立。
  • 2019年,《纽约时报》的一篇文章揭露了Clearview AI。
  • 截至2021年10月,他们已经从Facebook、Twitter、谷歌、YouTube、Venmo等网站抓取了超过100亿张面部图像。
  • Clearview AI将数据销售给执法机构(例如联邦调查局FBI)和商业组织。
  • 公司主张其根据第一修正案拥有获取公共信息的权利。
  • 因侵犯隐私权,Clearview AI面临诉讼。
  • 伊利诺伊州的生物识别信息隐私法(自2008年起实施)对私营实体使用生物识别标识进行了规范(该法律不包括政府实体)。 因此,Clearview AI已经移除了与伊利诺伊州相关的数据。
  • 欧盟的汉堡数据保护局(DPA)认定该公司在欧盟范围内的业务为非法。

加利福尼亚消费者隐私法案(2018年)

  • 赋予加利福尼亚居民以下权利:
    • 了解有关他们的个人数据是什么。
    • 了解他们的个人数据是否被出售或披露,以及出售或披露给了谁。
    • 拒绝出售个人数据。
    • 访问他们的个人数据。
    • 要求企业删除从该消费者那里收集的任何个人信息。
    • 行使隐私权时不受到歧视。
  • 个人数据包括:真实姓名、别名、邮寄地址、独特的个人标识符、 在线标识符、互联网协议地址、电子邮件地址、账户名称、社会安全号码、 驾驶执照号码、车牌号码、护照号码等。
  • 适用于在加利福尼亚州运营且年收入至少为2500万美元的企业。
  • 目前联邦层面还没有相应的法律。
  • 与通用数据保护条例(GDPR)不同,它不允许用户更正数据。

加利福尼亚隐私权法案(2020年)

加利福尼亚隐私权法案(CPRA)是对该州消费者隐私保护的进一步加强,提供了更多的透明度和控制权,旨在加强对个人信息的保护,并确保消费者能够更有效地管理自己的数据隐私。

  • 成立加利福尼亚隐私保护局。
  • 将于2023年1月1日生效,适用于2022年1月1日之后收集的数据。
  • 法案意图:
    • 了解谁在收集他们及其子女的个人信息,这些信息如何被使用,以及被披露给谁。
    • 控制他们的个人信息的使用,包括限制对他们敏感个人信息的使用。
    • 访问他们的个人信息,并有能力更正、删除和传输他们的个人信息。
    • 通过易于访问的自助工具行使他们的隐私权。
    • 行使隐私权时不受惩罚。
    • 追究企业未能采取合理的信息安全预防措施的责任。
    • 从企业使用他们的个人信息中获益。
    • 即使作为雇员和独立承包商,也保护他们的隐私利益。

通用数据保护条例(GDPR)

GDPR是一套旨在加强和统一数据保护规定的法律框架,对企业的数据处理活动提出了更高的透明度和责任要求,同时也赋予了数据主体更多控制其个人数据的权利。

加利福尼亚州机器人披露法案

  • 使用机器人与个人沟通而不披露其为机器人是非法的。
  • 限制条件:仅适用于激励销售或影响选举中投票的情况。
  • 限制条件:仅适用于每月有1000万美国访客的面向公众的网站。
  • 在我们训练大型语言模型时,我们必须面对版权和合理使用的问题。
  • 网络爬取的未经筛选特性意味着我们必须依赖合理使用的辩护(从每个人那里获得许可将是极其困难的)。
  • 模型的生成性可能会为合理使用的辩护带来挑战(可能与人类竞争)。
  • 应该在哪个层面进行监管才有意义(是语言模型本身还是其下游应用)?
  • 这一领域正在迅速发展,将需要深入的法律和人工智能专业知识才能做出明智的决策!