跳转到内容

第七节:环境影响

首先,我们提出问题:大型语言模型对环境有什么影响?

气候变化。 一方面,我们都听说过气候变化的严重危险(文章文章):

  • 我们已经比工业化前水平高出1.2°C
  • 需要保持在1.5°C以下以避免气候危机
  • 根据当前轨迹,在未来几十年内将达到2.7°C 气候变化影响

大型语言模型。 另一方面,我们看到训练大型语言模型所需的计算量大幅增加(从而对排放做出贡献)。 以下是一些示例数据点:

  • Strubell等人2019估计,训练产生了626,000磅的CO2当量(5辆汽车的终身排放)。
  • DeepMind的Gopher报告称,训练产生了估计380净公吨CO2当量。

如何将大型语言模型与环境影响联系起来?

学习目标:

  1. 对大型语言模型如何适应更大的环境故事有一个全面的了解
  2. 能够计算排放影响,了解训练特定语言模型的影响。
  3. 提高对监测和减轻(负面)环境影响的意识,甚至个人责任感。

注意事项:

  • 本讲座专门关注理解(环境)成本。 大型语言模型的好处需要在权衡中考虑。 如何做到这一点非常具有挑战性。
  • 同时,好处和成本通常在世界人口中非常不均匀地分布, 成本“不成比例地落在穷人和弱势群体”上。
  • 所呈现的所有数字都是估计,因为:
    • 数据中心缺乏监控和信息,
    • 通常这些信息是专有的,
    • 很难用摊销成本进行信用/责任分配 (例如,建造数据中心+训练许多模型,训练一个模型+将其适应到许多下游任务)。

本节主要基于Ligozat等人(2021)

哲学。 大多数关于人工智能和机器学习对环境影响的工作都集中在温室气体排放上(由气候变化驱动), 但重要的是(尽管困难)采取系统方法来思考:

  • 对IT设备的完整环境影响(排放,水足迹)的
  • 完整生命周期(例如,生产,使用,生命周期结束)。

生命周期评估(LCA)

  • 生命周期评估(LCA)(ISO 14040和14044)提供了一个执行此操作的框架。
  • 需要“采取系统视角”以避免“解决一个问题会创造几个新的通常被忽视的问题”。

IT设备的生命周期:

  • 生产
    • 原材料提取:提取矿石并转化为金属的所有过程
    • 制造:包括创建设备的所有过程
    • 运输:运送设备
  • 使用:实际设备的能耗
  • 生命周期结束:拆卸,回收/处置设备

生命周期中的考虑因素:

  • 生产
    • 我们没有GPU/TPU的生命周期评估
    • 法国的CPU仅数据中心:40%的温室气体排放是由于生产阶段(Berthoud等人2020
    • 数据中心是为多个目的而建的,需要进行信用分配以确定由于大型语言模型的份额是多少 (很难提前估计,因为事情变化很快)。
    • 示例:制造占iPhone 5总排放量的75%
  • 使用
    • 主要取决于能源来源的碳强度(煤炭或水电)
  • 生命周期结束
    • 通常没有很好的记录
    • 80%的电子设备没有正式收集

“使用”阶段:

  • 数据:需要获取,生产和存储数据
  • 学习:投资于训练大型语言模型
    • 这包括实验和超参数调整。
    • 这是一个“一次性成本”…直到您需要再次更新模型。
  • 推理:在生产中运行模型
    • 示例:Google每天收到56亿次搜索查询(来源)。
    • 通常部署的是一个更小的模型,是从大型模型中提取出来的(如果特定于任务,可以小得多)。
    • 如果您需要进行多个预测(例如,情感,主题分类等), 可以一次编码句子(例如,BERT)并使用不同的任务特定头部。

AI生命周期

环境影响:

  • 温室气体排放:导致气候变化
  • 水足迹:淡水在某些地区是稀缺资源
    • 数据中心使用水进行冷却(这需要电力)
    • 发电是第二大水消费者, 处理水和废水需要电力
  • 人类毒性:释放到环境中的化学物质(空气,水,土壤)可能导致癌症等。
    • 芯片制造在硅谷制造有毒废物场所
  • 非生物资源枯竭

其他二阶效应(更多细节):

  • 更高的效率创造了更多的需求(回弹效应Jevon悖论
  • 环境变化(加速荒漠化,增加灭绝率)
  • 永久冻土融化反过来加速温室气体排放
  • 芯片短缺导致汽车制造停产
使

虽然考虑整个生命周期很重要, 我们将主要关注气候变化和温室气体排放, 因为这正是人工智能和机器学习环境影响的大部分关注点。

温度正在上升:

  • 平均地表温度自1900年以来上升了2.14˚F(1.19˚C)。
  • 最热的10年发生在2005年之后。
  • 温度随时间增加(来源): 温度图

负面影响:

  • 自然灾害增加(极端热浪,洪水,干旱,野火)
  • 海平面上升破坏沿海社区,野生生物生态系统

原因:

  • 温室气体(二氧化碳,甲烷,氧化亚氮) 排放到大气中 捕获太阳的热量(过去80000年的相关性

    • 自1970年以来增加了90%(来源)! 排放图
  • 加速了人类活动:

    • 燃烧化石燃料(煤,油,天然气)用于发电,制造,运输(汽车,卡车,船只,飞机)
    • 种植作物(肥料)
    • 砍伐森林(例如,创建农场) 按行业排放

碳排放量的测量是公斤CO2当量

  • 每种温室气体都有一个全球变暖潜能(GWP):
    • 取决于(i)吸收的热量量和(ii)它在大气中停留的时间。
    • 对于CO2,GWP = 1(定义为参考)。
    • 对于甲烷,GWP = 100年为25。
    • 对于氧化亚氮,GWP = 100年为300(因为它在大气中停留的时间很长 - 121年)。

能源使用和温室气体排放

段落标题 能源使用和温室气体排放

我们到目前为止讨论了温室气体排放及其对气候变化的影响, 这是一种特别突出的环境影响形式。 数据中心使用能源(以电力形式)。 这如何映射到排放? 答案是这取决于电力是如何产生的。

碳强度:每千瓦时能源使用排放的碳量(来源

  • 化石燃料(煤,天然气)产生最多的排放(来自直接排放)
  • 其他绿色能源(太阳能,风能)如果在考虑整个生命周期(发电厂建设,采矿,废物管理)时也有排放
  • 在魁北克(水电)运行相同工作将比爱沙尼亚(煤炭)少30倍排放

电力排放

来自Lacoste等人(2019)按国家排放

de Chalendar等人2019

  • 取决于位置(那里有什么类型的发电厂)
  • 取决于时间效应(季节,一天中的时间)
  • 电力交换意味着更难以跟踪,负面影响通常在其他地方
    • 加州主要平衡机构(BA)的40%排放是其他地方产生的

数据中心统计数据(Md Abu Bakar Siddik等人,2021):

  • 从全球来看,数据中心在2018年使用了205十亿千瓦时的电力(占总电力使用的1%)。
  • 在美国,数据中心在2014年使用了1.8%的电力。
  • 所有数据中心中有30%位于美国。
  • 数据中心可归因于美国总温室气体排放的0.5%。
  • 好消息:从2010年到2018年,计算工作量增加了550%,但电力消耗仅增加了6%(由于能效提高)。

估算模型训练的排放

段落标题 估算模型训练的排放

现在让我们尝试计算训练作业的能源使用,从而估算温室气体排放。

ML CO2影响计算器Lacoste等人,2019) 提供了一个基于硬件,使用时间,提供商和地区估算排放的简单方法。

这是第一篇真正在NLP社区内引起环境影响意识的论文。

计算能力使用千瓦时:

  • :来自CPU的平均功率(W)
  • :来自GPU的平均功率(W)
  • :来自DRAM的平均功率(W)
  • :电力使用效率:供应给数据中心的总功率/ IT设备的功耗

他们使用了平均值:

  • (2018年数据中心的全球平均值)
  • (2018年平均排放 - 每千瓦时磅)

结果

  • BERT-base(1.1亿参数):1438磅CO2当量
    • NVIDIA在64个V100 GPU上训练79.2小时
  • 神经架构搜索(2.13亿参数)以获得Evolved Transformer So等人(2019):626,155磅CO2当量
    • 基础模型在单个TPUv2上训练10小时(300K步)
    • 结束模型需要32,623小时训练(979M步)
  • 从纽约到旧金山往返航班的1名乘客:1984磅CO2当量(0.9 tCO2当量)
  • 汽车的寿命:126,000磅CO2当量

简单公式:

  • NVIDIA:80%的ML工作量是推理,而不是训练

许多设计决策

  • 模型架构:Transformer与Evolved Transformer
  • 处理器:NVIDIA的P100与Google TPU
  • 数据中心:平均(1.58)与Google的(1.11)
  • 能源供应混合(例如,煤炭,水电):平均(0.429公斤CO2当量/千瓦时)与Google的(0.080公斤CO2当量/千瓦时)
    • 注意:总值为0.478,净值为0.080
    • 扣除出售给其他公司的清洁能源

Google排放

对于训练:

模型估算:

  • T5:86 MWh,47 tCO2当量
  • GShard(机器翻译的专家混合):24 MWh,4.3净tCO2当量
  • Switch Transformer:179 MWh,59 tCO2当量
  • GPT3:1287 MWh,552 tCO2当量

对Strubell等人(2019)的神经架构搜索估算的反驳:

  • 搜索的小代理任务,因此高了18.7倍
  • 神经架构搜索只做一次,现在每个人都可以使用Evolved Transformer
  • 排放量高估了88倍

要点:

  • 如果可能的话,测量比在线计算器更好
  • Google使用了12.2 tWh(训练Google的4个最大模型不到0.005%)
  • 这是比特币挖矿所花费计算的1/10
  • 环境影响是一个巨大的话题。一切都相互联系,因此很难得到一个清晰的量化指标。 但确实应该看看全局。
  • 虽然大型语言模型的总足迹今天很小,但它正在迅速增长。
  • 大型语言模型的通用性质提供了节省潜力(“训练一次”并应用于许多不同的任务)。 但它们更昂贵,需要重新训练。 权衡是什么?
  • 缓解
    • 尝试在清洁能源数据中心训练模型
    • 碳抵消的有效性各不相同(植树造林活动产生单一文化)
    • 更高效的模型架构,训练程序,硬件(但要注意回弹效应)
  • 报告
    • 提高意识(想象一下,如果每篇论文都报告排放)
    • 调整激励(人们目前专注于准确性,但碳排放也很重要!)

一般信息: