大模型炼丹指南：信则灵，不信则妄

2023/04/28 09:44 远川研究所陈彬

　　每一个大模型都是一台昂贵的“碎钞机”，这已经成为各路AI观察家们津津乐道的常识。

　　大模型训练成本有一个简单的比例：训练费用跟参数量的平方成正比。比如OpenAI训练1750亿参数的GPT-3费用大概是1200万美元，训练5000亿参数(业界预估)的GPT-4成本就飙升至1亿美元。

　　成本大都来自GPU使用时长。Meta训练650亿个参数的LLaMA模型耗费100万个GPU小时;HuggingFace(号称机器学习届的Github)训练Bloom模型耗费了超过两个半月的时间，使用的算力相当于一台装有500 个 GPU的超级计算机。

　　Google在训练5400亿参数的PaLM模型时，在6144 块 TPU v4 芯片上训练了 1200 小时，然后又在在 3072 块 TPU v4 芯片上训练了336小时，总共消耗了2.56e24 FLOPs的算力，折合成Google云计算的报价，大概在900~1700 万美元左右。

　　但是……几百上千万美金的训练费用和几亿美金的硬件投入，相比AIGC开启的浪潮，真的算贵吗？

　　微软2022年的净利润是727亿美金，Google是600亿美金，Meta则是230亿美金，在OpenAI花费460万美金训练GPT-3之前，这些巨头都投入了几十甚至上百亿美金用来寻找所谓的“新方向”。

　　微软迄今为止向OpenAI投入了100多亿美金，这个数字看起来很多，但要知道微软当年收购LinkedIn就花了262亿美金，而在更早的时候收购诺基亚手机业务花了71.7亿美金，基本等于打了水漂。

　　Meta则花了更多“冤枉钱”来寻找第二曲线。2021年扎克伯格把Facebook的名字改成了“Meta”，投入巨资All in元宇宙，2022年元宇宙部门亏损137亿美元。在ChatGPT问世之前，Meta甚至一度准备把2023年的20%预算投入到元宇宙中去。

　　Google对AI一向重视，不仅收购了“前GPT时代”的明星DeepMind，还是Transformer这一革命性模型的提出者，但Google并没有像OpenAI那样孤注一掷地“死磕”大语言模型，而是在多个方向上“撒胡椒面”——总投入并不少，但效果加起来都不如一个ChatGPT。

　　拉开视野来看，全球科技巨头——包括国内的大型互联网企业在移动互联网渗透率见顶之后，展开了惨烈的“存量博弈”，卷算法推荐、卷短视频、卷Web3、卷本地生活……投入的资金远远超过OpenAI在ChatGPT诞生前烧掉的10亿美金。

　　发现新大陆的费用，跟旧大陆的内耗向来不在一个数量级。欧洲人在哥伦布发现新大陆之前内卷了1000年，而发现新大陆只花了西班牙王室投资的200万马拉维迪(大约14000美元)——跟新大陆给世界带来的变化相比，这点儿钱其实微不足道。

　　事实上，“资金”从来都不是启动本轮AI浪潮的核心因素。真正核心的因素是另外两个字：信仰。

　　蛮力的神迹

　　ChatGPT走红后，好事儿的媒体跑去采访了Google旗下的DeepMind创始人Demis Hassabis。

　　被OpenAI抢去了所有风头的Hassabis言辞有点儿不客气：“面对自然语言这一挑战，ChatGPT的解决方案如此不优雅——仅仅是更多的计算能力和数据的蛮力，我的研究灵魂对此倍感失望。”

　　这句话听起来很“酸”，然而他接着话锋一转：“但这的确是获得*结果的方式，所以我们(的大模型)也以此为基础。”意思就是虽然不太认同，但OpenAI的“蛮力”真的很香，我们也不得不去学。

　　Hassabis身段灵活，但早期对“蛮力”这件事的态度，让Google和OpenAI有了致命的分野。

　　2017年，谷歌在论文中公开了革命性的Transformer模型，业界逐渐意识到这个模型对于构建AGI(通用人工智能)的意义。然而，基于同样的Transformer，谷歌与OpenAI却走上了两条不同的两条路。

　　OpenAI旗帜鲜明地从Transformer构建大语言模型，疯狂堆参数，2018年6月发布GPT-1，参数1.17亿;2019年2月发布GPT-2，参数15亿;2020年5月发布GPT-3，参数1750亿，在蛮力的道路上“一条路走到黑”。

　　而Google虽然也地祭出BERT(3亿参数)、T5(110亿参数)和Switch Transformer(1.6万亿参数)，表面上跟OpenAI斗的有来有回，但光从模型的名字就能看出来：Google总在更换模型搭建的策略，而OpenAI的策略更单一更专注。

　　比如GPT-2和GPT-1相比，OpenAI没有重新设计底层结构，而是将Transformer堆叠的层数从12层增加到48层，并使用了更大的训练数据集，而GPT-3进一步把层数增加到了96层，使用比GPT-2还要大的数据集，但模型框架基本上没有改变。

　　另外，基于Transformer的大模型演化有三个分支：Encoder Only，Encode-Decoder，Decoder Only。OpenAI一直坚持只用Decoder Only方案，而Google则变来变去：BERT模型使用Encoder Only，T5模型又改成了Encode-Decoder。

　　等到OpenAI突破后，Google匆忙转向Decoder Only方案(PaLM模型)，时间已经错失了至少一年半。

　　在跟OpenAI的军备竞赛中，Google却总沉浸在一些貌似炫酷，但实则对AI缺乏信心的产品上——比如2022年发布的Gato。Gato的思路是先做一个大模型底座，然后再灌不同的数据，以此生成出大量小模型——每个小模型都有特定的能力。

　　这么做的目的是让单个AI具备尽可能多的功能，更加通用。做一个简单的类比：谷歌路线相当于让一个上完九年义务教育的12岁小孩儿，去参加钢琴、写作、编程、舞蹈等一系列专业技能培训班，靠着“1+1+1...”培养出一个多才多艺的“全才”。

　　Gato能执行604种不同的任务，包括给图片配文、玩雅达利游戏、操作机械臂搭积木。不过，Gato虽做到了“通才”，但实用性却相当堪忧：其中近一半功能，还不如便宜小巧的“专才AI”好使，有媒体评价：一个平庸的人工智能。

　　“*”但又不那么*的Gato

　　相比之下，OpenA更热衷于让AI“做好一件事”，即像人类一样理解自然语言——这是通向AGI的必经之路。

　　在所有站在Transformer模型肩膀上的团队中，OpenAI是把“蛮力”发挥到最淋漓尽致的一个，算力不够就买算力，数据不够就找数据，别人的牛逼技术我直接拿来用，反正就是要把规模堆上去。终于，在“暴力美学”的指引下，奇迹出现了。

　　从成立*天起，OpenAI就把创造接近甚至超越人类的AGI(通用人工智能)作为几乎*的目标。而且相比Google的迟疑不定，OpenAI发起人们(包括马斯克)是真的相信AI可以成为一个18岁的成年人，而不是永远停留在12岁上打转。

　　黄仁勋在今年3月对谈OpenAI联合创始人Ilya Sutskever时，问了一个问题：“在这个(GPT研发的)过程中，你一直相信，扩大规模会改善这些模型的性能吗?” Ilya回答道：“这是一个直觉。我有一个很强烈的信念，更大意味着更好。”

　　这是一场蛮力的胜利，但更是一种信仰的胜利。大模型回报给“信仰”的礼物，也远超想象——随着参数量的暴力提升，研究人员突然有一天发现大模型出现了令人惊喜，但又难以解释的能力飙升。

　　他们找了一个老词来形容这种现象：Emergence(涌现)。

　　虔诚的回报

　　Emergence(涌现)这个词，常见于哲学、系统学、生物学等领域，其经典的定义是：当一个实体被观察到具有各个部分单独存在时不具备的属性和能力时，这种现象就被称之为“涌现”，早在古希腊时代，这种现象就被亚里士多德研究过。

　　后来，英国哲学家George Lewes在1875年*次发明了Emergence这个词，用来专门形容上述现象。1972年，诺贝尔物理学奖得主Philip Anderson撰写了一篇名叫“More is Different”的文章，用一句经典的金句来给“涌现”做了解释：

　　当一个系统的量变导致质变时，就称之为“涌现”。

　　“涌现”被引入到大模型中，可以说是相当贴切：AI工程师们观察到一个现象，随着模型的参数量越来越大，当超过某个阈值或者“临界点”的时候——比如参数量达到100亿，模型会出现一些让开发者完全意想不到的复杂能力——比如类似人类的思维和推理能力。

　　比如，Google大模型测试基准BIG-Bench里有一项任务：给出4个emoj表情符号，让模型回答代表什么电影。简单和中等复杂度的模型都回答错了，只有参数超过100亿的大模型会告诉测试者[4]：这是电影Finding Nemo(海底总动员)。

　　2022年，来自Google、DeepMind、斯坦福和北卡莱罗纳大学的学者分析了GPT-3、PaLM、LaMDA等多个大模型[3]，发现随着训练时间(FLOPs)、参数量和训练数据规模的增加，模型的某些能力会“突然”出现拐点，性能肉眼可见地骤然提升。

　　这些“涌现”能力超过了137多种[5]，包括多步算术、词义消歧、逻辑推导、概念组合、上下文理解等。这项研究给大模型的“涌现”下了一个定义：如果一项能力只有在大模型中存在，在小模型中观测不到，这项能力就是“涌现”出来的。

　　微博博主tombkeeper做过这样一个测试：在ChatGPT刚诞生时，他将发表于2018年的一篇充满隐喻的微博——“对微博上的佩奇来说，今天是黑暗的一天——她们的摩西杀死了她们的加百列”，交给ChatGPT理解，但ChatGPT回答失败了。

　　来源：微博tombkeeper

　　而等到2023年3月OpenAI推出了GPT-4，tombkeeper再次将这个问题扔给AI，回答基本接近满分。

　　来源：微博tombkeeper

　　Google在训练大模型PaLM时，也发现随着参数规模的增加，模型会不断“涌现”出新的能力。

　　当最终把PaLM的参数堆到5400亿时，模型就具备了区分因果关系、理解上下文概念、解释冷笑话等能力。比如像前文一样根据4个emoj表情符号来猜电影名字。

　　对于大模型“涌现”的背后逻辑，现在几乎没有科学家能彻底讲清楚。这让人想起了1950年阿兰·图灵在《计算机器与智能》这篇论文中论述过一个观点：“学习机器有一个重要的特征，即它的老师往往对机器内部运行情况一无所知。”

　　当然，有人对此欣喜若狂，有人则会觉得毛骨悚然。不过无论是哪一派，都不得不承认那句老话：大力真的能出奇迹。“大力”背后就是信仰——人类一定可以用硅基来模仿大脑结构，最终实现超越人类的智能。而“涌现”告诉我们：这一刻越来越近了。

　　信仰的充值

　　有信仰，就要对信仰充值。中世纪基督徒用的是赎罪券，新世纪AI信徒用的则是晶体管。

　　文心一言面世之后，李彦宏的一段采访曾冲上热搜——李厂长直言“中国基本不会再诞生一家OpenAI”，这似乎有点儿不太给王慧文面子[9]。但这一观点确实有理有据：大模型军备竞赛，大概率会比曾经烧掉数十亿美金的网约车战争还要惨烈。

　　如果按照业界预估的成本，GPT-4训练成本大约在1亿美金左右，GPT-3的训练费用也要1200万美元。先不说昂贵的人才团队费用，王慧文的5000万美元光是投入到GPU购买或租赁上，都显得捉襟见肘。

　　大模型发展的三要素：算法、算力、数据。其中算力是数字时代的“石油”，未来的缺口一定会越来越大。自2012年开启黄金时代后，AI对算力的需求开始呈现指数级增长。从2012年的AlexNet，到2017年的AlphaGo Zero，算力消耗足足翻了30万倍。

　　训练大模型需要专门的GPU集群，传统数据中心的用场不大。微软为了“迎娶”OpenAI，曾特地配备了一台拥有数万块A100与*** GPU的超级计算机，光硬件入场费就花了近10亿美金[1]。

　　即便如此，据相关机构测算，由于ChatGPT与GPT-4的访问量仍在增长，10亿美金的超级计算机马上又要不够用了。要么进一步扩大算力，要么只能尽力控制成本，继续采用限流等手段[12]。

　　对此，贴心的卖铲人英伟达推出了AI超算云服务：租赁8块旗舰版A100，每月只需37000美元，童叟无欺。若要达到训练GPT-4的算力(一万块A100)月租金需4600万美元左右——每月净利润不足一个小目标的企业，的确可以洗洗睡了。

　　跟用神经网络来模仿大脑一样，AI算力的昂贵也跟人脑的属性保持一致。

　　一个人的大脑大约有860亿个神经元，每个神经元平均跟其它7000个神经元相连接，所以大约有6000万亿个连接。尽管大脑的重量只占人体的2%左右，但当无数神经元连接工作的时候，它们每天需要消耗人体总能量的20%～30%。

　　因此，即使是碳基生物的“智能”，也是一种暴力堆砌神经元后的“涌现”，对能量的消耗巨大。而相比经过上亿年进化的碳基神经元，晶体管构建的神经网络离“低功耗”相距甚远——比如柯洁功率是20w，而跟他下棋的AlphaGo功耗是他的5万倍。

　　因此，人类要想做出真正的AGI，还需要继续给信仰来充值。

　　对全人类来说，这种充值显然是无比划算的。仔细算一算，OpenAI烧掉的10亿美金，不仅给全球的科技公司找到了一片“新大陆”，还给愈发内卷的全球经济点亮了增量逻辑。在美元泛滥的当下，还有比这10亿美元性价比更高的项目吗?

　　当“新大陆”被发现后，全世界都会蜂拥而至。比尔·盖茨虽然现在是AI的狂热鼓吹者，但早在微软*次投资OpenAI时，他是强烈的怀疑者，直到去年年底看到GPT-4的内部演示才对外表示：It’s a shock，this thing is amazing。

　　比尔·盖茨在未来可能拥有人工智能领域最雄伟大厦的冠名权，但OpenAI的创始人们、以及更多连接主义学派的人工智能先驱，值得人们在广场上树立雕像。大模型的炼丹之路，信则灵，不信则妄，跟风的投机主义者不配留下姓名。

　　最后，人类通往地狱或者天堂的道路，一定是由AI虔诚的信徒用一颗颗晶体管铺就的。

　　参考资料

　　[1] ChatGPT and generative AI are booming, but the costs can be extraordinary, CNBC

　　[2]Microsoft spent hundreds of millions of dollars on a ChatGPT supercomputer，The Verge

　　[3]Emergent Abilities of Large Language Models, Jason Wei等，TMLR

　　[4]The Unpredictable Abilities Emerging From Large AI Models

　　[5]137 emergent abilities of large language models, Jason Wei

　　[6]Harnessing the Power of LLMs in Practice

　　[7]Alphabet’s Google and DeepMind Pause Grudges, Join Forces to Chase OpenAI，The Information

　　榜单收录、高管收录、融资收录、活动收录可发送邮件至news#citmt.cn（把#换成@）。

分享到微博分享到微信

大模型炼丹指南：信则灵，不信则妄

相关阅读

新动态

关注度

最话题