首页 > 资讯 > 数字化

8个月238个大模型，中国AI奔向何处？

2023/12/06 14:47 微信公众号“光锥智能” 郝鑫、黄小艺

　　本文来自微信公众号“光锥智能”(ID:guangzhui-tech)，作者:郝鑫、黄小艺，编辑:刘雨琦。

　　文|郝鑫、黄小艺

　　编|刘雨琦

　　2022年11月30日，是ChatGPT面世的第一天。

　　至今整整一年的时间，“人类与AI的未来”撕开科幻的外衣，正式踏入现实。

　　在商业世界，新技术一路狂奔，引发百模大战，一批创业公司如雨后春笋，退入幕后的大佬们纷纷下场，激烈的竞争中兴奋、迷茫、挫败相互交织;

　　而在普通人的生活中，既有AI模特、AI画师等“新职业”引发下岗潮的恐慌，也有靠AI知识培训月入一套房的弄潮儿，就连萧山丈母娘，也知道该瞄准大模型工程师。

　　然而，伴随着OpenAI的宫斗闹剧，摆在所有人面前的是当AI作为新物种出现，生而为人数千年，巨变之下，何为我们?

　　美国物理学家费曼曾说，“我们每个人都有一把开启通往天堂的钥匙，很不幸，这把钥匙同时能够开启地狱之门。”

　　害怕AI不够强大，又害怕AI太过强大，是人类心中一道永远在摇摆的天平。

　　在《流浪地球》的电影中，在极度不稳定的现实中，人们依赖于从MOSS身上得到确定性，而后又因恐惧MOSS失控，启动“隔离计划”，将其封存在北极与空间站。

　　人工智能究竟如何改变了人类社会?有哪些具体而又深刻的影响?是否将重塑我们的世界?巨变之中有哪些机遇与风险?在全球的科技竞赛中，中国的位置在哪?优势又在哪?一个个看似遥远而又宏大的问题，突然迫在眉睫。

　　炒作与机遇齐飞，理智与理想并存，关于大模型的答案之书，需要每个人的回答。

　　2023年，大模型完成三级跳

　　八个月内就诞生了238个大模型，每隔一天中国就会官宣一个新的大模型，这是2023年的中国速度。

　　回顾这一年，ChatGPT火爆后不到一个月的时间，阿里、华为、腾讯、京东、字节、360、商汤、科大讯飞等一众大厂纷纷下场，或官宣入场或亮相大模型。

　　百模大战一触即发，数据显示，战事最胶着之际，国内一个月就能冒出30多个大模型。截至2023年10月，我国拥有10亿参数规模以上大模型的厂商及高校院所达到了254家，从“一百模”升级至了“二百模”。

　　但混战只是短暂性的阶段，仅三个月后，大模型行业就迎来了过滤分层，泥沙俱下过后，行业格局也逐渐变得明朗起来。

　　“高校和研究者关注基础研究，培养人才;大厂提供算力支撑、基础设施建设和MaaS服务;创业公司做大模型应用开发”，复旦大学计算机学院教授、Moss系统负责人邱锡鹏在2023腾讯ConTech大会上总结道。

　　底层是高校，中间层是大厂，最上面一层是大模型创业公司，分工清晰，各司其职，构成了当下的中国大模型版图。

　　IDEA研究院、智源研究院、中科院自动化研究所、上海人工智能实验室、复旦大学、清华大学等高校和研究所，最早在技术路径发展上关注、跟随OpenAI的步伐。基于先一步市场的洞察，这些研究院所发布的论文、开源大模型、数据集和工具，都为中国大模型的诞生、迭代打下了基础。

　　此外，这些高校也在源源不断地向市场上输送人才。清华系创业团队撑起了国内大模型创业的“半壁江山”，王慧文、王小川等互联网大佬高调入局，智谱AI、面壁智能、月之暗面等公司创始人师出同门。据不完全统计，近期活跃的AI大模型创企中，拥有清华背景的创始人至少有17位，涉及11家企业。

　　中间层的大厂，进一步划分有两类。一类是腾讯、百度、阿里、华为、字节等互联网大厂，凭借着在云计算和技术方面的积累，一方面可以自研通用大模和行业大模型，把现有的产品全部重做一遍，结合已经打透的行业，落地大模型解决方案;另一方面也可以给企业客户和创业公司提供模型训练的算力支撑，以MaaS的形式提供一站式的大模型服务。

　　第二类是AI1.0时代的科技公司，如商汤、云知声、科大讯飞等。结合在语音、CV方面的优势，在此基础之上研发大模型，商汤继承在CV方面的优势，发布了“日日新”大模型;云知声延续其在语言方面的优势，发布了山海大模型，展现在医疗问诊方面的能力。

　　随着大模型地基的进一步稳固，基础能力走向成熟，今年下半年，创业从想法落实到了行动，开始涌现出一批“黑马”创业公司。

　　名校、技术、行业经验三重背景拉满，一出道就奔驰在了大模型的快车道上。

　　百川智能以平均28天的速度迭代大模型，探索医疗问诊，预计明年推出第一款AI应用，剑指超级App;智谱AI今年累计获得融资25亿元人民币，一举成为国内公开融资最高的大模型创业企业之一;MiniMax海外推出的AI角色扮演类应用Talkie，增速一度跑赢国外同期明星产品Character AI;月之暗面从长文本技术切入，未来瞄准C端应用，正在探索AI角色扮演、对话等场景。

　　各类黑客马拉松和路演现场，座无虚席、人声鼎沸，创业者、投资人、观众挤破头只为拿到一张入场券。创业者们激情澎湃，“超越字节”，“打造下一个抖音”，“我就是下一个张一鸣”，一番豪言壮志响彻路演大厅。

　　最小00后，普遍95、90后，几个搞技术、产品的人想法一碰，临时组个小团队就开始了创业之路。大模型俨然成为了香饽饽，奇绩创坛刚结束的路演数据显示，在AI方向，就有51家大模型公司，更有超过一半集中在应用层面。

　　至此，中国大模型已经完成了从基础能力到应用层的三连跳，在近一年的摸索中，大模型创业者们逐渐意识到了一个事实:中国大模型“先天体弱”，中国创业机会不在基础能力层，而在应用层。

　　中国大模型

　　核心竞争力在哪儿?

　　中国大模型的“体弱”之症，还要追溯到“根”上，构成大模型有四要素，分别为数据、模型、算力和场景，根基打得不牢，大模型自然也就走得慢。

　　目前，大模型训练数据主要来自于公开的文档、资料和数据。从数据总量来看，公开的粗加工数据仍以英文居多，占主导优势，中文数据开放得还远远不够;从数据质量来看，由于国内在数据产业的投入和精细化程度不足，导致了中文语料不仅少且能用得也不多的现状。数据质量直接与模型训练效果挂钩，比如ChatGPT虽然只有1.5%的中文语料，也能达到比较好的效果，但国内却恰恰相反。

　　在模型层面的积累，短时间内，中国有着无法跨越的鸿沟。OpenAI自2015年成立，在大模型领域的技术积累和投入，已长达七年之久，而国内才仅仅一年的时间。而在中国马不停蹄追赶过程中，OpenAI还在加速度，百亿美金、顶尖人才、超级计算都在源源不断地输送进名为“GPT”的大模型引擎中。

　　在算力层面也不容乐观，一面要面临着算力资源短缺的共同问题，一面还要活在美国的层层封锁之下。

　　在2023腾讯ConTech大会上，百川智能创始人、CEO王小川在硅谷调研中了解到，OpenAI正在尝试把1000万块GPU连在一起训练一个大规模的模型。

　　王小川对此感到十分震惊，“英伟达一年大概生产100万块GPU，训练GPT-4要2.5万块，国内对标GPT-3.5训练需要4000块。要中国拿出1000万块GPU去训练大模型，目前从资源层面还远远达不到”。

　　据邱锡鹏判断:“我们离OpenAI算力的差距太大，能保持紧密跟随已是不易，但要谈到赶超，还是得结合当前我国具体的实际情况。”

　　有经验、有方向，更要正视差距和不足，正如王小川所言，当下大模型公司需要思考的问题是，如何用一个稍弱的大模型做出一个好的AI原生应用。

　　“国外会做大模型，但并不代表着会做应用”，不少创业者向光锥智能反馈道，在应用方向，国内与国外目前处于同一起跑线上。

　　国外AI应用起步虽早，但发展仍处于早期，类型主要集中在效率对话助手、情感类对话助手、绘画、照片、游戏几个领域。

　　以美区苹果商店为例，大热的效率工具中，OpenAI的ChatGPT有47万个评分;微软的Bing Chat有18万个评分;大火的C端应用代表，Character AI有14万个评价，Pi有1336个评价;风靡一时的AI生成相机Lensa AI有39万个评价。作为参考，TikTok在美区苹果商店有1634万个评分;YouTube有3370万个评分;Snapchat有196万个评分。

　　大模型的技术能力再强，也要落在产品中被实际应用起来，而这恰恰是中国最核心的优势。

　　“理想上慢一步，落地上快三步。”

　　这是王小川对当前中国大模型机会的诠释，“理想”对应着大模型基础技术能力，“落地”则对应着场景应用，“我们中国大模型的机会，不在技术科研，应用才是我们跑得更快的地方”。

　　回顾互联网时代，中国曾经诞生了淘宝、微信、抖音等超级App，在产品体验、市场运营、用户需求洞察等方面都积累了大量的经验，与此同时，繁荣的互联网产品生态还培养起了一批产品经理。如今，上个时代的积累将沉淀为大模型应用诞生的肥料。

　　王小川认为这里面有两个核心的难点需要去解决，如果能解决好两个问题，中国的应用或许就能走在美国的前面。

　　首先是要有大模型，模型效果差一点也没关系，可以通过开源技术、端到端的模式、人的聪明才智，与做应用公司共同研发等途径来弥补大模型本身的缺陷。

　　重要的是要把大模型用起来，有大模型应用创业者告诉光锥智能:“实际做AI应用，对大模型能力的要求远没有想象中那么高，GPT-3.5基本就能达到一个还可以的效果。”

　　其次是，传统意义上的产品经理需要转型和提升。王小川指出，大模型创业跟互联网创业最大的区别在于，大模型是科技创业，以技术为主要驱动，故而进入壁垒极高;而互联网是创意创业，几乎不存在卡技术的环节，换而言之，只要有好的想法就能实现。

　　”大模型创业的特性，就要求产品经理，需要懂得什么样的AI产品需要匹配什么样的技术，甚至更进一步还能以产品需求为导向引领技术的发展。这里面可能涉及一些具体的问题，比如产品经理对技术的评测标准是什么，怎么去评价技术的好坏，怎么才能让算法工程师跟上产品迭代的步伐等等”，总而言之，王小川认为产品经理要对自己的技术有判断和评价。

　　漫长的技术发展经验告诉我们，这已经不是中国第一天面对基础科技能力不如国外的棘手问题。暂时的技术领先也并不代表什么，中国之所以能做大模型，一是因为本身市场就足够大和复杂，若大模型企业能占据一席之地，或许就已经拥有了十分可观的增长空间。

　　OpenAI的先进放在中国的环境中也会出现“水土不服”，一如多年前数据库行业，Oracle虽然先进，但数字化程度滞后的国内根本用不上，全靠中国数据库企业揽下脏活和累活，从搬运账本切入数据库赛道。

　　大模型亦是如此，国内企业生怕掉队，迫切想赶紧用上大模型，但远水解不了近渴，私有化部署、安全、价值观对齐、场景落地等诸多现实问题更适合中国大模型企业发挥。

　　人与AI的未来，在变革中共生

　　过去不可被改变，但是未来可以被创造。

　　每当新技术出现，都会有一部分人积极占据先机，获得技术红利。任何技术革命带来的技术变革都是由此开始的。

　　如今，在百模大战的比赛场上，所有人都试图寻找最终的天选之子，究竟是存量的竞争还是增量出奇迹，大厂和创业公司们，都不肯放过任何一个机会。

　　“从信息时代走向智能时代，一个大的时代，就像之前工业时代一样，会有新的公司起来。”正如王小川所说，尽管，大厂们有在互联网时代积累了数十年的资本，但普遍观点认为，小创新靠大厂，大创新仍然要靠小厂。

　　而在激烈的竞争之下，新公司又是否会像互联网时代的巨头们一样，创造一个新的时代，甚至取代目前的科技巨头，引领新的商业生态呢?

　　技术的变革总是周期性的，我们或许可以从历史的长河中寻找答案。

　　正如互联网时代，催生出了线上零售模式，成长出了阿里巴巴、京东等一批巨头企业，产业链上也有无数网店、工厂抓住机会，踩上了暴富的快车道。在这个过程中，没有谁取代谁，只有电商形态颠覆、重构了线下零售，同时也形成了线下、线上一体化的供应链、数字化云仓、新零售等物种。

　　相比新旧之间的取代关系，更多的是业态模式的创新、重构。

　　不过，新的AI业态究竟如何展开，仍在朦胧之中。正如曾经字节跳动给BAT的震动，在快手、抖音、秒拍、美拍、微视等一片短视频App之中，没有人知道，谁是最大的那匹黑马。因此无论大厂还是小厂，都在积极探索AI与业务的结合，等待爆发的奇点、为明天押注。

　　与此同时，不同于以往高新技术突破的漂浮感，AI的变革已经渗透进了社会中每一个人的生活之中。

　　“用孙正义的话讲，会用AI和不会用AI的人就是像人和猴子区别一样。”王小川说道，“我把ChatGPT放在我手机页面的底部，每天都会使用。在未来两三年内，我们工作方式、生活方式会有天翻地覆的变化，智能体到来之后，跟你工作的可能不只是人，也有机器。”

　　“虽然大模型成长速度快于年轻人，但年轻人是快于非年轻人的。在时代变革的时候，年轻人更有机会。”他补充道。

　　机会固然存在，但难题也随之而来——在畅想AI带来社会进步之时，我们又该如何规避AI带来的风险?

　　事实上，在几百年的文学创作中，人类就不断探讨着人与非人物种之间的关系，AI作为人造智能，更是游离在伦理的边缘。

　　要让AI与人和平相处，基于一个先决条件，价值观的对齐。正如《流量地球》里，MOSS被要求“保卫人类文明”，却认为“保卫人类文明的唯一办法，是毁灭人类”一样，AI强大的计算、判断能力与非人的认知，是恐惧的源头之一。

　　也正是如此，在今年大模型狂奔以来，安全性始终都是根本宗旨，正如OpenAI早在年初，就曾发布过《我们保障AI安全的方法》，回应外界对其AI模型安全性的质疑。

　　想要实现AI与人类价值观的对齐，一方面，依赖于技术，但更重要的是，人类自己先要形成一套一致的价值观体系。

　　然而问题是，自人类社会诞生之时，偏见就根植于思想、行为，如今自然也藏匿在AI训练的数据之中。换言之，当我们在探讨AI伦理之时，我们也在审视着自己。

　　AI的发展推着人类文明的车轮滚滚向前，当我们站在一个新周期的门外，门缝已经打开。

　　2024，或将是一个崭新的世界。

　　榜单收录、高管收录、融资收录、活动收录可发送邮件至news#citmt.cn（把#换成@）。

分享到微博分享到微信

8个月238个大模型，中国AI奔向何处？

相关阅读

新动态

关注度

最话题