元象开源650亿参数高性能大模型

2023/11/07 14:44 投资界综合

　　国内此前开源了多个70到130亿参数大模型，落地成果涌现，开源生态系统初步建立。随着智能体(AI Agent)等任务复杂性与数据量的提升，业界与社区对更“大”模型的需求愈发迫切。

　　研究表明，参数量越高，高质量训练数据越多，大模型性能才能不断提升。而业界普遍共识是达到500到600亿参数门槛，大模型才能“智能涌现” ，在多任务中展现强大性能。但训练此量级模型成本高昂，技术要求较高，目前主要为闭源付费提供。

　　在国外开源生态中，Llama2-70B和Falcon-180B等标杆模型为“有条件”开源，设置了月活跃用户数或收入等商用上限，并因缺乏训练数据在中文能力上有明显短板。此外，美国新近颁布的AI芯片禁令，或将进一步限制中国大模型产业发展的速度。业界迫切呼吁一个高性能国产“大”模型，填补生态空白，为中文应用提供更强大的理解、推理和长文生成能力。

　　为推动国产大模型开源生态繁荣与产业应用快速发展，元象XVERSE公司宣布开源650亿参数高性能通用大模型XVERSE-65B，无条件免费商用，业界尚属首次。 13B模型全面升级，提高“小”模型能力上限。这将让海量中小企业、研究者和AI开发者更早一步实现“大模型自由” ，根据其算力、资源限制和具体任务需求，自由使用、修改或蒸馏元象大模型，推动研究与应用的突破创新。

　　元象XVERSE创始人姚星表示：“面对研发时间紧、算力持续短缺等挑战，团队依靠丰富经验，三个月内研发出多款高性能7B、13B模型，并最早为社区献上一个‘大有可为’的65B模型，为研究、商业及生态创造三重价值。”

　　具体而言，研发上，65B将为新技术、新工具、性能优化到模型安全提供“大杠杆”，让社区快速累积经验，也有助于推动国家科技自主可控的长远目标。商业上，海量中小企业能以零成本用上“大工具”，可突破局限，推动应用显著创新。元象也能深入了解用例、安全模型部署和潜在机会。在开发者生态上，社区能充分发挥组织协同优势，推动研发应用的“寒武纪大爆发”。

元象开源650亿参数高性能大模型，无条件免费商用

　　开源可免费商用大模型图谱

　　全链条自研多项技术创新

　　XVERSE-65B底座模型在2.6万亿Tokens的高质量数据上从头训练，上下文窗口扩展至16K，支持中、英、俄、法等40多种语言。XVERSE-65B Chat版也将在近期发布。

　　元象坚持“高性能”定位，显著提升了65B三方面能力：一、理解、生成、推理和记忆等基础能力，到模型的多样性、创造性和精度表现，从优异到强大;二、扩展了工具调用、代码解释、反思修正等能力，为构建智能体(AI Agent)奠定技术基础，提高模型实用性;三、显著缓解7B、13B中常见且可能很严重的幻觉问题，减少大模型“胡说八道”，提高准确性和专业度。

　　元象大模型系列均为全链条自研，涵盖多项关键技术与研发创新：

　　复杂分布式系统设计：借鉴团队研发腾讯围棋AI“绝艺”、*荣耀AI“绝悟”等大系统上的丰富经验，自研高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台与框架协同等关键技术，打造高效稳定的训练系统，千卡集群峰值算力利用率达58.5%，位居业界前列。

　　全面提升性能：65B训练中采用 FlashAttention2加速计算， 3D并行基础上采用虚拟流水线(virtual pipeline)技术，降低较长流水线产生过高气泡率，提升计算推理效率; 上下文窗口长度从8K逐步提升到16K，使其不仅能出色完成复杂任务，包括长文理解、长文生成和超长对话，还拓展了工具调用、代码解释及反思修正能力，能更好构建智能体(AI Agent)。

　　*提升训练稳定性：因计算量庞大，通信拥塞、芯片过热或计算节点故障成为65B训练常态，初期出现过一周最高八次故障的情况。通过集群基础设施运营、资源调度、训练框架和调度平台协同等持续优化，元象打造出高稳定、低中断、强容错的训练系统，将每周有效训练率提升至98.6%。

　　此外，在接近1.6万亿Tokens的模型训练中期，损失函数产生了NaN值，可能导致训练中断。通常情况下，业界一般会在分析后删除与之相关的数据区间。而团队根据经验判定这是模型自然演化，选择不删除数据，直接跳过相关参数更新，最终 NaN值问题解决。后期对参数值、激活值、梯度值等中间状态的进一步分析表明，该问题可能与模型最后一层transformer block激活值的*值变化有关，并会随*值的逐渐降低而自行解决。

　　榜单收录、高管收录、融资收录、活动收录可发送邮件至news#citmt.cn（把#换成@）。

元象开源

分享到微博分享到微信

元象开源650亿参数高性能大模型

相关阅读

新动态

关注度

最话题