首页 > 资讯 > 数字化

通义千问QwQ能力直逼OpenAI o1,推理AI已然兴起

2024/12/04 11:43      艾媒网   


  艾媒网(iimedia.cn)获悉,11月28日,阿里云通义团队发布全新AI推理模型QwQ-32B-Preview,并同步开源。QwQ(Qwen with Questions)是通义千问Qwen大模型最新推出的实验性研究模型,也是阿里云首个开源的AI推理模型。阿里云通义千问团队研究发现,当模型有足够的时间思考、质疑和反思时,其对数学和编程的理解就会深化。

  作为推理大模型,QwQ在数学和编程方面表现强劲。在考察科学问题解决能力的GPQA评测集上,QwQ获得65.2%的准确率,具备研究生水平的科学推理能力;在涵盖综合数学主题的AIME评测中,QwQ以50%的胜率证明其拥有解决数学问题的丰富技能;在全面考察数学解题能力的MATH-500评测中,QwQ斩获90.6%的高分,一举超越o1-preview和o1-mini;在评估高难度代码生成的LiveCodeBench评测中,QwQ答对一半的题,在编程竞赛题场景中也有出色表现。

  继OpenAI发布推理模型o1后,国内一众大模型公司快马加鞭紧跟人工智能技术前沿。11月16日,月之暗面在发布会上公开了新模型k0 math,成为国内首个摸索出并实现o1思路的公司。仅4天后,幻方量化旗下的Deepseek紧接着上线推理模型DeepSeek-R1-Lite,并毫无保留地放出了大模型思考的完整过程,且允许用户每天体验50次对话。国产推理AI的接连上线让中国在开源大模型和AI推理上占据了先机,体现了中国在人工智能领域的领先地位与强劲实力。

  无法回答strawberry(草莓)中有几个r的人工智能正在成为过去,行业内推理AI已然成为大势所趋。曾经,推理能力一直是AI大模型的短板,小学生也能回答的“9.8和9.11谁更大”的问题却能难倒ChatGPT-4o、字节豆包、月之暗面kimi等一众科技巨头研发的大模型。而如今,采用强化学习和思维链推理技术的大模型将开始试图模拟人类的思考和反思过程,从而增强AI的数学推理能力。推理AI的发展与完善将帮助人类解决复杂苦难的数学问题,促进知识的发展,进一步推动国际事务和科学技术等领域难题的解决,取得突破性进展。

  榜单收录、高管收录、融资收录、活动收录可发送邮件至news#citmt.cn(把#换成@)。

相关阅读

    无相关信息