阿里达摩院出手，超越人类的AI会带给我们什么？

2021/08/13 17:11 maomaobear

　　自从2016年Alphago战胜李世石后，最近几年全球几乎所有技术公司，几乎都投入了AI的竞争之中。我们也很快在我们的日常生活中用上科技公司的AI智能音箱，接触到AI智能客服，用上AI的人脸识别。

　　同时，众多一流科技公司追求AI技术进步的脚步也从未停歇。2021年8月10日，阿里巴巴达摩院的AliceMind团队再次刷新全球最权威机器视觉问答榜单VQA(Visual Question Answering) ，并以81.03分的成绩让AI在“读图会意”上首次超越人类表现。

　　AI技术虽然发展很早，但是一度停滞了很多年，一直到新世纪深度神经网络复兴，应用到AlphaGo上击败手李世石，AI才开始重新进入快车道。

　　AI的机器视觉，是一个非常重要而且有实用性的分支，通过CNN卷积模型，AI在2015年实现了视觉分类超越人类。但是应用到真实世界，AI仅仅识别是不够的。

　　所以，全球计算机视觉顶会CVPR从2015年起连续6年举办VQA挑战赛，聚集微软、Facebook、斯坦福大学、阿里巴巴、百度等众多世界最强AI研究机构，形成了国际上规模最大、认可度最高的VQA数据集。对AI技术进行攻关。

　　VQA测试，是给定一些图片，然后用自然语言针对图片中的内容提出问题，让AI理解自然语言提出的问题，识别图片，然后正确回答。

　　我们看VQA的一道试题，给定下面这张玩具的图片。然后提出问题。

　　What are those toys there for?(这些玩具用在什么地方?)正确答案是Wedding(婚礼)。

　　这个问题，对人类来说似乎不太难，但是对AI来说非常大的挑战。

　　整个测试都是各种各样不同的图和各种各样不同的问题，2016年水平的AI，在进行VQA测试的时候，分数都是非常可怜，被讽刺为人工智障。

　　而经过多年的努力，2021年，阿里在这个测试中取得了非常好的成绩，这是与微软、Facebook、百度等一流公司，一流大学，一流研发机构竞争。阿里达摩院取得高分来之不易。

　　而且，这也是VQA测试以来，AI第一次超过人类水平，这是标志性的重大成就。

　　最近几年，AI的成果一直在转化，今天，我们用自然语言可以给阿里的智能音箱下命令，像要求仆人一样要求智能音箱控制我们中的联网家电。

　　这在短短十年前，都是科幻片的情况。而背后的技术仅仅是一个语音语义识别。

　　那么，这次阿里达摩院在VQA这个高难度领域突破，超越人类，又会给我们带来什么?

　　一、皇冠上的明珠

　　过去几年，人类在AI上有很多突破，这些突破主要都是单模的，也就是替代人类一种感官。譬如机器视觉用于人脸识别、物体识别。语音识别用于识别人类语音，判断语义。这都是依赖于深度神经网络的发展。

　　从DNN(深度神经网络)到RNN(循环神经网络)，CNN(卷积神经网络)，GAN(生成式对抗网络)。人类在最近10多年中取得了巨大进步。

　　我们用上了智能音箱，普及了基于AI技术的人脸识别，有了能够交谈的AI客服。

　　但是，VQA就不同了。VQA是为了解决真实世界复杂问题的。

　　VQA给你一幅图像，一个自然语言描述的问题，让你用自然语言回答。这个东西是多模的

　　首先，让AI明白VQA所提出问题就是一个高难度的任务。这个属于自然语言理解。

　　人类理解自然语言描述的一个问题，首先要懂语言，譬如一个英文问题，你先得懂英语才行。

　　要懂英语，你得学单词，被语法，了解固定搭配，知道句型。而AI要看懂也得有这个过程。

　　对VQA来说，并不是我们普通语言识别看懂就行了，而是要根据图了解VQA问题的意图。这个就难了。

　　人类除了看懂问题的词汇，理解句型，还要有一个人类的常识，要有人类的知识学习记忆，要联想记忆去理解问题。

　　对人工智能里说，要理解问题，也需要先认识词汇，然后理解意图，还需要搜索知识库明白问题问的是什么。还要结合影像识别的结果。

　　仅仅是正确了解VQA的问题意图，就是比普通语言识别更困难的任务。而这只是第一步。

　　就图像识别来说，目前人工智能技术已经比较成熟，毕竟2015年在这方面AI已经超过人类，现在已经有类似于产品检验机的东西都已经应用到生产之中了，单一物体人工智能识别是什么已经不太难。

　　但是对于VQA来说，所提出的问题并不是关于整张图片的，而是针对图片中某一个或者某几个物体的。

　　譬如，图片中有10个人，VQA所提出的问题只与一个人有关，AI要从10个中聚焦到问题相关的人，这就难了。

　　人工智能要根据对问题的理解，把把目标物体从复杂影像中聚焦出来，这是高难度。而这还是第二步。

　　因为，你正确理解问题意图，正确聚焦出来还不行，还得根据问题的意思回答，你能够聚焦出来一幅图的重点物体是衣服，但是要回答的问题是衣服的文字代表什么球队。

　　这样你还要做推理，看衣服上什么文字是和球队相关的，然后再搜索球队标识的数据回答。还需要一个推理的过程。

　　最后，你推理完毕了，还要通过GAN(生成式对抗网络)产生出自然语言的回答。这才算是完成任务。

　　我们现在日常用的AI识别，还属于感知级别的AI，譬如认个人脸，认个身份证，听懂语音。而VQA这个已经是认知了，是多种AI技术的综合，属于多模态，可以算AI技术皇冠上的明珠之一。

　　所以，一开始这类测试，尽管参加者都是世界一流的科技公司，大学，研发机构，但是得分都很低，在50分以下，后来一年年随着技术和算力的进步逐渐提升。

　　今天，阿里已经取得了80多分，超过人类认识的水平，这是非常不容易的。

　　二、达摩院的独门秘籍

　　如同我们前面说的，VQA挑战的核心难点在于，需在单模态精准理解的基础上，整合多模态的信息进行联合推理认知，最终实现跨模态理解。

　　这相当于人类通过多个认知途径获取信息，最后综合判断做出结论。

　　对于这个挑战，阿里达摩院的AliceMind团队，用整合方案对整合问题，对AI视觉-文本推理体系进行了系统性的设计，融合了大量算法创新，作出来一个整体的解决方案，具体包括四个方面：

　　一是先把尽可能的提升单模态理解的精度。主要是对图片识别的精确。阿里从多个方面刻画图片的局部和全局的语义信息，同时使用Region，Grid，Patch等视觉特征表示，更清楚的把图片上的东西都识别清楚了，这样可以更精准地进行单模态理解。相当于人类在识别物体的时候看得更清楚。为后续打基础。

　　二是做大量多模态预训练

　　阿里达摩院的AliceMind团队用大数据的海量图文数据和多粒度视觉特征做多模态预训练，用于更好地进行多模态信息融合和语义映射，发展出了SemVLP，Grid-VLP，E2E-VLP和Fusion-VLP等预训练模型。

　　这个相当于人类上学学基础知识，你有了基础知识，才能对看到的东西做个判断，古代人不认识汽车，现代人因为学过什么是汽车，所以看到汽车就知道这是汽车。计算机也得学习，多模态的预训练就是这个学习过程。学习的越多，识别的越准。

　　三是研发自适应的跨模态语义融合和对齐技术，创新性地在多模态预训练模型中加入Learning to Attend机制来进行跨模态信息地高效深度融合。就是说你不能看图全看，而是要逐渐聚焦到问题相关的东西上面。用这个去做多模态的预训练。

　　四是采用Mixture of Experts (MOE)技术进行知识驱动的多技能AI集成。因为VQA本身是多模态的，人工智能的神经网络当然不能用一个，也得多个一起来，A神经网络适合算A，就去算A。B神经网络适合算B，就去算B。把这些神经网络集成起来，取得最好的效果。

　　至于看懂问题，阿里达摩院前身IDST早在2018年就在斯坦福SQuAD挑战赛中历史性地让机器阅读理解首次超越人类，轰动全球。2021年阿里的深度语言模型体系AliceMind入选2021 世界人工智能大会最高奖 SAIL 奖 TOP30。VQA无非是把阿里的自然语言理解功力与图形识别再结合一下，万变不离其宗。

　　所以，阿里能获得这个成就不是一朝一夕之功，是阿里强大的技术实力多年积累的结果。阿里通过积累的强大技术实力，针对VQA挑战做系统性的解决方案。利用数据和算力资源，最终实现了超越人类的奇迹。

　　实力、创新性方案、资源，这是阿里达摩院的成功秘笈。

　　三、超越人类的AI会带给我们什么

　　最近几年，人类在AI上的每次突破，都会给我们的生活带来极大的便利。自动驾驶的突破虽然没有让无人驾驶普及，但是自动泊车，自动跟车，高速路自动巡航已经非常普及。

　　VQA这种多模态的AI应用属于高级技术，阿里在VQA上技术突破也很快落到了阿里的产品。

　　阿里达摩院的对话式AI已经在为淘宝天猫商家服务，已经提供百万级调用量的VQA看图问答能力，已经有数万家商家开通使用店小蜜客服VQA功能。

　　客户提出问题，阿里的AI技术能够理解客户的问题，直接从产品网页图像中截取相关内容展示给客户，解决客户的需求。相当于一个高效人工客服。

　　同时，阿里的VQA也已作为中台能力，拓展至盒马和考拉客服场景及闲鱼的图文同款匹配场景。用户可以通过VQA的技术，文字意图匹配到相关产品。

　　当然，这些VQA相关技术的应用仅仅是牛刀小试。

　　因为VQA其实并不是一张图片的识别那么简单。而是测试性的，未来真正的识别，不是图片而是现实世界的影像。而解决方案，也未必是语言回答，也可以是控制行动。VQA的技术成熟以后，我们可以通过自然语言，命令AI做事。

　　现在你的语音识别只能通过智能音箱控制家电。而未来，是我们给机器人下命令，机器人理解你的语言意图，然后扫描周边环境，找到符合你意图的东西，执行行动。

　　譬如，未来有一天，你对这机器人说，给我洗衣服。

　　机器人理解你的意图，然后识别房间内影像，聚焦到脏衣篮这个物体，移动到脏衣篮，然后聚焦到脏衣服这个物体，把脏衣服用机械手拿起来。

　　然后再聚焦到洗衣机这个物体，把衣服放进去。逻辑判断洗衣机如何操作，给你完成洗衣甩干烘干，最后拿出衣服，聚焦到你的衣柜，把衣服放进衣柜整理好。

　　整个过程的识别都需要VQA技术基础，这是VQA技术未来的应用。

　　这个技术成熟以后，就会有真正的AI时代，人类大量厌恶性工作可以让AI替代，人类聚焦精力于创造。这才是AI应该给我们的未来。

　　当然，这个过程是渐进的，阿里超越人类的AI技术会先从细微专用领域开始，慢慢替代。而阿里一方面会在这种替代中获得丰厚的经济回报，一方面也会不断迭代技术，提升水平，引领AI科技。

　　榜单收录、高管收录、融资收录、活动收录可发送邮件至news#citmt.cn（把#换成@）。

阿里

分享到微博分享到微信

阿里达摩院出手，超越人类的AI会带给我们什么？

相关阅读

新动态

关注度

最话题