【芯论语】盘点近年人工智能的发展状况,看某些人工智能技术的是与非(3)
15.机器人单手拧魔方:2019年10月,OpenAI在官网上发布了Dactyl机器手在约4分钟的时间里,成功还原了一个三阶魔方的视频。该机器手第一次使用了深度机器学习技术自己学会了拧魔方。甚至在训练中还增加了一些干扰影响,Dactyl依然能成功地完成了任务[17]。2016年英飞凌(Infineon))的Sub1 Reloaded机器用0.637秒解开了三阶魔方,以及2018年麻省理工学院的学生Ben Katz和软件人员Jared Di Carlo开发的机器人以0.38秒解开三阶魔方,之前这些虽然速度很快,但那是用编程机器人来实现的。这次Dactyl通过深度学习,就可以还原三阶魔方,这是AI技术的一大突破。
16.2020年OpenAI发布语言模型GPT-3:GPT是可生预训练变换(Generative Pre-training Transformer)的英文简称,它是由亚历克.拉德福德(Alec Radford)编写的语言模型,于2018年由埃隆.马斯克(Elon Musk)的人工智能研究实验室OpenAI发布[22]。2020年5月,OpenAI发布了大型无监督语言模型GPT-3,它是GPT-2的改进版本,它的参数由GPT-2的15亿个提升到了1750亿个,性能有了显著的提升。GPT-3在自然语言处理处理各方面的性能十分优秀,包括在线翻译、问题回答和完形填空等任务,可以适应即时推理或领域适应的应用,也可以自动生成人们难以区分的新闻稿和短文。
17.2021年寒武纪最强AI芯片量产:2021年1月21日,寒武纪的思元290智能芯片及加速卡量产。思元290智能芯片是寒武纪的首颗训练芯片,它采用台积电7nm先进工艺,集成了460亿个晶体管[26]。据报道,思元290芯片在架构、多核芯互联、内存、接口等方面全面升级,相比思元270芯片,思元290芯片的峰值算力提升4倍,内存带宽提高12倍,芯片间通讯带宽提高19倍。加速卡的型号是MLU290-M5,它采用开放加速模块OAM设计,具备64个MLU Core,1.23TB/s的内存带宽以及全新MLU-Link™芯片间互联技术,在350W的最大散热功耗下提供的AI算力高达1024TOPS,全面支持AI训练、推理或混合型人工智能的计算加速任务。
图12. 寒武纪最强AI芯片和加速卡(来源:寒武纪官网)
二、AI技术分支和应用
上文介绍了近年AI领域发生的重要事件,现对AI的技术分支,包括知识库、思维能力、机器学习、自然语言处理、自动语音识别、计算机视觉、人工智能机器人等进行简要介绍。
1.知识库(KB):AI的知识库是结构化的知识集合。知识集合包括对自然界的认知、专业知识和常识等。结构化是指知识的表达、存储、组织、关联、增加、删减和更新的组织结构和方法。人类的知识体系极为复杂,人类通过学习可以增加知识,但是大脑如何结构化的组织知识,如何表达、记忆和关联知识等,人类目前还知之甚少。
近年来,专业研究和开发知识库应用的公司不少,这些公司以知识库为核心,以应用为驱动力开发了不少行业应用的知识系统。例如北京明略科技集团、北京深蓝海域信息科技公司、北京中科汇联科技公司、广州润普网络科技公司等。
图13. 明略知识图谱平台(来源:明略科技官网)
图14. 智能统一知识库架构
(来源:深蓝海域信息科技官网)
2.思维能力(TA):AI的思维能力是对知识处理和运用能力。它大致包括了比较、分析、综合、抽象、概括、搜索、情感、推理、规划、决策等。思维能力是人类智能的高级特质,在目前的AI系统中实现这样的特质困难还很大。
图15. 基于知识库的AI数字政府应用框架
(来源:中科汇联官网)
AI发展的最高级阶段是AI系统具有像人脑一样复杂的知识体系和思维能力。目前,AI系统用数据结构表达的知识体系是简单和原始的,因为人类对自己大脑的认识还很肤浅,还没有弄清它的本质。所以,目前AI系统基于数据结构实现的搜索、推理、规划等思维能力是很有限的能力,离真正意义上的思维能力还差得很远,更谈不上给AI系统赋予像人类一样的情感。如果这两部分不能形成技术上的重大突破,AI系统就只能处在初级原始的阶段,担心AI系统会统治人类目前看来是杞人忧天。
3.机器学习(ML):它是研究如何让电脑自己从数据中发现规律、模式和知识等,通过学习和分析不断扩大知识库,并依据现有知识库做出决定和判断。ML是基于电脑对人脑学习能力的模仿,是AI其它技术的基础支撑。ML包括基于深度神经网络的深度学习、增强学习、迁移学习等研究重点。ML的典型应用不胜枚举,影响最大的是AI与人类的棋类对决,落地最早、应用最多的AI技术是网络搜索应用、人脸识别的计算机视觉(CV)应用、人机会话的自动语音识别(ASR)应用等。目前大多AI应用中都使用了ML技术。
4.自然语言处理(NLP):它是计算机科学与语言学的交叉学科。NLP侧重研究自然语言的句子、词汇、语法和语义,使电脑能够理解、处理和运用人类的自然语言。若向没有NPL功能的电脑输入一段问话,电脑只能把它当作一个字符串来看待。若向有NPL功能的电脑输入这段问话,电脑就能知道你问话的意思,并回答你的问题。语义分析是NLP的核心技术。NLP要由语句获得句子的语义,就要使用知识库(KB)。由于语言是动态变化的,语义有时也会有歧义,常识和推理逻辑由于无边****,决定了语义分析的难度很大。NLP的典型应用包括:搜索引擎、个人助手、客服机器人等有自然语言交互的应用场合。
5.自动语音识别(ASR):它是通过电脑和拾音处理设备来模拟人类听觉,对语音进行感知、存储、处理、理解,形成相关信息和知识,或者合成和生成相关新语音的技术。ASR的典型应用包括:语音文字输入、电器和设备语音控制、语音查询、人机对话、会议速记、电话客服等。
6.计算机视觉(CV):它是通过电脑和图像处理设备来模拟人类视觉,对图像等视觉信息进行感知、存储、处理、理解,形成相关信息和知识,或者合成和生成相关新图像和新视觉的技术。CV的典型应用包括:生物特征识别的人脸识别、指纹识别、虹膜识别、车牌识别、光学字符识别(OCR)、人脸识别、人的行为识别、视频监控、产品缺陷检测、以图搜图、视频检索等。
7.AI机器人(AIR):与传统的编程机器人相区分,它是具有AI功能的机器人。AIR除了要研究AI相关技术以外,还要研究更多传感器、制动器、运动算法等。AIR的种类和应用已很多,例如无人机、自动驾驶汽车、学习娱乐和引导机器人、导盲机器人、物流和送菜机器人、医疗机器人、排险机器人等。
下图对前文所列17件AI大事涉及的技术及应用进行了汇总。可以看到属于机器学习(ML)的事件最多,其次是自然语言处理(NLP),再次就是自动语音识别(ASR)、计算机视觉(CV)和智能机器人(AIR)。究其原因,因为ML和NLP是AI的基础性支撑技术,也是这波AI发展热潮的推动力量。
图16. AI事件涉及的技术与应用汇总一览表
在应用方面,落地最快、挖掘最充分的应用场景大部分都集中在CV和ASR的两个方面。据报道,中国AI领域20个独角兽、30个准独角兽企业,近80%都跟CV和ASR有关系。在AIR方面,国外企业的创新和研发走在前面,国内企业则在应用创新方面深耕细作,大力开拓了AI应用的领域。
AI发展现状小结:目前,AI技术发展是基于二进制信息表达、冯氏计算机架构(虽然不断有改良和创新)、以及当代芯片技术等。在此基础上,逐步建立了神经网络架构、模型和算法。由于芯片集成度大幅提高,计算力大幅提升,神经网络层数不断加深,使得ML向深层机器学习(Deep ML)发展,加上大数据(Big Data)的支撑,从而掀起了这一波有广泛影响力、有技术突破、有应用落地的AI发展新浪潮。
中科院院士、清华大学人工智能研究院院长张钹教授认为,目前,Deep ML是AI最受关注的领域,但并不是AI研究的全部。Deep ML只是目前AI技术的一部分,知识表示、不确定性处理、人机交互等更大更宽的领域都亟待进行深入研究[13]。我们可以看到,AI知识库(KB)和思维体系(TS)两个方面并未取得重大突破。目前AI系统所处理的大量信息,只能算作是数据(Data)而不是真正意义上的知识(Knowledge),因为人脑知识体系要比这些数据复杂很多很多;目前AI系统的数据检索、推理、判断和综合等处理过程只能算作是简单的思维过程,与人脑那样的KB和TS不在一个水平上,不可同日而语。人们甚至还没有弄清楚人脑是如何储存知识,更不知道它是如何处理这些知识,以及如何基于这些知识进行推理和思维。
目前的AI所能处理的工作要具备5个限制条件才能有所突破[13]。一是数据充分(量大、多样、齐全);二是规则明确(有规则可依,要照章办事);三是完全信息下的决策(当前信息完全时,才可以决断),例如下象棋是完全信息博弈,牌类和麻将是不完全信息博弈;四是静态演化(按确定规律演化,结果可预测);五是特定领域(只能单任务、单应用场景,不能适用于多种领域)。目前AI突破人类能力的事件,都满足了上述5个条件。从事同时满足这5个条件的工作的人员可能会被AI淘汰;对于单个或多个条件不满足的场合,目前的AI肯定不会超越人类智能,从事相应工作的人员将不会被AI取代。
鉴于目前AI技术发展现状,张钹院士认为目前基于DeepML的AI,尽管产业层面还有很****展空间,但在技术层面已经触及天花板。从长远来看,AI必须走人类智能这条路,最终要发展人机协同,人类和机器和谐共处的世界。未来需要建立可解释、鲁棒性的AI理论和方法,发展安全、可靠和可信的AI技术[13]。
图17. 张钹院士:AI奇迹短期难再现深度学习已近天花板(来源:参考资料13)
以上AI发展现状的评价是从技术角度来看的,稍显冷静客观一些。但从产业角度(特别是从投资角度)来看,人们则要乐观很多。由于AI的应用很广,它的应用场景还在不断挖掘,所以市场潜力还是很大的。但是要记住,投资界总是很珍惜每次新技术进步带来的“吹”大风机会。风吹得大一点也很自然,要不然投资的“猪”怎么能飞起来呢?
三、第三代人工智能是什么
张钹院士提出了AI的三代论。他把过去以符号推理为核心的AI称为第一代,把目前以深度机器学习(概率学习)为主导的AI称为第二代,把未来具有理解力的AI称为第三代。
他认为第一代AI发展到现在的第二代AI,其技术具有很大的局限性。局限性一是今天的AI只能在满足5个限制条件情况下,才能发挥作用。二是目前AI的理解和推理能力是很有限的。例如,在知识库里有「特朗普-总统-美国」三元组信息。AI就可以正确回答“谁是美国总统?”这个问题。但是,AI要回答“特朗普是一个人吗?”、“特朗普是一个美国人吗?”、“美国有没有总统?”等需要常识和推理的问题,它肯定会懵圈,保准回答不上来。三是今天的AI用准符号模型,深度机器学习、神经网络来模拟人类智能的感性行为是件很难的事情,因为感性(感觉)没办法精确地描述,例如人们很难告诉计算机什么叫做马?你说马有四条腿,什么叫做腿?你说细长的叫做腿,什么叫细,什么叫做长?因此,计算机无法理解、接收和储存你说的这个马及相关知识,因而基于这些知识的推理将无从谈起。除这三点之外,应该还有一些其它的局限性,只是暂时还未暴露出来而已。
所以,张钹院士提出下一代AI发展目标,即建立一个全面反映人类智能的AI,需要建立可解释、鲁棒性的AI理论与方法,发展安全、可信、可靠与可扩展的AI技术,即第三代人工智能。这是他为AI下一步发展指明的努力方向。
其实,下一代AI的发展目标是什么?这是一个不确定的问题,这个目标可定的大一些也可以定的小一些。只有当AI在发展过程中取得了重大技术突破,产生了重大经济和社会影响,回顾历史时才可以被确定为一代。
AI的终极理想一是具有接近人类的智慧,可以像人类一样思维和推理,可以进行人机知识传输;二是具有(或超过)人类的能力,包括感知、理解、计算、规划等方面的能力。这就要求实现AI的电脑架构要尽可能地与人脑相似,尽可能地模仿人脑。但是,目前的电脑和人脑在知识的表达、储存、处理和应用等方面存在天壤之别,前者是电系统,后者是生、化、电的混合系统;前者是二进制信息,后者是模拟信号。目前人类对自己大脑的了解知之甚少,模仿人脑的工作还处于非常初级的阶段。因此,发展全面反映人类智能的AI,工作艰巨道路漫长,目前只是刚刚起步。
AI的终极理想今天看似一个梦想,但未来几十年乃至几个世纪之后可能会变成现实。到那时,人脑奥秘已经被破解,类人脑AI技术已发展成熟。人类可以把自己的知识、想法和技巧通过人-机接口传递给AI机器人;也可以把AI机器人完成的工作结果、设计成果等通过机-人接口收回存入自己的记忆中;或者把人脑的专业知识打包,通过人-机接口传递给AI机器人,再通过机-人接口下载到新成人大脑中,新成人可以瞬间变成一个称职专业人员,成为一名合格的领导、律师、警察、技师、农民等,新成人可以省去十多年的教育培养过程。那时,工作交接可以瞬间完成,老师这个职业已经不复存在。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。