【芯论语】盘点近年人工智能的发展状况,看某些人工智能技术的是与非（1）

发布人：芯论语时间：2021-02-01 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

摘要：本文从科普的视角，盘点近年来人工智能(AI)发展的热点事件，宏观了解AI技术的发展水平和未来趋势，浅谈AI作为未来世界的核心技术，它将给社会带来的正面和负面影响。AI发展经历了过去的第一代和现在的第二代，若从AI技术发展历史的终点回头来看，可能今天的阶段只是起步阶段吧，发展理想的具有人类智能的AI系统的道路将是漫漫长路，下一代AI技术的重点是什么？目前还暂未明朗。

人工智能（Artificial Intelligence，简称AI）是利用计算机研究和开发模拟、延伸和扩展人类智能的科学技术。在它被提出来的50多年时间里，AI的内涵逐步丰富，研究方向、目标任务进一步明确，学科体系不断细化完善，交叉学科不断外溢发展。今天形成了以计算机为支撑，涉及信息论、控制论、自动化、仿生学、生物学、心理学、数学、语言学、医学、哲学、伦理学等内容十分宽泛的交叉学科体系。

人工智能四个字从三个方面高度概括了其研究的内容。所谓“人工”就是以计算机为手段来模拟和扩展人类智能。所谓“智”就是模拟人类智慧，研究知识的获取、知识的表达和知识的运用等。所谓“能”就是延伸和扩展人类能力，研究如何深度学习、自主推理、逻辑思考和科学规划。

AI研究内容主要包括专家系统；神经网络；知识的表示、获取、搜索、处理和运用；深度学习、推理、博弈和规划；智能机器人；视觉识别；图像识别与合成；语音识别与合成；自然语言的理解、分析和综合；自动程序设计等。

AI应用领域包括专家系统；决策系统；智能交通；语音识别；图像识别；指纹、虹膜和人脸识别；搜索引擎；语音交互；无人驾驶；机器人等。

AI研究内容和应用领域很广，但大致可分为1.知识库(Knowledge Base，可简称为KB)；2.思维能力(Thinking Ability，可简称为TA)；3.机器学习(Machine Learning，简称ML)；4.自然语言处理(Natural Language Processing，简称NLP)；5.自动语音识别(Automatic Speech Recognition，可简称为ASR)；6.计算机视觉(Computer Vision，简称CV)；7.AI机器人(Artificial Intelligence Robot，可简称为AIR)等。前三者为后四者提供了基础技术支撑，后四者的应用场景在不断地拓展，逐步落地形成了许许多多AI应用场景。

下文通过梳理近年来AI领域发生的重要大事，希望宏观地了解AI技术的发展状况。通过AI各技术分支的概念介绍，探讨一下AI技术未来的发展趋势。并讨论一些AI应用的正面作用和负面影响。

一、AI的重要事件盘点

1. 1997年IBM“深蓝”超级计算机与国际象棋名家对垒取胜。1997年5月11日，一台名为“深蓝”的超级计算机把棋盘上的一个兵走到C4位时，人类有史以来最牛的国际象棋名家卡斯帕罗夫(Garry Kasparov)不得不沮丧地承认自己输了。世纪末的一场人机大战终于以计算机的微弱优势取胜[8]。

图1. IBM“深蓝”与国际象棋名家对垒取胜

(来源：参考资料8)

2. 2011年IBM Watson计算平台打败人类高手。IBM Watson是一个计算机感知平台。2011年2月，沃森(Watson)参加综艺节目危险边缘(Jeopardy)来测试它的能力，这是该节目有史以来第一次人与机器对决。2月14日至16日3集节目中，Watson在前两轮中与对手打平，而在最后一集里，Watson打败了最高奖金得主布拉德.鲁特尔(Brad Rutter)和连胜纪录保持者肯.詹宁斯(Ken Jennings)[1]。

图2. IBM Watson打败人类高手(来源：网络图片)

3. 2014年亚马逊率先推出智能音响Echo。2014年11月，亚马逊(Amazon)推出了一款全新概念的智能音箱,命名为Echo。这款产品最大的亮点是将智能的自然语言交互技术植入到传统音箱中，给音箱赋予了AI的属性。随后国内许多厂商跟进，市面各种品牌的智能音响曾经名噪一时。

图3. Amazon Echo和各种品牌的智能音箱

(来源：网络图片)

4. 2014年伊恩.古德费洛(IanJ.Goodfellow)提出对抗生成网络。对抗生成网络(Generative Adversarial Networks，简称GANs)是一种通过对抗过程估计生成模型的AI处理框架[21]。基于GANs处理框架，人们可以从无到有生成高精度人脸图像等。2018年12月，英伟达(Nvidia)做了一个高精度、超逼真的人脸生成AI系统。该系统可以按照某种要求生成细节极其丰富的人脸图像，如下图所示，这是一项石破天惊的进展。

之前AI虽然可以生成比较像的人像，但是像片分辨率不高，细节也不丰富。这次生成的照片的逼真和细腻程度令有些网友感到“毛骨悚然”和“不安”，人们很担心自己的形象某天会被AI伪造和滥用。有人甚至发问，“我们为什么要有这种技术？谁来约束和保证这种技术不被滥用？”。

图4. Nvidia基于GANs的AI系统生成的人脸图像

(来源：参考资料21)

基于GANs处理框架，人们还可以从低分辨率到高分辨率对图像质量进行优化；也可以对图像风格进行转换，例如人物漫画创作、虚拟试衣、警察破案等。以下是部分GANs研究者的作品。

图5. 16*16的小图像优化提升到1024*1024分辨率的清晰图像(来源：参考资料21)

图6. 基于AI技术的人像漫画创作(来源：参考资料21)

图7. 基于AI技术的虚拟试衣(来源：参考资料21)

5. 2015年微软深层神经网络技术获得突破。2015年12月10日，微软亚洲研究院的视觉计算组在2015 ImageNet计算机识别挑战赛中，凭借深层神经网络技术的最新突破，以绝对优势包揽图像分类、图像定位以及图像检测三个主要项目的冠军。微软研究团队使用的神经网络层数多达152层，这比之前最多层数多出5倍以上，使AI技术迈入了深层神经网络和深度学习的时代[3]。

6. 2016年国内语音识别准确率均突破97%。2016年11月21日～23日，国内三家公司搜狗(Sogou)、百度(Baidu)和科大讯飞(Iflytek)接连召开发布会，向外界展示了自己在语音识别和机器翻译等方面的最新进展[4]。三家公司都宣布自己的中文语音识别准确率达到了97%。

搜狗语音团队是11月21日推出了自己的语音实时翻译技术，它包括语音识别和机器翻译。该团队介绍搜狗语音识别的准确率达到了97%，支持最快400字每秒的听写。百度则是在11月22日宣布向开发者开放情感合成、远场方案、唤醒二期和长语音方案等四项语音识别技术。在大数据支撑下，百度语音在“安静条件下”的识别准确率达到了97%。在11月23日的科大讯飞发布会上，科大讯飞轮值总裁胡郁表示科大讯飞的语音输入识别成功率也达到了97%，即使是离线情况下，识别准确率也达到了95%。

7. 2017年AlphaGo战胜人类围棋高手柯洁。2016年以来，谷歌的阿尔法围棋(AlphaGo)可谓名声大噪。2016年3月，AlphaGo战胜韩国围棋高手李世石，2017年5月，在中国乌镇围棋峰会上，AlphaGo Master与排名世界第一的世界围棋冠军柯洁对战，以3比0的总比分获胜。10月机器狗对狗大战，最强新版AlphaGo Zero以89：11的战绩打败了曾经战胜柯洁的旧版AlphaGo Master[5]。

图8. AlphaGo与柯洁的围棋大战(来源：网络图片)

8. 2018年Deepfake换脸技术成熟引发担忧。Deepfake是由深度机器学习(DeepMachine Learning)和假照片(Fake Photo)组合而成的单词。这项技术最早起源于2017年，一个匿名用户“Deepfakes”把《神奇女侠》的女主角盖尔.加朵(Gal Gadot)的脸移植到了一部****的女主角身上，再用技术手段使其完美融合后，将视频上传到了Reddit的成人交流社区，一时间这部****流量大增。Reddit以侵犯隐私为由将该部电影封禁。Deepfakes对于Reddit的封禁极为不满，作为报复，他直接把Deepfake技术的AI代码在Github上免费公开[20]。该技术引发人们广泛担忧是从2018年开始，由于Deepfake技术成熟，网站上换脸的假视频就多了起来。引发了人们对该黑科技的广泛关注和批评。

Deepfake技术的核心是深度机器学习在图像合成、风格替换上的应用。它只需要一些目标人物的图片素材，就能伪造出目标人物极其逼真的照片或视频，并且可以让目标人物在视频里按你写的台词讲话。该技术可用在影视作品制作、多媒体教学、AI主播等方面，当然也会被不法之徒滥用。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。

博客专栏

【芯论语】盘点近年人工智能的发展状况,看某些人工智能技术的是与非（1）

相关推荐

技术专区