人工智能：人工智能的基础技术

作者：时间：2025-11-12 来源：

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

编辑引言

自1950年代初期人工智能（AI）作为一门学科兴起以来，已经过去了超过70年，人工智能已经能够执行传统上被认为是人类独有的认知任务。这一进展并非发生在真空中。AI的诞生是建立在计算机科学技术的丰富背景和哲学、心理学、逻辑学、博弈论及认知科学中关于智能和学习的思想基础之上的。本文旨在勾画出构成AI的基础技术。它们包括搜索、推理、神经网络、自然语言处理、信号处理与计算机图形学、编程与常规软件工程、人机交互、通信以及提供超级计算能力的专用硬件。

除此之外，还有“人工通用智能”（AGI）的概念，它具备或超越人脑的能力。目前，这一目标完全是理想化的，预计在2050年之前不太可能实现，甚至可能永远无法实现。人工智能基于多种技术，而这些技术并不试图模仿人类的智能。

人工智能的基础技术概述

搜索

假设你把钥匙弄丢了。找到钥匙的一种方法是遍历所有可能的地方，逐个检查每个位置，这个方法称为“暴力搜索”。虽然最终可以找到钥匙，但对于大规模的搜索空间来说，效率太低。更好的方法是检查你最近去过的地方——这种启发式的“经验法则”方法可以大大减少搜索时间，但有时也会失败。在他的1950年论文中，Claude Shannon提出了一种启发式方法，将“深度优先搜索”（远见未来的几步）与“广度优先搜索”（查看所有可能性的几步）相结合【1】。对于许多问题，所有可能的解决方案空间是巨大的，启发式计算机搜索是唯一可行的方法。

例如，Larry Page和Sergey Brin在1980年代开发的Page Rank算法为他们的Google搜索引擎奠定了基础。与其搜索包含关键字的每一个文档，他们缩小搜索范围，专注于被频繁引用的文档。这种启发式方法大大减少了搜索时间，并最终带来了巨大的商业成功。

推理

早期的AI研究使用逻辑和符号计算编程系统，使其看起来像是使用逻辑来解决问题。我们将其称为“基础推理”，因为它模仿了人类解释和证明解决方案的方式。一个早期的例子是Terry Winograd的SHRDLU程序，该程序允许用户通过自然语言命令在一个模拟环境中移动积木。该系统需要区分“在……后面”和“在……上面”等术语，并能够规划路径以避免积木之间发生碰撞。将这一方法推广到更复杂的现实世界问题，需要对目标世界进行详细且准确的建模。但是，让机器建立复杂和混乱的现实世界模型仍然是一个未解决的科学挑战，也是当前AI的一个主要限制。

相比之下，对于可以证明数学定理或进行专家医学诊断的系统来说，推理和逻辑自动化方面已经取得了相当大的进展。由于它们的规则明确且容易捕捉，推理和逻辑问题可以在没有机器理解任何符号或术语的意义的情况下应用。早期的推理程序使用像Lisp和Prolog这样的专业语言来表示函数和逻辑推理。如今，许多编程语言都被用于机器推理和符号AI，包括Python、R、Java、JavaScript、C++和Julia等。

1982年，日本启动了价值数百万美元的第五代计算机项目，旨在构建能够执行大量Prolog程序的超级计算机，并扩展推理可以应用的问题空间。美国则回应了这一挑战，提出了“战略计算倡议”，强调高度并行的超级计算机能够解决广泛的科学难题，而不仅仅是逻辑和推理问题。尽管日本未能通过推理机器提升其在技术领域的地位，但这一计划刺激了全球范围内的超级计算机研究进展。

神经网络

神经网络是模拟大脑神经元发火和相互连接的计算结构。最初，由于性能不足，神经网络未能成为主流计算的一部分。然而，它们具有一个逻辑计算无法匹敌的优势——神经网络可以通过展示示例来学习输入输出的关系。1970年，Seppo Linnainmaa发明了一种名为“反向传播”的训练算法，在接下来的十年里，这种算法被进一步完善成了一种高效的方法，用于训练大型神经网络【2】。神经网络解决了许多计算机视觉问题，尤其是面部识别，这些问题曾困扰计算机视觉研究人员数十年。人工神经网络（ANNs）已经成为近期AI进展的核心。它们通常被组织成多个层次，每一层的输出作为下一层的输入。多层神经网络使得“深度学习”成为可能。最先进的神经网络包含数百层，连接数以亿计。

许多实际应用中使用ANNs进行输入分类。例如，一个面部识别的ANN系统会基于数百万张标注图像进行训练，将其有效地分组到与每个输出标签相关的类别中。这种分类能力被广泛应用于除面部识别之外的其他系统中。

自然语言处理

AI的一个主要目标是理解自然语言，通过从文本和语音中抽象出意义。这涉及对大量文本语料库中的单词频率和结构进行统计分析。语言之间的翻译仍然是一个重大挑战，但使用基于逻辑和神经网络的计算方法已经取得了很大进展。图灵测试是衡量机器智能的一个标准。根据图灵测试，机器如果能够在自然语言对话中使人类观察者无法分辨它与另一个人类的区别，就被认为是智能的。到目前为止，AI研究人员尚未就任何机器是否通过图灵测试达成共识。

信号处理与计算机图形学

信号处理在19世纪末期开始变得重要，主要用于电话通信。20世纪中期，随着高保真音乐和声音重现的发展，信号处理得到了进一步的应用。最初为模拟电子设备开发的数学理论，如今被广泛应用于数字设备中的声音处理。计算机图形学也在20世纪下半叶迅速发展，成为图像生成和分析的基础工具。这些工具在自动生成图像和分析图像特征方面扮演着重要角色，尤其是在对图像进行分类和特征提取时。

编程与软件工程

几乎所有的AI技术都需要结合常规的软件工程和编程技术来构建复杂的系统。无论是搜索、推理、神经网络，还是自然语言处理等模块，最终都要通过常规的软件开发过程，利用软件工程的原则进行整合和实现。AI系统的设计、开发、调试和维护都离不开高效的软件工程技术。

人机交互

自1970年代以来，计算机科学领域发展出了一个专门的分支，专注于软件设计以改善人机交互（HCI）。该分支的目标是创建易于使用、减少用户错误的用户界面，尤其是在用户处于压力或困境时。人机交互在20世纪60年代鼠标的发明以及90年代商用触摸屏的出现中得到了极大的推动。良好的人机交互设计整合了图形和可视化，使得系统的操作不容易出错，并能够提供关于进度或任务错误的清晰反馈。经过验证和长期使用的人机交互原则对于“人机协作”模式至关重要。在这种模式下，AI增强和扩展了人类的智能，而不是完全替代人类。良好的人机交互设计可以使一个功能较弱的程序变得极为有用，而糟糕的设计则可能让一个功能强大的程序变得无法使用。良好的人机交互设计对AI的成功至关重要。

通信

许多AI应用涉及设备之间的通信，如通过蓝牙、手机通信和光纤技术等。通信技术使人们和组织能够构建对人类活动至关重要的网络。这些网络包括协调网络，使得跨国公司和政府能够大规模提供服务。没有可靠的通信网络，国际贸易和供应链的管理就无法实现。计算机的价值不仅在于处理数字，还在于促进通信。今天，这一原则仍然适用于AI应用程序，尤其是在促进设备间通信和协调方面的应用。

硬件

早期的专家系统和神经网络大多运行在采用冯·诺依曼架构的单处理器计算机上。尽管摩尔定律推动了计算机性能的快速增长，但这些计算机依然无法满足大型神经网络计算的需求。图形处理单元（GPU）的出现改变了这一局面，它能够执行大量的神经网络计算，成为了专用的计算架构，推动了大规模语言模型的构建。Nvidia公司很快成为生成性AI领域的主要芯片供应商，超越了Intel及其冯·诺依曼架构的专长。设计工程师目前正在研究其他技术，如类脑计算、忆阻器和光子学，以提高这些模型的计算速度和能效。AI今天能够取得如此显著进展，离不开这些超级计算能力所依赖的硬件。

人工通用智能的追求

人工通用智能（AGI）指的是能够理解或学习任何人类可以理解或学习的智力任务的机器，甚至可能发展出所有人类大脑的认知能力。但AGI完全是理想化的。目前并没有已知的机器表现出真正的智能或理解。机器只是以各自的方式处理数据，没有任何机器能够理解其处理的数据内容。无论AGI是否能够实现，目前仍然没有定论，然而，很多人依然在追求这一目标。

Julian Togelius在他最近的书中对实现AGI的问题进行了深入分析。他的书分析了“人工”和“智能”这两个词的多种不同解释，并得出结论，是否能够实现AGI取决于我们接受哪一种定义【4】。例如，“我们已经有了具有超人类智能的机器，也就是说，它们在某些任务上比大多数人类更出色，这些任务似乎需要智能。这些超人类智能的机器至少已经存在了几十年。”例如，从1960年代开始，用于计算员工工资的系统，包括工作小时数、加班费、税收扣除、养老金等，都可以看作是超人类智能的机器。与这些专用的应用程序相比，“你可能看到一个标题写着‘AI将接管世界’，然后看到手机中AI驱动的自动完成功能，结论是像这样无能的东西不太可能接管世界。”正如Togelius所建议的，“这让人不禁想知道，写下这些标题的人是否曾经尝试过开发一个AI系统。”

结论

人工智能基于多种技术，这些技术并不试图模仿人类的智能。到目前为止开发的所有应用程序都展示了“狭义AI”——即执行特定人类认知任务的机器。即使一台机器在某个任务上表现得非常智能，甚至超智能，但在其他不相关的任务上却可能表现得很差。人工通用智能（AGI）设想的是能够执行所有人类认知任务的“广义AI”，并且能够与人类同等或更好地完成这些任务。虽然AGI有许多热心支持者，但目前没有人找到接近这一目标的方法。即便如此，也没有人认为它会在2050年前实现，甚至可能永远无法实现。

新闻中心

人工智能：人工智能的基础技术

评论

相关推荐

技术专区