'机器学习元素周期表' 或许能推动人工智能的发现
麻省理工学院的研究人员创建了一个周期表,展示了 20 多种经典机器学习算法之间的联系。这个新框架揭示了科学家如何融合不同方法的策略,以改进现有的 AI 模型或提出新的模型。
本文引用地址:https://www.eepw.com.cn/article/202505/470930.htm例如,研究人员使用他们的框架结合了两种不同算法的元素,创建了一种新的图像分类算法,其性能比当前最先进的方法提高了8%。
这个周期表源于一个关键思想:所有这些算法学习的是数据点之间的一种特定关系。虽然每种算法可能以略微不同的方式完成这一点,但每种方法背后的核心数学是相同的。
基于这些见解,研究人员确定了一个统一方程,它构成了许多经典 AI 算法的基础。他们使用该方程重新构建了流行的方法,并将它们排列成一个表格,根据它们学习的近似关系对每种方法进行分类。
就像化学元素周期表最初包含空白方格并由科学家填补一样,机器学习周期表也有空白之处。这些空白处预示着算法应该存在但尚未被发现的地方。
该表为研究人员提供了一套工具,使他们能够在无需重新发现先前方法中的想法的情况下设计新算法,这是麻省理工学院研究生、该论文的主要作者 Shaden Alshammari 说的。
Alshammari 补充道:“这不仅仅是一个比喻。我们开始将机器学习视为一个有结构的系统,一个我们可以探索的空间,而不是仅仅猜测着前进。”
她与论文合著者 John Hershey(谷歌人工智能感知研究员)、麻省理工学院研究生 Axel Feldmann、电气工程与计算机科学托马斯和格尔德·皮尔金斯教授威廉·弗里曼(计算机科学与人工智能实验室成员)以及资深作者 Mark Hamilton(麻省理工学院研究生和微软高级工程经理)共同撰写了这篇论文。该研究将在学习表示国际会议上发表。
一个意外的方程式
研究人员最初并没有打算创建一个机器学习的元素周期表。
加入弗里曼实验室后,阿尔沙马里开始研究聚类,这是一种机器学习技术,通过学习将相似的图像组织到附近的集群中来对图像进行分类。
她意识到她正在研究的聚类算法与另一种经典的机器学习算法,称为对比学习,非常相似,并开始深入研究数学。阿尔沙马里发现这两个不同的算法可以用同一个基本方程式重新表述。
"我们几乎偶然地得到了这个统一方程。一旦 Shaden 发现它能连接两种方法,我们就开始梦想将新的方法引入这个框架。我们尝试的几乎每一种方法都可以加入其中,"汉密尔顿说。
他们创建的框架,信息对比学习(I-Con),展示了如何通过这个统一方程的视角来看待各种算法。它包括从可以检测垃圾邮件的分类算法到为 LLMs 提供动力的深度学习算法。
该方程描述了这些算法如何找到真实数据点之间的连接,然后在内部近似这些连接。
每种算法都旨在最小化它所学习来近似连接与训练数据中的真实连接之间的偏差。
他们决定将 I-Con 组织成一个周期表,根据点在真实数据集中的连接方式以及算法可以近似这些连接的主要方式来对算法进行分类。
"这项工作逐渐展开,一旦我们确定了这个方程的总体结构,就更容易向我们的框架中添加更多方法了,Alshammari 说。"
发现工具
当他们排列这张表时,研究人员开始看到一些算法可以存在但尚未发明的空白。
"研究人员通过借鉴一种名为对比学习的机器学习技术,并将其应用于图像聚类,填补了一个空白。这产生了一种新算法,该算法在分类未标记图像方面比另一种最先进的方法提高了 8%。
他们还使用 I-Con 展示了如何将针对对比学习开发的数据去偏技术用于提高聚类算法的准确性。
此外,灵活的周期表允许研究人员添加新的行和列来表示额外的数据点连接类型。
最终,将 I-Con 作为指南可以帮助机器学习科学家跳出思维定式,鼓励他们将想法以他们原本可能不会想到的方式结合起来,汉密尔顿说。
“我们已经证明,仅仅一个非常优雅的方程式,植根于信息科学,就能给你跨越100年机器学习研究的丰富算法。这为发现开辟了许多新的途径,”他补充道。
这项研究得到了空军人工智能加速器、国家科学基金会人工智能与基础相互作用研究所和量子计算机的部分资助。
评论