博客专栏

EEPW首页 > 博客 > Alexander Tropsha:AI从零自学设计新型****物分子,研究登Science子刊|42问AI与机器人未来

Alexander Tropsha:AI从零自学设计新型****物分子,研究登Science子刊|42问AI与机器人未来

发布人:腾讯AI实验室 时间:2020-10-07 来源:工程师 发布文章

9月2日在深圳举办的首届「Nature Conference - AI与机器人大会」上,Alexander Tropsha  教授将给出他的答案。

本届大会由腾讯 AI Lab 携手Nature Research(自然科研)及旗下《自然-机器智能》、《自然-生物医学工程》两本期刊联合举办。大会上将发布「42个 AI 与机器人大问题」报告,并邀请 11 位世界知名学者为这些宏大问题给出每个人独特而深刻的理解与答案。在报告中,我们还邀请到 Yoshua Bengio、Jürgen Schmidhuber和多位中国院士提供专家见解。

「42 」源自科幻小说《银河系漫游指南》,是智能计算机「Deep Thought(深思)」经过 750 万年运算,找到的「关于生命,宇宙及一切问题的终极答案」。我们希望这个有终极目标意涵的 42 个大问题,能激发对人、AI与机器人未来的长远思考与规划。

下面我们将开启一段旅程,看看让AI武装「****物猎手」的 Alexander Tropsha 教授,如何思考AI在生物医学研究和****物开发中的作用。

1602050616380204.jpg

Alexander Tropsha 是计算化学、化学信息学和结构生物信息学专家,现为美国北卡罗来纳大学教堂山分校(UNC)教授,同时担任该校 Eshelman ****学院****物信息学和数据科学副院长。

Alexander Tropsha 撰写了190多篇论文和20本著作/章节,在化学信息学领域的贡献尤为突出。目前,他正致力于为计算机辅助****物设计开发新的方法和软件工具,以帮助降低****物研发成本,缩短新****发现时间。他还领导着 UNC 的分子建模实验室,研究项目包括用化学信息学的方法开发定量构效关系(QSAR)建模,计算ADME-Tox建模和化学安全性评估,以及用计算几何方法来分析蛋白质结构 - 功能关系,建立能够预测孤儿蛋白功能的模型等。

AI从零开始自学设计新型****物分子

去年7月,Tropsha 教授及其团队在 Science Advances 上公布了一种基于深度强化学习的新方法ReLeaSE(Reinforcement Learning for Structural Evolution,用于结构演化的强化学习)。该方法可以从零开始自学设计具有所需物理、化学或生物活性的新型****物分子,有望大幅加快新****研发速度。

ReLeaSE 集成了两个深度神经网络——生成和预测神经网络。生成模型通过堆栈增强的记忆网络来训练,以产生化学上可行的SMILES(simplified molecular-input line-entry system,简化分子线性输入系统)字符串,预测模型则用来预测新生成化合物的属性。这两个神经网络的角色如同老师和学生,老师了解大约170万种已知分子化学结构背后的规则,而学生通过与老师合作,学习创造新型****物分子。「如果新分子具有现实可行性和期待的效果,老师就会批准。反之,老师就会否决,让学生避免创造糟糕的分子结构,而去制造有用的分子。」Tropsha 说。

ReLeaSE的第一个阶段中,会使用监督学习算法分别训练生成模型和预测模型。第二个阶段中,两种模型使用强化学习方法一起训练,以产生具有所需物理和生物特性的新化学结构。

1602050672990817.jpg

深度强化学习算法的工作流程,用于生成具有所需属性的新SMILES化合物字符串。

虚拟筛选计算方法可以让科学家评估现有的大型化学库,已被制****行业广泛用于识别可行候选****物,但该方法仅适用于已知的化学物。ReLeaSE是虚拟筛选的一大创新,具有创建和评估新型分子的独特能力,可以像「私人厨师」一样为科学家提供他们想要的任何「菜肴」,而不再受「菜单」限制。

Tropsha团队使用ReLeaSE生成了具有指定属性(如指定的生物活性和安全性)的分子,还可以设计具有定制物理特性(如熔点和水溶性)的分子,以及设计具有抑制活性的白血病相关酶的新型化合物。ReLeaSE有望缩短新****候选临床试验所需的时间,对于行业来说极具吸引力。

1602050858682591.jpg

由生成模型产生的分子样本

用机器学习方法研究难溶性****物递送

如上文所述,计算建模的方法目前在****物发现领域中已得到广泛应用。但是,该方法在****物递送领域的研究还很稀少。今年6月,Tropsha 团队在 Science Advance 上发表论文,开创性地利用机器学习方法来研究聚合物胶束对难溶性****物的递送。

许多具有良好活性的****物由于溶解性差,口服给****受限,大约40%的候选****物因此不能进入临床,这是开发高效****物的主要障碍之一。传统实验方法在开发****物递送系统方面取得了一些进展,但过程耗时且昂贵,亟需计算机辅助方法来设计和优化****物分子的递送系统。计算机辅助方法可以使早期决策简化开发过程,并通过将候选****物与其首选的递送系统相匹配来减少候选****物的浪费。

Tropsha 团队在该研究中选择了聚合物胶束作为口服给****的载体。聚合物胶束是由两亲性聚合物自发形成的热力学稳定体系,可以显著改善****物的溶解性,增加透过生物膜的****量,从而提高****效。团队通过利用一种新的描述符和随机森林算法对聚合物胶束的****物递送进行研究。

首先,研究人员筛选出41种化合物****物进行实验测试,并得到了408个实验数据点。随后进行化学信息学分析,团队开发了新的****物 - 聚合物系统描述符,反映小分子和聚合物的化学结构,并根据该描述符结合随机森林算法来构建QSAR模型。最后,通过QSAR模型进行虚拟筛选,选出有较高效率和能力的聚合物胶束,并进行实验验证。

1602050917296164.jpg

研究设计

实验结果显示,该计算机辅助策略使得****物制剂设计的成功率显著增加。传统实验方法命中率约为48%,而使用本研究中开发的模型来设计新配方,命中率从48%提高到75%,几乎是原来的两倍。「该研究的成功说明了计算机辅助设计新型****物递送系统的能力,在****物递送领域应该更广泛地应用计算建模方法。」Tropsha 论文中写道。

除了利用AI技术设计新****、研究****物递送,Tropsha 还一直关注如何设计更好的系统来预测新化学产品的风险,为负责评估新****和其他化学产品的监管机构(如FDA和环境保护局)提供更准确的工具来支持监管决策,避免错误的毒性筛选浪费大量资金和时间。Tropsha 团队曾对广泛应用的筛选工具PAINS alerts(假阳性****物警报)提出质疑,在分析了上千个化合物后认为该工具的实际作用并不可信。「计算工具可以帮助分类过程寻找新的****物化合物,但若使用不当,相同的工具也可能会阻止****物进入市场。」Tropsha 说。

目前,Tropsha 领导的UNC分子模拟实验室正在计算机辅助****物设计、化学信息学和结构生物信息学等广泛领域开展研究,致力于开发用于表征复杂分子的新描述符,分析筛选数据的新技术,设计具有高预期命中率的新化合物和文库等等。9月2日,Tropsha 教授将在AI与机器人大会上带来他的前沿研究成果,并分享关于生物医学研究中AI应用的洞见,敬请期待。

|演讲摘要

《用于****物发现的生物医学知识图谱挖掘和AI方法》

Biomedical Knowledge Graph Mining and AI Approaches to Drug Discovery

不同的生物医学学科领域已在过去创建了许多数据库。首先我将讨论美国国立卫生研究院(NIH)所赞助的生物医学数据转译器和推理项目(Biomedical Data Translator and Reasoning),该项目的目标是探索这些在全面的生物医学知识图谱中互相关联的数据库或知识源,以揭示现有****物的临床结果路径。这样的研究能加速发现现有****物的新治疗选择;但是,发现全新的****物也有很强的医疗需求。目前,我们已经开发出了一种基于深度学习和强化学习技术的全新的计算策略,可基于基础分子设计具有所需性质的****物。我们的策略是整合两个深度神经网络——生成网络和预测网络,它们是分开训练的,但会进行联合部署,加上额外的强化学习组件,可用于生成全新的具有生物活性的化学结构。我们已经在概念验证研究中部署了这一策略(称为 ReLeaSE,即 Reinforcement Learning for Structure Evolution/用于结构演化的强化学习),用于设计倾向于具有特定范围的物理性质(比如熔点和疏水性)的化合物的化学库,以及用于开发能选择性地针对特定目标(比如激酶抑制剂)的全新化合物。我将讨论 ReLeaSE 技术的近期进展,还将介绍将 ReLeaSE 与性质过滤器和机器人化学相结合,以加速具有所需性能的新型化学实体的实际设计和发现。最后,我会以生物医学研究中 AI 方法的应用所具有的挑战和机遇作结。

*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。



关键词:

相关推荐

技术专区

关闭