博客专栏

EEPW首页 > 博客 > 复现AlphaFold2?完全开源新型蛋白结构预测工具的背后:算法不是写出来的,而是用出来的丨专访深势科技

复现AlphaFold2?完全开源新型蛋白结构预测工具的背后:算法不是写出来的,而是用出来的丨专访深势科技

发布人:深科技 时间:2021-12-12 来源:工程师 发布文章
从一举破解困扰生物学家长达 50 年的 “蛋白质折叠” 难题,再到向公众开源相关代码,AlphaFold2、RoseTTAFold 等蛋白质结构预测工具正在深刻变革着结构生物学的发展。


站在巨人的肩膀上,国内的同行们也在不断改进和优化算法性能,并相继推出了自己的蛋白质预测工具。
近日,国内人工智能初创公司深势科技宣布正式推出蛋白质结构预测工具 Uni-Fold,并开源了推理代码和训练代码深势科技表示,Uni-Fold 成功复现了 AlphaFold2 的全规模训练,且已集成在其专有的****物设计平台 Hermite,用户可以在线试用。
值得一提的是,Uni-Fold 同时开源了推理代码和训练代码,这意味着用户不仅可以预测蛋白质三维结构,还可以根据项目需求进一步训练和优化模型。而早前 AlphaFold2 只开源了推理代码,用户只能在现有数据库基础上使用。
据介绍,同等测试条件下,Uni-Fold 对 CASP14 蛋白质序列数据集的 Cα-lDDT 达到 82.6,仅次于 AlphaFold2 的预测精度。此外,Uni-Fold 在运行硬件和代码运行效率上具有明显优势。
与 AlphaFold2 相比,本次开源的 Uni-Fold 有何突破性?背后推手深势科技在生物制****领域有着怎么样的布局?对计算生物学又有着怎样的见解?
就这些问题,生辉与深势科技首席执行官孙伟杰以及首席科学家张林峰博士进行了探讨。
孙伟杰与张林峰是典型的 90 后创业者,两人既是本科同窗挚友,也是配合默契的创业伙伴。两人本科均毕业于北大元培学院,此后,张林峰前往普林斯顿大学攻读应用数学博士学位,孙伟杰则投身于投资和管理。2018 年底,两人一拍即合,共同创办了深势科技。

这是一家定位为工业设计的初创公司,目前团队规模约为 120 人左右。该公司计划搭建微尺度工业设计平台,目标是从电子、原子、分子等微观尺度为传统行业找寻解决方案,当前两大落地场景是****物设计和材料设计。
“开源两大代码更大的意义在于,可以为整个领域内提供与 AlphaFold2 相同的起点,从这个起点出发,大家可以做更多的事情。同时,技术的演进也会探索更多新场景,包括蛋白质复合物、动力学等。接下来可能会出现更令人兴奋的解决方案,整个生物计算以及生物制****领域也会有更大的发展。我们相信,Uni-Fold 会让接下来半年更加值得期待。” 张林峰说。完全开源,可不断优化算法
AlphaFold2 在第 14 届蛋白质结构预测大赛中(CASP14)的预测分值中位数为 92.4 GDT,预测水准与实验室水平相差无几。其预测精确度极高的一个重要原因就在于对数据的利用度非常高,几乎应用了领域内所有数据。
张林峰告诉生辉,蛋白质预测工具 Uni-Fold 成功复现了 AlphaFold2 的大规模数据训练过程。也就是说完全复刻了 AlphaFold2 的技术路线,两者的方法论一致,且属于同一代技术。
基于此,Uni-Fold 对蛋白质三维结构的预测精度、运行时间和对蛋白质复合物的预测与 AlphaFold2 接近。据悉,在同等测试条件下,Uni-Fold 对 CASP14 蛋白质序列数据集的平均 Cα-lDDT(局部比对指标)达到 82.6,仅次于 AlphaFold2,超越了 RoseTTAFold。

AlphaFold2 更擅长预测和计算单个蛋白质的结构,然而大多数蛋白质往往是以复合物形式存在,并非单体存在。预测蛋白质复合物是该领域比较棘手的问题,RoseTTAFold 的研究人员曾表示下一步将会继续提高算法预测蛋白质复合物的能力。张林峰也坦言,目前 Uni-Fold 还没有完全解决复合物预测问题,这会是团队未来一个重点努力方向。
据了解,更为关键的一点在于,Uni-Fold 是蛋白质结构研究领域首款完全开源的预测工具,同时开源推理代码和训练代码。相比之下,AlphaFold2 只开源推理代码,这就意味着只能在给定场景下预测蛋白质结构,一定程度上限制了算法的优化以及应用边界的扩展。
“这就好像一个用已有数据训练出来的‘熟练工’,只能根据指令做一些指定的指令,可塑性较低。从训练角度来看,完全开源的算法更像一个高智商的‘孩童’”,我们可以在不同场景,不同需求之下,指引其成为某个领域的专家。”
算法不是写出来的,而是用出来的。我们希望在原有算法的基础上扩展更多新的功能,包括蛋白质复合物结构预测、蛋白质与小分子相互作用预测、与电镜实验结合、抗体序列设计等场景。这是一个长期的发展需求,需要不断演进迭代算法,开源算法有助于我们在整个领域不断迭代解决方案。” 张林峰补充道。
此外,AlphaFold2 所开源的代码与硬件生态耦合,需要通过 Google 专有的硬件 TPU Pod 运行。据悉,相比之下,Uni-Fold 具备更加通用的硬件运行平台,适配并支持 NVIDIA、AMD 以及一些国产硬件。同时,在训练和效率上也做了大量工作,比如说推理代码也更加轻量、高效,在同等运行硬件条件下,代码运行效率提升约 2-3 倍。“新时代的薛定谔”
2019 年,张林峰在分子模拟算法上的取得了突破,这项由他作为核心开发者的研究工作获得 2020 年全球计算机高性能计算领域的最高奖项 “戈登・贝尔奖”,并当选 2020 年全球人工智能十大科技进展。
生命科学、新能源、新材料和信息技术是人类文明最基础的行业,发展的瓶颈普遍是分子层面的设计问题。我们将量子物理模型、分子模拟算法、人工智能、高性能计算等新工具有机结合,搭建一个微尺度工业设计的平台,从微观层面出发解决这些行业问题。” 孙伟杰说。
两位创始人更倾向于将深势科技定位成一家工业设计公司。目前,该公司基于分子模拟算法搭建了专有的微尺度工业设计平台,细分应用场景落地在****物设计和材料设计两大领域。本文的重点将围绕****物设计景展开。
官网信息显示,****物设计平台(Hermite)集中于临床前计算机辅助****物设计的全部阶段,涵盖了蛋白结构解析、靶点发现和确证、虚拟筛选、先导化合物优化、分子智能推荐和****代动力学预测等功能。上文提到的 Uni-Fold 的相关解决方案已整合在 Hermite 平台中。

孙伟杰告诉生辉,基于这些特色的算法和功能,深势科技首先可以为生物制****公司提供软件服务,也会基于创新性算法和生物制****公司针对一些难成****靶点进行联合研发,包括选择性抑制剂、别构抑制剂,以及针对无固定构象蛋白靶点的****物设计和针对特定表位的抗体设计等。目前,已经有多个合作项目在推进中。
在****物设计场景下,从平台角度来看,我们更愿意做新时代的‘薛定谔’。一方面,Hermite 平台可以基本覆盖到薛定谔计算化学工具的功能范围,包括从蛋白质结构解析、****物分子设计与优化,再到****物诸多性质评估的早期****物发现链条。另一方面,Hermite 平台整合了源自内部创新和外部合作者的多个先进算法模块,在多个方面都有超越薛定谔现有功能的潜力,带来新的应用价值。” 孙伟杰说。
薛定谔定成立于 1990 年,是计算化学领域的 “老兵”,在业内有 “计算****物研发上市第一股” 之称。该公司长期专注于利用人工智能计算平台加速****物开发和材料设计,基于物理和化学分析的专有软件可以精准预测模型,继而以更低成本、更快发现更高质量的分子,并开发相关管线。“计算模拟的本质是替代实验”
通常来讲,如果要研究一种材料或者一款候选化合物的性质,需要通过生化实验分析验证。分子模拟则是在计算机上完成这些的化学实验。“本质上,计算的价值就在于是否有能力替代此前在微观分子层面难以完成的实验或者低效的实验。” 孙伟杰说。
“对于计算平台而言,无论是从 AI 概念出发,还是从计算或者是 CADD(计算机辅助****物设计)出发,关键在于平台技术中的计算方法或者工具能否具备代替试验的能力。
孙伟杰透露,算法设计也应该朝着更有潜力代替实验的方向出发,只有这样算法的价值才会更高,平台技术才可以解决更多的问题。从这个角度来看,虽然前路漫长,但我们对公司开发的分子模拟算法充满信心。
以****物设计场景为例,深势科技未来的方向同样也会聚焦两个方面:一,部分代替此前成熟但相对低效的实验,比如通过 X 射线晶体学或者是冷冻电镜解析结构,以及****物的筛选和优化;二,解决难以进行实验的****物设计问题,比如一些传统意义上难成****的靶标,以及针对离子通道和特定表位的抗体****物设计。
现如今,CADD、AI 制****概念火热,资本青睐,****企频频抛出橄榄枝。一方面,薛定谔、Relay、Recursion、AbCelera 等相继上市,获得资本热捧;另一方面,英国 AI 制****领跑者 Exscientia 与 GSK、赛诺菲、BMS、拜耳等签单,薛定谔与****明康德、BMS、再鼎携手...


这是否意味着以 AI、CADD 为代表的计算生物学方式正在或者已经可以代替传统实验手段,在生物制****领域发挥着重大的价值?
“我认为现阶段两种方式会共存共生,互相促进。从预测工具角度来看,首先需要区分不同的应用场景,评估算法的预测精度和置信区间;从生物体层面出发,针对可以物理建模的生物问题,可能会在未来几年通过计算方法的发展得到较好的解决。而对于复杂且无法物理建模的生物学问题,需要实验技术揭示更深层的生物机理,提供更多高质量的数据,才能让 AI 和计算发挥更大的价值,进而揭开生物体运作的奥秘。” 孙伟杰总结道。
张林峰从计算的发展过程角度谈一谈自己的观点。从传统实验到计算方法的演进并非一蹴而就,这是一个循序渐进的过程。以薛定谔为例,当前该公司的 Docking 解决方案在某种程度上已经实现了对实验的部分替代。此外,代替方案也需要考虑效率和成本问题。
整体来看,计算正处于替代实验的过程之中,这是一个存量和增量的问题。对于一些新靶点或者比较大的蛋白,这些属于存量问题,计算工具精度可能还不够,实验方法必不可少;此外,新问题层出不穷,结构生物学领域在可见的未来还是一个计算和试验有机结合的生态,双方肯定是互相促进,共同发展。” 张林峰补充道。


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。




技术专区

关闭