"); //-->
在药物发现和材料科学中,活性和性质预测模型是及其重要的工具,但目前采用的模型一般需要根据新需求在目标数据上进行训练或微调。语言模型可以通过零/少样本能力处理新的任务,但其活性预测的预测质量较差。为此,作者提出了一种新型活性预测模型,通过理解描述任务的文本信息,能够在推理时适应新的预测任务。
分子活性和分子性质预测模型是计算药物发现中的主要工具,类似于自然语言处理(NLP)中的语言模型和计算机视觉(CV)中的图像分类模型,并且已经发展了数年。
分子编码器从化学结构中提取相关特征,并在生物活性数据上进行训练。由于活性数据的标签来自于湿实验,标注方式十分繁杂并且昂贵,因此人们对能够在少量数据点上高效训练活性预测模型的方法非常感兴趣。最近提出的基准数据集FS-Mol为活性预测任务提供了仅四个标记分子,因此模型必须能够有效地从其他任务中转移知识,这显然不试用于如上图a部分所示的模型构建形式。同时,湿实验中有关活性预测任务的文本描述中可能也有大量信息,但目前的活性预测模型(以上图a部分所示模型为代表)无法利用这些信息。
对于语言模型而言(上图b部分所示),虽然其结合了自然语言和化学结构的信息,但它们在活性预测方面仍表现不佳,其效果受限于隐式分子编码器和训练数据量等因素。作者认为,选择有效的分子编码器并利用带自然语言的化学数据库作为训练或预训练数据,可以改进上述两种模型的缺点,以提高活性预测的性能。为此,作者出了一种具有两个独立模块的模型结构(CLMAP)。第一个模块是分子编码器,第二个模块是文本编码器,两者在这两种数据模态之间进行基于对比学习的预训练,如上图c部分所示。值得注意的是,目前流行的对比学习框架(没有标签的成对数据),将匹配数据对与生成的不匹配数据对进行对比,而作者在这里采用的是依据数据集已有的标签来构建文本和分子的数据对(即分子对文本描述的任务有活性时,设置为匹配的数据对,无活性时,为不匹配对)。
实验结果
零样本迁移学习:作者在FS-Mol和PubChem这里两个数据集上对CLAMP的能力与其他方法做了对比。可以看到,基于纯自然语言的模型GAL和KV-PLM并不能很好的做好零样本下的迁移学习。值得注意的是,FH是目前最好的方法,CLAMP仍能够在各种数据集划分的方式下打败它。
模型表示能力:为了检查模型学习到的分子表示是否可转移到其他任务上,文章选取MoleculeNet作为基准数据集,将CLAMP与其他方法进行对比。通过在分子表示层特征进行线性调整之后,CLAMP效果甚佳,在大部分情况远超已有模型。
结论
作者提出的对比学习方法 CLAMP 在多个大型数据集上展现出了最佳的零样本预测药物活性的表现。除此之外,CLAMP 的预训练分子编码器能够产生有效的分子编码,可以迁移到其他分子属性预测任务上。作者还指出,尽管语言模型原则上可以用于零样本活性预测,但它们在这个任务上表现不佳,并且计算成本较高。
参考资料
Seidl, P., Vall, A., Hochreiter, S., & Klambauer, G. (2023). Enhancing Activity Prediction Models in Drug Discovery with the Ability to Understand Human Language. arXiv preprint arXiv:2303.03363.专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
联发科加速AI在地化应用布局
CSR8670CSR8675智能语音Alexa蓝牙方案开发
研华科技与Axelera AI深化战略合作 加速推动基于Europa平台的边缘AI创新
iCAN-4017 AI功能模块
存储器转型AI战略资源 台厂受惠
海联达(Aigale)Ai-HD1 无线全高清套件拆解
释说芯语16:硬科技:构建企业未来之路(附PPT)
继上次海联达Ai-ap100拆机之电源改造
瑞萨电子AI单元解决方案成功提高GE医疗(日本)日野工厂的生产力
基于VisitionX制造智能眼镜
基于Microchip MCU的AI/ML培训教程2
前Qwen负责人林俊旸创业,目标融资规模为数亿美元
WTC-AI型太阳能热水器电路图
尼吉康的事业介绍
人工智能是如何帮助阻止造假者的?
EEPW2018年6月刊(5G)
EEPW2018年3月刊(工业物联网)
基于Microchip MCU的AI/ML培训教程1
WTC-AI太阳能热水器电路图
国家“算力网”:像用水用电一样用AI
被动元件新周期:AI时代高端化、服务器化重构MLCC产业格局
AI聊天机器人能像医生一样推理吗?
基于Ai-WB2-12F与Rd-04的雷达检测系统
思科凭借通用商用芯片与光模块赢得 AI 领域客户
基于Microchip MCU的AI/ML培训教程3
AI/HPC新世代 COUPE光互连扮要角
万家乐JSYZ5-AI燃气热水器电路图
电子元件培训教材
重新构想AI电源:塑造AI加速的未来(第三部分)
PowiGaN for AI Data Centers: Unmatched Power Density and Reliability