百度生物计算方法成果入选《Nature》正刊

人工智能 2年前 (2023) 原始
16 0
百度生物计算方法成果入选《Nature》正刊

5 月 1日,国际顶级学术期刊《Nature》正刊发表了百度与合作单位在生物计算领域的突破性成果,提出 mRNA 序列优化算法 LinearDesign。这是中国科技企业首次以第一完成单位的身份在《Nature》杂志发表论文,这也是AI应用于mRNA领域的首篇CNS主刊论文。

mRNA 疫苗被认为是遏制 COVID-19 的可行工具, 但 mRNA 疫苗和药物仍面临一些挑战。其中如何高效设计出稳定、成药性更好的 mRNA 序列是难点之一。百度运用自然语言处理中网格解析(Lattice Parsing)技术,对 mRNA 疫苗序列进行优化,提升疫苗稳定性和有效性。LinearDesign 算法将序列设计的海量计算简化为自然语言处理中的经典问题,让 " 大海捞针 " 变成了 " 按图索骥 "。

这篇名为《Algorithm for Optimized mRNA Design Improves Stability and Immunogenicity》(《mRNA优化设计算法提高稳定性和免疫原性》)的论文详细介绍了LinearDesign的创新性表现。

LinearDesign是一个mRNA序列优化算法。它开创性地将AI技术与生物领域疫苗研发相结合,运用自然语言处理中的“lattice parsing”技术(网格解析技术),对mRNA疫苗序列进行优化,来提升疫苗稳定性和有效性。

生物实验结果显示,由LinearDesign算法优化设计出的新冠mRNA疫苗和带状疱疹mRNA疫苗序列,对比由此前普遍使用的密码子优化方法设计的疫苗序列而言,在稳定性、蛋白质表达水平、抗体反应三个关键指标中有显著提升,其中新冠mRNA疫苗抗体反应有128倍的提升。

该研究成果的提出,实现了计算机科学和生物学的跨学科创新,不仅将有助于mRNA疫苗的研发,还将推动mRNA治疗药物、单克隆抗体和抗癌药物等科学研究和药物研发,具有重要的实际意义和广泛的应用前景。

NLP技术+生物技术 碰撞出创新火花

受新冠疫情的影响,全球对mRNA疫苗的研究和应用热情高涨。mRNA疫苗因其易于大规模生产、安全性和高保护力而被认为是遏制COVID-19等流行病的可行工具。

mRNA疫苗中的主要成分mRNA分子,可以产生抗原蛋白,激活体内免疫反应,以对抗各种病原体。但是,mRNA分子的化学性质不稳定且易于降解。这种不稳定性降低了疫苗的免疫原性和成药性,也成为疫苗储存和分发的主要障碍,导致mRNA疫苗需要依赖高成本的冷链技术,这阻碍了mRNA疫苗在全球,尤其是发展中国家的使用。

因此,如何在mRNA疫苗的稳定性和有效性上做一些提升突破,成为科研人员想要攻克的难关。

2020年,百度生物计算团队开始在该领域投入研究。

该论文第一作者、百度研究院资深工程师张贺介绍,行业此前的研究指出,可以通过对mRNA疫苗序列的结构稳定性和密码子使用进行优化,来提升疫苗稳定性和有效性。

然而mRNA序列设计空间极其巨大,极其耗时。以新冠mRNA疫苗为例,需要在10的632次方个序列中确定出最优序列,如果一个个枚举,需要10的618次方亿年,在现有的计算条件下是一个不可能完成的任务。

百度研发的LinearDesign算法为这个难题提供了一个简单而出乎意料的解决方案,通过NLP中的经典“lattice parsing”(网格解析)技术,将“找出10的632次个序列中的最优序列”问题,简化为在十几分钟内就能解决的问题。可以说,巧妙地将序列设计的海量计算简化为自然语言处理中的经典问题,让“大海捞针”变成了“按图索骥”。

通俗点说,就是海量mRNA序列中找到最佳(最稳定、最有效)的mRNA序列,就类似于在语言识别任务中从发音相似的备选句中找到最有可能(最符合语法)的一句。

mRNA序列由腺嘌呤(A)、尿嘧啶(U)、鸟嘌呤(G)、胞嘧啶(C)四种核苷酸组成,编码区域中每三个核苷酸形成一个密码子(codon),每个密码子编码了一个氨基酸的信息。

张贺向TechWeb介绍,LinearDesign算法对影响mRNA序列的稳定性和有效性的两个因素,即“二级结构”和“密码子偏好”设计了联合优化目标函数,在这个确定的目标函数指引下,用lattice parsing(网格解析)技术在海量的空间里面选到兼顾二级结构和密码子适应指数(CAI)最好的序列。

LinearDesign算法利用“动态规划”算法,把计算状态进行等效合并,无损的对海量搜索空间进行压缩,把这个指数级复杂的问题简化为一个三次方时间内能解决的问题,极大缩短最佳mRNA序列生成时间。

从实际验证效果来看,LinearDesign算法极为高效,以新冠mRNA疫苗序列为例,该算法能够在短短11分钟内,从10的632次方个海量序列中找到最稳定的新冠mRNA疫苗候选序列。

对比疫苗公司进入临床实验的新冠mRNA疫苗序列,该算法设计的序列稳定性(mRNA分子半衰期)最多提升5倍以上,蛋白质表达水平(48小时)最多提升3倍,抗体反应最多提升128倍。

相比传统密码子优化方法设计的带状疱疹mRNA疫苗序列,该算法设计的序列其稳定性(mRNA分子半衰期)最多提升6倍以上,蛋白质表达水平(48小时)最多提升5.3倍,抗体反应最多提升8倍。

LinearDesign算法对于算力的要求并不高。它可以在云平台服务器、个人电脑上运行。

谈及这项“NLP技术+生物研究“创造出的新成果,张贺表示,LinearDesign的成功得益于百度与斯微生物、俄勒冈州立大学、罗彻斯特大学等合作单位组成的跨学科研究团队,这是一个由AI人才和生物人才紧密合作的团队,大家互相碰撞,互相学习。

因为有具备自然语言处理背景的AI专家,大家很自然的想到利用NLP的方法来解决mRNA序列优选这样一个看似不相关的问题。

在AI领域资深工程师张贺看来,寻找“最相似语音句子”和寻找“最优mRNA序列”的底层数学逻辑是完全一样的。

普适性催生商业价值

张贺强调,LinearDesign算法有非常强的普适性,它提供的mRNA序列,很多是传统方法甚至是人类专家都无法设计出来的序列。

LinearDesign算法不仅有助于生物医药公司快速研发更有效的mRNA疫苗,并降低研发成本,还可以应用在包括单克隆抗体在内的蛋白治疗药物的研究和开发。

目前,该论文被获准成为少有的Accelerated Article Preview (AAP) 加速发表论文,更体现了LinearDesign算法这项研究成果的新颖性和实用性。

事实上,在AI+生命科学领域,百度已有多年布局和投入。

2018年,百度即开始探索生物计算领域;2020年12月。百度正式发布生物计算平台-螺旋桨PaddleHelix,螺旋桨PaddleHelix是基于百度飞桨深度学习框架打造,面向新药研发、疫苗设计、精准医疗等场景,为生物医药领域的研究者和从业人员提供全面的AI+生物计算的算法工具和技术方案。

据悉,截止目前,螺旋桨PaddleHelix平台基于文心·生物计算大模型,已开放多个算法模型,包括药物筛选、ADMET性质预测、分子生成、蛋白结构预测、多蛋白相互作用、多肽药物设计、mRNA序列设计和药物重定向等技术方案。

在2021年,百度就跟世界疫苗巨头、医药巨头赛诺菲签订的协议,利用百度的平台来优化mRNA疫苗和药物设计,用于人类疾病的治疗和预防,LinearDesign算法也将有望能够大规模应用在药物研发的管线上。

《Nature》杂志的LinearDesign算法是百度深耕生物计算领域的一个计算机和生命科学相结合的标杆性案例。

张贺认为,NLP有很多非常强大的能力,未来还可以沿着LinearDesign算法这个思路,把更多强大的模型用于解决目前制药、医疗领域实际的问题。

通过AI解决困扰世界顶级疫苗公司和学界的生物学难题,美国罗彻斯特大学生物化学与生理系教授Dr. David H. Mathews 的评价是:“LinearDesign的优势在于速度!它能够快速提供一系列的优良序列,研究者可以进一步通过实验来测试其稳定性是否足以充当疫苗。”

AD
版权声明:原始 发表于 2023-05-08 10:56:53。
转载请注明:百度生物计算方法成果入选《Nature》正刊 | SCISOON

暂无评论

暂无评论...