(资料图)
业界首个AI蛋白质生成大模型“达尔文”(NewOrigin)7日在2023世界人工智能大会(WAIC)上正式亮相。其研发领军人,清华大学智能产业研究院卓越访问教授、分子之心创始人许锦波表示,AI蛋白质生成大模型瞄准创新药设计、合成生物学等真实产业应用需求,将用一个模型满足蛋白质生成全流程需求,未来大分子药、新生物材料等蛋白质设计可实现“一键定制”。
据介绍,该大模型通过学习千亿级多模态大数据,可实现多模态定向生成,单模型就能满足序列生成、结构预测、功能预测、从头设计等蛋白质生成全流程需求,解决产业应用所需的特定功能蛋白质生成难题,并在真实的产业环境中评估效果与价值。
过去60多年中,蛋白质结构始终是困扰生物学家的难题之一,这一局面在AI方法应用之后得到了根本性的改变。2016年,许锦波首次借助AI大幅提升了蛋白质结构预测精度,并开始逐步影响蛋白质生成。但由于极高的技术壁垒,蛋白质生成至今仍是尚未完全攻克的技术难题。
“大模型的出现将大大加速蛋白质生成技术的发展进程,并推动其在生物医药、合成生物学等领域应用。”许锦波表示。当下ChatGPT等自然语言大模型的表现,让各界对大模型机制信心倍增。但在蛋白质生成等专业垂直领域,通用的自然语言大模型能力十分有限。究其原因,生物领域的复杂数据、专业知识与应用场景,都与自然语言交互的通用场景相差甚远,能力要求也更高。
因此,研发蛋白质生成大模型,除了必备的算法、算力、数据等基础条件,还需要具备两大专业进阶能力:一是融合计算机、生物、物理等多学科,熟识AI、分子动力学、量子计算等多种方法,且能在实践中并行考虑序列与结构、主链与侧链、进化与组学的跨领域融合能力;二是走出实验室,下沉至真实的产业环境,在需求、验证、落地上贴近真实产业需求的能力。
据了解,许锦波团队从2019年开始使用预训练机制研发蛋白质设计算法,通过整合结构预测、侧链预测、蛋白-蛋白对接等多种技术,结合多种场景需求,目前已在改造或从头设计蛋白质上取得了重要的突破。比如,设计功能类似但更小的蛋白质、能够结合某个小分子的蛋白质、能够结合某个底物的酶、基因编辑用的蛋白质等。
在此基础上,许锦波团队开发了融合自然语言和蛋白语言的AI蛋白质生成大模型“达尔文”(NewOrigin)。它具备可以根据特定需求定制化生成蛋白质、实现快速验证和迭代、降低交互门槛等优势。更重要的是,该大模型是真正面向产业需求的AI蛋白大模型,可基于工业级的应用反馈持续迭代,解决真实的产业需求。
为了更好地满足应用所需,分子之心以大模型为底层基础,面向药物设计、合成生物学等应用场景打造产业级的解决方案,并进一步将大模型的能力在药物设计、生物育种、环境保护、高性能材料等多个领域广泛落地,驱动多领域创新。比如,以对话交互的方式,让NewOrigin生成针对某个靶点的抗体,或生成具备某个底物特异性的酶等。
许锦波表示,AI和生物科技是当下全球科技竞争的重要战略领域,蛋白质技术作为生物科技的底层技术,与AI融合创新是必由之路。AI蛋白质生成大模型的开发只是起点,更具价值的是将其真正应用于产业中,实现可编程、可预测的创新药设计和生物制品开发,通过底层技术突破驱动生物经济变革。
关键词: