9 月 26 日下午, 2021 年世界互联网大会在乌镇召开。在数据与算法论坛上,清华大学 智能产业研究院(AIR)院长张亚勤院士围绕“人工智能赋能生命科学”这一主题,介绍生物世界发生的数字化和智能化新变革, 并分享清华大学智能产业研究院(AIR)在人工智能与生命健康交叉学科发展上的新布局。
图片来源浙江日报记者 李震宇
生命科学与生物医药领域正在步入数字化 3.0 时代, AI正在加速生命健康与生物医药 领域向着更快速、更精准、更安全、更经济、更普惠的方向稳步发展, 全球已涌现出一大批优秀的生物科技公司。
考虑到人工智能与生物医药产业融合的加速与深化, 张亚勤对清华大学智能产业研究 院(AIR)在“AI+生命健康方向”做了四个研究方向的布局: AI 增强个人健康管理与公共 卫生、AI+医疗与生命科学、AI 辅助药物研发、AI+基因分析与编辑。
针对人工智能与生命科学、生物医药领域的知识鸿沟,清华大学智能产业研究院(AIR) 提出了“AI+生命科学破壁计划”,定义 AI+生命科学领域的核心前沿研究任务。
张亚勤将AlphaFold2 的成功归因于任务的特殊性和模型的优越性,它的成功正在开启 一个新的时代——AI+大分子制药的黄金时代。人工智能模型将会变得更加智能,加速生命科学研究与生物医药产业研究范式与产业模式的更新、迭代。
张亚勤认为, 生物世界正处于数字化、自动化和智能科学计算的新变革中, 用人工智 能和数据驱动的第四研究范式来辅助人们探索并解决生命健康的问题成为一个重要的研究方向。“未来,需要学术界和产业界共同推动生命科学、生物医药、基因工程、个人健康各领域从孤立、开环向协同、闭环发展,实现更快速、更精准、更安全、更经 济、更普惠的生命科学与生物医药创新。”张亚勤说。
在数据与算法论坛上,张亚勤还发表了以“人工智能赋能绿色计算”为主题的演讲演讲。
以下为《人工智能赋能生命科学——机遇与挑战》 演讲原文:
尊敬的各位来宾,领导,朋友们:
大家下午好!
我是张亚勤,很高兴来到山清水秀、风光优美的乌镇与各位领导、嘉宾及业界精 英共同探讨算法及人工智能的发展与未来,深化网络空间的国际共识。
今天,我将围绕“人工智能赋能生命科学”这一主题,介绍生物世界发生的数字化 和智能化新变革,并分享清华大学智能产业研究院(AIR)在人工智能与生命健康交叉学科发展上的新布局。本次报告由我及我的团队成员马维英、兰艳艳、黄婷婷共同完成。
随着基因测序技术、高通量生物实验、传感器等技术的发展,生命科学与生物医 药领域正在步入数字化 3.0 时代,数字化、自动化进程加速。健康计算作为一种新型智能科学计算模式, 是以人工智能和数据驱动为核心的第四研究范式。 它将极大助力人类探索并解决生命健康问题。
人工智能从上世纪五十年代发展到今天,产生了很多不同的算法,尤其是以早期 的 RNN、LSTM 和 CNN 为代表的深度学习技术,及过去这两年的 GAN、 transformer - based (BERT 和 GPT -3 模型), 预训练模型等等,可以说从我们感知方面语音识别、人脸识别、物体的分类,已经和人达到同样的水平。但在自然语言理解,知识推理,和视频语义和泛化能力方面还有很多差距。另外在算法透明性,可解释性,因果性,安全,隐私和伦理等方面还存在较大挑战。
在可信 AI 计算方面最近又很多进展, 一个例子是联邦学习,这也是清华大学智能产业研究院的一个重要研究课题。联邦学习主要有两种方案,一种是横向联邦学习,它主要面向不同来源特征和模型相同的场景,能够保证相同模态不同来源数据之间的隐私性。另一种叫做纵向联邦学习,它可以处理不同来源的特征和模型不同的情况,能够保证多模态数据之间的隐私性。
我们已经看到, AI 正在加速生命健康与生物医药领域向着更快速、更精准、更安 全、更经济、更普惠的方向稳步发展。具体体现在,人工智能在蛋白质结构预测、CRISPR 基因编辑技术、抗体/TCR/个性化的疫苗研发、精准医疗、 AI 辅助药物设计等方面的研究已成为国际前沿战略性研究热点。
考虑到这样的学科发展趋势和产业背景,清华大学智能产业研究院在“AI+生命健 康方向”做了四个研究方向的布局,聚焦在研究“AI 增强个人健康管理与公共卫生” 、“AI+医疗与生命科学”、“AI 辅助药物研发”与“AI+基因分析与编辑”方向。
作为交叉领域研究与应用,我们认识到人工智能与生命科学、生物医药领域存在较大的知识鸿沟,缺乏面向生物计算的数据集、AI 平台、核心算法、计算引擎,同时跨界人才也非常稀缺。针对以上挑战,我们提出“AI+生命科学破壁计划”,目标是定义 AI+生命科学领域的核心前沿研究任务,跨越生命健康领域与人工智能的领域鸿沟,打破壁垒,促进 AI 与生命科学的深度交叉融合,加速科学发现。
为此,我们需要构建面向生命科学领域的人工智能基础设施、数据平台、核心算 法引擎,支撑生命科学前沿研究任务。 同时通过打造旗舰公开数据集,组织算法挑战 竞赛,构建 AI+生命科学的众智平台,培养跨界人才,构建产业生态。
AlphaFold2 是 AI+生命科学的一个典型成功案例。它的成功因素来自于两方面, 首先, 是任务的特殊性,蛋白质结构预测就可以看作从序列到三维结构的一个一一映射问题,因此它是一个well define 的 AI 问题。这就是破壁计划的目标,要找到生命科 学中意义重大, 但同时又能抽象为适合 AI 的研究任务。第二,是模型的优越性。一方面,长时间的生命科学领域的研究积累了大规模的蛋白质结构数据,而AlphaFold2 的 整个模型架构则充分利用了数据驱动的端到端深度学习模型,大数据与深度模型的结 合恰恰是第四范式的典型特点。因此,AlphaFold2 带给我们的启示就是在 AI+生命科学的研究中,要注重破壁和第四范式的重要性。
显然, AlphaFold2 仅仅是一个开始,它的成功正在开启一个新的模式。蛋白质结 构的精准预测为生命科学家提供了高效的计算工具,也为基于 AI 的重大生命科学发现提供了可能。未来,抗体、抗原的表位预测,肿瘤的精准疗法,TCR/个性化疫苗的设 计与优化等方向将成为重要的研究热点,并在 AI 驱动的新计算模式下取得突破性进展, AI+大分子制药的黄金时代将正式到来。
其中,还会产生很多新的科学挑战,也预示着将产生新的计算范式,例如,干湿融合的闭环式计算框架。一方面人工智能模型通过高通量、多轮湿实验的闭环验证和 数据补充将变得更为智能。另一方面,通过主动学习或强化学习的方式, AI 将主动规划湿实验的自动化进行,形成干湿闭环验证、迭代加速生命科学发现与产业应用。我们预见到,通过干湿闭环打通,生命科学研究与生物医药产业将迎来新的研究范式与产业模式。
我们目前在基因数据的表达和预测方面已经取得了一些初步进展。最近,由我们 清华大学智能产业研究院(AIR)的兰艳艳教授带领 GeneBert 团队设计了一个新颖的基因预训练模型,通过构建序列与转录因子之间的二维矩阵,实现了一个多模态的基 因预训练模型,获取了基因数据的有效表示,尤其是挖掘了非编码区的数据价值,在 下游的启动子、转录子结合位点的预测,先天性巨结肠疾病的基因筛选任务上都大幅 提高了性能。我们相信,类似预训练这样的前沿 AI 技术在基因数据上的持续深入应用,将进一步挖掘基因数据的价值,帮助我们破解人类的密码,在癌症的精准治疗等重要问题上发挥作用。
总结来看,我们认为,生物世界正处于数字化、自动化和智能科学计算的新变革 中,用计算的方法,即人工智能和数据驱动的第四研究范式来辅助人们探索并解决生 命健康的问题成为一个重要的研究方向。未来,需要学术界和产业界共同推动生命科 学、生物医药、基因工程、个人健康各领域从孤立、开环向协同、闭环发展,实现更快速、更精准、更安全、更经济、更普惠的生命科学与生物医药创新,这代表着下个十年巨大的科学发展与产业创新的新机会。
我们热切呼吁更多的人来关注、支持或投身于这个新兴交叉学科的发展,谢谢大家!