中国移动集团首席科学家冯俊兰博士日前出席在成都举办的AI for Life Science研讨会,并发表题为《向内核要未来——从AI for Science 到 AI for Industry》的邀请报告。
科研范式的变化
当前,AI技术正以惊人的速度发展,科研成果的发布周期显著缩短。AI技术之所以能够快速迭代主要得益于三大因素:资本与人才的汇聚、数据与算力的突破,以及研究范式的变化。AI展现出强大的穿透能力,带来全新的用户体验,并开辟了全新的可能性。例如,以前的语音交互系统,包含了前端噪声和回音去除、语音识别、转文字、文字理解及功能实现等多个环节,而现在的AI技术可以将所有环节全部压缩到一个模型,实现端到端的学习和优化,这种穿透性也带来了“AI+”的范式变革。
从‘+AI’到‘AI+’的转变,并非仅仅是表述上的调整,而是标志着核心主体的根本性变化。“+AI”范式下,行业或科研主体流程基本不变,通过融入AI技术来提升效率和解决难题。随着AI基座模型的突破,核心主体变成了AI,基座平台和模型成为稳态底座,行业的业务、流程和工具向底座靠近,效率得以大幅提升。AI for Science(AI4S)作为当前一个重要研究方向,是AI和科研两个方向的相遇,AI最初被设计用来模拟生命体,做生命体能做的事情,现在AI开始反向使能生命科学的研究。
当代AI技术的特征将加速科研效率的提升
随着新成果的快速涌现,当前,科学家在研究中正面临多重挑战:知识量庞大且更新迅速,其复杂度、广度及深度均大幅提升;同时,从海量数据中,如实验数据和生命科学表征数据中推理出模式难,加之实验周期长、潜在研究路径众多,无疑增加了研究的难度。
大模型技术带来的本质改变并不是参数量规模的变化,而是相较于小模型只能完成一个或几个特定任务,大模型具有完成无限任务、探索更多可能性的潜力。针对科学研究中面临的挑战,当代AI技术可以从以下五个方面提供解决思路:
一是强大的知识表征与深度思考能力。简单的注意力机制在知识吸收、产出和发现相互作用方面具有巨大的潜力,大模型技术通过用更大的参数量和更复杂得多模态组合将知识融合和表征出来,并发现多层多域的复杂相关关系,这为科学研究带来很大的自由度,以往依赖直觉的研究现在可以交给AI来发现。
二是结构化数据大模型。科学研究与行业生产非常相似的地方是都会产生大量的结构化数值数据,以通信行业为例,每天产生的网络数据压缩后有12PB。结构化数据大模型通过对历史数据、代码、文字解释之间相关关系的学习,能够知道从哪些角度去分析这些巨量的数据,这种对大量结构化数据的分析能力可以有效使能科研人员的研究工作。
三是智能体协同,谷歌最新推出的虚拟科学家合作伙伴AI co-scientist,是基于Gemini 2.0构建的多智能体AI系统,通过使用一系列专业化的智能体,在3个关键的生物医学应用中探究了 AI co-scientist 生成的假设和研究建议。
四是集约化的训推技术。当前,人工智能平台通过集中算力、数据、模型等资源、优化大规模分布式训练和推理效率、共享底层软硬件基础资源等,为科学研究提供集约化的训练和推理技术以及自动化工具和标准化流程,可以使科研人员专注于专业领域的探索与创新,提升科学研究效率。
五是数据生成与环境模拟技术。智能的来源主要有两种,数据和环境。数据中包含的“本质的密度”决定了数据的价值,比如要研究一个球在空间中的运动规律,可以用几个摄像机把运动的视频拍下来,也可以直接测量它的空间位置随时间的变化,这两者包含的本质信息是一样的,当代生成式大模型技术可以通过生成类数据解决核心数据不足的问题。在生命科学领域,通过应用各种人工智能最新技术,可以探索和找到真正表征研究问题的数据,以及实现数据生成和快速迭代的方法。环境是智能的另一个主要来源。每个行业都需要构建大型的模拟器,例如通信网的实验需要构建符合电磁波时空传输特性的模型,在模拟环境中进行仿真并产生大量的动态实验数据,观察参数改变对网络性能的影响。这对生命科学研究的启发是,除了构建模型,还需要构建一些具备与基座模型对话、提供动态反馈的模拟环境。DeepSeek R1突破的一个关键就在于它为基座模型找到了两个反馈非常精准的领域:数学和代码,只要反馈足够精确,即便数据量不大,也能获得显著的推理能力提升。
生命科学领域本质性问题的突破,可能依赖于新型模型架构的构建和创新性方法的提出,在当前阶段,充分挖掘并最大化利用现有人工智能技术的潜力,无疑是推动研究进程的关键策略之一。
人工智能基座平台赋能科学研究全流程
随着人工智能软硬件技术的快速发展,“模型+平台”构成了“AI+”范式中的核心基座,但 AI 的基础设施规模愈加庞大且模型架构愈加复杂。每当AI新技术出现时,各公司或团队需要在短时间内快速复现、测试与更新,把最新的技术带到应用、工作和科研当中,这需要大量专业的开发和测试工程师,同时算力底座与数据平台的建设运维也依赖大规模团队。
对于大多数科研团队而言,其成员多非计算机专业出身,难以独立开展 AI for Science工作。此时,人工智能基座平台就显得尤为重要。一方面,基座平台要能够讲“科学家的语言”。科学研究涉及生命科学、材料学等多个领域,基座平台通过提供直观、易用的界面和工具,让科研人员能够以他们熟悉的方式与AI交互。例如,借助自然语言处理技术,平台能够精准捕捉科研人员的需求,迅速转化为可操作的AI任务;同时,可视化工具让科研人员得以直观探索数据、轻松调试模型,无需深陷复杂算法细节的泥潭。另一方面,基座平台全面覆盖科研全流程,在数据治理方面,有效整合、清洗多源异构数据,确保数据的精准与可用;其数据探索功能则助力科研人员深挖数据背后的规律,发掘潜在价值。同时,平台需要集成各学科的常用工具和机理模型,提供丰富的AI模型和仿真套件,形成“数据-模型-仿真”的科学研究闭环,帮助科研人员快速验证假设、优化实验设计。
因此,基座平台要和科研团队紧密融合,建立一种新的闭环合作范式,类似于谷歌和斯坦福合作推出AI co-scientist,英伟达、Arc研究所、斯坦福合作推出Evo-2。
从AI for Science到AI for Industry
当前,人工智能基座发展迎来了重要时刻,并带来了应用范式落地的改变,2025年,人工智能对各个行业的发展将迎来两个趋势:向规模要价值、向内核要未来。
向规模要价值:“AI+”能否成功,取决于其带来的价值是否远超投入,近年来,人工智能技术能力取得了显著提升,然而,在规模化价值的创造上尚未实现突破性进展,当前,探索AI在产业中规模化价值实现的路径仍面临诸多挑战。
向内核要未来:内核是每个产业之所以存在的灵魂,内核的智能化和效率提升是决定该产业能否持续占据领先地位的关键因素。当前各行各业的内核就是科学,我们在依托平台加速科研效率的同时,也将会加速产业内核的升级。
中国移动AI4S能力与实践
中国移动具备完善的智算中心基础设施和人工智能基座,包括算力底座、AI平台、数据处理平台、九天系列模型,可以支撑模型训练,支持数据清洗、标注、优化,汇聚各类模型,支持模型优化,以及应用模型规模化的部署。中国移动的九天结构化数据大模型,成功将结构化数据分析应用至大规模生产实践;同时,九天模型的数据处理能力也为众多央企的复杂文献数据识别提供了强大支持,能够精准识别并输出复杂公式表达。九天的慢思考能力可以用于设计生物实验以及辅助医疗诊断。
去年中国移动推出了AI4S科学实验装置,提供面向科学领域的公共科研开放创新平台。该装置集合了科研模型研发基础工具集、科学模型服务平台、生物蛋白等科学领域工具套件,提供端到端极简科研开发流程,让科学家专注自身专业领域,提升科研模型研发效率,赋能和加速国家高精尖科学问题研究。当前AI4S科学装置已入驻国内顶尖材料科学、蛋白质预测等科研团队,开展RNA等大模型RESM训练,助力疫苗等药物研发。
面向未来,中国移动诚邀国内更多科研团队入驻AI4S科学装置,共研生物蛋白、化学材料、原子物理等领域的科学模型,利用AI技术探索解决基因、生物、航天、海洋等场景化科学问题,沉淀智能科研工具能力套件,共拓AI赋能交叉学科前沿新方向。