2024年,大模型应用迎来爆发期。类似于Sora这样的AI应用每天都在给人们带来新的思想冲击。
据2023年的不完全统计,每隔一天在中国就有一个AI大模型出现,甚至实现了大模型的“日抛”,所以大模型得到了社会的全面关注。但是与最初的跑马圈地阶段不同,如今的大模型进入了深水期,躬身入局的参与者们,对算力的需求愈发复杂。
究竟要具备怎样的能力,才能够建设好AI时代的算力底座呢?也许从谋全局而非谋一域的角度考虑,才能真正地做好智算底座。
从卖铲子1.0走向产业落地2.0时代
回看最初大模型跑马圈地的阶段,这一阶段的大模型厂商第一要务就是购买更多更快更强的算力,也就是买更多的GPU服务器。而这些算力的提供商就像卖铲子一样,没有过多地关注客户应该如何去挖掘大模型的金矿,只需要更快更强的硬件产品就可以了。
但是2024年形势就完全不一样了。大模型从参数的竞赛走向了商业化、产业化的落地阶段,在这个阶段不仅要提供算力的硬件,更多地是实现整个支撑能力体系的升级,就像“木桶原理”一样,各类能力都不能有短板。
“在大模型狂欢的背后是对整个AI支撑能力加速迭代的提升,也就是说需要我们随着客户需求的变化把更好的产品技术和服务能力提供给客户。”宁畅CEO秦晓宁近日讲道。
“做算力可太难了,每个月月初都在发愁算力成本。”北京电子数智科技有限责任公司首席战略官杨震先生指出,如今的算力成本非常高,这也成为制约整个人工智能产业向前发展的因素。对于大模型厂商而言,千亿级、万亿级的参数量级,下一步可能是十万亿级GPT5,级别越大需要的算力越大,就需要疯狂的增加硬件成本。
算力可以靠堆硬件,但是算效问题就不行了。训练通用大模型的客户本身是有很强的算法能力,但是很难提升算效。即使如OpenAI在GPT4训练过程当中的算力的利用率也就大约为35%,这种算力利用率低的情况在业内是非常普遍的。
具体到行业而言,据统计,金融行业AI大模型的应用渗透率是最高的,而建筑行业虽然应用成熟度高但是AI大模型的渗透率很低。所以今年大模型离行业产业越来越近的时刻面临的挑战和需求愈发复杂和多样化,需要在算力、算法、数据三个维度来提供更需要更强的支撑。而且在AI的硬件层、集群层、中台层、内容层、服务层都需要全方位多维度支撑能力的提升。
在大模型百花齐放的背后,是不同发展阶段的客户涌现出来的对于AI支撑能力体系愈发复杂的需求,不管是万卡时代的算效彩票还是深入行业的精度盲盒,以及高效调用的服务瓶颈,如何解决这些问题,如何面对这些问题,如何满足客户不同的复杂需求,从而建立起一套全面的AI的支撑能力体系,是当下急需解决的问题。
“只有在算、网、存、管四个方面全面地能力的提升,才能够形成极致的算效体系,从而提升客户在算力的训练当中的利用率。”秦晓宁认为。
为此,宁畅推出“全局智算”战略。“全局智算”顾名思义就是以系统的全面性来对抗需求的复杂性,宁畅将以全面AI支撑能力覆盖大模型发展的全生命周期的需求,从而解决客户复杂的系统性的大模型的落地的问题。
秦晓宁解释道:“宁畅的‘全局智算’具备六大‘全’特性,涵盖软硬件全体系及全液冷产品,提供从咨询到运维的全流程服务,满足全行业用户大模型开发、适配、部署的全场景需求,并按用户发展阶段,定制专业且性价比高的AI计算方案。”
这六个“全”分别是全体系、全液冷、全服务、全场景、全行业、全阶段。宁畅不仅提供软硬件兼备的全体系以及业界领先的液冷的全产品家族,还可以提供咨询、测试、运维、售后的全服务场景,满足客户从大模型的开发、适配、部署、全场景需求,并且根据客户发展不同阶段,提供宁畅定制化服务。
“这六个‘全’特点的能力矩阵,向上能解决极致算效、精度增强、高效稳定三个复杂的客户问题,向下可以赋能千行百业,让大模型落地成为各行各业的新质生产力。”宁畅CTO赵雷解释道。
全新算力栈一站式解决智算难题
与此同时,为了有效解决大模型产业落地的全周期问题宁畅还推出了“AI算力栈”。
“AI算力栈”集成了宁畅在AI计算领域的软硬件能力,以底层硬件到顶层应用平台的系统化方案,满足大模型落地所需的计算、存储、网络、建设、管理、应用及液冷等全方位需求,以其全面、灵活、深度的支撑能力,为行业级/企业级智算中心的构建提供了强有力的支持。
全局智算能力映射在AI算力栈上,体现的是深厚的技术硬实力和丰富的软实力。
宁畅CTO赵雷表示,在硬件层上,算力栈可实现多种交付形态灵活组合。其中,宁畅B8000液冷整机柜服务器作为AI算力栈最具亮点的交付形态,采用电、液、网三路全盲插设计,部署周期相较传统方式提升30倍。
在软件层上,算力栈基于系统工程及算法模型,以AI算子全栈优化能力,为AI业务提供并行加速、性能分析、模型开发优化等服务支持,构建出从算力资源定制,到模型适配优化,再到高效部署落地的大模型算力服务闭环,帮助用户极速推进AI应用开发及管理。
在桐乡,国内首个AI算力栈——NEX AI Lab(Nettrix AI Open Lab)已成功落地。NEX AI Lab集成加速计算节点、全闪存存储节点,可为GPT、LLaMA、Stable Diffusion等AI模型,提供多元场景应用优化支持。目前,NEX AI Lab已开放预约试用,以支持用户体验大模型、数据科学、推荐系统等领域的解决方案工作流。
据了解,NEX Al Lab主要以X640 G50组成,采用400G 网络,同时还支持20个节点的X680 G55 的液冷服务器,有效验证液冷服务器在高带宽情况下的使用情况,同时搭配了做checkpoint用的全闪存储节点,可以给用户提供免费的算力体验。企业可以把自己的业务拿到上面运行,尝试不同的业务组合,尝试不同的网络方案,尝试不同的软件和框架的调整,以便快速做出购买决策。
“其中,X680 G55 服务器是液冷的,采用800G 带宽互联的 GPU 服务器。在整个算力中心我们已经完成了大量的多元的AI场景的实际应用,包括语言模型、OCR的、翻译、智能推荐我们都做了初步的测试,实际证明各种各样的应用还是能够有效地运行的,已经运行了快三周时间了。”赵雷介绍道。
作为此次智算战略的重要合作伙伴,英特尔也与宁畅通力合作推出了高密度的多节点服务器B5000,能够更好地满足现在AI工作负载的需求。搭载了4U8节点结构,而且可以搭载第四代/第五代英特尔® 至强® 可扩展处理器,具有更多的计算核心,更大的算力,而且有更灵活的能力,它所提供的高密度部署而且强大的计算能力非常好地满足了用户工作业务的多样性和灵活性的需求。
英特尔AI首席架构师吴震华指出,大模型的部署和推理的环境到目前为止GPU会成为新的算力的推荐引擎,但是在目前CPU仍然具有一个通用性好,算力普遍的优势,而且CPU同时具有易于部署的特性,到目前为止65%以上的推理任务仍然运行在处理器上。CPU算力对于AI无处不在的愿景而言依然是重要的推动能力和手段。据了解,B5000服务器相对于GPU服务器不仅有巨大的算力,而且提供了巨大的内存,一个实例可以承担更多的并发的服务请求。
如今,宁畅NEX AI Lab已开放预约试用,用以展现应用场景优化、行业智算定制解决方案,通过免费提供软、硬件服务,带来大模型、数据科学、推荐系统等解决方案工作流的先进体验。未来,“AI算力栈”方案将进一步落地汽车、互联网、制造、金融、能源、科研等领域,成为推动数字化转型、实现智能化升级的核心引擎。