在信息时代的浪潮中,实时语音通信的质量和效率始终是人们追求的重要目标。腾讯主导的新一代实时语音编码标准AVS3P10的诞生,为这一领域带来了突破性的进展,开启了语音通信的全新篇章。
编码器有多重要?腾讯为何要自研AVS3P10标准?AVS3P10标准的出现将为行业带来哪些影响?近日,通信世界全媒体记者采访到了AVS工作组的几位专家,详细介绍了AVS3P10的技术创新与产业价值。
AVS3P10的诞生之路
30多年前,国际电联ITU对理想中的远距离通讯的定义:哪怕两个人在地球的两端,隔着这么远,希望能够彼此听见对方的内容,且延迟能够在40毫秒以内。然而,直到现在也没有很好地解决这个问题,一个重要原因就是编码器。
对此,腾讯会议天籁实验室专家研究员、AVS3-P10标准Editor肖玮表示,语音通信中的关键技术之一是语音压缩,而传统编码器在低码率下难以保证高质量的语音传输,这成为了行业面临的挑战。为了在保证用户优质体验的前提下,实现低码率下的高质量语音编码,同时解决低算力和鲁棒性的问题,腾讯开启了新的编码器研发之旅。
AVS3P10标准并非一蹴而就,而是腾讯多年来持续研发和探索的结晶。早在多年前,腾讯就已经开始了相关的内部研发工作,并在多个应用场景中进行了实践和优化。
“最初,腾讯与AI Lab合作建立了基线,并不断进行优化。”肖玮激动地介绍,经过努力,即使在低至5.9K的码率下,也能实现四点几分的高质量语音效果。这一成果为将技术推向产品线奠定了基础。
过去几年,这一方案已在腾讯会议、QQ的语音通话场景应用,展现出了出色的稳定性和音质表现。无论是在复杂的网络环境中,还是在高速移动的交通工具上,都能让用户获得清晰、流畅的音频通信体验。
然而,腾讯并未满足于此,为了推动行业的共同发展,决定将这一技术标准化。从2023年3月的提议,到经历多轮会议的审议、测试和验证,AVS3P10标准逐渐完善,并于2024年6月完成标准化工作,即将正式发布。这一过程中,腾讯展现出了强大的技术实力和高效的推进能力,被AVS工作组评价为做到了标准制定速度最快,标准交付质量最高,测试得到充分好评。
5G乃至未来更强的通信技术发展,带来了更丰富的带宽资源,但在现实情况中总是会有弱网情况的出现,通过高效的编解码技术可以为这些技术带来更可靠有效的基础支持、抗性提升,针对不同网络条件下保障实时通信的稳定性。
创新引入AI,弱网也能开会、语音
在日常的视频会议、网络通话和游戏连麦等场景中,复杂的声学环境、设备性能和网络信号等因素常常影响用户体验。AVS3P10标准致力于在同等带宽资源下提供更好的声音质量,在保持音质的同时降低带宽消耗。
腾讯云副总裁、腾讯会议天籁实验室主任商世东介绍,作为全球首个系统性引入人工智能并实现真正意义上的低码率下高质量语音编码标准,AVS3P10的表现达到国际一流水准。仅需现有主流标准1/3的编码码率,就能实现同等清晰的音质。
AVS3P10标准之所以能够实现如此出色的性能,其核心在于将AI与传统技术深度融合,它将经典信号处理与最新的深度学习技术紧密结合,打破了传统香农定律的性能极限。
具体而言,通过语音信号建模,AVS3P10能够提取最核心的特征参数并进行编码。在发送端,利用深度学习网络预测语音中的本征信息,经过压缩传输后,在接收端通过深度学习网络生成最终的波形。与传统信号处理方法相比,AVS3P10系统性地引入人工智能技术,只需提取更少的本征信息就能恢复高质量语音。
这种“码率”和“算力”的置换关系,使得在保证高质量的前提下,AVS3P10能够以更低的码率实现高效的语音编码。在同等网络条件下,其发生网络拥塞的概率更低,在网络不佳时表现出强大的竞争力,如降低卡顿率,提升通话的流畅度和清晰度,适应更多复杂的场景。
在实际测试中,AVS3P10标准表现出色。肖玮介绍,无论是在单声道还是立体声编码场景,都能达到4.0以上的MOS分,实现了6kbps下的高质量通话,媲美行业现有主流标准OPUS在20kbps的质量。其自带的丢包隐藏能力在网络不佳时优势明显,能够有效提升通话的流畅度和清晰度。
优势显著,AVS3P10引领行业创新
“AVS3P10实时语音编码,作为新一代的语音编解码技术标准,是对AVS系列标准的重要补充。该标准是当前业界的最高水平,体现了腾讯在语音处理、人工智能技术创新和用户体验方面的实力,将为用户带来更好的体验”,AVS工作组指出。
相对传统标准,AVS3P10的不同之处和优势主要体现在以下几个方面:
抓住“重点”:传统音频编码技术只会按照物理规则提取音频的所有特征参数,再进行数据压缩,需要占用近20kbps才能保证高水平音频质量。Penguins引入了深度神经网络,提前进行海量学习(语音建模)。在编码时能“抓住重点”(音频最核心特征参数),并根据重要性智能分配码率。如此一来,既保证了音频传输质量,又降低了网络带宽需求。
提前“对齐”:音频传输需要先编码(压缩)再解码(解压),如果只在编码时进行重点区分和码率分配,解码后的声音依然会失真。Penguins的深度学习网络同时在编解码两端进行联合训练,并就“重点内容”提前“对齐”。在解码时,AI也能做到心中有数,从而预测并重建音频信号的细微结构,并还原为最接近原始音频的波形。
懂得“变通”:Penguins并非纯靠自学(数据驱动),而是懂得借助前辈(传统编码器)的成功经验(领域知识)来提高学习效率。在选择深度神经网络时,Penguins也懂得“变通”,模型不是越大越好,知道“小个子”才更适合自己。当大数据、大算力不再是“刚需”,便极大摆脱了对手机性能的依赖,即便在中低端手机上也能顺畅运行。
AVS3P10标准的制定为我国在音视频编码标准领域增添了重要的成果。AVS作为国内多媒体领域的重要标准化组织,其发展对于打破国际专利的制约、推动我国音视频产业的自主发展具有重要意义。腾讯主导的AVS3P10作为AVS标准的第三代,进一步推动了我国在该领域的发展。
对于用户而言,意味着在各种网络环境下,包括2G弱网环境,都能享受到清晰流畅的语音通话。无论是在电梯、地库、隧道等信号薄弱的地方,还是在高速移动的交通工具上,线上会议和语音通话不再受到卡顿和模糊音质的困扰,极大地提升了用户体验。
对于行业来说,AVS3P10标准为语音通信技术树立了新的标杆,推动了行业的技术进步。作为全球首个系统性引入人工智能的低码率高质量语音编码标准,它为其他企业和研究机构提供了新的思路和方向,促进了整个行业的创新发展。
对于腾讯自身,AVS3P10标准的成功研发和标准化进一步提升了其在语音处理和人工智能领域的技术地位和影响力。
总之,腾讯新一代实时语音编码标准AVS3P10的诞生是语音通信领域的一个重要里程碑,它将以其卓越的技术性能和广泛的应用价值,为人们的生活和工作带来更加便捷、高效、清晰的语音通信体验,引领行业走向更加美好的未来。