记者:昄菲
H.266/WC于2020年7月正式发布,由国际标准化组织ISO、国际电工委员会IEC和国际电信联盟电信标准化部门ITU-T等联合制定。与上一代国际视频编码标准H.265/HEVC相比,H.266/VC可在保证相同主观质量的情况下,将所需带宽降低一半。介于新标准的推出,Tencent media lab资深研究员焦华龙和他所在的团队,奋力加快H.266/VC标准的实际推广应用,在不到三个月的时间里,重磅推出全球首个面向移动端的H.266/VVC标准视频解码器,即其自研的O266移动端版本,以及基于该解码器的开源播放器O266player,目前能够在PC端上完成4K H.266/VVC视频的实时解码。手机可看4K超高清VVC视频。O266已成为世界领先的全平台VVC解码器,支持main10 profile,包括高分辨率、高动态范围、屏幕内容编码等重要功能。
近几年,以视频为信息载体的互联网应用越来越广泛,海量视频数据的存储及传输对视频编解码技术提出了更高的要求,焦华龙团队所研发的H.266/VVC编解码器 O266既能满足人们对视频质量的追求,又能降低存储与流量消耗。相较于上一代标准H.265/HEVC,以H.266/VVC标准研发的解码器O266,在同样的主观质量下,可以减少38%左右的数据大小。H.266/VVC在main10 profile里能同时支持高分辨率、高动态范围、屏幕内容编码等功能,进一步提升在各种视频场景下的编解码能力,这得益于焦华龙研发团队首创了更灵活的编码结构和更加优化的编码技术。
编解码技术的提升是一个非常缓慢而艰难的过程,每一次世界级的编解码标准的的推出,往往距离上一代标准,时隔近10年,它非常考验研发人员的数学功底,焦华龙研究生毕业于享誉世界盛名的浙江大学数学专业,浙大数学系建于1928年,曾经为全国高校培养近80%的数学教育工作者。2011年,成为我国首个美国数学及应用研究所会员单位。焦华龙自幼喜欢数学,在浙江大学他将所有时间都投入到数学相关课题的研究,这为后来视频编解码技术的研发打下了扎实的数学功底。
2021年1月,焦华龙研发团队在O266dec里新增main10 profile移动端解码器,进一步促进了H.266/VVC标准生态建设。它以全面的模块性能优化和出色的并行结构设计,能够达到266标准在移动端的单核1080p或多核4K码流的实时解码,可以广泛应用于面向移动端的视频点播、视频直播、音视频通信、视频智能生产、短视频、VR/AR等各个领域,服务于公司及内外部相关业务。快速促进行业的跨跃式发展。
O266player能够实现清晰流畅的视频播放,核心关键技术在于焦华龙和研发团队成员创新视频解码架构,通过多维度的并行处理,从而达到大幅利用多核多线程技术的目的,使其解码性能指标大幅提升。O266dec的并行解码架构主要包括以下四个方面:
第一、帧层级并行:独立并行解码帧内预测帧,以及没有相互依赖性的帧间预测帧;同时不同帧之间的熵解码和像素处理也可以并行。
第二、CTU层级并行:利用Wavefront技术可以实现不同CTU行之间的CTU级的并行解码。
第三、模块层级并行:针对像素的操作,如运动矢量推导、预测、反量化、反变换和重建等,以及环路滤波操作可以并行处理。
第四、亚CTU层级并行:所有帧间预测CU都可以并行解码,并最大程度的利用SIMD指令。
为了能够在移动端支持H.266/VVC解码,焦华龙和他的团队特别在O266dec上增加了许多移动端相关优化,使得其解码器性能在移动端得到大幅提升。
例如,自适应环路滤波器(Adaptive Loop Filter,ALF)作为H.266/VVC解码器中复杂度最大,优化难度最高的模块,是焦华龙在移动端平台上优化的重点,该模块在整个解码过程中的复杂度占比如图所示。
优化前各模块解码复杂度占比图
从图中可以看出ALF模块占整个解码复杂度的60%以上,复杂度占比远超其他模块,同时它的优化复杂度也是最高的,流程上的简化以及提升并行性都是比较困难的,因此是所有模块中优化优先级最高的。为提升移动端ALF解码速度,焦华龙带领团队对整个ALF流程进行整理与分类,并充分结合移动端SIMD对ALF滤波模块进行优化,使得解码器速度得到大幅提升, 解码速度是原始代码的2倍以上。
除去ALF模块之外,对于同样复杂度较高的插值(Interpolation)模块,焦华龙也对其进行了细致优化。插值模块也是H.266/VVC解码器中计算量比较大的一个模块,其涵盖的多种多样的滤波器是整个模块的优化重点。焦华龙对滤波器参数特点进行了充分的分析,并将其根据参数类型以及输出结果进行分类与逻辑优化,在结合移动端SIMD的基础上,使得解码速度得到明显提升。
除去一些通用模块,焦华龙带领团队对于针对B帧等其他编码工具集模块都着手进行了优化,优化范围与内容相对比较全面。例如双向光流(Bi-directional optical flow,BDOF)模块,它是一个用于4x4子块级别上优化CU的双向预测信号,经过优化,这一模块的解码速度也获得了进一步提升。
优化完成后各模块性能占比饼图如下图所示。
以iOS端A14处理器为测试平台,O266dec移动端性能如下:
在单线程下,O266dec在采用RA(Radom Access)配置时, 对于2K标准序列,可完全满足30fps实时解码的需求;对于2K SCC(Screen Content Coding)序列可充分满足60fps以上的实时解码需求。
在多线程下,O266dec在采用RA(Radom Access)配置时, 4K标准序列在6线程下的解码速度可以达到30帧左右,可以实现266在移动端的实时解码。
焦华龙团队自研的解码器目前已经集成在了O266player的iOS端应用上,在移动端播放H.266解码画面清晰流畅,能够充分满足H.266/VVC实时解码的需求,性能优势十分明显。
焦华龙所在团队首创了面向移动端的O266dec,是国内首个H.266/VVC标准在移动端的实际应用,也是视频编解码技术进展的又一个重要里程碑。未来焦华龙将继续发挥自己在视频编解码技术领域的尖端技术,不断引领行业发展。