近日,2022 MSU世界视频编码器大赛成绩正式揭晓。报告显示,阿里媒体处理服务MPS(Alibaba Media Processing Service)s264及s265编码器共计斩获19项评测第一,相较大赛指定基准编码器(AWS Elemental MediaConvert),可再节省高达63%的码率,极大幅降低带宽和存储成本。
MSU世界视频编码器大赛是视频编码压缩领域最具权威和影响力的全球顶级赛事,迄今为止已举办17届。仅在今年的云转码赛道中,就有国内外8家参赛单位的19款编码器参加比赛,包括微软、亚马逊、腾讯等知名科技企业。
此次,阿里云视频云自研s264编码器在H264主观赛道及客观赛道全面领先,获得了19大细分赛道中的15项第一,并在相同主观质量下至少可节省16%的带宽、存储成本,在转码效率上较友商领先13倍;同时,自研s265编码器在相当的带宽及存储成本下,具有较友商2~6倍的转码效率及更精准的码率控制。
为了全面地评测参赛编码器的水平,MSU比赛采用了PSNR、SSIM、VMAF等多个经典客观指标,和基于人眼打分的主观指标:
PSNR,基于对应像素点计算原始视频和失真视频之间的误差来评价失真视频的质量,是目前视频质量评估中最传统最基本的评估准则,但是由于PSNR并未直接考虑人眼视觉特性,因此其评价结果与人的主观感受并不完全一致;
SSIM,从亮度、对比度和结构信息三个方面来估计失真图像的视觉质量,旨在比较原始视频和失真视频的结构相似度,研究感知结构的损伤来评估视频质量,可以更好地反映人眼主观特性;
VMAF,是将人类视觉建模与机器学习相结合的一种视频质量评价指标,将不同评估维度的算法进行“融合”,旨在得到一个能准确反映主观意志的画质评价标准,但人眼视觉系统是一个复杂系统,该指标还需有大量有效的、符合实际评测环境的数据集。
人眼主观质量,代表了视频质量的黄金标准(golden standard),因为人是视频最终的消费者,因此主观质量评估是站在观测者的角度,真实反映人的视觉感受和审美水平,避免各种客观质量模型都无法全面模拟人的视觉系统的问题。
观察MSU赛事会发现,其中的“SSIM”也被MSU主办方选为主要评价指标。
在编码器的实际开发过程中,为了降低测试难度和测试成本,往往以客观评价为主,但在最终版本发布时,仍然将主观质量作为最重要的评价依据。实践表明,对编码器采用这样的评价方法,不仅可以保证编码器的开发效率,同时也可以保证编码图像质量符合人眼的主观特性。
无论是主观还是客观指标,在大众的有限焦点中,往往过度关注单维的画面质量,而忽略了更为关键的应用指标——转码速度和码率控制。
本次赛事中,除编码视频的画面质量外,MSU大赛主办方还评测了各云转码厂商的转码速度、码率控制(码率准确度)等重要指标,可全方位地评价各厂商的编码器性能及商用价值。而真实性能和商用价值,也正是编码器的核心所在。
我们知道,码率越高,视频压缩程度越低,相反,码率越低,表示视频压缩程度越高,该指标在保证画质的同时,最直接影响的是带宽及存储成本。
同时,转码速度越快,则意味着转码任务的时效性高,在实际商用场景中,速度带来的效率提升不言而喻,转码效率更高也意味着功耗更低。
如下图所示,在相同质量下,纵坐标表示各厂商编码器相对于基准编码器输出文件的平均码率(bitrate)大小;横坐标表示,在相同质量下,较基准编码器所需的编码时间比例。
正如横(Faster)纵(Better)箭头所指,越靠近图片左上角则表示:在相同质量下,该编码器的码率越低,转码速度越快。可见,除了前文提到的主客观画质卓越,阿里MPS s264在编码器性能及商用价值维度更加处于领先之势。
同样在HEVC/AV1赛道中,根据下图所示,纵向对比,阿里MPS s265编码器在质量相同的情况下,较大赛基准编码器可节省高达63%的码率。同时,横向对比,在相同质量及相当的带宽、存储成本情况下,具有较友商2~6倍的转码效率。
值得一提的是,如下图,MSU官网首页结果显示:阿里MPS转码速度最快,转码所需时长波动最小,这背后意味着阿里云视频云能够提供更加稳定可靠、实时满足商用要求的相关转码服务,而这也是云厂商技术实力和综合能力的体现。
在实际商用中,客户对画面质量与成本是十分敏感的。若码控不佳,编码器实际输出码率可能与目标码率差异较大,对客户的实际体验产生较大影响。
例如,当客户的需求是降低带宽、存储成本时,编码器实际输出码率可能比目标码率高出很多,这会导致客户带宽、存储成本的增加;而当客户的需求是画质的高度保真时,编码器输出的视频码率可能低于目标码率很多,这会导致整体画质受损严重、无法满足终端客户需求。综合来看,高度不稳定的码控最终将导致商业价值的受损。
针对码率控制,下图则表示HEVC/AV1赛道的实际输出码率与预设目标码率的比例,无限接近1表示该编码器码率控制的精准度越高。
以下图举例,假设客户需要将视频压缩至500M,如果码率控制不佳,实际输出码率和预设目标码率之间差距少则2倍,多则7倍,则输出视频可能在1000M到3500M之间随机产生。
因此,一款最佳编码器,其核心目标并非比拼单一性能的指标,而是在极致质量、极致码率、极致效率和成本之间,寻求最极致的多维度平衡,最终为赛道和客户带来最有效的应用突破,而这更是一款商用编码器所具备的最佳品格。
阿里MPS主要基于视频云自研的两大编码器s264和s265,覆盖直播,点播,RTC场景,从内核、前处理到码控各个部分,基于不同应用场景开发了100多个算法。
此外,阿里云视频云与平头哥数据中心解决方案团队联合,针对倚天ECS进行s264,s265编码器的深度优化,打造了ARM友好的视频编码器。
在ARM视频编码优化上,重构了视频编码数据结构,并行框架,重新调优了快速算法策略,从软件,汇编,硬件层面跨层深度优化,打造极致成本。
未来,阿里云视频云会基于倚天ECS的超强算力,聚焦视频编解码、视频处理持续挖掘算力空间,通过“软硬一体”的联合优化,持续塑造极致性能。