国际视频质量评估算法竞赛：火山引擎成功夺冠

陈晨 • 2021年7月26日 12:39:33 • 产经

7月26日消息，在多媒体领域世界顶级学术会议ICME 2021的「压缩UGC视频质量评估」比赛中，字节跳动旗下火山引擎多媒体实验室组成的“QA-FTE”队伍，凭借自研的VQScore算法，拿下了该比赛「无参考视频质量评价（N

7月26日消息，在多媒体领域世界顶级学术会议ICME 2021的「压缩UGC视频质量评估」比赛中，字节跳动旗下火山引擎多媒体实验室组成的“QA-FTE”队伍，凭借自研的VQScore算法，拿下了该比赛「无参考视频质量评价（NR-VQA）MOS赛道」的第一名。

国际视频质量评估算法竞赛：火山引擎成功夺冠

除了火山引擎多媒体实验室，另有11支来自全球知名院校和企业的队伍参加该项竞赛。整场竞赛包含两个赛道，分别对应VQA领域两类主流的解决方法：

一、无参考视频质量评价（NR-VQA）MOS赛道：在参考信息缺失的前提下对损伤视频质量进行评价；

二、全参考视频质量评价（FR-VQA）DMOS赛道：衡量参考视频和损伤视频之间的质量差异。

除了在无参考视频质量评价（NR-VQA）MOS赛道中包揽全部最高分之外，在全参考视频质量评价（FR-VQA）DMOS赛道，火山引擎多媒体实验室同样拿下了部分指标的最高分。

什么是「压缩UGC视频质量评估」

视频质量评估，就是用算法模型来自动评判一段视频的质量，比如清不清晰、有没有噪点、画质好不好，给出高低不同的分数。视频质量的高低，直接影响到用户看视频的体验。

有了自动评估视频质量的算法模型，就可以在用户生产视频、系统处理视频的过程中自动的用一些手段来更好的处理视频。

比如评估发现一段视频分辨率太低让人看不清楚，就可以用超分辨率算法让它清晰起来；或者评估发现一段视频噪点太多，就可以用去噪算法减轻这些噪点。

比如发现视频本身已经很模糊了，就把转码的码率调低，节省系统带宽，也帮观看用户省点流量。

比如用户拍摄视频的时候发现当前场景是逆光的，人物五官都看不清楚，就可以提示用户：该调整下灯光和角度了。

可以理解为，视频质量评估就是一场视频们的「入学考试」，根据考试的分数，算法老师们因材施教，让每一段视频都看起来更美观。

但和传统的专业电视台拍摄的视频相比，给UGC的视频打分是更困难的一件事——毕竟在做视频这件事上，你没有办法低估网友们的脑洞。

比如UGC的视频里，包含用户拍摄的自然风景、食物、建筑、人像、动物等各种题材的内容，甚至有些不是自然拍摄，而是游戏录屏，并且还会加上五花八门的字幕。

国际视频质量评估算法竞赛：火山引擎成功夺冠

比如有的视频本身并非竖屏视频，为了在移动端播放，就在上下加上背景填充。填充的图案其实是很清晰的色块，但中间的视频可不一定清晰，你不能因为两侧的填充图案看起来很清晰，就判断这个视频很清晰。

国际视频质量评估算法竞赛：火山引擎成功夺冠

再比如这种大头特效，特效的部分很清晰，但特效之外的人物部分却有些模糊，这到底是算清晰还是不清晰？

国际视频质量评估算法竞赛：火山引擎成功夺冠

另外，因为UGC拍摄有各种情况，用户手一抖，视频就变模糊，噪点、过曝、抖动、失真，各种问题交织在一起，算法很难评价。

国际视频质量评估算法竞赛：火山引擎成功夺冠

火山引擎多媒体实验室研究出的算法VQScore就是专门做视频质量评分的，训练这个算法的数据集都是众包用户根据自己的审美和观看感受来评分的，能够保证算法的评分契合大部分普通观众的观看体验，此前已经有了2年多的积累。

目前，VQScore系列视频质量评估算法不仅在抖音、西瓜视频等产品落地，并且已经作为火山引擎视频点播服务的一部分对外开放。

从用户出发，巧「拆」数据集

回顾整个参赛过程，火山引擎多媒体实验室也曾遇到过模型分数的瓶颈，无论怎么优化，都无法提升分数。

这里需要说明，整场比赛的数据集均来自一些视频App中的真实视频，包含：

训练集：6400个训练视频片段

验证集：800个验证视频片段

测试集：800个测试视频片段，用于对参赛模型进行比较和评分，参赛者无法获取。

每个视频被H.264/AVC编码器压缩成损伤程度由弱到强的7个压缩片段，主办方通过主观测试针对每一支视频片段收集了超过50个主观MOS评分。

参赛者训练模型的数据必须来自比赛主办方的官方数据，不可以用自己的数据。数据就是训练模型的原材料，如果数据不足，那么算法工程师们常常会遇到巧妇难为无米之炊的难题，虽然不是「无米」，但「米」的数量并不够用。

怎么才能提升「米」的数量呢？

火山引擎多媒体实验室参赛同学决定直接挨个看数据集里的视频，看了很多样本之后发现了突破口：

原本的方法里，用到了很多时域信息——通俗来讲，就是随着视频时间进度条的进展，视频的每一帧之间都是有相关性的，视频的主角完成一个动作、场景发生一点变化，前后帧之间都是有联系的。

比赛数据集中的视频，大多只在短短的10秒左右，时域信息相当稳定，画质也没有明显变化。

因为对数据和用户都有深刻的理解，根据多年处理数据的经验，工程师们意识到一件事情：

用户其实对时域并不敏感，更注重每一帧里的画面信息——也就是空域信息。

本着尊重用户体验的出发点，他们做出了一项更为务实的权衡：

把单个的视频数据集，拆成分散的帧来用。

在看重时域信息的方法中，数据集中的每个视频都被当做单独一个数据用来训练，总共6400个输入数据。但如果放弃时域信息，把每个10秒钟左右的训练视频拆成单独的帧，就可以获得300帧左右的数据，相当于训练算法的数据集增大到原来的30倍，6400个输入数据就可以变成192000个。

并且这种新的方法还获得了一个额外的好处——避免了过拟合，也就是模型死记硬背了训练集里的答案，在测试集里表现失灵的情况。“时域信息用太多会过拟合，相当于我们牺牲了一小块，保留了更大的蛋糕。”

参赛模型的技术实现

火山引擎多媒体实验室在比赛中不仅使用了较为传统的CNN（卷积神经网络），另外考虑到Transformer在NLP领域取得巨大成功，决定采用Transformer进行UGC视频的质量评估，提出了一种CNN和Transformer相结合的框架，采用CNN提取局部特征，利用Transformer结构通过自注意机制预测主观质量分数。

国际视频质量评估算法竞赛：火山引擎成功夺冠

无参考模型框架如上图所示。

火山引擎多媒体实验室使用卷积神经网络（CNN）作为特征提取器来计算输入视频块的深度特征。提取ResNet不同层的特征，在空间维度上利用MaxPooling将这些特征降采样到相同大小，并在特征维度上进行拼接。将该特征的空间维度展平并进行Linear projection，并添加embedding作为Transformer的输入：

国际视频质量评估算法竞赛：火山引擎成功夺冠

采用的Transformer架构遵循标准的Vision Transformer，包含L层多头注意力模块(MSA)和多层感知器模块(MLP)。Transformer与MLP头连接，用于回归最终的主观评分。

用于训练的损失函数均方误差l1-Loss和PLCC-Loss加权相加构成：

国际视频质量评估算法竞赛：火山引擎成功夺冠

PLCC表示一个batch内预测值和groudturthlabel的相关性，其值归一化至[-1,1]，PLCC值越大性能越好，因此PLCC损失表示为：

国际视频质量评估算法竞赛：火山引擎成功夺冠

全参考模型框架如下图所示。reference patch和对应位置的distortion patch输入共享权值的孪生神经网络分别提取深度特征，并在特征空间的计算L1距离，拼接成新的特征输入回归模块映射得到主观DMOS分值。

国际视频质量评估算法竞赛：火山引擎成功夺冠

如下图所示，在训练过程中，从压缩视频片段和相应的参考视频片段中随机裁剪出一个256×256的图像块patch(针对FR框架)，然后将压缩视频的质量评分直接作为裁剪patch的训练标签。测试时，从每一帧的四个角和中心裁剪得到5个大小为256×256的patch分别计算分值(FR框架)，所有patch的平均得分作为压缩视频的预测分。

国际视频质量评估算法竞赛：火山引擎成功夺冠

在实验中，用于特征提取的ResNet18网络使用在ImageNet上预训练的用于分类任务的网络的权值进行初始化，并使用相同的学习率与框架的其他部分一起进行训练；Transformer包含2层，MSA头数为16。在加权w1=1.00, w2=0.02的条件下，利用L1损失和PLCC损失联合优化框架。

通过对比竞赛结果中的各队伍在测试集上的性能指标（PLCC/SROCC/KROCC/RMSE）以及SOTA FR/NR算法预测质量分数散点图，对提出模型的性能进行验证，其中PLCC/SRCC/KROCC越接近1越好，RMSE越接近0越好。

A. MOS track：

国际视频质量评估算法竞赛：火山引擎成功夺冠

Comparing with SOTA NR-VQA metrics：

国际视频质量评估算法竞赛：火山引擎成功夺冠

B. DMOS track:

国际视频质量评估算法竞赛：火山引擎成功夺冠

Comparing with SOTA FR-VQA metrics：

国际视频质量评估算法竞赛：火山引擎成功夺冠

对于直接预测压缩损伤视频MOS分的NR方法，火山引擎多媒体实验室提出的NR框架在所有评价指标中排名第一；对于预测参考视频和损伤视频质量差异DMOS分值的FR方法，火山引擎多媒体实验室提出的FR框架在预测单调性(即SROCC和KROCC)方面排名第一，在预测精度(即PLCC和RMSE)方面排名第二。同时通过散点图可以看出，提出的方法与主观评分具有较高的相关性，显著超出了其他的SOTA FR/NR方法。

目前行业内，视频画质好坏直接影响实际业务QoE，包括用户行为包括完播、留存、关注等，已经是不争的事实。由于模仿人类主观感受是一件非常困难的事，受到很多因素的干扰。而用户真实感知和学术上那些行业已有衡量体系（PSNR、SSIM、VMAF等）仍有鸿沟包括他们彼此之间评价标准也不完全统一。

导致在视频工业生产中的需求，如扶持高清原创、打击视频劣质内容、针对画质精准匹配转码档位节省成本等，都没有很好的解决方案。基于以上原因，字节/火山引擎花大力气研发出VQScore用于解决这一现状，解决公司业务中的长期痛点，同时向工业界推出他们的无参考质量评价标准。

针对UGC内容的研究与实际应用场景更加贴近，UGC质量评价算法对监控视频平台整体画质、监督画质提升算法、指导压缩效率提升等场景有重要作用。据悉，火山引擎多媒体实验室提出的Transformer结构实现了算法性能的提升，对后续相关算法研究具有较强的指导意义。

（本内容属于网络转载，文中涉及图片等内容如有侵权，请联系编辑删除。市场有风险，选择需谨慎！此文仅供参考，不作买卖及投资依据。）

原创文章，作者：陈晨，如若转载，请注明出处：https://www.kejixun.com/article/532337.html

陈晨管理团队

0 0

产经

2024宇视合作伙伴大会分论坛|聚焦市场新机遇，重塑发展引擎

洞见,体验,破局,布局,方向,效率,4月16日,宇视与2000余位合作伙伴共聚乌镇,深入探索AIoT及业务增长的更多可能。 AI的浪潮势如排山,技术跃迁加速产品更迭,大模型在无数细…

陈晨
2024年4月17日
0
腾讯会议发布腾讯天籁inside3.0：用AI重构音视频，为大模型落地“开路”

AI时代，会议室的良好拾音和区分说话人技术，是实现语音转文字、字幕翻译和智能纪要等能力的前提。 4月17日，腾讯会议天籁实验室发布腾讯天籁inside3.0升级，在腾讯AI&nbs…

陈晨
产经 2024年4月17日
0
有“AI”更高效三星Galaxy S24 Ultra重塑智能手机生产力

在万事讲求效率的工作当中，无论是处理文件、安排会议还是与同事协作，强大的办公工具能够达成事半功倍的效果。移动互联网时代，智能手机已经成为了日常办公不可或缺的工具之一，随着三星Gal…

陈晨
产经 2024年4月17日
0
产经

产品竞争力进一步跃迁，问界新M7新增版本信息工信部曝光

近日，继问界汽车向工信部申报新M7新增版本的公示信息后，4月16日晚，汽车媒体在微博进一步解析了问界新M7新增版本的相关细节。目前来看，新增版本车型延续了现有新M7的产品优势，并针…

陈晨
2024年4月17日
0
产经

博世德国总部雷达负责人加盟傲图科技，加速4D成像毫米波雷达落地

前德国博世下一代高性能毫米波雷达技术总负责人李明康,宣布加入4D成像雷达初创公司傲图科技。 4月17日消息,傲图科技任命李明康为总裁,负责4D毫米波雷达产品的应用开发及欧洲市场的拓…

陈晨
2024年4月17日
0
华为第21届分析师大会：全面智能化，跃升数智生产力

[中国，深圳，2024年4月17日] 第21届华为分析师大会17日在深圳开幕。本届大会以“全面智能化，跃升数智生产力”为主题，和全球500多名分析师、智库机构等共同探讨面向智能时代…

陈晨
产经 2024年4月17日
0
2024 年 3 月头号恶意软件：黑客利用新型感染链方法传播 Remcos

研究人员发现了一种部署远程访问木马 (RAT) Remcos 的新方法，该方法会绕过常用安全措施，获得对受害者设备的未授权访问。 2024 年 4 月, 领先的云端 AI 网络安全…

陈晨
产经 2024年4月17日
0
产经

2024智美峰会圆满闭幕，共谋医美行业创新发展新篇章

2024年4月14日，备受瞩目的“智慧医美·2024国际医学美容峰会”在南京国际博览会议中心圆满闭幕。这是智美峰会自郑州连续四届成功举办后，首次走出河南，在南京绽放光彩。大会汇聚了…

陈晨
2024年4月17日
0
产经

骏丰获“全国产品和服务质量诚信示范企业”高质量健康产品受肯定

近日,大健康知名企业骏丰公司被中国质量检验协会授予“全国产品和服务质量诚信示范企业”荣誉称号,这是骏丰公司连续三年在“3·15”“产品和服务质量诚信承诺”主题活动中获此殊荣。据了…

陈晨
2024年4月17日
0
硬核技能加持三星Galaxy S24系列屏幕多维提升

智能手机作为人们日常生活和工作的得力伙伴，其屏幕质量直接关系到用户体验的优劣。作为备受瞩目的新一代AI旗舰，三星Galaxy S24系列带来了全面升级的影像和性能体验，以及由Gal…

陈晨
产经 2024年4月17日
0
什么是比特币现货ETF？加密货币投资者有更好的选择吗？

随着香港于 2024 年 4 月推出现货比特币 ETF 进入市场，国际加密货币行业正在经历重大转变。推出现货比特币 ETF 是一项艰巨的任务，需要与众多机构合作，香港批准现货比特币…

陈晨
产经 2024年4月17日
0
产经

两座超大城市对“视”联手杭深奏响智能物联产业合鸣！

文/“中国视谷”融媒体中心苏会会春至岭南花似锦，出门俱是看花人。4月16日，2024“中国视谷”城市（深圳）推介会暨智能物联产业合作发展论坛在深圳举行。一场广聚全球英才的产业思…

陈晨
2024年4月17日
0
产经

三年同比增长100%！京东与奔图战略合作共建国产打印生态

4月16日，京东与国产打印品牌奔图达成战略合作，将围绕产品、营销、服务、渠道深化合作，共同为用户提供更优质的产品与服务，推动中国打印生态和产业向好发展，冲击未来三年奔图在京东全渠道…

陈晨
2024年4月17日
0
追觅科技国际业务飙升120%，智能清洁市场增长故事怎么写？

成立于2017年的追觅科技，是近几年智能清洁家电赛道增长势头最猛的科技公司。基于高速数字马达和智能算法两大核心技术，追觅科技布局了扫地机器人、智能洗地机、无线吸尘器、高速吹风机四大…

陈晨
产经 2024年4月16日
0
产经

内桶可拆洗！小熊电器双舱洗衣机:告别二次污染

不久前，#你以为很卫生其实很脏的行为#话题登上热搜，不少人胆战心惊地点开对号入座：TOP1就是手洗内裤一分钟并自然晾干。这倒让很多人疑惑了，手洗不是最干净的么？那手洗久一点能彻底洗…

若安
2024年4月16日
0
产经

便携投影增添一员，坚果P5超强续航让家用投影进入无线时代

在繁忙的都市中，许多人面临着空间有限的挑战，尤其是小户型的租房族。大型设备不仅占地方，搬家时也极为不便，这无疑影响了人们对科技化高质量生活的追求。为了让大众消费者摆脱空间枷锁，坚果…

陈晨
2024年4月16日
0
产经

享3期免息在京东可入手上海国际赛车场图马思特体验区同款模拟器

近日2024年F1中国大奖赛重返上海国际赛车场一事引发关注，在赛场上重燃热血的赛车与车手也让许多网友也想体验一把“速度与激情”。虽然成为专业赛车手比较困难，但在上海国际赛车场久事智…

陈晨
2024年4月16日
0
王牌工控机6大升级，研祥智能M60B有哪些新东西？

报！研祥智能「新人」登场 M60B系列无风扇嵌入式整机重磅发布高能配置，六大升级为你带来实力大跃升（一）性能升级运算更快一步研祥智能M60B系列支持最新12/13代C…

陈晨
产经 2024年4月16日
0
产经

轻薄机身硬核性能三星Galaxy S24旗舰体验不妥协

春天是让人想要轻装上阵奔赴旅途的好季节，很多用户会选择趁着大好春光迈出家门，感受春日里绚丽的美景。春日旅途需要一部可靠的智能手机，三星Galaxy S24不仅有着轻薄便携的设计、强…

陈晨
2024年4月16日
0
产经

九阳0涂层电饭煲有涂层事件，获权威检测证实！

在家电市场持续繁荣的今天,九阳0涂层电饭煲的推出可谓引起了行业内外的一股热潮。不同于传统电饭煲内胆普遍采用的涂层设计,九阳这款电饭煲以“0涂层”为卖点,宣称能够彻底摆脱涂层脱落带来…

陈晨
2024年4月16日
0

国际视频质量评估算法竞赛：火山引擎成功夺冠

相关推荐