回忆起一年多前那场「倒计时应战」,每一位参与的快手音视频技术团队成员都历历在目。
当时,国际巨星成龙即将在快手开通全球首个短视频社交账号。这次官宣势必会聚集全球各地的大量粉丝,这也意味着每条作品都将应对数亿用户「挑剔」的视觉诉求。如何让成龙大哥的快手首秀做到「令人惊艳」,从技术层面来说是个难题。
针对此次项目中对画质的诉求,团队彻夜奋战,「定制化」推出了高画质点播档位和策略,采用短视频特殊转码为视频画质提供了最优保障,让画面中每一处细节都能清晰、细腻地呈现出来。
从「决定要做」到「最终上线」,团队只用了 20 个小时。
像这样的例子,只是快手音视频技术团队面临挑战中的冰山一角。之所以能够在一天之内完成挑战,也是得益于团队丰富的工程、算法技术积累。
在快手 App 这样的短视频平台,每天都要产生数千万条新增 UGC 内容。快手的用户想要发布一条视频,只需要几秒钟,如果增加一些特效,可能也只需要几个步骤、几分钟。随后,这些视频内容会上传到平台,分发给全球各个角落的用户。
鲜为人知的是,我们指尖滑过的每一条视频,在真正抵达到用户手中之前,经历了多少道关卡。
一条短视频的奇幻漂流
这就要从一条短视频生产到消费的整体链路说起。
其中与视频画质相关的主要有几个阶段:拍摄阶段、编辑阶段和服务端处理阶段。此外,在下发到移动端的过程中,视频画质仍受制于到网络环境、带宽成本、用户端机型差异等因素。这里面的每一个阶段都有对应的编解码、视频增强或处理过程,由于从生产到消费的链路较长,短视频内容的质量往往不可避免地受到影响。
首先是用户直接参与的「拍摄」与「编辑」两个阶段。每天千万量级的 UGC 内容种类繁多,包括新闻、生活、娱乐、游戏等。往往由于设备、光线、手法等各种各样的原因,用户拍摄上传的视频质量是参差不齐的。具体来说,这是因为 UGC 用户的手机机型存在差异,且在视频制作的过程中,有些用户会加入一些非拍摄素材,制作技术也非专业级别。
快手音视频图像算法负责人孙明介绍,「除了拍摄、编辑,在实际的上传、转码、下发等环节中,画面清晰度均有可能受损,比如转码就存在多个档位,以及后续根据网速等原因,视频下发也有不同档位。」
多次转码视频还意味着多次压缩损伤。用户在拍摄时就会有第一次编码,可能之后还会再进行多次编辑,当视频上传时,平台也需要做转码工作 —— 这样一个叠加操作过程下来,视频会经历多次转码压缩损伤。
不难想象,诸如高噪声低质量视频(夜间拍摄或光线不足等导致)、模糊低质量视频(拍摄失焦、设备原因或运动过快等因素)、块效应低质量视频(非专业多次编辑或多次转发等因素)等类型的内容处理起来会有多么棘手。
即使是 PGC 作品,也会存在一些问题,如在视频二次创作过程中,制作水平的差异化造成视频质量参差不齐,并且对于老旧影片来说,还存在划痕、严重胶片噪声等损伤问题。
那么,面向每一位快手用户的极致体验,如何得到保证?
「我们希望每一位用户都能够在快手 APP 消费到高质量的视频,」孙明表示。「经过大量观察,我们发现非常需要一个可依赖的质量评价算法,让它告诉我们画质是怎样的,然后分解画质问题的形成原因是什么,从而在这样的基础上,进一步提升用户的消费体验。」
快手的画质修复「秘笈」
在近日举行的英伟达 GTC2023 春季全球大会的演讲中,孙明介绍了快手在视频质量评价和画质增强方面的经验和解决方案。
经过多年技术深耕,快手音视频技术团队已经形成了完整的画质修复框架:
为了提升用户体验,快手针对 UGC 视频特性提出了视频画质评估算法体系(KVQ)和画质修复增强方案(KRP/KEP)。两者相辅相成,大幅提升了消费侧画质清晰度。
每一条视频上传后会经过基础的画质分析(VQA),该阶段会输出画质的各个维度情况,比如 noise、blocking、模糊程度、锐化等问题,以及判断整体的清晰度分;然后针对质量评价的情况进行对应的增强,比如降噪(Denoise)、去伪影(Deartifact)、去模糊(Deblur)、色彩增强(Color Enhancement)等方法。在传输过程中,还会经过一些编码前的处理,可能做一些 Tradeoff。
如何在有限的算力下尽可能把算法效果发挥到极致,实现「降本增效」?在这个问题上,质量评价就显得尤其重要。
孙明提到,质量评价是衡量各种手段(处理 / 编解码)的度量指标,可以说是指明了整体方向。如果没有质量评价,很难知道视频当前的清晰度在什么水平,也就无法高质量地实现「降本」。
视频质量评价(VQA)多年来一直是非常活跃的研究领域。根据能否拿到高质量的清晰源,VQA 算法可分为有参考跟无参考两大类,业界常用的 VMAF 等工具通常是「有参考」的方法;根据特征类型,可以分为传统算法和深度学习算法,即基于 AI 的数据驱动方案。目前,使用深度学习来解决该问题已经成为了学术界的主流方法。
快手视频质量评价框架(Kuaishou Video Quality Framework,KVQ)同样使用了 AI 方法来驱动算法开发。「早期我们建立了大量的内部测试集,做了一些方案选型,发现哪怕在数据较小的情况下,AI 算法仍然比市面上的工具好用,所以后面的迭代主要围绕在内容多样性 / 处理多样性 /codec 多样性三个问题来解决。」孙明表示。
KVQ 具体是什么水平呢?快手音视频技术团队让其与常见的 VMAF、AVQT 进行了「比武」。从公开数据集到快手内部的一些测试数据,一番比试下来,KVQ 的表现还是相当优异的。
值得一提的是,在近日揭榜的计算机视觉领域顶会 CVPR 中,快手音视频技术团队一篇题为《Quality-aware Pre-trained Models for Blind Image Quality Assessment》的最新研究成果被成功收录。
论文链接:https://arxiv.org/pdf/2303.00521.pdf
这篇论文介绍了一种适用于无参考图像 / 视频质量评估的质量感知预训练模型(QPT)。通过设计贴合快手真实使用场景的退化空间和质量感知的代理任务,QPT 充分利用了无标签数据的内容丰富性,在预训练阶段提取到更为丰富的内容相关、纹理相关、失真相关的质量信息,在下游 BIQA 任务上获得了显著提升,持续为快手视频质量评估(KVQ)提供支持。
目前,KVQ 已广泛应用于快手内部多个业务场景中,如全链路质量监控、基于内容的自适应处理和编码、搜索推荐等。同时,在快手的技术 toB 品牌 StreamLake 业务中,KVQ 已经实现商业化,并为业内数家知名公司提供了服务。
当然,有了好的质量评价模型并不是终极目的,团队最终希望能够以少量的 GPU 及精度的算法提升用户观感。KVQ 的意义在于分析出哪些视频处理后能提升更多,让算力能够花在 ROI 最高的视频上。就像是与高手过招,先要「知己知彼」,你知晓了对方的等级,才好选择应对招数。
但这些「招数」仍然是需要细细考量的,很多时候还需要「十八般武艺」齐上阵:这是因为视频本身损伤是多样的,很难有一个算法模型能够通吃 。
围绕修复方面的挑战,快手音视频技术团队将方案进行了多次迭代。在算法有效性上,主要从三个角度来解决:
(1)将损伤进行分类(修复 & 增强),通过不同的触发来进行调用
(2)融合多种数据和复杂的退化方式,来混合训练单个模型,提升鲁棒性
(3)多个算子的组合方案沉淀
全链路技术能力的开放
自 2016 年成立至今,快手音视频技术团队已陆续在学研合作方面取得重量级的科技奖项肯定,建立起了业界领先的短视频 + 直播技术体系,支撑快手在国内、海外的数亿用户。
在这支团队中,既有业界的资深专家,也有很多刚出校门的技术领域人才。
「快手提供了一个充分发挥的环境,业内 AI 相关的团队很多,但是能够把质量评价、处理、编解码结合起来的不多,我们能够接触到大量的真实数据和问题,形成了良性循环。」孙明总结道。
不限于 UGC 视频,这些积累的技术能力和经验已经在快手 App 的点播内容和大型直播活动中应用。
比如快手 App「放映厅」频道的「质臻影音」档位,就是快手音视频技术团队融合多种视频智能修复及增强技术的成果。「质臻影音」开放了 1080P 和 4K 两个档位,用户可以根据手机型号和网络情况智能化选择合适的分辨率版本,体验沉浸式观影。
此外,团队还成功支持过 2021 年春晚、东京奥运等大型活动。针对每个活动的特点,快手音视频技术团队都会给出「定制化」方案:例如春晚项目中,活动瞬时高并发流量,带宽压力较大,需要极致压缩与超高清画质。而在国际赛事奥运活动中,「夺冠瞬间」视频的发布,留给转码处理的时间是分秒级的「时间竞赛」,需要提供最为快速、流畅的质量保障。
目前,快手在支持 HDR 画质和全景 4K 视频和直播、多码率自适应、编解码等技术领域处于行业领先地位,为用户提供清晰、流畅的音视频体验;同时利用 AI 技术,推出了影音特效、数字人等多种创作工具,赋能创意创作,增强人机交互体验。
这些沉淀多年的音视频和 AI 等关键技术的全链路能力,加上内部业务探索以及与外部客户的合作实践经验,快手已经通过 to B 品牌 StreamLake 将其以产品化的形式对外开放,为企业客户提供一站式的音视频 + AI 解决方案。
过去一年,快手已携手知乎、中国联通、央视频、小米等众多合作伙伴,在视频化、智能化领域展开探索。
十年磨一剑,快手在千万次音视频技术实战中提炼出的 AI「秘笈」,如今正在赋能千行百业。