咱们来说说检测机制(注意,这里讲的是所有视频平台的原理,不仅仅限于抖音,抖音可能使用了其中几种,不是全部)
A、最初级的检测:MD 检测机制。
所有的文件都有自己的 MD 互相不重复,一个视频初次上传到抖音(其他平台也一样的),系统会自动读取这个视频的 MD 值,录入自己的数据库,一个视频(如果不能确定是不是第一次)上传到抖音时,系统会读取这个视频的 MD 值和数据库中已有的条目比对。如果发现了一致的 MD,判定后面这个视频是抄袭,没有一致的结果,接着进行下面的判定。
B、进阶检测:关键帧抽取比对
所有的视频都是一张一张的图片快速播放形成的,每一张图都称一帧。一个视频初次上传到某个平台系统会自动读取这个视频的某些时间帧(即第几秒的画面),然后将该画面经过算法处理,拿到一个该画面的 MD 值(或者类似的值)将此值与当前时间对应的关系存入数据库(例如:该视频第 秒是一只狗,第 秒是这只狗和他的主人)一个视频(如果不能确定是不是第一次)上传到平台时,系统会读取这个视频的时间帧,和数据库内已有数据进行对比如果发现了一致的时间帧,判定后面这个视频是抄袭;没有一致的结果,接着进行下面的判定。
C、骨灰级检测:人工智能算法
在 B 检测方法的基础上,进一步分析某些时间帧的特征,比如把 AB 两个视频的第 秒这一帧取出来对比,两个图按照一样的方式平均分割成 块,其中 块都是相同或者相似的内容,只有一块不同,这块很可能是个水印;接着比对多个时间帧,如果都是如此,判定这两个视频为相似,平台算法设定相似度超过 xx%即为抄袭。
这里只是举了一个人工智能算法里最低级的算法,更复杂的一两句说不清,也没必要知道
D、其他检测方法:人肉举报
抖音里就有这个功能,可以举报当前视频是抄袭,平台算法设定超过 xx 人举报时,会把这个视频提交到人工审核组进一步判定,不过偷愉说一声,目前抖音这个部门人手很少,而且大部分都在鉴黄,所以 a 手段最好过,软件改 md 即可。
除此以外,一个视频加加水印/去水印/加滤镜/打马赛克/镜像反转/加字幕/添加帧/删除帧等都会改变原来的 md ,修改视频文件名不会影响 MD。
接着过 b 手段的方法:改变时间帧。比如源视频 秒长度,前加 秒内容,或者减一秒内容,视频尾部再适当加减 秒,重新合成 秒的视频。如果是长视频平台,比如西瓜视频,最常用的方法有:多个视频拼接,加自己的片头和片尾还有转场等等。
根据我们的测试经验,快手,抖音,美拍等短视频产品使用的是 a 方法,或许会升级到 a+b,西瓜视频搜狐视频等长视频平台使用的是 a+b 的方法。
也许你要问,c方法很屌,什么平台用这个技术很难很难,开发一套非常贵,一般的公司用不起,爱奇艺/优酷等平台在用,也只是比较低端的技术,最屌的人工智能算法,用在我大天朝的互联网监测系统里,主要作用是扫黄。
D 手段其实不那么可怕,一是多平台之间互相搬运,被举报的概率很低;二是不要搬运太出名的视频,你搬一个陈翔六点半,或者pappi酱,非要说自己拍的,你看大家怼不怼你。