最近,参加了一期头条官方主办的宣讲活动,有幸近距离了解「智能算法」的核心逻辑。
今天,把获取到的关于「智能算法」的知识点整理出来,分享给大家,希望对各位打造抖音爆款的过程中,有所帮助。
这篇文章主要分为个部分:
一、智能算法的推荐原理
二、一个作品在推荐系统的“生命周期”
三、系统推荐中的常见问题
四、如何获得更高推荐?
智能算法推荐的本质,是从一个聚合内容池里面给当前用户匹配出最感兴趣的内容。
这个内容池,每天有几十上百万的内容,涵盖s短视频、min长视频、min超长视频。
而在给用户匹配内容的时候,平台主要依据个要素:内容、用户以及用户对内容的感兴趣程度。
系统是怎么理解我们创作的内容呢?
平台在做内容刻画的时候,主要会依托于关键词识别技术:通过提取文案、视频中的关键词,根据关键词将内容进行粗分类,然后根据细分领域的关键词,再对分类进行细化。
比如,视频文案及内容的关键词是“罗纳尔多、足球、世界杯”。
大部分关键词都属于体育类词汇,就会先把你的作品分到体育大类,然后根据具体的关键词,再细分到“足球”、“国际足球”等二三级类目。
关键词提取原则:
)高频词原则:系统从作品、文案中提取高频出现的词汇;
)独特性规则:大部分文案、内容出现的词,不会被认为是关键词。
比如虚词(的、地、得、而、对于……);
比如转折词(虽然、但是、因为、所以……)。
怎么才能让系统更好的识别我们的关键词呢?
)避免使用非常规词。比如:活久见、城会玩、腿玩年、DBQ……
)名人/地名用全程,不用缩写或外号。比如:詹姆斯vs詹皇,广西、广东vs两广地区,香港、澳门vs港澳……
)多用具有代表性的实体词。实体词就是一些名词和代词,比如人名、地名、公司名称等。
例如:《流动着的舞台,街头中的故事》,在这个文案中,我们很难提取出有意义的实体词,我们对它进行优化:《印度就是脏乱差?这组图片让你看清印度的另一面,与想象中大不同》
优化后,我们这个就能提取出“印度”这个实体词,知道是跟印度有关的内容,进一步提取,还会发现“脏乱差”、“图片”这些有意义的词汇。
系统是怎么理解用户的?
为了更好的理解用户需求,系统会从多个角度进行用户画像:
)历史浏览信息(从作品文案、内容中的关键词提取)
)身份标签(兴趣标签、职业、年龄、性别、机型……)
)环境特征:根据他们当前的环境(工作、通勤、旅游、娱乐场所、休息……),确认用户的状态
通过这一系列的比对、分析,系统推测还原出一个用户的基本属性,比如:Ta可能是一个正在旅游的男性,喜欢足球、汽车等分类。
系统会把上述的用户特征,归类为这个用户的标签。
用户标签主要分为大类:
)用户的基本信息(年龄、性别、地域);
)用户的行为信息(关注账号,历史流浪记录,点赞收藏的内容、音乐、话题);
)阅读兴趣(阅读行为、用户聚类、用户标记)。
系统根据用户的信息和行为,对用户进行分析计算,计算出用户喜好的分类、话题、人物等其他信息,这样就完成了系统对用户的刻画。
推荐算法的本质
利用作品的特征(主题词、标签、热度、转发、时效、相似度)、用户喜好特征(短期点击行为、兴趣、职业、年龄、性别等),以及环境因素(地域、时间、天气、网络环境),拟合一个用户对内容满意的函数,它会估算用户对每一个作品的点击概率,然后再从系统几十上百万的内容流量池中,将所有的作品按照兴趣由高到低排序,Top的作品在此时会脱颖而出,被推荐到用户的手机上进行展现。
作品发布之后,进入初审环节,初审结束后系统会进行一些加权推荐,将这些作品首先暴露给几百上千用户,这个环节被称为冷启动。
冷启动完成之后,系统会对你的作品进行正常推荐。
在这个过程中,作品就会被展示出来,同时系统不断搜集用户反馈(完播率+转评赞,甚至举报),基于这些用户行为进而触发平台的复审流程,复审会影响作品的后续推荐——继续推荐or打压处理。
作品推荐流程:
)初审
初审的目的,是判断这个作品有没有违反国家相关法律的风险。
在这一过程中,机器模型会优先判断它的风险级别,然后根据风险级别,将内容分发给不同审核人员进行处理。
在机器+人工的共同配合下,内容会以非常快的速度通过初审,展现在读者面前。
)冷启动
在内容审核之后,就是冷启动阶段。
冷启动,是一个推荐上的概念,是指新的作品发布之后,系统会根据相关数据进行推荐的时间段。
冷启动阶段,系统会优先推荐给你的粉丝,粉丝的数量、质量以及对作品的喜好程度,都会影响作品的推荐效果。
)加权推荐
新的作品发布之后,与之前已经在平台上火起来的内容相比,具有一定的劣势,这些现在还是“冷”的内容,大部分可能火不起来。
但是,如果不把新的作品展现给用户,就不会知道这个作品将来会不会火起来?
因此,对于所有的新内容,系统会进行加权推荐,让所有的用户有一定概率看到这个新作品。
)确定用户兴趣
加权之后,内容会进行几百上千次展现,基于这些基础展现的用户反馈(完播率+转评赞),系统会初步判断哪些人群会喜欢这个作品,哪些人群绝对不会喜欢。
作品审核的流程:
冷启动(首次推荐给用户)之后的作品,平台收集到最基础的推荐效果反馈,如果一个作品的反馈很好,系统就会认为这个作品是有潜质的,会进一步扩量推荐给更多用户,可能是w/w/w甚至更多,如果一个作品用户对它的兴趣不是很大,系统就会收紧推荐,继续观察作品的表现。
在正常推荐过程中,基于各种各样的用户行为,系统会监测到很多数据上的异常(比如,一些作品点击率特别高,但负面评论、举报特别多),这时,这个作品就会再次进入审核流程,这个被称之为复审。
相比于初审,复审将更为严格。
在复审中如果被发现存在标题党、封面党、低俗、虚假等问题,系统就会停止对这个作品的推荐。
、为什么推荐量“不稳定”?
、为什么作品推荐一半就不推荐了?
、为什么我的推荐效果不好?
同样一个热点,大家作品的题材、风格都差不多,为什么有的作品几百万展现,而有的作品却只有几百展现?
)系统消重策略:
为了保护站内原创内容,提升用户阅读体验,多个相似作品中,系统会优先推荐“更早发布”的原创作品。
如何避免消重?
)坚持原创,不做搬运(抖音对重复类内容的检测和打压手段,都在不断进化,搬运的生存空间会越来越小)
)面对热点谨慎追逐
)体现鲜明的个人特色
)同类作品挤压:
针对热点内容,抖音会优先选取最适合的一个,推送给用户。
如果你也发表了相似的内容,但其他作品表现的特别好,你的作品就有可能不会得到很好的推荐。
每个作品的推荐量,既取决于当时具体的环境,也取决于当时整个内容池里面其他作品的表现。
一个作品的推荐效果,与作品本身的质量有很大的相关性,如果一个作品推荐不好,可能是以下几个原因:
)作者的创作内容,质量不稳定
系统会对作者的创作能力精选评估,如果作品质量不稳定,系统就无法很好的评估作者的创作能力,进而影响这个作品的最终推荐效果。
)创作内容不够垂直
系统会判断一个作者的专业度,并优先推送专业度高作者的作品,如果你经常换领域,就会导致系统很难评估你的专业度,进而影响推荐。
)创作者内容受众少
如果你的内容是某个小众领域,人群优先,比如虚拟货币,抖音可能只有万人对它感兴趣,系统推荐完了,后面就没有办法推荐给其他人了。
)内容时效短
比如报道体育类赛事的进展,可能小时候比分、结果就会有很大变化,这种情况下,系统就不会再推荐你的内容了。
作品推荐了一半,反馈很好,为什么突然不推荐了呢?
这里很有可能是因为作品出现了一些指标上的问题,比如它的点击率很高,但同时负面评论、投诉信息也很高,这种情况下,作品就会进入复审流程。
在复审中,审核人员会对作品质量进行更为严格的审核。
复审不被通过,主要有大原因:
)标题党
过度夸张、故意制造悬念、无中生有、歪曲事实、题文不符、低俗引导等。
)封面党&低俗
封面图不清晰,存在恶意引导等情况,封面、内容涉及色情低俗等行为。
)虚假
作品违背科学常理,描述违背证实、或存在与已发生事实相悖的事件情节,比如:《战狼》演员名单流出,天王华仔愿意零片酬参演,阵容激动人心,影片中并没有刘德华,这个内容纯属作者虚构。
)包含推广信息
文中含二维码、手机号、微信号等联系方式,或变形版(如威信、薇信、微?信?公?众……);
作品中含有恶意推广内容(如违规医疗、违法财经、情感挽回、带有不良暗示交友软件等)。
)其他因素
受外部环境影响,如果当前热点已经过时,那么对应的受众就会减少,作品的推荐就自然会受影响。
平台认为,这些内容更受用户喜欢:
)作品视角新颖,观点鲜明有态度;
)作品内容充实,带来信息增量(能让用户学到新知识);
)坚持原创首发;
)画面更清晰;
)竖屏。