微信抖音的用户画像沉淀方法
画像,本质上就是给账号、设备等打标签。
用户画像 = 打标签
一、设备标签
首先查看APP列表
一个设备首先有没有违规的APP(大部分的灰黑产从业者都在保证批量化运营的时候会安装一些自动化脚本及恶意APP)是否有常用APP(觉得大多灰黑产在追求效率)
以抖音为例
标签的类别和明细,,比如:陀螺仪,内存,用电量,通讯录 指纹 手机卡等等。其他细致规则以此规律自己去设定。
抖音的设备画像,沉淀的逻辑如下:
一般的业务都有针对设备的激活时长、次数限制的策略,那么黑产为了对抗,模拟大量的设备数据与设备农场
设备在风控领域是非常重要的一环。
风控行业对设备的定义就是指用户与业务系统的一个载体
我们对每一台设备生成一个唯一且稳定的标识称为设备ID。
设备指纹的原理就是收集客户端的特征属性信息通过算法分析来给每一台设备进行标记、
手机操作系统与浏览器厂商为了方便开发者获取用户信息,会预留一下API给程序使用,用户与开发者通过这些API获取客户端相关的软硬件信息,当然这些信息每个设备也是不同的,设备指纹就是通过部分的差异信息开做一套自己的完全独立的设备ID,当然还有其他可参考内容。(切记用户通讯录 短信 手机号 通话记录等是不能作为生成设备ID的 ,只能校对哦)
我们再来从安全的角度出发来打标签,比如IP画像,我们会标注IP是不是代理IP
以微信的画像为例,比如,一个微信只登录手机版、不登录其他腾讯的业务、不聊天、频繁的加好友、被好友删除、朋友圈要么没开通、要么开通了朋友圈但是评论多但回复少,这种号码我们一般会标注微信养号(色情、营销),类似的我们也会给微信打上其他标签。
标签的类别和明细,需要做风控的人自己去设定,比如:地理位置,按省份标记。性别,按男女标记。其他细致规则以此规律自己去设定。
我们看看腾讯的IP画像,沉淀的逻辑如下:
一般的业务都有针对IP的频率、次数限制的策略,那么黑产为了对抗,必然会大量采用代理IP来绕过限制。
既然代理IP的识别如此重要,那我们就以代理IP为例来谈下腾讯识别代理IP的过程。
识别一个IP是不是代理IP,技术不外乎就是如下四种:
反向探测技术:扫描IP是不是开通了,等代理服务器经常开通的端口,显然一个普通的用户IP不太可能开通如上的端口。
HTTP头部的X_Forwarded_For:开通了HTTP代理的IP可以通过此法来识别是不是代理IP;如果带有XFF信息,该IP是代理IP无疑。
Keep-alive报文:如果带有Proxy-Connection的Keep-alive报文,该IP毫无疑问是代理IP。
查看IP上端口:如果一个IP有的端口大于,那么该IP大多也存在问题,普通的家庭IP开这么大的端口几乎是不可能的。
以上代理IP检测的方法几乎都是公开的,但是盲目去扫描全网的IP,被拦截不说,效率也是一个很大的问题。
除了利用网络爬虫爬取代理IP外,还利用如下办法来加快代理IP的收集:通过业务建模,收集恶意IP(黑产使用代理IP的可能性比较大)然后再通过协议扫描的方式来判断这些IP是不是代理IP。每天腾讯都能发现千万级别的恶意IP,其中大部分还是代理IP。
欢迎互联网各界人士一起交流互联网风控经验。一起探讨一起进去,