关于人的数据有%不准确
在世人追捧大数据之际,我们更需要好好沉淀,思考一个大数据的关键问题:假如大数据是一个大金矿,它的实质含金量的比重究竟是多少?
大数据的四大特性之一,就是不确定性。而且,有研究期刊指出,关于人的数据,有高达%的不准确性。
事实上,对于人的不确定性,人文社会科学早有深刻的研究。人文社会科学的研究对象是人,人和自然科学的研究对象物质的特性完全不同。后者可以做到完全精准、可操控,如牛顿的经典力学,可以精准计算出物体的运动方向与位置。
但是人在与环境的互动中会碰撞出高度复杂的变动性和异质性,因此和人有关的数据,自然也充满不确定性,有无数种可能的猜测与想象。
以人为主体之社交媒体数据的正确率究竟如何?每个人对于脸谱网点赞的决策不同,比如朋友买了一个东西上网分享,A觉得很好看点赞,B觉得不怎么样,但还是会点个赞,以示鼓励。换言之,每个人对事件的定义、评论和想法都不同,在社交媒体上的发言也可能还有所保留,只是一种客气、一种社交礼节。当这些礼节创造出来的数据形成一张报表时,你有多少信心,可以根据这样的数据质量做出正确决策?
此外,人会因为时间、地点、需求等的不同而改变。例如某人很喜欢可乐,但由于胃不舒服,因此外出用餐时,只要老婆在一旁,他就不会点可乐,但是当他是一个人或和朋友一起时,就有可能抵挡不住可乐的诱惑。人随着不同的情境、时间而有不同的行为模式,现在是拥有对某品牌的购物欲望,下一秒就可能改变。
而当数据越庞杂,数据的不确定性就会越大。假设交易数据的准确度是%,那么社交媒体数据的准确度,可能降低到%,再将另外一个准确度也是%的问卷数据一同评估,个数据库结合的最后准确度只剩下%,而其中社交媒体与问卷数据%的准确度,仍可能是过度乐观的预估。
因此,如何深入情境、掌握人在不同情境中的变化,成为关键。