2011 年的中国互联网正处于移动互联网快速发展的热潮之下,TalkingData 正是在这样的背景下创建的。六年发展以来,中国互联网的风口变化了多次——从云计算、大数据、IoT 到人工智能,无数公司在一轮又一轮的淘汰中落马,而 TalkingData 则在传统行业中找到了自己的价值,已经成为国内企业级数据服务行业中的一线玩家。
2016 年开始,TalkingData 做了一系列动作幅度颇大的结构调整,把所有的业务单元拆分成三个事业部——数据商业化单元、数据交易单元以及数据应用合作单元,并设置了“F 连”作为与客户紧密合作的项目实施团队。人工智能技术的发展,首当其冲的就是数据相关业务。作为一家靠数据吃饭的企业,TalkingData 对于当前的数据业务形态有怎样的看法?对于人工智能技术在这一年的发展有何动作?我们邀请到 TalkingData CTO、EGO 会员肖文峰先生为我们分享他的视角。
更多干货内容请关注微信公众号:"AI 前线",(ID:ai-front)
嘉宾简介
肖文峰,TalkingData CTO,1978 年生,清华大学硕士,曾就职于朗讯、BEA/ 甲骨文和微软,担任软件研发和研发管理工作。后经过一段时间创业,于 2013 年加入奇虎 360 负责无线端产品线。2014 年加入 TalkingData 任 CTO,负责全业务线的研发工作。
首先,请介绍一下您这边最近一年的主要变化与达成的目标?
肖文峰: 最近一年主要是团队方向调整。最近整个行业发生了一些变化:TalkingData 的主要客户是一些传统企业,我们帮助他们做移动互联网和大数据的转型。以前,行业里做企业服务的模式可能停留在交付完产品就结束了,但客户的问题未必真的解决了,这些交付的产品客户未必真的用起来了。所以在这个时候我们觉得有必要多做一些,力图突破一些行业的固有模式,去真正帮客户解决问题,去和客户建立成效合作伙伴的关系,我们称为“ROI-P”。我们致力于成为客户的合作伙伴,以效果为导向,对客户最后的结果负责,客户有效果、有收益,我们才有价值、才有营收。
当然,做这样的事情需要客户的高度配合。并不是所有的客户都适合这么做,企业高层要完全理解数据产生的价值,要全力支持才行,因为,往往这样的项目都涉及到客户内部不同部门之间的数据打通。只有打破了部门墙,我们才能把这些数据融合起来,让数据产生价值。
藉此,我们重新规划了目标,调整了团队。我们也在尝试新的服务方式和协作方式,以适应客户的需求,这在我们内部称为“F 连”。
F 连是由什么人组成的?
F 连就是面向解决客户问题的特殊团队,一个团队里面可能包括数据工程师、数据科学家、数据分析师等不同角色的五六个人。我们对于每种角色,都希望有一些基础能力:统计分析、数学能力、编程能力、理解客户需求的能力以及沟通能力。我们认为所有人都应该有一些共同的基础,只不过不同的职业分工在某些能力上有偏重,大体上看:
数据分析师偏向沟通、业务领域知识理解;
数据科学家偏向于算法;
数据工程师偏向于编程;
数据架构师偏向于数据本身维度、质量方面的理解。
在这个层面上,我们希望每个人都往相对全栈的方向发展,这样在面对用户现场的复杂环境的时候,少数几个人就能够帮助客户解决问题。否则,动不动遇到一个问题就需要呼叫后方资源,效率较低,成本较高,回报很难平衡。
我们最近也在设置了专门的培训课程,支持每个职业规划的知识更新换代,目的就是为了把所有人往各自的职业赛道上推得更深一些,让员工能更快适应新需求、新技术等的变化。
现在业界没有比较好的培训课程吗?
肖文峰: 没有看到比较系统化并完全适合我们需求的。所以我们也在整理 TalkingData 的实践经验,将之整理成为课程,并和国内外一些院校合作,优化课程内容。自己在做内训的同时,未来也会逐步把这些课程开放出去。
在以前,懂业务是 IBM、埃森哲这样的老牌公司的优势,而初创企业——尤其是技术背景的初创企业——因为缺乏业务经验,就很难在这方面对接客户的需求。现在,在这个层面上的 toB 新兴技术公司似乎越来越活跃了。您觉得这种变化是为什么?
肖文峰: 大企业选择一个供应商,最看重的不一定是价格,可能更多是这个供应商有多少承担风险的能力,而小公司承担风险的能力相对还是比较差的。所以大公司始终会需要实力足够强、品牌足够好的供应商,这并不会因为时代而变化。
现在有什么不一样呢?随着基础技术的发展,比如云计算技术、容器技术,降低了创新的门槛,小公司不再需要从头构建自己的技术 ,可以基于行业已有的稳定框架和服务很快搭建出产品,具有相当程度的稳定性和抗风险能力,所以更容易被大企业接受。
在 AI 方面,今年有您比较关注的技术更新吗?
肖文峰:AlphaGo Zero 对我们的触动还是比较大的。以前这种深度学习或者监督学习,都需要海量的数据。但是 AlphaGo Zero 让大家发现,在具备一定规则的情况下,不需要那么多的数据练习,可以抛开人类标注的训练集,自行通过学习来产生更大的能力。我觉得这可能会产生革命性的影响。
另外一个对我们相对有影响的是 TensorFlow 发布了 TensorFlow Lite,为移动端提供了人工智能能力。TensorFlow Lite 为开发者提供了更多提升用户体验的武器,会刺激更多手机端智能化场景的创新,这也是很有价值的。
从业务角度来看,面向客户需求的话,您觉得 AI 技术的更新给他们的业务带来的好处有多大?
肖文峰:AI 技术的更新对于客户来说好处肯定很多,会带来更好的用户体验,带来更多的业务拓展的机会,带来工作效率的提升和成本的节省,等等。AI 能力会成为未来企业的核心竞争力,这也是很多客户的认知。
甚至今年我们看到一个趋势,就是客户也在开始自建大数据团队和 AI 团队。就和当年的信息化一样,当企业大到一定程度以后,AI 团队会变成像 IT 部门一样的服务部门。大数据能力和 AI 能力会逐渐变成公司基础能力的一部分,为所有部门提供支持。
同时,现在很多甲方企业也在研发自己的智能客服系统。当然,智能客服的门槛未必很高,相当一部分挑战在于找到与企业应用场景匹配的语料训练集。而企业本身就在场景中积累了这些训练数据集,也更加了解自己的业务场景,所以训练出来的效果可能会比通用的智能客服更好。
所以对于 AI 创新企业来说,未来可能更多扮演赋能的角色,而不是提供整体解决方案。所谓赋能,就是为客户提供更好的核心算法引擎,让客户可以基于这个算法引擎做定制化开发,在此基础上搭建符合自身需要的算法能力。
能否简单介绍一下 TalkingData 如何划分数据科学领域的技术栈?
肖文峰: 数据科学是一门实践性的新型学科,横跨计算机科学、统计学、数学、软件工程和行业知识等多个领域,往往很难给出一个明确的定义。我们的数据科学团队在今年梳理了数据科学家需要具备的能力。我们认为,作为一个合格的数据科学家,在技术上肯定有较高的要求——需要有一定的数据基础,有机器学习算法的理论知识,有一定的编程 / 架构 / 工程的能力。但是技术只是数据科学家的一个维度而已,他还需要很强的业务理解的能力,必须对问题所在领域的知识有充分的掌握和理解,例如做金融大数据的,那么就需要理解金融行业里各种各样的专业词汇所代表的含义。同时,还需要有很强的沟通和协作的能力,这样才可能准确理解和定义遇到的问题。我们内部也是通过这些能力给数据科学家定级以及评分的。
你觉得 AI 未来会取代人类吗?
肖文峰: 其实大数据只是数据维度和类型发生变化,大家对数据的使用模式并没有发生变化,仍是数据采集、加工处理、最后产生决策这一套流程,只不过有些可能是人工的,有些是靠机器实现的。有了人工智能以后,它可以帮助人们更快完成从数据到决策的过程。
我觉得最后做决策的还是人,人工智能永远都无法代替用户做决策。这是我的观念,因为我觉得大家做事情并不只是为了机械性地去满足一个规则。比如人不会因为有了自行车就不再跑步了,因为跑步除了单纯锻炼身体,还有释放潜能、超越自我的意义。算法在技能上可能超越围棋冠军,但是在艺术层面,不可能达到人的水平。例如,一个放贷系统,如果站在算法层面看,不会贷款给一个穷人,因为风险很高;但如果站在人文关怀、同理心和同情心的角度来讲,有可能就会贷款给他,给他带来新的希望,国家社会也会变得更好一些。如果单纯靠算法,那我觉得这社会就太苍白,没什么意义了。所以,人要跟机器结合在一起,才能有更好的结果。技术再强,也有人文的立足之地。
TalkingData 也在研究人文吗?
肖文峰: 对。TalkingData2011 年成立,在国内最早做统计分析平台。现在我们是国内最大的独立第三方移动数据服务平台,平均月活跃用户超过 7 亿。现在我们的数据科学部门就在利用这些数据做一些基础研究,比如通过标注建筑中的 WiFi 有多少公共的、多少是商业的、多少是私人的,体现出建筑商业化程度的变迁。也能通过社区之间人群的迁移,以及人群的工作地、居住地、娱乐地、收入水平、消费能力等多维度的能力,来反映社区的发展趋势和规律。我们专门成立了“人本实验室”,与像 MIT 这样国际顶尖学府的实验室合作进行人本层面的研究,希望从以人为本的角度来理解数据、使用数据。
您觉得你们现在做的这种数据服务,能多大程度做到客户完全自助,从而可以加速规模化的程度?
肖文峰: 传统的数据服务,存在一个很大的问题就是,懂数据的人不懂业务,懂业务的人不懂数据,业务部门和 IT 部门之间存在很大的鸿沟,会导致很多资源和时间消耗在反复的沟通和确认上。所以现在我们更多在研究如何加强数据工程和数据科学的平民化,让更多的人不需要那么强的知识背景也能够去理解数据和使用数据,这就需要对数据服务中的各个环节进行智能化的改造,以及对产品的用户交互体验进行优化。因此,完全的客户自助可能比较困难,但是肯定能大大提升客户的自服务水平。