WOT讲师刘黎春:互联网征信是新蓝海
对科技行业来说,可能几年就是一个分水岭,因为互联网总是能创造无限可能。过去几年,云计算刚刚落地,大数据也开始由概念转向应用领域。而借助大数据支撑的互联网征信无疑是最具前景的应用领域之一。51CTO专访【WOT2015"互联网+"时代大数据技术峰会】特邀讲师腾讯数据挖掘高级工程师刘黎春分享社交数据在互联网征信领域的探索。
刘黎春,腾讯数据挖掘高级工程师,社交网络事业群数据挖掘团队负责人,第一代QQ音乐推荐系统架构师,腾讯客户生命周期管理体系搭建者。多年致力于数据挖掘技术与业务结合,在大数据分析和挖掘、互联网征信等领域有着丰富的实战经验和项目管理心得。目前专注于互联网征信、用户基础画像、推荐系统和文本挖掘。
互联网征信是新蓝海
刘黎春认为互联网征信是一个新型方向,不同于传统征信行业,大数据征信并没有形成一套完整的体系,不论在国内或国外,其发展还是处于早期阶段,但是整个行业进展速度很快。他提到,多家大型互联网公司已经获得了征信的牌照,一些互联网金融机构也正在建立自己的征信体系。在他看来,互联网征信相比传统征信的地位更重要,“在传统的金融体系里,央行个人征信系统已收录8.7亿自然人,其中只有3亿多有信用记录、信用评分,也就是说还有5亿多人没有信用评分。但是这些用户在互联网上留下了大量有价值的信息,我们可以通过海量数据挖掘和分析技术来预测其风险表现和信用价值,为其建立个人信用评分。”
社交数据与电商数据
刘黎春介绍,当前腾讯社交数据的主要来源包括:QQ、QQ群、QQ音乐、QQ空间等几块较大的业务。他认为社交数据相比电商数据在征信领域有两大优势:第一,社交网络涉及很多关系链、拓扑的信息,可以通过关系网络对某个用户信息做扩散或者修正,这种情况在一些电商场景下是不太好实现的。他举例说:“比如用户年龄信息,可能用户填写的年龄不是其真实年龄,但我们会拿到我们能确定真实用户作为种子,通过关系链来扩散到其他用户,来对比获得其真实年龄,整个可信度还是比较高的。如果用户填50岁,但是他朋友圈交往圈都是在25到30之间,那我们会对其真实年龄做一个校正。”
另外一个,他提到,关系链拓扑的数据在风控里是难以模拟的数据,比如恶意用户想仿造一个关系链拓扑是比较困难的,这样就可以很好地起到了用户甄别的功能。
如何解决数据时效性问题?
我们知道,数据是有其时效性的。那么过时的数据是否会对现有的模型产生干扰呢?刘黎春告诉笔者模型建完后,数据一般是半年前的,届时会拿现在的数据做一个前后的对比,看前后是否发生太大的变化,其中有一个指标来查看每一个用到的变量、特征,如果模型出现较大变化,一般来说会把变量去掉。在构造变量时,也会考虑这个特征将来是否会发生较大的变化。
互联网征信的难点
谈及当前互联网征信遇到的难点,刘黎春认为,相比传统征信行业,互联网征信不如传统金融结构清晰。“比如传统征信有很多行业标准,用户哪些数据需要保存下来,哪些数据需要上传到系统都是有明确规定的,但互联网相对没有这么清晰,对于挖掘来说有很多非结构化的图片或数据。”另外,他提到,传统征信有央行保证,很多银行都把数据报到央行去,相比之下,各个互联网征信机构还是用自己掌握的数据做事情,很难有非常完整的用户信息。比如腾讯和别的公司在数据互通方面就存在难点。