爬虫已经成为数据的一个重要来源,作为社会主义接班人的数据分析师们,怎么能不关注数说君推荐的这篇爬虫好文章?
1、微贷行业中判断一个人是否有能力还贷款有一套传统的方法。那就是查看这个人的购物习惯,客户提供的账单流水信息等。这种方法相信一个人若是经常在网上购物、有详细的银行账单并且有正常的通话记录,那么这个人是一个正常的且有一定的经济能力的人。也就是说,这样的人是有能力还贷款的。相对于发达国家健全的征信系统,在中国这种评价方式在一定时间内,是可行有效的。
2、另一方面,我们相信绝大多数的骗子并不是来普惠贷完款后才变成骗子的。骗子来普惠贷款之前就已经是骗子。那么在骗子的行骗生涯中,或多或少的会在互联网上留下痕迹。比如,有许多专门曝光骗子老赖的网站,也有许多骗子在一些社交网站上有人针对曝光。针对这些曝光的数据,大数据中心使用聚焦爬虫进行爬取,然后将爬取到的数据保存到普惠的黑名单中。
有上面两点可以看出来,不管是爬取交易账单等信息,还是抓取曝光的骗子等数据,都离不开聚焦爬虫的应用。
普惠大数据中心现有百多人的团队在开发和维护风控系统,从成立至今,普惠大数据中心的数据来源由单一的几个网站增长到了现在上百个网站,信用评价指标达到上千个维度。在不断完善,发现和创新中,大数据中心传统方式的风控水平已经到达行业领先水平。
然而,随着互联网的不断发展变化,人们对微贷行业的逐渐了解。一些置身大数据风控的人逐渐发现,通过传统方式做风险控制越来越困难。通过传统方式爬取的数据,基本都是属于一个人的点状数据,并且是片面的点状数据。何为点状数据?若是把所有人看成一个整体数据,那么最形象的结构就是一张人物关系数据网。每个人都是网中的一个节点,即每个人的数据就是一个点状的数据。由于个人隐私的原因,我们无法也不可能得到一个人的全方位数据,只能截取其中的一个或几个片面(交易纪录,信用卡信息等)。通过这些数据来判断一个人的信用等级有两个弊端,一是数据的不全面会导致判断的失准,这个弊端无法避免,只能尽可能多的得到数据,并制定更优化的算法模型;二是点状的数据随着互联网的发展有了更多造假的可能性。比如说电商的交易记录,若是有心造假,很容易就可以制造一批完全符合高信用等级的交易记录。因此,点状数据在未来的风控系统中所占的比重会逐渐减少。
相对应于点状数据的不足,爬虫界有人提出了建立网状数据的可能性。基本想法是,通过聚焦爬虫爬取各大社交网站,根据这些数据建立人物关系网络,在关系网络的结构中,给每个人添加补充各个维度的数据。其理想的数据集合是每个来普惠贷款的人都存在于普惠大数据中心的人物关系网络中。并且我们知道其关系密切的人的标签(画像)。例如张三来普惠贷款,大数据中心不但要知道张三的信用评价,还要知道与张三关系紧密的若干人的信用评价。这有什么用呢?假设张三贷款的场景如下:张三通过大数据中心的传统信用评价方式,得到了信用良好的评价。但是,我们通过关系网络发现与张三关系密切的人中,有多个人在信用评价中得到了信用低下的评价,甚至在普惠的黑名单中。这个时候我们就要怀疑张三的数据是否是精心假造的。根据物以类聚,人以群分的道理,我们相信这种怀疑是很有必要的。
由上张图可以发现,张三信用良好的评价并不可靠。恰恰相反,贷款给张三的风险反而会很大。传统的风控方式显然并不能规避这种风险,但是这种风险会随着骗贷人越来越了解贷款公司的信用评价方式而越来越多。试想,在未来的时间里,由于骗贷人对公司的风控有了大致方向的了解,从而在某一方面或很多方面伪造了良好的记录。大数据中心爬取了这些数据从而错误的判断了信用等级,那贷款公司所承受的风险将会急剧扩大。
针对未来这种风险,人物关系数据网络给出了解决的可能性。若是没有完善且可靠的官方征信系统的出现,人物关系数据网络将是未来无抵押贷款公司风险控制的主流方式。然而建立人物关系数据网络并不是一朝一夕的事情。
每一个社交网站都有海量的数据,和海量数据成正比的是社交网站的防爬虫策略。这就对爬虫提出了更高更严格的要求,也更细化了不同爬虫之间的差异。然而一成不变不是互联网的主调,依存互联网生存的公司,更要学会拥抱变化,甚至预测变化,方能在未来乘风破浪,越行越远。