我之前买过一本爬虫的书,也自学过一段时间的爬虫程序。
当时也是因为需要做一个基于关系网络的项目,其实说是关系网络倒像是黑名单的关联分析。
这个项目的情况是这样,因为有很多外部链接来的网站登陆注册的信息。而这些来的外部链接,我们极其怀疑其合法性。比如,现在有个网址就叫:http://fanqie.com,我们怀疑它极有可能是口子网站。
那检查网站是否非性的方法就是只有去跟外部的对接的数据源进行对比,但目前外部的数据源,除了黑名单(黑名单包括个人黑名单和黑名单,而个人黑名单能匹配的就是手机号跟身份证),能匹配到一些信息外。对于网站的黑名单,似乎当时在市面上还没有哪一家公司有真正的这类的数据源。而且即使有,对于域名,太容易注销和注册了。只要稍微做一些信息更改,又能有新的域名产生。
这时,就只有去一些论坛、贴吧去寻找相应的信息。
当时基于这个项目特意去学习了一段时间的爬虫。
爬虫是非常好用的工具。爬虫,web spyder,网络蜘蛛。关于爬虫,只要稍微了解过一些的同学。肯定知道,在没有爬虫时候,我们去一个网站下载该网站的图片,只能一张图一张图的一个一个down下来。而有了爬虫工具,我们设置好格式跟规则后,他可以自动爬取里面的内容。这个手动跟自动的效率,大大提升了工作的效率。爬虫得到的内容,我们再稍微整理成我们需要的数据格式就完成任务了。
搜索引擎,百度、google也一样是爬虫的原理,从各个网站爬到相应的内容后自动返回相应的内容给我搜索者。之前非常火的平台,比如比价网、航空机票折扣网站,都是一样的机制。
而且目前很多大平台,都提供了相应的API接口,连获取到的数据的内容跟格式都帮我们做好了,爬虫起来非常简便。之前我曾介绍过,调用API的借口就像我们打开水龙头,我们只要会调用接口就好了(比如是为水龙头怎么扭,向左还是向右扭)。而水龙头的水是怎么来的,我们不用管。接口的调用也一样类似。
顺便说一些,目前程序开发都变成一项非常机械化的事情,程序员的主要做的两个模块内容就是调用接口跟调优。其实这项工作做久了,会发现开发越来越没技术含量,因为很多模块别人其实都写好了,你只需要调用就好。而具体的被调用的模块,其实都是别人开发好的内容。程序员为什么有年龄的职业的瓶颈。因为这些工作年轻人干个3-5年,就能轻易取代掉更资深些的老程序员。在之前很长的一段市场,用人需求旺盛时,人才较为匮乏编程人员稀少,大家的薪资还普遍偏高。
但现在越来越多的人涌进了程序员这个行业,每年除了高校还有各种培训机构输送的大量的开发人才,薪资行情已经没那么友善。我认识的一位某大厂的资深从业十年的高级开发工程师,年薪还不上2W。我相信这不是个别现象,应该算目前整个行业的普遍行情。这个是在深圳的一个水平。目前我从薪资的情况来看四个一线城市的薪资就行业水平来讲会有这样的排序:北京>上海>深圳>广州,不要问我数据哪来的。每年都有各个城市的基本薪资排名,也有各大招聘网站的薪资的范围,大概一算就知道了。
某些稳定的大厂的薪资其实并没有大家想象得那么风光。其实很多真正的大厂真正能拿到非常高的年终奖的,也就是那几个非常赚钱的部门,其他的大部分部门远远没有外界想象中的高。判断一家公司真的有钱,除了你在这个公司,真正跟你有干系的,还是你做了什么事,你所在的部门、子公司做了什么事情。
比如腾讯,如果你做了个游戏相关的工作,或者做了跟微信相关的工作,待遇肯定都非常高,但如果你做的是跟QQ相关的事情呢?QQ在PC辉煌的时候真的非常好,但是现在已经是移动互联网时代的江湖。微信才是腾讯的核心流量。QQ团队虽然还在想着各种办法创新,但趋势的力量是不可阻挡的。任何再强的人、团体都抵挡不住时代的潮流。
另外再说下大厂架构和管理。大厂的管理架构的核心都是以小团队的形式管理的,一般小团队是5-8个人的组织,这个小团队中以组长或者主管的身份管理团队成员;再往上就是由室经理直接管理7到8为主管成员,室经理最后会跟区域经理或者总监汇报;以上是一个室(部门)最基础的架构模式,这样一个室会管理一项具体的活动,比如腾讯公司里腾讯云客服的知识支撑团队就是这个室需要完成的事情,跟这个室平行架构的有活动运营团队、市场公关团队等。当有业务需要拓展,或者重点关注项目的时候,还会设立领导关注的重点的项目管理团队等。
所以基于这样的管理架构,人人都是上百万的年薪是做不到的,请各位一定要认识这一点。一般会分配好固定的绩效奖励机制,大概一年能赚多少钱,年末都会做好下一年的计划。最后一年到头来,分配给部门经理的奖金池也已经早就分配妥当。要是遇到收成好的,可能到年底可以再多发半个月到一个。所以每到年终有些说拿了几十个月年终奖、因为创新奖奖励一套房的新闻,其实是有的,但那些人有些真的是凤毛菱角。
上月因为魔羯科技、新颜征信引爆行业风控对爬虫事件的关注,再到今天疑似各大银行需要划清跟爬虫类金融科技公司的事件来看,爬虫都似乎被扣上了原罪的帽子。
但在爬虫时间被爆光后,很多头部的数据公司都早就纷纷自家的业务都是非爬虫没直接使用源数据的。同盾给自己正言说,同盾不是一家数据公司,应该叫[color=rgb(68, 68, 68) !important]数据分析公司。百融说,我们不是做大数据跟第三方数据的,我们是做风控建模的。都表示自己跟爬虫类业务相去甚远。
在爆出爬虫的时间后,关于爬虫的五宗罪也刷爆网络。爬虫本无罪,有罪的都是使用者,这跟其他许多工具都是一样的道理。
就像我们最开始所说的,很多业务都是基于爬虫的功能实现。目前一些做信息整合的平台,基本都是做信息整合的平台。就拿最近上市的“什么值得买”,也是一个集合所有打折促销的一款应用。
爬虫不是原罪,原罪还是是否合规性的使用这类数据。基于此,联合建模、联邦学习也被搬上了台上。不过这些的信息是否能真正适合未来的金融场景,目前却还没有真正的成功的案例可供参考。未来的主流趋势会回归两个方向:一是自建风控体系,二是合规使用各种数据数据场景,刚才提到的联合建模、联邦学习就是这样的一个使用场景。
最后我们有联邦学习的资料,会上传到知识星球上供大家学习参阅,有需要学习的同学可以上去查收,谢谢!
更多学习资料欢迎关注微信公众号&知识星球:番茄风控大数据


雷达卡


京公网安备 11010802022788号







