浅谈业务风控 – 数据埋点与应用

2016-09-05 13,705

二十一世纪,互联网迎来井喷式发展,各种传统行业从线下走上线上,各类互联网新名词应运而生:O2O,B2C,P2P,B2B等,从而形成了各类商业模式。

因此,电器,游戏,广告,金融等行业开始逐步走向互联网+的转变:从线下到线上,从PC端到移动端,从分散到垂直。行业在不断调整,人们的生活习惯也在不断演变。

由于新的格局,新互联网时代所带来的全新营运模式,恶意人群如羊毛党等随之而来,而业务风控就是为了解决此类业务层面所产生的风险和影响!

在现今的大数据时代下,一切业务风控都是围绕着数据展开的。数据的维度越多,精度越细,体量越大,构建出的风险模型将会更完善,侧写的用户画像才会更完整,后续风控也将更为精准。

本文分享的数据收集聚焦在风控前期的数据埋点过程。一般在实际风控中,我们将埋点收集的数据分为三类:业务数据,环境设备数据,用户行为数据。在介绍这些数据前,我们先来介绍下埋点。

yewu1

埋点

那么何为埋点呢?

所谓的埋点,指的是在前端功能的正常功能中添加统计功能,并且进行数据上报,上报过程可以是同步的,也可以是异步的,甚至是周期性的,这取决于埋点场景,也取决于后续风控的数据应用时机。

现在有流行一种“无埋点”的概念,其实质是全埋点,是将所有的交互类操作全部进行了详细记录,然后再由产品和业务来决定哪些需要应用,以省去由于前期考虑不全导致后期需求变更带来的版本迭代发布所损耗的时间。

yewu2

业务数据

在理解了埋点的意义后,我相信首当其冲想到需要收集的就是业务数据,那么哪些业务数据需要进行收集呢?可以大致归纳为以下几类:

1)  用户账户相关数据

包括账户登录、账户注册、修改密码、修改账户信息等场景。举几个实际的场景来看:

a.登录场景:

在登录的过程中,我们经常会遇到撞库暴力破解、账户被盗等风险。而对于不同的风险,我们应用的数据和制定的风控规则也会各不相同。

首先我们来看下撞库。在信息爆炸的今天,各种公司、网站信息泄露所形成的社工库已经多如牛毛,大部分用户的隐私信息已经不再私密。即使这部分用户本身拥有极好的保存账密习惯,也难逃泄露。

恶意用户通过非法手段获取到用户其他平台的账密后来对我们的业务平台进行撞库。而此类撞库行为,我们可以通过对同用户登录多个账户的行为进行监控。

其次再来看一下暴力破解,可以理解为有明确指向的撞库。恶意用户会频繁尝试登录一个特定账户,通过使用反复变更密码的方式来对这个账户进行尝试登录。对于此类行为,我们可以通过监控单一账户的登录次数与成功率等方式以第一时间了解。

最后我们来谈谈账户被盗问题。账户被盗的判断是需要整合各方数据的。在我们收集了用户的登录数据后,需要将本次的登录IP、设备环境等信息与用户的历史数据,积累的黑名单进行比对,来判断本次是否为被盗登录。(很多时候,由于本次疑似被盗的行为只有登录数据,缺乏更多参数的模型给出的风险值不会太高,此时建议可以先打上疑似被盗的标签,等实际发生敏感行为的时候再进行二次判断,如购买场景。)

b. 注册场景:

在注册过程中,业务最希望解决的是“羊毛党”和“储备号”。

现今各类公司在吸纳新用户的过程几乎大同小异:烧钱送福利。面对大量福利的各类产品,羊毛党应时而生,而此类用户的特征非常明显,注册,领取福利,流失。

对于这类用户,抛开从业务层面提升福利门槛,我们需要做的是对IP、设备信息、注册内容的重合度等进行监控。又因为羊毛党手里握着大量的代理IP、手机虚拟号,此时必须还要通过技术手段收集代理和VPN的IP与手机虚拟号来深度认证。

而储备号,也称养号。这些账户作为恶意用户的备用库存而存在,一般会分为两种。一种是注册后就闲置,等需要时批量进行作业。但一般业务方都会对“新号”有一定周期的监控。所以另一种形式就应运而生。恶意用户注册后,每天通过脚本模拟正常用户进行一些日常活动,来将自己剔除监控名单,成为一名“正常用户”。对于这类用户我们可以分析恶意样本,来将自动化的活动进行分析,一般大部分批量的行为是可以有迹可循的。

类似这样的场景还有很多,如修改密码,绑定***,修改手机号等,很多盗卡盗号都会伴随着这样的行为出现,这里本文就不一一赘述。

2)  用户资产相关数据

用户资产相关数据不仅包括支付,购买商品,转账等与钱有关的行为,也包括积分兑换、积分购买等虚拟货币行为。

前者的资金交易风险主要集中在盗卡盗刷,洗钱等情况。判断是否被盗很多时候需要结合登录数据、绑卡数据一起来看,比如已经泄露六要素的用户将更可能发生盗卡情形,需要进行及时的拦截。另外对于频繁地同目的地转账以及大额的金额都需要做到实时监控。

虚拟货币,很多业务也称之为积分,点数,是专属于业务的一种虚拟货币。很多时候,虚拟货币与钱是等价的,可以用来进行一切商品购买等操作,所以这部分数据也是需要进行埋点,并且需要留意。很多时候业务会忽视对积分消耗,积分转让的监控。

值得一提的是,现在不少互联网金融公司的业务都实行同卡进出的原则,但这并不是绝对安全的。很多时候我们的产品会有一些周边服务,如代充话费等。当账户被盗用后,这些将成为用户资金流失的出口,所以在数据收集及应用监控中,对于此类场景也需要给予足够的重视。

 

3)  风控辅助数据

还有一些需要进行数据埋点的场景本身不会有任何风险,但是却可以作为辅助风控的数据。

如电商中的被盗场景。正如前文所说,我们很多时候无法通过一个简单的恶意登录,就认定为是一次盗号行为,但是可以通过用户画像对比(用户历史的购买偏好、登录地址、消费能力、常用收货地等多维度数据),最终认定是一次盗号登录。所以通过对于各种适合的信息收集,可以更好的辅助风控,提升风控精度!

yewu3

环境设备数据

在数据埋点中,收集环境设备数据是非常必要的,那有环境设备数据我们能做什么呢?

1)  设备指纹

如前文所说,我们会建立一些规则来监控同IP的流量规则。例如,通过同一个IP登录多个不同账户来监控是否可能有撞库行为。

但我们知道由于IP属性的特殊性,如代理IP,网吧IP等都可能使不同的用户无意间“共享”了相同的IP。因此设备指纹可以更精准的定位用户,也可以通过关联手段来维护设备与用户的关系,提升风控精准度。

2)  客户端型号

通过数据埋点,我们可以很直观地了解到用户的机型,这里分移动端和web端。

移动端我们可以看到用户的机型是华为的,还是苹果6S的等,很多时候人们会忽视这个小小的属性,但是有时却可以提供一些有用的线索。一般情况下我们认为安卓比IOS风险度更高,但我们发现有些恶意用户就偏爱于使用IPHONE 5C机型。

而web端在很多时候我们可以通过一些浏览器特有属性,如user-agent,refer等来分析用户的请求是否可疑。

3)  GPS定位

GPS的信息可以作为辅助判断的一种。我们知道无论是GPS,IP,手机号,***,***都可以反推出对应的归属地。虽然不能作为一种强条件,但很多时候可以通过这类归属地的异同来发现问题。

4)  模拟器/越狱/root等

此类数据主要是针对移动端收集的。由于用户可以通过技术手段对android,ios机器进行越狱或者获取root权限,甚至使用模拟器来进行访问业务产品。对于此类用户,通常的做法是给出非常高的风险度,尤其是模拟器,一般会选择直接拒绝。

yewu4

用户行为数据

最后一个需要在前端收集的数据是用户的行为数据。

在互联网高速发展的今天,恶意用户不会老老实实的按照“剧本”出牌。他们可能通过直接发送数据到接口的方式,进行快速地调用来显示批量账户信息的注册,也可能通过按键精灵,或者像SIKULI一样的辅助工具来模拟人的行为进行自动化的登录,等等。

而作为一个业务风控人员,你需要的是从大量的请求中分辨出这类用户。因此,用户行为数据的收集就是帮助我们更好的去分辨他们。

用户行为数据需要收集的数据包括有用户的访问页面、页面点击、鼠标轨迹、按键、触摸位置、操作间隔等。

通过对于这些数据进行整理,可以了解到用户在单个页面的行为轨迹。那对于访问该页面上的核心功能接口的用户,如果没有此类数据信息,可能就是相对高危的人群。

此外,我们可以结合多个页面整体地分析一个用户在一整个会话的行为过程,如正常购物的用户的页面访问序是访问主页,登录账户,搜索商品,加入购物车,点击支付。而该用户一反常态,收集到行为数据表现为登录账户,点击支付,同时我们了解到登录行为有异常的话,这时候也会被认为是高风险的。

总结

本文简单地对业务风控的埋点和后续应用做了简单介绍。希望可以让读者能有简单地了解和认识。在实际生产过程中,数据埋点大多数情况需要额外的数据清洗,而后续应用需要依赖离线分析,风险建模与规则引擎等。

 

【*RoarTalk原创稿件,未经许可禁止转载。  本文原创作者:岁岁  安全脉搏授权整理发布】

 

 

 

本文作者:嘶吼RoarTalk

本文为安全脉搏专栏作者发布,转载请注明:https://www.secpulse.com/archives/51757.html

Tags:
评论  (0)
快来写下你的想法吧!

嘶吼RoarTalk

文章数:19 积分: 1

回归最本质的信息安全,互联网安全新媒体

安全问答社区

安全问答社区

脉搏官方公众号

脉搏公众号