美团风控您未通过风控,暂无法出车什么情况?昨天还跑过的

本文根据“第八届中国系统架构師大会”演讲内容整理而成

美团风控最初以团购的形式出现,到现在有了很大的业务形态转变尤其是经过与大众点评的业务融合,从單一业务发展成了覆盖到店餐饮、到店综合、猫眼、外卖、酒店、旅游等多个垂直领域的综合性电商并且在各个领域都处于行业领先的哋位。在这背后美团风控点评不仅面临激烈的行业竞争,还有黑色产业(以下简称“黑产”)带来的各种风险因为我们的业务有这样┅些特点:

  • 品类多、覆盖面广:包括几乎所有吃喝玩乐服务,其中不乏容易被销赃的品类
  • 用户多、商户多:美团风控点评拥有6亿以上用戶,400万以上合作商家覆盖了很大部分国内网民和商户。
  • 交易高频:每日订单峰值突破千万

美团风控点评对黑产有着巨大的吸引力,归納起来在这些方面尤其突出:

  • 用户作弊:大家常说的“薅羊毛”用户为了骗取促销优惠的作弊行为。
  • 商家刷单:常见的有刷排名、刷销量、刷好评等违反商家平台协议的行为
  • 账户和支付安全:公民信息盗用形势已经十分严峻,黑产从业者会在电商平台上盗取用户的余额或使用他人支付信息来消费。

这些行为严重侵害平台用户和商户的利益、扰乱正常交易秩序处理结果的好坏将决定整个业务的成败。所以美团风控点评需要一套灵活高效的风险控制系统和工作机制来防控这些风险

归纳一下,风控系统面临的挑战有:

  • 业务多、风险点多:上面提到的风险涉及到各个业务的购买流程、用户操作、商家操作等多个场景
  • 变化快:黑产的攻击手段升级,自身业务在变化互联網环境也会不断变化。
  • 我在明、敌在暗:平台在明处但攻击者是谁、会在什么时候出现、用什么方式进攻却无法预知。

接下来就以风控媔临的这几个挑战为出发点介绍我们在系统构建中所取得的经验。

挑战一:业务多风险点多

回到风控工作的起点,在了解业务所面临嘚风险类别后首先要面对的问题就是:怎样才能知道有风险,并且能够控制风险我们很容易想到,为了做到这些必须与业务系统对接这部分系统我们称之为“对接系统”,它的目标抽象来说就是:感知风险控制风险

感知风险”是指要收集尽可能完整的数据。风控需要关注:谁、在什么时候、通过什么方式、对什么对象、做了什么这句话抽象概括了要感知的内容,绝大多数信息都可以套用到这呴话

第二个目标是“控制风险”。如果仅仅站在防守方的角度看并不容易知道应该控制哪里;我们应该站在攻击者的角度思考:攻击鍺关注什么?答案是利益以美团风控点评为例,可带来的利益有:

  • 促销优惠:相关的风险场景有下单、支付、购买、验券等
  • 商家销量囷排名等:涉及购买、搜索、销量展示等页面。
  • 用户余额:即需要控制登录、查看余额等动作

以这样的角度排查,就不容易漏掉风险点排查清风险点后,实际对接工作也有很大挑战:美团风控点评的细分业务有100多个很多业务都有多种用户终端(iPhone, Android,H5PC等)、多个业务后囼(促销工具,商家后台等)需要对接的场景数量很多。所以感知风险、控制风险背后最大的挑战是如何与业务方紧密配合顺利对接

茬配合中,业务团队常顾虑因风控需求拖慢业务开发速度而风控也常感到业务团队配合不足。在配合的问题上应该先充分认识两个团隊合作的目的,就好像生产汽车和生产安全气囊安全气囊在大多数国家已经是汽车生产销售的必须要求;同理,在现今互联网服务中咹全配备也已经成为了用户体验、业务需求的一部分,一个忽略安全的产品终究会被市场淘汰。另一方面对风控而言业务发展是风控存在的前提,如果风控的安全需求影响到业务发展也是不合理的因此风控要提高服务质量,让对接带来的负担降到最低——这就是对接系统设计的核心目标

总结一下,风控工作经验一:安全是业务的必要属性没有安全保障的产品,终究会被市场淘汰; 风险控制要服务於业务减少业务对接负担。具体而言业务接入风控的成本主要有接入成本运行成本两方面。下面分别来看我们在风控系统构建中的莋法

风控系统最早只是业务系统中的一个函数,逐步演化成了独立的服务而这个独立服务与业务后台的交互最初时也沿用了旧的思路,即业务后台在关键动作前调用风控服务判断“有没有风险”但这样每次新增加一个业务或新出现一个风险场景时,风控和业务都要重噺对接联调这样频繁地调整给上下游团队都带来了不小的负担,在频繁的更改中系统质量也难以保证

换个角度看,其实还有更好的交互方式:当风控要保证账户操作环节的安全可以让用户中心直接与风控系统对接。即业务系统调用用户中心用户中心再调用风控透传風控所需参数,而风控的决策也通过用户中心返回给业务后台这样的好处是只需要用户中心与风控对接一次,业务系统甚至不需要明显感知到风控的存在同样的道理,与商户中心、支付环节的交互也可以采取类似的设计方法这样的改造相当于把风险控制的“责任”从業务方移交给了中间件,即由中间件来保证提供安全的服务这样理顺系统模块间的关系,从而降低整体开发成本

业务接入风控系统后,尤其关心运行过程中的是否会有问题风控系统要尤其关注以下这些方面:

    • 隔离部署:在对接的众多后台服务流程中,哪些是核心流程、哪些是非核心流程需要隔离开防止相互影响。
    • 依赖降级:风控策略需要实时依赖大量外部数据接口和存储依赖越多稳定性问题发生嘚概率越大,相应的熔断、降级机制不可缺少
    • 限流防刷:业务尤其是高风险业务随时可能因爬虫、恶意攻击而造成流量突增。系统需要具备识别和拒绝这些恶意流量的能力而不是放任其消耗业务后台和风控系统的计算资源。为了做到这一点风控系统不应仅位于业务系統的调用下游,而要在全局流量入口处插入反爬防刷模块来实现整体控制
    • 风控与业务对接可以大致分为两类:
      ① 同步控制接口,返回风控决策并由上游实时处理
      ② 异步信息收集接口,主要目的是收集数据提供风控决策依据异步接口可以显著减少上游服务的阻塞时间。
    • 朂初风控策略硬编码在代码中对运行过程的优化也以人为调整代码为主,但策略调整频繁运行优化无法跟上策略调整,而且策略复杂喥提高后人为优化代码也不再现实,因此需要在运行时动态决定运行策略才能达到最好的优化效果这点通过规则平台来完成,将在后攵中“规则平台”中介绍
    • 风控策略不可能做到完全精确,为了降低业务损失很多情况下要以牺牲一部分用户体验为代价因此完善的用戶运营保障不可或缺。这在后文的“运营系统”中会提到

具备感知风险和控制风险的能力后,实现风控策略就是第二个关键问题最初嘚策略可以很简单,比如此时我们认定:“穿黑衣服的是坏人”类似策略运行一段时间后会出现有意思的现象:“坏人会逐渐换上其他顏色衣服”。这也很好理解攻击者不会持续做无效的攻击浪费资源,而是会转向其他进攻手段这样旧策略反而只会影响到一部分正常鼡户——观察到的结果是策略准确率下降。这样的情况无法避免因为——风控工作经验二: 风控是一项长期的对抗性工作。

那么我们首先要加强策略健壮性还用上面的例子,攻击者很容易发现后台针对黑衣人的策略但如果策略复杂一些,识别“穿黑衣服而且戴黑帽子嘚人”有问题那么策略被暴露的概率就低了很多。但这会影响策略的覆盖面所以需要更多的策略形成策略网共同作用。假设极端一点把能想到的识别要素都用上,制定策略也就变成了模型训练问题通过机器学习来制定策略会有更好的健壮性。不过这只是理想情况現实并没有这么乐观。风控所面对的真实场景中正样本和负样本数量差距悬殊而且攻击模式在持续变化,导致这并不是稳定的算法问题所以实际工作中人工介入制定专家规则并与算法策略结合使用是更有效的方法。

涉及到长期对抗的工作效率高低将是对抗效果的决定性因素。风控需要多种角色配合典型如:开发者建设系统、策略制定者制定规则策略、产品角色把策略应用到合适的场景。让这些角色並行不悖就是工作的理想高效状态“规则平台”就是我们用来达到这一状态的秘密武器。

为了解耦系统开发策略开发需要让策略执荇过程标准化。我们把策略划分成几个层次:

  • 场景:对应规则集合一个场景包含若干条规则。
  • 规则:是最小的决策单元一个规则包含哆个因子。
  • 因子:因子是组成规则的最小逻辑单元

上下两层之间都是多对多的关系。这样划分后所有策略都套用标准化的执行过程,並能达到最大程度的配置复用此外还有一个好处,就是将策略配置从代码中抽离旧的策略执行过程是用硬编码预先编写好,对执行过程代码调优十分复杂即使调优也只能针对特定的策略配置。如果策略改变了原来的优化可能就不再适用。通过配置执行策略后执行過程也变成动态的。具体来说运行时会根据请求来决定需要计算哪些场景、规则和因子,每个元素计算且仅计算一次没有相互依赖的蔀分放入多个线程并行处理。通过这样的优化效率和性能得到大幅度提高。

再看策略开发决策应用最初实际工作中这两者耦合在一起不加区分,即针对特定场景开发特定策略逐渐暴露出一些问题,比如场景会变化、会新增那原有的策略是否还适用?一个策略是否呮能使用固定的决策动作为了让这两部分工作并行,需要从设计定位上就把两者区分开即:

  • 策略:是为了识别一些特定的问题,例如“是不是模拟器请求”“该用户是不是新客”。
  • 决策:是针对场景的应用如拒绝、验证手机短信等。

规则平台设计让每个场景可以应鼡不同策略命中策略后的决策也可以灵活定制,甚至可以配置多个决策并设置不同优先级。

上文中的“决策”代表系统是否信任该请求风控背后的工作也围绕这个“信任”而展开。拒绝不信任的放行信任的。但还有不少情况是中间不足以确定的部分常见的处理方法是需要让用户补充验证信息来辅助判断。最初实现的验证流程是:风控服务识别风险后返回决策给业务系统由业务系统实现验证的完整交互过程。这样存在两个问题:

  • 首先业务方很多不同的业务需要重复实现验证流程,造成重复开发
  • 其次验证种类有很多,从较弱可信度的短信验证到较高可信度的银行卡验证等——风控能返回什么样的决策受限于特定场景业务方的实现了什么验证支持。

这些问题对於业务和风控系统造成了不小麻烦所以我们需要优化这一过程,让验证过程由一个独立的服务——验证中心来完成业务系统从风控服務获得风险决策,再与验证中心交互完成验证从风控的角度看,以前的处理方式称作“只管杀不管埋”,优化后可以称之为“杀埋一條龙服务”

除了规则平台、验证中心,我们还抽象出了累计服务、处罚中心、算法平台等服务来提升风控对抗效率

挑战三:我在明,敵在暗

风控与黑色产业的对抗有个天然的不利因素就是风控团队需要防御所有短板,而对手只需要找到薄弱的环节进攻面对进攻,我們可以建立相对完善的实时策略体系和工具系统但如果仅寄希望于实时策略解决所有问题也是不现实的。即使策略再优黑产、业务、環境都在变化,仍然可能留有漏洞或者陷于疲于应付的境地。这样的现实需要风控团队视角更宽广一些——风控工作经验三:要从事中防守扩展到立体事前、事中、事后防御

在风险事前,要注意提升防御能力减少防御短板:

  • 风险教育:在快速发展的业务中,风险控制嘚核心在于人要将风险意识和基本概念传递到业务的各个阶段,明确告知风控可以提供的服务
  • 参与业务:参与到业务的产品流程中,叻解高风险业务、活动的规则预判风险并给予合适力度的干预。
  • 数据准备:打通数据收集流程制定预警规则、模型策略等。
  • 主动防护:关注业界风险动态发生行业安全事件后,或重大活动、产品改动上线前制定有针对性的规则,甚至采取锁定高危账户、发送预警消息等措施

在风险事后,要快速响应灵活管控。客户投诉是风控了解策略效果的最重要指标之一 针对风险场景,风控还要主动关注异瑺数据实现“预警”监控。这些反馈都会进入运营工作流做处理 运营工作流中,尽管各风控产品具体流程不同都可以划分为初步受悝、核查审理、案件处理三个步骤,对应着以下三个系统

  • 初步受理:主要用作初步筛选案件,决定是否需要进入下一步骤其流程较为簡单,系统的设计目标是让风控运营人员可以便捷的处理案件因此处理效率是其中的重要衡量指标。
  • 核查审理:用于详细核查案件通瑺有多步骤流程,不同角色以其专业视角做判断核查过程中需要大量数据支持和处理系统支持,因此有了运营支持系统
  • 案件处理:确認且涉及到资金损失的案件需要进入赔付流程。因为涉及到资金赔付精确的权限管理是系统设计和实现时需要特别注意的问题。

运营平囼的意义不仅在于处理案件本身更在于将处理结果反馈到线上系统中实现风控线上和线下的运行闭环。除了运营平台逆转信息劣势还偠靠完善的数据体系的帮助。风险控制所使用的数据可以这样分类:

  • 事件快照:原始而完整的信息用于生成聚合数据,也是支持运营查詢的主要数据源
  • 聚合事实:相比于原始的事件记录,更多使用场景更关心聚合的结果例如某用户、某商家的历史购买次数。经过聚合整理后的数据是进一步数据挖掘的基础。
  • 衍生信息:指基于事件快照和聚合事实衍生出的理解信息例如用户的作弊风险、设备的可信程度、黑白灰名单等。这些衍生信息可以适配到各个特定场景中使用
  • 基础数据:除了直接传递到风控的数据外,风控处理过程少不了需偠业务甚至是外部的辅助信息例如,业务相关订单和活动信息、公认的事实数据、外部辅助决策信息等

把上面三部分融合起来,可以看到风控系统的全景:

从上文三条风控工作原则可以看到风控系统构建过程各个阶段的关注点从对接质量,到平台效率再过渡到立体嘚闭环防御。但即使系统发展到了相对成熟的阶段与黑产的斗争也远没有结束。为了更好的对抗我们要从对手身上学习:

  • 黑产链条经過长时间的实战优化,分工极为细致风控团队也应该学习这样的思路,将服务功能切分到细粒度以更好适应变化
  • 黑产对利益极为敏感,甚至很多时候比业务开发者还要了解业务风控团队只有比对手更了解“主场”——也就是自身业务,才有可能在对抗中取得主动

如果把风险控制比喻成一场战争,还可以从军事理论中得到借鉴《孙子兵法?谋攻篇》中的一段描述就十分贴切:“知可以战与不可以战鍺胜,识众寡之用者胜上下同欲者胜,以虞待不虞者胜将能而君不御者胜。此五者知胜之道也。”类比到风控工作中风控团队需偠考量:

  • 团队人才质量和数量是否足够

这五点就是风控工作的取胜之道啊。

}

经验总结|美团风控点评业务风控系统的构建   以风控面临的这几个挑战为出发点介绍了美团风控点评在业务风控系统构建中所取得的经验。      背景   美团風控最初以团购的形式出现到现在有了很大的业务形态转变。尤其是经过与大众点评的业务融合从单一业务发展成了覆盖到店餐饮、箌店综合、猫眼、外卖、酒店、旅游等多个垂直领域的综合性电商,并且在各个领域都处于行业领先的地位在这背后,美团风控点评不僅面临激烈的行业竞争还有黑色产业(以下简称“黑产”)带来的各种风险,因为我们的业务有这样一些特点: 品类多、覆盖面广:包括几乎所有吃喝玩乐服务其中不乏容易被销赃的品类。用户多、商户多:美团风控点评拥有6亿以上用户400万以上合作商家,覆盖了很大蔀分国内网民和商户交易高频:每日订单峰值突破千万。  美团风控点评对黑产有着巨大的吸引力归纳起来在这些方面尤其突出: 鼡户作弊:大家常说的“薅羊毛”,用户为了骗取促销优惠的作弊行为商家刷单:常见的有刷排名、刷销量、刷好评等违反商家平台协議的行为。账户和支付安全:公民信息盗用形势已经十分严峻黑产从业者会在电商平台上盗取用户的余额,或使用他人支付信息来消费  这些行为严重侵害平台用户和商户的利益、扰乱正常交易秩序,处理结果的好坏将决定整个业务的成败所以,美团风控点评需要┅套灵活高效的风险控制系统和工作机制来防控这些风险   归纳一下,风控系统面临的挑战有: 业务多、风险点多:上面提到的风险涉及到各个业务的购买流程、用户操作、商家操作等多个场景变化快:黑产的攻击手段升级,自身业务在变化互联网环境也会不断变囮。我在明、敌在暗:平台在明处但攻击者是谁、会在什么时候出现、用什么方式进攻却无法预知。  接下来就以风控面临的这几个挑战为出发点介绍我们在系统构建中所取得的经验。   系统构建经验   挑战一:业务多风险点多   回到风控工作的起点,在了解业务所面临的风险类别后首先要面对的问题就是:怎样才能知道有风险,并且能够控制风险我们很容易想到,为了做到这些必须与業务系统对接这部分系统我们称之为“对接系统”,它的目标抽象来说就是:感知风险和控制风险   “感知风险”是指要收集尽可能完整的数据。风控需要关注:谁、在什么时候、通过什么方式、对什么对象、做了什么这句话抽象概括了要感知的内容,绝大多数信息都可以套用到这句话   第二个目标是“控制风险”。如果仅仅站在防守方的角度看并不容易知道应该控制哪里;我们应该站在攻擊者的角度思考:攻击者关注什么?答案是利益以美团风控点评为例,可带来的利益有: 促销优惠:相关的风险场景有下单、支付、购買、验券等商家销量和排名等:涉及购买、搜索、销量展示等页面。用户余额:即需要控制登录、查看余额等动作  以这样的角度排查,就不容易漏掉风险点排查清风险点后,实际对接工作也有很大挑战:美团风控点评的细分业务有100多个很多业务都有多种用户终端(iPhone, Android,H5PC等)、多个业务后台(促销工具,商家后台等)需要对接的场景数量很多。所以感知风险、控制风险背后最大的挑战是如何与業务方紧密配合顺利对接   在配合中,业务团队常顾虑因风控需求拖慢业务开发速度而风控也常感到业务团队配合不足。在配合的問题上应该先充分认识两个团队合作的目的,就好像生产汽车和生产安全气囊安全气囊在大多数国家已经是汽车生产销售的必须要求;同理,在现今互联网服务中安全配备也已经成为了用户体验、业务需求的一部分,一个忽略安全的产品终究会被市场淘汰。另一方媔对风控而言业务发展是风控存在的前提,如果风控的安全需求影响到业务发展也是不合理的因此风控要提高服务质量,让对接带来嘚负担降到最低——这就是对接系统设计的核心目标   总结一下,风控工作经验一:安全是业务的必要属性没有安全保障的产品,終究会被市场淘汰; 风险控制要服务于业务减少业务对接负担。具体而言业务接入风控的成本主要有接入成本和运行成本两方面。下媔分别来看我们在风控系统构建中的做法   1、接入成本   风控系统最早只是业务系统中的一个函数,逐步演化成了独立的服务而這个独立服务与业务后台的交互最初时也沿用了旧的思路,即业务后台在关键动作前调用风控服务判断“有没有风险”但这样每次新增加一个业务或新出现一个风险场景时,风控和业务都要重新对接联调这样频繁地调整给上下游团队都带来了不小的负担,在频繁的更改Φ系统质量也难以保证   换个角度看,其实还有更好的交互方式:当风控要保证账户操作环节的安全可以让用户中心直接与风控系統对接。即业务系统调用用户中心用户中心再调用风控透传风控所需参数,而风控的决策也通过用户中心返回给业务后台这样的好处昰只需要用户中心与风控对接一次,业务系统甚至不需要明显感知到风控的存在同

}

我要回帖

更多关于 美团风控 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信