首页 ›存档› 技术 › 查看内容

算法大赛 | 迁移学习在场景化风控中的应用（上）

2018-3-30 13:00 |来自: 互联网 794 0

摘要: 前海征信“好信杯”大数据算法大赛正在火热进行！截止4月13日，参赛队伍160支，参赛人数413人，竞争很激烈。 4月12日，前海征信“好信杯”大数据算法大赛第一期分享会**举行。来自平安集团的数据建模高手邱高思豪 ...

前海征信“好信杯”大数据算法大赛正在火热进行！截止4月13日，参赛队伍160支，参赛人数413人，竞争很激烈。

4月12日，前海征信“好信杯”大数据算法大赛第一期分享会圆满举行。来自平安集团的数据建模高手邱高思豪，为大家详解了场景化风控、迁移学习等有关知识，并送上学习资料包，干货满满。以下是分享会实录的第一部分，干货自取~

什么是风控

首先让我们来讲一个关于POS贷的案例：借款人是从事汽车修理生意的，POS机流水发生频繁，在核查中，我们注意到借款人的流水中对应的若干卡户存在密集刷卡的情况，并且刷卡的额经常是固定的。

分析情况与现场走访后，我们发现：

（1）虽然某些客户会定期修理和保养汽车，但不至于每月都需要维护。为此，我们向客户询问情况，却没有得到满意答复。

（2）在提取了借款人的征信记录后，发现有少量的逾期。

（3）修理厂的生意并非想象中的那么好

借款人将流水频繁的原因解释为有时候会帮助车主代理购买汽车保险，我们认为借款人的真实生意无法和流水记录进行完整验证。同时，对于刷卡记录密集发生的客户，我们怀疑有可能来自借款人用POS机刷卡套现的行为。由此，我们否决了客户的借款申请。

通过这个例子，可以了解到，在风控的贷前审核，我们主要是考虑借款方控材料真实性，工作收入稳定性与人际关系的合理性。

从去年开始，消费金融公司就提出了风控应该跟着场景走：知道资金用途，风控更容易。

在前段时间很火的医疗美容的骗贷新闻中，无数的中介和医院勾结骗取贷款。而在教育行业，也有很多教育机构租了几个教师，雇了几个教师干培训班，收完用户贷款后直接跑路。

我们可以看到在之前POS贷的风控问题中，主要是对客户进行风险评估；而在上面医美和教育的例子里，我们不仅要对客户进行评估，还要对企业进行评估，以防骗贷。

因为风险点的不同，一套风险评估系统已经不能满足这些不同场景的风控需求。这也就是场景化风控提出的原因。

既然提到了场景化风控, 就先让我们来详细了解下这次好信杯比赛的两个场景, 信用贷款和现金贷。

普通信用贷款是指以借款人的信誉发放的贷款，借款人不需要提供担保。其特征就是债务人无需提供抵押品或第三方担保仅凭自己的信誉就能取得贷款，并以借款人信用程度作为还款保证的。由于这种贷款方式风险较大，一般要对借款方的经济效益、经营管理水平、发展前景等情况进行详细的考察，以降低风险。

信用贷款业务，主要通过银行、贷款公司、电子金融机构办理。

国内有信用贷款产品的银行有平安银行的新一贷,上海银行的消费贷款,中国银行的薪易贷,友众银行的工薪贷等等。

现金贷是一种小额短期借贷产品，其平均贷款金额在1000元左右，年化利率平均在50%-200%之间，借款期限集中在7-30天。根据目前市场上的现金贷业务种类, 可以分为随借随还类贷款,超短期贷款(类似国外的PAYDAYLOAN 也就是发薪日贷款),短期贷款,中期贷款四大类。

与一般的消费金融产品相比，现金贷主要具有以下五个特点：额度小、周期短、无抵押、流程快、利率高，这也是与其借贷门槛低的特征相适应的。

现金贷业务在初期采用了”闭着眼睛放贷”的高利率覆盖风险模式大量的盈利, 但是这个模式并不具有可持续发展性, 风控将成为现金贷业务中后期的关键。

因而随着现金贷市场的成熟, 建立行之有效的风控模型为当前的重中之重. 然而由于现金贷目前的产品积累时间不够, 我们没有足够的时间来收集足够的数据, 建立模型判断客户的信用风险. 让我们首先尝试一下, 如果直接将通过信贷数据训练的模型用在现金贷上会发生什么。

答案是效果很差,KS值和AUC值都非常的低. 让我们来分析一下其中的原因。

首先, 源领域和目标领域的客群分布不同。现金贷年轻客户比例比较高, 而普通信贷客户大多是中年客户, 两者的年龄特征分布存在差异. 而在教育程度分布上, 普通信贷用户大多是本科以上学历, 而现金贷的客户大多是中专以下学历。

其次，源领域和目标领域的重要特征不同。普通信贷的重要特征为资产和信用历史，而现金贷的重要特征为多头借贷和违约成本。就违约成本来说, 对于现金贷的客户, 还钱的话就要多付很多利息, 然而不还钱的话, 由于不会上征信, 可能就只有家人和孩子被催收骚扰了。

为什么要使用迁移学习

通过上面比赛场景的列子, 我们可以看到, 由于传统的机器学习假设训练数据与测试数据需要服从相同的分布, 在现实世界中是很难满足的. 并且传统的机器学习需要对每个领域都标定大量的训练数据, 如果没有的话会使得很多与学习相关的研究与应用无法开展。这就替我们回答了, 为什么需要迁移学习。迁移学习可以从现有的数据中迁移知识, 用来帮助将来的学习。

如左边的图所示，在机器学习的经典监督场景中，假设在模型A中，我们训练数据任务为识别图片中的物体，训练数据域为咖啡店的照片，那么在模型A的测试数据集中，我们也需要与训练数据相同的域和任务，这样我们才能保证训练出来的模型A能在测试数据上有良好的表现。同理，如果有一个模型B，我们也需要数据属于同一个任务和域，才能训练一个可能具有良好表现的模型B。

但是当我们没有足够的来自于我们关心的任务或域的标签数据来训练可靠地模型时，传统的监督学习就支持不了了。

如果我们要训练一个模型来检测在夜间拍摄的照片上的行人，我们可以用一个在相似的域中训练的模型，例如白天拍摄的图片。然而，实际上，我们经常会遭遇表现上的衰退或者崩溃，因为模型已经继承了它的训练数据中的偏差，不知道如何泛化到新的域中。

如果我们要训练一个模型来执行新的任务，例如检测骑自行车的人，我们甚至不能够使用已有的模型，因为任务之间的标签都是不一样的。

迁移学习允许我们通过借用已经存在的一些相关的任务或域的标签数据来处理这些场景。如右图所示，我们尝试着把在源域中解决源任务时获得的知识存储下来，并将其应用在我们感兴趣的目标域中的目标任务上去。在实践中，我们力求将尽可能多的知识从源环境迁移到目标任务和域中。

接下来, 让我们来了解下迁移学习的定义. 在讲解中, 我们将以一个二元文档分类为例。

迁移学习涉及到域和任务的概念。数据域（domain）：用D={χ，P(X)}表示，它包含两部分：特征空间χ(卡)和边缘概率分布P（X）其中X=｛x1，...xn｝∈χ。在文本分类任务中，把每一个单词看作二值的特征即出现或者不出现，所有检索词向量的空间就是χ，xi对应某一文本第i个词向量的值，X就是特定的学习样本。如果说两个数据域不同，表示两个数据域的特征空间或者边缘概率分布不同。

任务（task）：用T={У，(X)}表示，它包含两部分：标签空间У和条件概率P(y|x)。在文本分类任务中У是所有标签的集合。

给定一个源域Ds，一个对应的源任务 Ts，还有目标域 Dt，以及目标任务 Tt，现在，迁移学习的目的就是：在 Ds≠Dt或者Ts≠Tt 的情况下，让我们在具备来源于 Ds 和 Ts 的信息时，学习得到目标域 Dt 中的条件概率分布 P（Yt|Xt）。绝大多数情况下，假设可以获得的有标签的目标样本是有限的，有标签的目标样本远少于源样本。

给定源域和目标域Ds 和 Dt，其中，D={X,P(X)}，并且给定源任务和目标任务 Ts 和 Tt，其中T={Y,P(Y|X)}。源和目标的情况可以以四种方式变化，我们仍然以我们的文档分类的例子在下面描述：

χs≠χt。源域和目标域的特征空间不同，例如，文档是用两种不同的语言写的。

P(Xs)≠P(Xt)。源域和目标域的概率分布不同，例如，两个文档有着不同的主题。这个情景通常被称为域适应（domain adaptation）。

YS≠YT。两个任务的标签空间不同，例如，在源领域上的任务要求将文本分为2类，而目标领域的任务要求将文本分类10类。

P（Ys|Xs）≠P（Yt|Xt）。源任务和目标任务的条件概率分布不同，例如，源和目标文档在类别上是不均衡的。这种场景在实际中是比较常见的。

接下来, 让我们来看一下迁移学习的分类，我们可以把迁移学习分类以下3类：

（1）源领域和目标领域相同, 源任务和目标任务相关, 则使用归纳式迁移学习(Inductive Transfer Learning)

（2）如果源领域和目标领域相关,源任务和目标任务相关, 则使用无监督迁移学习(UnsupervisedTransfer Learning)

（3）如果源领域和目标领域相关, 源任务和目标任务相同, 则使用直推式迁移学习(Transductive Transfer Learning)。

而通过源数据域和目标数据域标签的有无, 我们又可以把这3类迁移学习细分到不同的相关领域. 如果一个归纳式迁移学习没有源数据域标签, 则使用自我学习, 如果有源数据域标签并且源任务和目标任务是通过模拟学习的, 则为多任务学习; 如果一个直推式迁移学习假设使用不同的源和目标域, 不过使用相同的源任务和目标任务, 则使用域适应, 如果是相同的目标和域,则使用样本选择偏差以及协方差偏移。

如果只考虑我们的赛题，因为源域目标域和源任务目标任务都相关，并且源域和目标域都有标签，所以我们可以使用多任务学习来建立模型。然而在现实生活中，如果我们考虑的目标域是一个新开展的业务，可能我们的源域源域目标域和源任务目标任务都相关，但是我们将只有源域的数据有标签，而目标域的数据可能是没有标签的，这个时候，使用域适应来建立模型可能是更好的选择。

学习资料

迁移学习概述

https://www.cse.ust.hk/~qyang/Docs/2009/tkde_transfer_learning.pdf

迁移学习全面概述：从基本概念到相关研究

http://sebastianruder.com/transfer-learning/

多任务学习

https://www.52ml.net/20775.html

http://www0.cs.ucl.ac.uk/staff/M.Pontil/reading/mt-kdd.pdf

http://ttic.uchicago.edu/~argyriou/papers/mtl_feat.pdf

http://jmlr.csail.mit.edu/papers/volume12/jebara11a/jebara11a.pdf

域适应

http://www.jsjkx.com/jsjkx/ch/reader/view_abstract.aspx?flag=2