机器学习到底在量化金融里哪些方面有应用

对不起,您要访问的页面暂时没有找到。您可以...
您可能感兴趣的:&&&&机器学习在量化投资中的应用研究
&59.00当当价
(7.51折)电子书加价购
加价换购以下任意一件商品
请选择配送地址
钻石会员自营订单满49元(含)免运费
其他会员自营订单满59元(含)免运费
不足金额订单收取运费5元起
商品问答(%s条)
当当价:&27.80
版 次:1页 数:157字 数:185000印刷时间:开 本:16开纸 张:胶版纸印 次:1包 装:平装丛书名:量化投资与对冲基金丛书国际标准书号ISBN:0所属分类:&&&
推荐购买:
  《机器学习在量化投资中的应用研究》是国内少有的研究机器学习在量化投资中应用的专著。主要运用多层感知器神经网络、广义自回归神经网络、模糊神经网络与支持向量机对证券时间序列进行回归分析。特别是在支持向量机框架下构造了小波、流形小波与样条小波三种核函数,并在此基础上建立了股指收益与波动预测两类新的量化投资模型。本书可供计算机、信息管理与金融类专业高年级本科生与研究生使用,也可供从事机器学习技术与应用研究的科研人员、金融市场数据分析人员以及机器学习软件开发人员参考。
  《机器学习在量化投资中的应用研究》是国内少有的研究机器学习在量化投资中应用的专著。主要运用多层感知器神经网络、广义自回归神经网络、模糊神经网络与支持向量机对证券时间序列进行回归分析。特别是在支持向量机框架下构造了小波、流形小波与样条小波三种核函数,并在此基础上建立了股指收益与波动预测两类新的量化投资模型。与经典高斯核相比,具备多分辨分析特性的新模型能较好地捕捉曲线性状,各预测指标在模拟数据与真实数据上均占优,表明其具有良好的适用性与有效性。
第1章 绪论
 1.1 背景与意义
 1.2 国内外研究现状
  1.2.1 金融时间序列方法
  1.2.2 机器学习方法
  1.2.3 小波与流形方法
 1.3 本书主要内容与逻辑结构
  1.3.1 内容安排
  1.3.2 逻辑结构
第2章 统计学习与机器学习
 2.1 计算学习理论
  2.1.1 学习问题表述
  2.1.2 统计学习理论
  2.1.3 可能近似正确学习模型
 2.2 神经网络模型
第1章 绪论
 1.1 背景与意义
 1.2 国内外研究现状
  1.2.1 金融时间序列方法
  1.2.2 机器学习方法
  1.2.3 小波与流形方法
 1.3 本书主要内容与逻辑结构
  1.3.1 内容安排
  1.3.2 逻辑结构
第2章 统计学习与机器学习
 2.1 计算学习理论
  2.1.1 学习问题表述
  2.1.2 统计学习理论
  2.1.3 可能近似正确学习模型
 2.2 神经网络模型
  2.2.1 多层感知器神经网络模型
  2.2.2 广义回归神经网络模型
 2.3 支持向量机理论
  2.3.1 线性支持向量分类机
  2.3.2 非线性支持向量分类机
  2.3.3 支持向量回归机
 2.4 本章小结
第3章 基于模糊神经网络的股票预测模型分析
 3.1 引言
 3.2 模糊神经网络模型研究
  3.2.1 模糊逻辑推理系统结构
  3.2.2 模糊神经网络分类器
  3.2.3 模糊神经网络回归机
 3.3 基于模糊神经网络的股票预测
  3.3.1 模糊神经网络设计
  3.3.2 实验结果与分析
 3.4 本章小结
第4章 基于高斯核支持向量机的股票预测模型分析
 4.1 引言
 4.2 核函数研究
  4.2.1 核的构造条件
  4.2.2 核的构造原则
  4.2.3 核的主要类型
 4.3 基于高斯核支持向量机的股票预测
  4.3.1 数据处理与性能指标
  4.3.2 实验结果与分析
 4.4 本章小结
第5章 基于小波支持向量机的股票收益模型分析
 5.1 引言
 5.2 股票收益的理论研究
  5.2.1 有效市场假说与布朗运动模型
  5.2.2 分形市场假说与分数布朗运动模型
  5.2.3 Hurst指数与重标极差分析
  5.2.4 混沌动力学模型与Lyapunov指数
 5.3 基于小波支持向量机的收益模型
  5.3.1 小波变换与多分辨分析
  5.3.2 小波核构造与证明
  5.3.3 实验结果与分析
 5.4 本章小结
第6章 基于小波支持向量机的波动模型分析
 6.1 引言
 6.2 波动率模型研究
  6.2.1 ARCH模型
  6.2.2 GARCH模型
  6.2.3 随机波动SV模型
 6.3 基于小波支持向量机的GARCH模型
  6.3.1 仿真实验
  6.3.2 真实数据集实验
 6.4 本章小结
第7章 基于流形小波核的收益序列分析
 7.1 引言
 7.2 微分几何基本理论
 7.3 核函数的几何解释
 7.4 构造融合先验知识的流形小波核
 7.5 实验结果与分析
 7.6 本章小结
第8章 基于样条小波核的波动序列分析
 8.1 引言
 8.2 样条小波模型研究
 8.3 样条空间与函数
  8.3.1 样条函数空间
  8.3.2 B样条函数定义与性质
 8.4 样条小波核构造与证明
 8.5 实验结果与分析
 8.6 本章小结
第9章 结论与展望
 9.1 本书主要贡献
 9.2 后续研究展望
附录A 微积分
 A.1 基本定义
 A.2 梯度和Hesse矩阵
 A.3 方向导数
 A.4 Taylor展开式
 A.5 分离定理
附录B Hilbert空间
 B.1 向量空间
 B.2 内积空间
 B.3 Hilbert空间
 B.4 算子、特征值和特征向量
附录C 专题研究期间学术论文与科研项目
在线试读部分章节
  诺贝尔经济学奖得主罗伯特?默顿(Robert Merton)认为现代金融理论由资金的时间价值、资产定价与风险管理三大支柱构成,其核心问题就是如何在不确定的环境下对资源进行跨期的最优配置。基于这一理解,斯坦利?R?普利斯卡从整个数理金融领域归纳出了随机过程与随机控制两类基本模型。显然,前者是后者的前提与基础。因而,作为离散随机过程的金融时间序列必然是金融模型研究的基石与关键。同时,鉴于股指收益序列与波动率序列在投资组合和风险规避中的重要作用,本书拟围绕其展开研究。
  与传统统计学相比,统计学习理论(Statistical Learning Theory,SLT)是一种专门研究小样本情况下机器学习规律的新型理论。该理论针对小样本统计问题建立了一套全新的理论体系,其统计推理规则不仅考虑了对渐近性能的要求,而且追求在现有有限信息的条件下得到最优结果。因此,本书拟基于统计学习理论,以机器学习为工具,进行股指收益序列与波动率序列的建模研究。
  本书讨论了模糊神经网络在股价预测中的应用。模糊神经网络克服模糊规则产生对专家的依赖性及模糊集的非自适应性,隶属函数的自适应和模糊规则的自组织通过神经网络的自学习和竞争获得。通过一个股价预测实例验证了该方法的有效性。接着,本书将支持向量回归机这一新型神经网络应用于收益序列预测的回归分析,力求在克服数据过拟合现象的基础上寻找问题的全局最优解。通过交叉验证选择学习参数。实验表明基于二次规划与核函数理论的高斯核函数支持向量回归机能准确捕捉动态股票收益序列的波形特征,其预测性能与多层感知器以及广义回归神经网络进行比较,具有较为明显的优势。
  基于小波理论,本书提出了小波核的一种新型构造方法。用高维母小波函数直接生成小波框架,通过缩放与平移产生平方可积空间中的一个完备基,从而构造出满足Mercer条件的小波核函数。该核在理论上具有任意逼近平方可积空间中目标函数的优点。实验表明与高斯等核函数相比具有多分辨率特性的小波核确实能较好地逼近目标函数。
  基于流形理论,本书提出了一种新的流形小波核。该核借鉴了Amari 提出的依据数据流形几何特征修改核函数进而增进分类性能的思想方法,通过缩减超平面附近的黎曼距离处理回归问题。该核具有融入支持向量数据依赖知识的优点。实验表明流形小波核能比高斯等核函数更好地捕捉曲线性状。
  基于样条理论,本书提出了一种新的样条小波核。用一维样条母小波通过平移与缩放产生一维样条小波核函数,接着依据乘法原理,生成高维样条小波核函数。该核具有函数形式简单与支集小等优点。实验表明样条小波核解析波动特征的能力比高斯等核函数要强。
  针对金融时间序列自身的高噪声、动态与混沌等特性,本书提出了新型小波支持向量机-股价动力学模型。该模型具有所需样本小、泛化性能好、全局最优与高容噪性等优点。与高斯等核函数相比,其多分辨特性使得该模型各主要预测性能指标在模拟数据与真实股指数据实验中占优,因而能较好地分析股指收益。
  针对波动率序列高峰、厚尾与长效依赖等特性,本书提出了新型小波支持向量机-广义自回归条件异方差模型。该模型同样具有所需样本小、泛化性能好、全局最优与高容噪性等优点。借助采用多尺度分析核的小波支持向量机能有效捕捉波动率的聚集特性,从而对股指波动进行较为准确的预测。通过模拟实验与真实股指数据分析,该模型在波动率分析中的适用性与有效性获得了证实。
  本书可供计算机、信息管理与金融类专业高年级本科生与研究生使用,也可供从事机器学习技术与应用研究的科研人员、金融市场数据分析人员以及机器学习软件开发人员参考。
书摘与插画
店铺收藏成功机器学习到底在量化金融里哪些方面有应用_百度知道
机器学习到底在量化金融里哪些方面有应用
提问者采纳
跟预测 识别 判断 模拟有关的 都可以用机器学习方法搞~ 有数据的都行~~
知道智能回答机器人
我是知道站内的人工智能,可高效智能地为您解答问题。很高兴为您服务。
其他类似问题
为您推荐:
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁重庆洋人街一水上乐园众多游客扎堆水中如“下饺子”。
事件造成1死1伤。老虎袭击游客现场监控视频曝光。
声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
  作者:Weicong Liu
  前言:最近特别忙,写毕业论文,找工作,忙得不亦乐乎。硕士两年来做的一些工作,导师没有让我往毕业论文里面写,我感觉到,这两年的一些经验以及所思所想,可能没有办法写成正式的文章了,特别可惜。所以我决定开一个知乎专栏,把自己的一些思考拿出来与大家分享。我从来没有将机器学习应用在量化投资的实战经验(其实我神马实战经验也没有。。),但是读过相当数量的相关论文。很多论文,如许多网友所喷,“这玩意儿根本不work”。说实话,我也知道这些论文不work。但是“不work”并不代表“没用”。一篇文章里,能有一个闪光的思想,对真实投资有一些借鉴价值,我觉得这篇文章就是“有用”的。而所谓的“不work”,是指把这篇文章的方法应用于真实投资,没法赚钱。这是废话,能赚钱,我发出来给你看?我始终认为,看出一篇文章“不work”,并不需要什么水平,而能从这篇“不work”的文章中,找到有用的信息的人,才是真大神。所以我希望大家能以一个欣赏的眼光去看待这个专栏里的文章(好吧,其实我只是想少挨点儿喷。。)。我将把我在这个问题 机器学习(非传统统计方法如回归)到底在量化金融里哪些方面有应用? - Weicong Liu 的回答下的回答 ,一条条拓展出来,细致地写。水平有限,错误难免。废话到此为止,希望我能把这个专栏坚持下去:)
  正文:
  在这篇文章里,我想讲的,是那些将技术分析和机器学习算法相结合的论文。首先,我会简要介绍一个最常用的技术分析方法:双移动平均线法。然后,我将简要介绍一下相关的论文。本文的重头戏是,我想跟大家一起,发现这些方法的问题,逐步把这些方法变成一个“看起来还蛮像样”的投资策略。我首先声明,这个方法是否work我也不知道,因为我没有细致地尝试。我想展示的,是一个思考问题的思路。
  1 移动平均线法
  下图展示了一个双移动平均线的例子。
  双移动平均线的用法是:
  (1)用两个长度不同的窗口,计算价格数据的移动平均值;
  (2)当短的移动平均值穿过长移动平均值时,一个买入信号就诞生了。随着时间的推移,当短的移动平均值小于长的移动平均值时,就产生了一个卖出信号。
  这个方法是如此的简单方便,很多散户都会或多或少地使用该方法。学术界对这个方法亦有很大的兴趣。文献[1]首先从假设检验的角度,去验证这个方法在实际数据上的盈利能力。而后有很多论文利用这篇文章中提供的方法,在不同的数据集上验证。他们的结果都表明,长期来看,如果不考虑交易费的话,这个方法貌似还有一点点的盈利能力,但是如果一点考虑交易费,这个能力就基本为0了。
  2 移动平均与机器学习算法
  那么,这样一个简单的移动平均的方法,是怎么被应用在机器学习算法中,进行投资的呢?千万不要小看研究人员的脑洞(不过这似乎也不需要太大的脑洞)。
  让我们随手从机器学习的武器库里面挑个武器吧。恩,就神经网络好了,这玩意儿最近很火。要很深吗?咱们先用个浅的玩玩吧。我们需要给自己设定一个目标,这个目标是,我希望通过历史数据值,预测第二天的股价涨跌。有了这个目标,我们干脆把神经网络当成一个分类器用。在每一天t,我都基于历史数据,建立一个输入向量x_t。看,机会来了,我们可以把移动平均线产生的信号,当成这个特征向量的某个维度。如果移动平均线让我们在某天持有该股票,那么我们可以把这个维度设为1;而在其他的天数,我们则把它设为0。
  除了移动平均线,股票的技术分析手段中还有好多可以产生类似信号的东西,比如MACD,RSI之类。所以,我们可以利用这些信号,把它们安放在不同的维度,构成我们输入向量x_t。标签y_t就容易了,如果t+1天收益率为正,则设为1,否则为0。至此,一个二分类问题的训练集构建,就搞定了。
  这个方法看起来很简单,也确实没啥难想的。相关的文献不少,可以看参考文献[2, 3, 4]。在那个年代,这些文章都取得了相当的引用量。
  3 问题与改进
  显然,这样的方法是存在问题的。而且看起来图样图森破,甚至有点儿naive。在这一节,我们将一步一步,把这个方法变的“看起来还蛮像样”。
  3.1 趋势的表示
  使用技术分析手段的人,被认为是趋势跟随型的投资者(可能有误。。)。这些论文里面也声称,他们希望通过神经网络来预测趋势。但是,趋势就是明天股票收益的正负吗?让我们来看个例子。下图是我截取的苹果公司从日,到日的股价。这是一个非常明显的上升趋势。但是,在这个趋势中,日收益率为正的比率是多大?答案是只有55%。所以你看,把第二天股票收益率的正负当成趋势的表征,并不靠谱。
  那么,能不能换一个靠谱一点儿的方式来表达趋势?也就是表达y_t?当然可以。一个简单的方法是,我们可以把计算t+1,t+2,…,t+N,这些天收益的平均值,观察其正负,构建新的y_t(正则1,否则置0)。当然,N是一个可以由你设置的量。
  3.2 更进一步
  经过上一步的改进,这个方法好像似乎有点儿像样了。我们来理一下思路。我们是怎么来解决这个问题的呢?步骤如下:(1)大喊一声“我要做趋势投资者”,(2)找到那些声称表征趋势的技术指标,构成输入向量x_t,(3)为这些向量配备一个表征趋势正负的y_t,(4)扔进一个神经网络训练,(5)利用训练好的神经网络预测。
  还是有点儿naive,我们甚至都没用到神马金融上的概念。在3.1节的结尾,我们说要用t+1,t+2,…,t+N,这些天的收益的平均值,观其正负,来构建y_t。这似乎比较靠谱了。但是细细一想,假如这些天收益的平均值为0.02,但是标准差达到了0.04,我们这么做似乎有点儿慌。而如果这些天的收益平均值是0.01,但是标准差只有0.005,似乎这么做还是靠谱的。这就提醒我们,作为一个趋势投资者,在动荡里,我们如浮萍一般无依(当然,动荡则是另外一些交易者发家致富的机会)。我们构建y_t的时候,不能只去想收益的平均值,还要考虑它的波动。
  有了这个概念,我们就可以重新思考下y_t的设定。我们将t+1,t+2,…,t+N这些天收益的平均值记为r_t,而标准差记为sigma_t。我们考虑这样一个量r_t C lambda * sigma_t的正负。这里,lambda是一个事先设定的常量,它有一个比较好的金融角度的意义:它体现了投资者对风险的厌恶程度。Lambda越大,厌恶性越强。
  当然,你可能觉得这个波动率估计的太不准了。不是有个拿诺奖的工作,(G)ARCH,用来估算波动率的嘛。你也许也可以用它替代sigma_t。
  3.3 再进一步
  到此为止,我知道,你肯定还不满足。现在这个方法看起来还是有点儿naive,一个分类问题,有啥了不起?好吧,那我们跳出分类问题的框框吧。
  我们已经有了x_t,也知道,对于每一天,我们有两种选择,即持有这只股票还是不持有(在我们之前的讨论里,并不允许做空,所以只有这两种)。让我们给x_t换个名字,叫它“状态”(state),而把两种投资的选择,叫做动作(action)。你大概已经看出来了,我在往增强学习的框架里面靠。既然是增强学习,那么我们还得定义一个回报(reward),恩,这是现成的嘛,r_t C lambda * sigma_t。
  于是,我们就这样慢慢YY出了一个基于增强学习的量化投资方法。很巧,以前已经有人做过很类似的工作了,请参看[5]。
  总结:
  在这篇文章里,我们从前人看似naive的方法,一步一步地推进,搞出了一个“看起来还蛮像样”的投资策略。这个方法直接去用,估计是要失败的。如果你够细致,会发现我一直在做y_t的文章。也许y_t的文章已经做得差不多了,但是x_t怎么办?就用那些技术指标?或许,只有那些真正在实践中成功运用了机器学习方法的人,才拥有好的x_t吧。
  参考文献
  [1] Brock, William, Josef Lakonishok, and Blake LeBaron. &Simple technical trading rules and the stochastic properties of stock returns.& Journal of finance (1992): .
  [2] Gencay, Ramazan. &Non-linear prediction of security returns with moving average rules.& Journal of Forecasting 15.3 (1996): 165-174.
  [3] Franses, Philip Hans, and Kasper van Griensven. &Forecasting exchange rates using neural networks for technical trading rules.& Studies in Nonlinear Dynamics & Econometrics 2.4 (1998).
  [4] Shambora, William E., and Rosemary Rossiter. &Are there exploitable inefficiencies in the futures market for oil?.& Energy Economics 29.1 (2007): 18-27.
  [5] Li, Jian, and Laiwan Chan. &Reward Adjustment Reinforcement Learning for Risk-averse Asset Allocation.& Neural Networks, 2006. IJCNN'06. International Joint Conference on. IEEE, 2006.
  同系列之:
  文章来源36大数据, ,微信号dashuju36 ,36大数据是一个专注大数据创业、大数据技术与分析、大数据商业与应用的网站。分享大数据的干货教程和大数据应用案例,提供大数据分析工具和资料下载,解决大数据产业链上的创业、技术、分析、商业、应用等问题,为大数据产业链上的公司和数据行业从业人员提供支持与服务。
欢迎举报抄袭、转载、暴力色情及含有欺诈和虚假信息的不良文章。
请先登录再操作
请先登录再操作
微信扫一扫分享至朋友圈
搜狐公众平台官方账号
生活时尚&搭配博主 /生活时尚自媒体 /时尚类书籍作者
搜狐网教育频道官方账号
全球最大华文占星网站-专业研究星座命理及测算服务机构
36大数据是一个专注大数据、大数据应用案例、数据分析、数据...
主演:黄晓明/陈乔恩/乔任梁/谢君豪/吕佳容/戚迹
主演:陈晓/陈妍希/张馨予/杨明娜/毛晓彤/孙耀琦
主演:陈键锋/李依晓/张迪/郑亦桐/张明明/何彦霓
主演:尚格?云顿/乔?弗拉尼甘/Bianca Bree
主演:艾斯?库珀/ 查宁?塔图姆/ 乔纳?希尔
baby14岁写真曝光
李冰冰向成龙撒娇争宠
李湘遭闺蜜曝光旧爱
美女模特教老板走秀
曝搬砖男神奇葩择偶观
柳岩被迫成赚钱工具
大屁小P虐心恋
匆匆那年大结局
乔杉遭粉丝骚扰
男闺蜜的尴尬初夜
客服热线:86-10-
客服邮箱:在互联网金融、消费金融的蓬勃发展的当下,央行征信在数据时效性、全面性和层次性上的短板日益凸显。深度挖掘互联网大数据信息,开发大数据风控模型,更加精准的评估风险,已经逐渐成为了新一代信用风险模型体系建设的核心课题。
本文在传统风险模型体系的基础上,嫁接逻辑回归和决策树模型建立T-L模型,并结合Random Forest模型完善模型结构。采用T-L核模型替代RF模型中的传统决策树模型,将RF模型和T-L核模型结合,建立了ScoreNet模型体系。既大大提升了风险模型区分能力,也保证了模型结构的清晰和评分广泛的应用。
【关键词】大数据风控
Random Forest
1.选题背景及意义
目前,央行的个人征信中心收录的自然人数达8.6亿多人,但其中仅有3亿多人有信贷记录,同时信贷记录主要来源于商业银行和农村信用社等金融机构,在数据时效性、全面性和层次性上存在严重短板。因此深度挖掘互联网大数据信息,开发大数据风控模型,弥补央行个人征信信息的不足,在互联网金融蓬勃发展的今天尤为重要。
无论是线上还是线下的用户消费、社交数据,都有着不同于传统征信信息的独有特征:
数据的稀疏性强(用户线上线下的行为散布广泛,极难全量收集和覆盖;用户行为偏好亦各有不同,在不同门类的行为差异很大,因此数据的稀疏性极为明显。一般情况下,用户行为信息的缺失率均超过50%);
数据覆盖面广(信息覆盖面广泛,支付宝或微信都有超4亿活跃用户,用户行为覆盖服装、书籍、租房、休闲、娱乐等各方面,单指标维度超过1000个);
单变量风险区分能力弱(不同于传统风险模型采用的历史履约情况,个人资产评估等强变量,消费或社交变量一般均为区分能力较弱的弱变量)。
传统信用风险评估模型在业务逻辑架构下,利用数据驱动或专家经验开发模型模板,最终结合统计分析模型(逻辑回归、判别分析等)得到精准的计量结果。然而在新的数据画像和业务情景下,不仅丧失了原有的业务逻辑框架,更使得传统统计分析模型的应用受到严重限制。近年来,机器学习技术得到飞速的发展,在信息识别、推荐引擎等领域都取得了出色的应用效果,大量实验结果证明机器学习模型有着良好的鲁棒性和泛化性。但机器学习模型的模型逻辑极为复杂,很难把控模型的真实效果,也不易于直观展示和解释变量的风险特性。如何结合传统风险评估模型体系和机器学习技术,在保证业务逻辑和评分广泛应用的前提下,更加精准的评估风险已经成了新一代信用风险模型体系建设的核心课题。
2.文献综述
David Durand(1941)在信用评分领域首先使用判别分析,预测贷款者的还贷情况;20世纪50年代,Bill Fair和Earl Isaac发明了基于logistics回归模型的FICO信用评分体系,得益于清晰的业务逻辑和解释性,该评分体系逐渐成为了最为广泛应用的风险模型体系。然而无论是逻辑回归还是判别分析模型,都主要针对线性问题,无法对变量的非线性结构进行分析,同时对数据完整性和有效性要求较高,对数据噪声亦比较敏感,不适用于大数据背景下的模型开发和集成。
McCulloch, W Walter Pitts(1943)[1]提出了神经网络模型,取得了十分广泛的应用,并首次描绘了机器学习理论的雏形;Ray Solomonoff(1956) [2]在An Inductive Inference Machine一文中,首度提出了机器学习的概念;Aizerman, Mark A.; Braverman, Emmanuel M.; and Rozonoer, Lev I. (1964)[3]在统计学习领域的研究中提出了应用最为广泛的机器学习模型支持向量机(SVM);Breiman, Leo (1996)[4]、Michael Kearns(1988)[5]、Ho, Tin Kam (1995)[6]提出了集成学习算法:Bagging、Boosting、Random Forest,完美的解决了传统机器学习算法过度拟合的困境,使得算法的稳定性、泛化性和鲁棒性都有了显著的提高。近年来,机器学习算法在图像识别、语音识别、信息检索、推荐引擎、非结构化数据挖掘等领域都取得了突破性的进展。推荐算法与风险模型的一致性,及GBDT[7]和Random Forest在推荐算法上优异表现,为我们研究金融大数据风险模型提供了新的方向和挑战。然而无论是单一机器学习算法,还是集成学习算法都有着复杂的模型结构,这种复杂的结构不仅使模型丧失了解释性,而且限制了专业模型分析人员对模型的把控能力,很难实现真正意义上的广泛的应用。
3.研究的理论框架与模型建设
本文在传统风险模型体系的基础上,嫁接逻辑回归和决策树模型建立T-L模型,并结合Random Forest模型完善模型结构,建立了ScoreNet模型。既大大提升了风险模型区分能力,也保证了业务逻辑的清晰和评分广泛的应用。
3.1.T-L核模型
传统信用风险评估模型在业务逻辑架构下分析变量的基本属性及风险区分能力,用逻辑回归等统计分析模型进行量化分析,得到精准的风险计量结果。然而用户行为数据独有的稀疏性会使得统计模型极不稳定。决策树对局部数据分析有着极强的稳定性和鲁棒性,同时可以揭示变量风险区分能力的非线性结构关系。因此我们将决策树模型和逻辑回归模型进行嫁接,建立T-L核模型。即在进行统计建模前添加一层决策树模型进行单变量分析,同时利用CHAID决策树生成二元决策树变量,然后将决策树模型的输出结果(单变量、交叉变量及二元决策树变量)一同导入逻辑回归模型中进行统计建模,确定所有风险因子的风险权重。
3.1.1.决策树模型
在决策树各种算法中,CHAID[8](Chi-Squared Automatic Interaction Detection)既适用于二值型变量,也适用于连续型变量。针对每一次分叉,CHAID对二元响应和连续型目标变量分别采用了卡方和F检验。因此在本文中,选择CHAID算法作为决策树算法。
CHAID算法以因变量为根结点,对每个自变量(只能是分类或有序变量,也就是离散性的,如果是连续变量,如年龄,收入要定义成分类或有序变量)进行分类,产生一系列二维表,然后分别计算所生成二维表的卡方统计量或F统计量。如果因变量(目标变量)是定类变量(例如PD模型),则采用卡方检验(Chi-Square-Test);如果因变量是定距变量(例如LGD,EAD模型),则采用F检验(F-Test)。如果几个备选变量的分类均显著,则比较这些分类的显著程度(P值的大小),然后选择最显著的分类变量以及划分作为子节点。
3.1.2.逻辑回归模型
逻辑回归模型[9]是因变量服从二项分布,且自变量的线性预测与因变量的logit变换相连接的一种广义线性模型[10],具体数学表达式为:
由此可以得到
理论可以证明,如果样本的分布服从多元正态分布,那么该样本正好符合对数回归的假设。对数模型的误差项服从二项分布,因此,在拟合时采用最大似然估计法进行参数估计要比最小平方误差法估计。
3.2. Random Forest模型
3.2.1.Random Forest的基本原理
随机森林是由美国科学家Leo Breiman将其在1996年提出的Bagging集成学习理论[4]与Ho在1998年提出的随机子空间方法[11]相结合,于2001年发表的一种机器学习算法[12]。随机森林是以决策树为基本分类器的一个集成学习模型,它包含多个由Bagging集成学习技术训练得到的决策树,当输入待分类的样本时,最终的分类结果由单个决策树的输出结果投票决定,如下图所示。随机森林克服了决策树过拟合问题,对噪声和异常值有较好的容忍性,对高维数据分类问题具有良好的可扩展性和并行性。此外,随机森林是由数据驱动的一种非参数分类方法,只需通过对给定样本的学习训练分类规则,同时亦不需要分类的先验知识。
随机森林是以K个决策树为基本分类器,进行集成学习后得到的一个组合分类器。当输入待分类样本时,随机森林输出的分类结果由每个决策树的分类结果简单投票决定。这里的
是一个随机变量序列,它是由随机森林的两大随机化思想决定的:
(1)Bagging思想:从原样本集X中有放回地随机抽取K个与原样本集同样大小的训练样本集(每次约有37%的样本未被抽中),每个训练样本集构造一个对应的决策树。
(2)特征子空间思想:在对决策树每一个节点进行分裂时,从全部属性中等概率随机抽取一个属性子集,再从这个子集中选择一个最优属性来分裂节点。
由于构建每个决策树时,随机抽取训练样本集和属性子集的过程都是独立的,且总体都是一样的,因此
是一个独立同分布的随机变量序列。
训练随机森林的过程就是训练各个决策树的过由于各个决策树的训练是相互独立的,因此随机森林的训练可以通过并行处理来实现,这将大大提高生成模型的效率。随机森林中第
训练过程如下图所示。
将以同样的方式训练得到K个决策树组合起来,就可以得到一个随机森林。当输入待分类的样本时,随机森林输出的分类结果由每个决策树的输出结果进行简单投票(即取众数)决定。
3.2.2.Random Forest模型的缺陷及改进方向
不难证明随机森林的泛化性误差的上界[12]为:
3.3. ScoreNet模型
本文引入3.1中建立的T-L核模型替代3.2中RF模型中的传统决策树模型,将RF模型和T-L核模型结合,建立了ScoreNet模型体系。
ScoreNet模型以传统模型为基础搭建,保留传统模型的业务解释性和稳定性。
ScoreNet模型以随机森林模型为基本架构搭建了随机模型,客服了传统模型对数据噪声亦比较敏感的缺陷,使模型的泛化性与稳定性有了进一步的提高。
ScoreNet模型客服了传统模型一般只能容纳10-15个变量的缺陷,模型可以涵盖100+个变量。可以从源头杜绝用户刷分现象,提升模型的公信力。
ScoreNet模型的在应用层面的高度稳定性与业务解释性,使其有着比纯粹机器学习模型更广泛的应用空间。
4.模型开发与结果分析
本文通过互联网爬虫技术及第三方合作机构通过跨商家、浏览器、设备、微信进行实时互联网数据采集分析,包括但不限于:商品消费行为采集与挖掘、资讯、社区与视频阅览行为采集与挖掘、O2O消费行为采集与挖掘、高单价商品消费行为采集与挖掘、金融服务行为采集与挖掘等。
通过各渠道数据采集与挖掘形成用户全方位的画像数据(如:人口统计学标签、用户通用标签、资产价值标签、消费行为喜好、阅读喜好标签、金融服务标签、社交圈标签等),进而了解用户全方位属性信息。
本文采用大数据风险模型ScoreNet技术,针对身份信息核查、稳定性信息、金融申请信息、资产评估信息、商品消费信息、媒体阅览信息等6大维度对用户违约风险进行评估。
4.1数据分析
4.1.1.数据采集
本文采集了:身份信息核查、稳定性信息、金融申请信息、重要资产信息、商品消费信息、媒体阅览信息等6大维度近1000个子项的互联网数据。
从模型表现可看出模型在不同样本上皆具备一定程度的区分能力,表示其稳定性高,未来应用时能适应不同的人群。
4.3模型结果对比分析
传统模型与ScoreNet模型对比分析结果:
传统模型与机器学习模型(Random Forest)对比分析结果:
模型对比分析结果显示,ScoreNet模型较传统模型(Logistics)在区分能力上有了较大幅度的提高,可提升KS/AR值约0.05,同时延续了传统模型(Logistics)的稳定性和解释性;ScoreNet模型较纯粹机器学习模型(Random Forest)在稳定性、泛化性上有着绝对的优势,区分能力也更加优越。
5.应用分析及方案建议
5.1.征信多元化与风险量化
传统金融机构的征信信息来源主要是央行征信,但央行征信仅有3亿多人有信贷记录,信贷记录又主要来源于商业银行和农村信用社等金融机构。随着互联网不断渗入人们生活,互联网行为数据是央行征信的有效补充,可以不断强化征信数据的时效性、全面性和层次性,从无形中记录用户的行为,去伪存真,还原真实的客户 。从而大大提升信息的利用率和有效性。
同时,大数据风险模型的应用,可以不断提高金融机构风险识别、计量能力。从而不断完善征信信息体系架构,为精细化风险定价提供必要的基础和土壤。
5.2.授信审批决策/自动化审批
传统上,金融机构的授信审批决策主要依赖于信贷人员的主观经验和判断,缺乏统一的标准,不利于金融机构整体风险政策的执行。随着大数据模型开发技术与内部评级体系建设的深度融合,金融机构可更加广泛和全面地将评分/评级结果应用于授信审批,为贷款决策提供参考和支持。
大数据风险模型优秀的风险排序及区分能力能够大力推进自动化审批的进程及线上产品的改革与创新。对模型评分高于一定级别且满足其它授信决策条件的,授信申请可以自动通过,不需要再经人工审核,对于评分低于一定级别的,模型自动拒绝其申请;只有模型评分介于以上两者之间的客户,才由人工介入进行申请审核。
5.3风险监控与预警
风险监控与预警是指借助各类信息来源或渠道,通过对数据与信息进行整合与分析,运用定量和定性分析相结合的方法来发现授信客户及业务的早期风险征兆,准确识别风险的类别、程度、原因及其发展变化趋势,并按规定的权限和程序对问题授信采取针对性处理措施,以及时防范、控制和化解授信风险的一系列管理过程。
大数据风险模型较传统内部评级体系更为精细和灵敏,可以快速识别贷后风险,为不同的用户设定不同的监控频率、自动筛选高风险客户,制定有针对性的贷后管理措施、贷后管理工作等。
6.参考文献
[1]. McCulloch, W Walter Pitts (1943). A Logical Calculus of Ideas Immanent in Nervous Activity. Bulletin of Mathematical Biophysics 5 (4): 115–133.
[2]. Ray Solomonoff, An Inductive Inference Machine, IRE Convention Record, Section on Information Theory, Part 2, pp., 56-62, 1957.
[3]. Aizerman, Mark A.; Braverman, Emmanuel M.; and Rozonoer, Lev I. (1964). Theoretical foundations of the potential function method in pattern recognition learning. Automation and Remote Control 25: 821–837.
(1996). Bagging predictors.
24 (2): 123–140.
[5]. Michael Kearns(1988). , Unpublished manuscript (Machine Learning class project, December 1988)
[6]. Ho, Tin Kam (1995). . Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14–16 August 1995. pp. 278–282.
[7]. Brieman, L(1997). .
[8]. Belson, William A.; Matching and prediction on the principle of biological classification, Applied Statistics, Vol. 8 (1959), pp. 65–75.
[9]. Huston, James A. (1966). The Sinews of War: Army Logistics, ,
(755 pages).
(1972). Generalized Linear Models. . Series A (General) (Blackwell Publishing) 135 (3): 370–384.
[11]. Ho T. .IEEE Transactions on Pattern Analysis and Machine Intelligence,2-844.
[12]. Trevor H Robert T Jerome Friedman (2008). The Elements of Statistical Learning. California.
本文由作者投稿至36大数据,并经由36大数据编辑发布,任何不标明作者、来源36大数据及本文链接 /archives/42843的均属侵权。
转载请注明来自36大数据(): &
除非特别注明,本站所有文章均不代表本站观点。报道中出现的商标属于其合法持有人。请遵守理性,宽容,换位思考的原则。}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信