有‏什么‏类似知轩藏书的网站‏轩‏尼‏诗,但是更小众更高端的洋酒值得买吗?

本文已经发表在公众号 Oliver the Cat上。欢迎大家关注 Oliver the Cat以获取最新的量化/FOF/宏观/行业研究内容量化工具系列-1 RLM Robust Linear Models这是Oliver the Cat公众号的量化工具系列的第一篇文章。 我的上一篇内容好像因为全文太干货导致大家阅览兴趣不高。所以这篇推送我会先比较通俗地介绍什么是RLM,它与OLS最小二乘回归的区别,最后再写一些技术性内容以便感兴趣的朋友们参考。1.什么是RLM?RLM全称 Robust Linear Models. 是一类对数据集中的某些异常状况适应力较好的线性模型的名称。本文将注重介绍对极端值比较有效的模型, 这是因为在选股的多因子模型中,因子收益率常常因为某些影响不大的新闻或政策而变得极端。 然而,在去除掉某些过分极端的情况后(比如某日出现乌龙指或交易受到大规模断电影响等等),有些较为微弱的极端波动并不能被人工挑出。 因此,我们就需要对回归模型做出改进。而RLM,或者熟悉计量经济学的朋友可能称之m-Estimator methods, 就可以帮我们解决该问题。举一个例子(来自python statsmodels包的官方文档): 我们先随便生成一组具有严格线性关系的数据集,然后在它的因变量上随机加上一些极端值:在这种情况下,OLS估计量将会受到极端值的严重影响,因为它给每个数据点加上了平均的权重。但是当你使用RLM模型来做回归时,极端值的权重将会“自动地”被削减(通过选取不同的距离,后边会讲),从而使我们的估计量更贴近真实情况。下面这幅图就清楚地展现了遇到极端值时RLM的优势: 图中虚线外有多个极端值。正确的回归直线时蓝色的。 受到极端值影响,OLS回归(红色)出现了明显的偏差。
相比之下,绿色的RLM回归就偏差更小。2.RLM如何自动给离群值降低权重?在线性回归时,有两种方式来加权: 1.像WLS(Weighted Least Square)一样,在最优化的目标函数中,每一项前边乘上一个加权函数。或者直观地讲,我们给每一个数据点上直接乘上一个权重。 2.不再采用欧氏距离。(请回忆OLS的直观想法,就是为了减小回归曲线和各个数据点之间的距离)相反,我们选取一些使得极端值显得不那么“极端”的“距离”(这里讲的很模糊,可以参考第4节的内容。)(这里说的距离,不是泛函中严格定义的距离。这种距离是面向数据设计的,不一定需要满足三角不等式) 比如,我们使用Huber‘s T 函数(也就是这个函数“诱导”的距离)
从这个函数的分段上可以看到:通过自行设定参数,距离回归曲线近的样本点拥有二次形式的距离(权重大),但是距离远的点就是一次形式的距离(增加较慢,权重小)。 进而调整不同样本点的权重。3.如何在Python中使用RLM?这里我附上statsmodels包官方文档相应部分的链接:statsmodels-Robust Linear Models4.RLM的数学推导对m-Estimator感兴趣的朋友可以到Hansen老师的主页上下载UW-Medison的讲义,有一部分仔细地讲解了m-Estimator的相合性和渐进正态。这里我们尽量简洁地进行说明。(下面一段专业选手请直接跳过)我们先回忆一下数理统计上是如何导出OLS的:1.因变量和自变量满足 .
2.i.i.d.且服从均值为0的正态分布。在这两个假设下,我们就可以构造出的最大似然估计(MLE)估计:其中为正态分布的累计分布函数(cumulative density function)。并且通过给目标函数取log,我们将其写为:以上是得到OLS的方法。(当然,计量经济学的书上导出方式可能有所不同) 观察上式,我们发现这里的优化目标函数具有形式:这就是m-estimators了(其中的"m"代表 MLE-like 像最大似然估计一样的)。当然,熟悉统计学习的朋友可能更倾向于把它叫做损失函数(loss function)。同时,你也可以将OLS中选取的函数看作是点和预测值之间的欧氏距离。(请记住这一点,后边会用到。事实上,这也是我们高中时期学习OLS时的直观理解方式)如果你想做非线性回归,那么就可以给定的形式时候,将X和改为非线性的方式组合。不过本文着重介绍线性模型,所以我们只能保留的形式。下面一步就是选取适合我们目标数据特性的“距离”函数。 比如前面讲过的 Huber's T function. 当然,如果你比较较真也可以选择一些可以真正被称为距离的函数,比如Lp范数作为距离。
从经验上来讲,HuberT就是一个对多因子模型中因子的异常值很鲁棒的距离了。由于我们选取的距离函数一般都难以找到一个最优化的解析解,所以只需用现成的求解器(比如scipi.opimize)来数值求最小值即可。(一点点补充)m-estimator的相合性。由于RLM本质上是m-estimator, 我在这里就不得不提一下统计量最重要的一个性质:相合性。 Hansen老师的书上给出了非常棒的一个不相合的例子:虽然我们选取的目标函数会依概率收敛到某个具有唯一最小值解的函数,但是:请回忆实变函数/测度论讲的依测度/依概率收敛和一致收敛的区别:仅有依测度收敛,我们真正的目标是可能不收敛到真实值的。 请参考图片理解 所以为了保证估计值的收敛,我们需要一个定理:Theorem(convergence of m-estimator)as
if 1. are i.i.d.2. is continuous in
with probability one.3.where 4. is compact. 5. uniquely minimizes objective function.当这些条件满足时,我们就可以不用担心相合性问题。(事实上大部分时间都不用考虑)。希望本期内容可以帮助订阅者们更好地处理数据。免责声明: 本报告仅供Oliver the Cat公众号订阅者使用,Oliver the Cat公众号及其运营人不会因接收人收到本报告而视其为客户。本报告中的信息、意见等均仅供客户参考,不构成所述证券买卖的出价或征价邀请或要约。该等信息、意见并未考虑到获取本报告人员的具体投资目的、财务状况以及特定需求,在任何时候均不构成对任何人的个人推荐。客户应当对本报告中的信息和意见进行独立评估,并应同时考量各自的投资目的、财务状况和特定需求,必要时就法律、商业、财务、税收等方面咨询专家的意见。对依据或者使用本报告所造成的一切后果,本公司及/或其关联人员均不承担任何法律责任。 本报告所载资料的来源被认为是可靠的,但不保证其准确性或完整性,也不保证所包含的信息和建议不会发生任何变更。Oliver the Cat并不对使用本报告所包含的材料产生的任何直接或间接损失或与此相关的其他任何损失承担任何责任。 本报告所载的资料、意见及推测仅反映于发布本报告当日的判断,本报告所指的证券或投资标的的价格、价值及投资收入可升可跌,过往表现不应作为日后的表现依据;在不同时期,Oliver the Cat可发出与本报告所载资料、意见及推测不一致的报告;Oliver the Cat公众号不保证本报告所含信息保持在最新状态。同时,Oliver the Cat对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。 除非另行说明,本报告中所引用的关于业绩的数据代表过往表现。过往的业绩表现亦不应作为日后回报的预示。我们不承诺也不保证,任何所预示的回报会得以实现。分析中所做的回报预测可能是基于相应的假设。任何假设的变化可能会显著地影响所预测的回报。 Oliver the Cat公众号之运营人对本报告保留一切权利。未经Oliver the Cat公众号之运营人事先书面授权,本报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品,或再次分发给任何其他人,或以任何侵犯本公司版权的其他方式使用。未经授权的转载,Oliver the Cat运营人不承担任何转载责任。}

我要回帖

更多关于 轩尼诗天恒干邑 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信