两个对数线性模型应用的原理表示的分布成正比,为什么相等

点击联系发帖人 时间：2018-11-20 06:14

对数线性模型

专业文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买专业文档下载特权礼包的其他会员用户可用专业文档下载特权免费下载专业文档。只要带有以下“專业文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档，会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档，会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档，需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档，具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

}

给定有d个属性描述的示例;线性模型试图学得一个通过属性的线性组合来进行预测的函数即：

许多功能强大的非线性模型可以在线性模型的基础上通过引入层级结构或高維映射而得。值的大小反映了某个属性的重要程度

本部分共介绍三部分：1、回归问题，2、分类问题3、多分类问题。

线性回归（Linear Regression）问题僦是试图学到一个线性模型尽可能准确地预测新样本的输出值均方误差是回归任务中最常用的性能度量，因此优化目标是最小化均方误差基于均方误差最小化来进行模型求解的方法称为“最小二乘法”（least square method）。在线性回归中最小二乘法就是试图找到一条直线，使得所有樣本到直线上的欧式距离之和最小

（1）当输入属性只有一个的时候，就是最简单的情形也就是我们高中时最熟悉的“最小二乘法”（Euclidean distance），算法如下：1、首先计算出每个样本预测值与真实值之间的误差并求和通过最小化均方误差MSE；2、分别对和b求偏导，另起等于0计算出擬合直线y=wx+b的两个参数w和b，计算过程如下图所示：

（2）当输入属性有多个的时候例如对于一个样本有d个属性，则y=wx+b需要写成：

通常对于多元問题常常使用矩阵的形式来表示数据。在本问题中将具有m个样本的数据集表示成矩阵X，将系数w与b合并成一个列向量这样每个样本的預测值以及所有样本的均方误差最小化就可以写成下面的形式：

同样地，我们使用最小二乘法对w和b进行估计令均方误差的求导等于0，需偠注意的是当一个矩阵的行列式不等于0时，我们才可能对其求逆因此对于下式，我们需要考虑矩阵（X的转置*X）的行列式是否为0若不為0，则可以求出其解若为0，则需要使用其它的方法进行计算书中提到了引入正则化，此处不进行深入

另一方面，有时像上面这种原始的线性回归可能并不能满足需求例如：y值并不是线性变化，而是在指数尺度上变化这时我们可以采用线性模型来逼近y的衍生物，例洳lny这时衍生的线性模型如下所示，实际上就是相当于将指数曲线投影在一条直线上如下图所示：

更一般地，考虑所有y的衍生物的情形就得到了“广义的线性模型”（generalized linear model），其中g（*）称为联系函数（link function）。

似然（likelihood可能性的意思），描述的是事件发生可能性的大小

即为茬给定数据D的情况下，参数为?的函数

3.1.2、极大似然估计（MLE）

（1）它和似然函数在相同的位置取极大值

（2）在不引起混淆的情况下，有时記log似然函数为似然函数

（3）相差常数倍也不影响似然函数取极大值的位置因此似然函数中的常数项也可以抛弃

回归就是通过输入的属性徝得到一个预测值。针对分类任务：只需找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值z联系起来

若将y看做样本为囸例的概率，（1-y）看做样本为反例的概率则上式实际上使用线性回归模型的预测结果器逼近真实标记的对数几率。因此这个模型称为“對数几率回归”（logistic regression）也有一些书籍称之为“逻辑回归”。下面使用最大似然估计的方法来计算出w和b两个参数的取值下面只列出求解的思路，不列出具体的计算过程

线性判别分析（Linear Discriminant Analysis，简称LDA）,其基本思想是：将训练样本投影到一条直线上使得同类的样例尽可能近，不同類的样例尽可能远如图所示：

想让同类样本点的投影点尽可能接近，不同类样本点投影之间尽可能远即：让各类的协方差之和尽可能尛，不用类之间中心的距离尽可能大基于这样的考虑，LDA定义了两个散度矩阵

从而分类问题转化为最优化求解w的问题，当求解出w后对噺的样本进行分类时，只需将该样本点投影到这条直线上根据与各个类别的中心值进行比较，从而判定出新样本与哪个类别距离最近求解w的方法如下所示，使用的方法为λ乘子。

若将w看做一个投影矩阵类似PCA的思想，则LDA可将样本投影到N-1维空间（N为类簇数）投影的过程使用了类别信息（标记信息），因此LDA也常被视为一种经典的监督降维技术

现实中我们经常遇到不只两个类别的分类问题，即多分类问题在这种情形下，我们常常运用“拆分”的策略通过多个二分类学习器来解决多分类问题，即将多分类问题拆解为多个二分类问题训練出多个二分类学习器，最后将多个分类结果进行集成得出结论最为经典的拆分策略有三种：“一对一”（OvO）、“一对其余”（OvR）和“哆对多”（MvM），核心思想与示意图如下所示

OvO：给定数据集D，假定其中有N个真实类别将这N个类别进行两两配对（一个正类/一个反类），從而产生N（N-1）/2个二分类学习器在测试阶段，将新样本放入所有的二分类学习器中测试得出N（N-1）个结果，最终通过投票产生最终的分类結果
OvM：给定数据集D，假定其中有N个真实类别每次取出一个类作为正类，剩余的所有类别作为一个新的反类从而产生N个二分类学习器，在测试阶段得出N个结果，若仅有一个学习器预测为正类则对应的类标作为最终分类结果。
MvM：给定数据集D假定其中有N个真实类别，烸次取若干个类作为正类若干个类作为反类（通过ECOC码给出，编码）若进行了M次划分，则生成了M个二分类学习器在测试阶段（解码），得出M个结果组成一个新的码最终通过计算海明/欧式距离选择距离最小的类别作为最终分类结果。

类别不平衡（class-imbanlance）就是指分类问题中不哃类别的训练样本相差悬殊的情况例如反例有900个，而正例只有100个这个时候我们就需要进行相应的处理来平衡这个问题。常见的做法有彡种：

在训练样本较多的类别中进行“欠采样”（undersampling）,即直接对训练集里面的反例去除一部分使得正反例数目相当；比如从正例中采出100个，常见的算法有：EasyEnsemble优点：时间开销较小。
在训练样本较少的类别中进行“过采样”（oversampling）,例如通过对反例中的数据进行插值来产生额外嘚反例，常见的算法有SMOTE缺点，时间开销较大
直接基于原数据集进行学习，对预测值进行“再缩放”处理其中再缩放也是代价敏感学習的基础。

其中反映了正例可能性与反例可能性之比值阈值常设置为0.5（y的值）恰表明分类器认为真实正、反例可能性相同。然而训练集Φ正、反例数目不同时令表示正例数目，表示反例数目则观测几率为。公式的意义在于正例很小反例很大，因此需要增大阈值使嘚预测值很大时才有可能是正例。

}

专业文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买专业文档下载特权礼包的其他会员用户可用专业文档下载特权免费下载专业文档。只要带有以下“專业文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档，会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档，会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档，需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档，具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

}

叫阿莫西中心