理解为什么机器可以学习2

  • 【机器学习基础】理解为什么机器可以学习1——PAC学习模型(421)
  • 【E2LSH源码分析】E2LSH源码综述及主要数据结构(406)
  • 【E2LSH源码分析】LSH算法框架分析(2)
  • 【计算机视觉】借助图像直方图来检测特定物(MeanShift、CamShift算法)(2)
  • 【机器学习快讯】第一篇机器学习快讯(0)
  • 【计算机视觉】对检测的人脸进行剪切和归一化(0)
  • 【机器学习基础】理解为什么机器可以学习3——VC理论(0)
  • 【机器学习基础】理解为什么机器可以学习2——Hoeffding不等式(0)
  • 【机器学习基础】理解为什么机器可以学习1——PAC学习模型(0) 

本站是提供个人知识管理的网络存储空间所有内容均由用户发布,不代表本站观点如发现有害或侵权内容,请点击这里 或 拨打24小时举报电话: 与我们聯系

}

泛化理论(举一反三)

回顾一丅上一章中提到的成长函数 的定义:假设空间在N个样本点上能产生的最大二分(dichotomy)数量,其中二分是样本点在二元分类情况下的排列组合

上一章还介绍了突破点(break point)的概念,即不能满足完全分类情形的样本点个数完全二分类情形(shattered)是可分出 种二分类(dichotomy)的情形。

继续舉例说明假设一种分类情形最小的突破点为2,即

容易求出在 时,成长函数 ;

(突破点是2)因此最大的二分类个数不可能超过3,假设為3

继续观察 时的情形,因理解稍微有些复杂还是以图的形式表达,如图6-1所示

如图6-1a)表示在三个样本点时随意选择一种二分的情况,这種分类没有任何问题不会违反任意两个样本点出现四种不同的二分类情况(因为突破点是2);

如图6-1b)表示在a)的基础上,添加不与之前重复嘚一种二分类出现了两种不冲突的二分类,此时同样也没有任何问题不会违反任意两个样本点出现四种不同的二分类情况;

如图6-1c) 表示茬b)的基础上,再添加不与之前重复的一种二分类出现了三种不冲突的二分类,此时同样也没有任何问题不会违反任意两个样本点出现㈣种不同的二分类情况;

如图6-1d) 表示在c)的基础上,再添加不与之前重复的一种二分类问题出现了,样本 出现了四种不同的二分情况和已知条件中k=2矛盾(最多只能出现三种二分类),因此将其删去

如图6-1e) 表示在c)的基础上,再添加不与之前重复的一种二分类此时同样也没有任何问题,不会违反任意两个样本点出现四种不同的二分类情况;

如图6-1f) 表示在e)的基础上再添加不与之前重复的一种二分类,问题又出现叻样本 出现了四种不同的二分情况,和已知条件中k=2的条件不符(最多只能出现三种二分类)因此将其删去。

图6-1 样本数为3时的二分类情形

在突破点是2样本点为3时,最多只能有四种二分类情况而 。

从上述情形可以做一个猜想,成长函数 小于等于某个与突破点k有关的二佽项如果可以证明这一结论,即能寻找到一个可以取代无限大M的数值同理即能公式4-6在假设空间为无限大时也是成立,即机器是可以学習的

假设突破点 ,在样本数为3时最大的二分类个数是多少?答案是1可以想象,在样本为1时只有一种分类情形,假设这种情形是正则以后所有样本也为正,才能满足上述条件所以样本N不论为多少,其最大二分类数都是1

根据上一小节的例子,提出一个新的概念仩限函数 (bounding function),其定义为在最小突破点为k时表示成长函数 最大值的函数。此函数将成长函数从各种假设空间的关系中解放出来不用再詓关心具体的假设,只需了解此假设的突破点突破点相同的假设视为一类,抽象化成长函数与假设的关系

二分类的个数或者称之为成長函数 说白了就是二元(在图中表示为"×"或者"○ "的符号)符号在在长度为N的情况下的排列组合(每个不同的排列代表一个二分类,每种二汾类可看做一个向量)个数

在强调一遍,提出这种上限函数的好处在于它的性质可以不用关心到底使用的是何种假设空间,只需要知噵突破点便可以得到一个上限函数来对成长函数做约束

例如: 可以同时表示一维空间的感知器(1D perceptrons)和间隔为正(positive intervals)的两种假设空间,因為两者都满足 注意一维的成长函数为,而间隔为正的成长函数为一定比这两种情况中最大的还要大,才能约束成长函数回忆上限函數的定义,是成长函数最大值的函数表示从这个例子中可以理解为何还会出现"最大值"。

先观察已知的 如何表示通过列表方式找出规律,如图6-2所示

图6-2 已知的 取值

在 的这条斜线上,所有值都等于 这一原因在上一节推导中已经提到过,原因是突破点代表不能完全二分类 的凊况因此在此情况下最大的二分类数可以是 。在这条斜线的右上角区域所有的点都满足完全二分类的因此值为 。

而在斜线右下角上已給出数值的点都是在上一节中已求出答案的点空白地方的值则是下节需要介绍的内容。

这一小节主要是将上一小节空白的内容填写上從已有的数据上可以看出一个似乎是正确的结论:每个值等于它正上方与左上方的值相加。如公式6-1所示

当然单从观察是无法证明该公式昰成立的,以下从结论出发来验证它的正确性

首先通过计算机求出 的所有二分情况(自己编写程序加上限制条件,在16个二分类中找出符匼条件的)其结果如图6-3所示。

图6-3 的所有二分类

图6-3中的展示效果还是有些混乱对这11种情况做一次重新排序,将 与 分开观察如图6-4所示,橙色部分为 两两一致、 成对(pair)出现的二分类设橙色部分一共 对二分类,即 种二分类;紫色部分为各不相同的 设紫色部分一共 种,得公式6-2

图6-4 以成对和单个的形式展示

注意 ,意味着在样本点为3时不能满足完全二分的情形。需要观察在样本数为3时这11种分类会有何变化,不妨假设这三个样本是 于是只剩如图6-5所示的7种二分类情形。

图6-5 三个样本时缩减之后的二分类

其中橙色部分原本两两成对出现的二分類,在去掉 所属的那列样本之后就合并成了4种二分类情况( ),紫色部分不变依然为3种二分情况( )因为已知 ,在样本数为3时图6-5中即表示样本书为3 的情况,其一定不能满足完全二分因此与 一定满足公式6-3。

继续观察橙色部分的区域如图6-6所示。

图6-6 三个样本时橙色区域嘚二分类

以下使用反证法证明假设三个样本在如上图所示的四种二分类情况下,满足任意两个样本都可完全二分类将中任意两列取出,同之前被删除的 列相结合一定可得到一种三个样本都满足完全二分类的情形(因为不论是哪两列与相结合都会得到8种二分类,每一行②分类都对应两个不同标记的因此为8种。且两列四行的二分类是全完二分的在此基础上加上不同属性的列,应该也不会重复因此一萣也是全完二分的)。但是此结论和已知任意三个样本不能完全二分冲突了因此假设不成立,即在图6-6中一定存在某两个样本点不能完全②分的情况因此得出如公式6-4所示的结论。

由公式6-2~公式6-4推导出公式6-5

最终还能推导出公式6-6的通用结论,也就是开始时公式6-1的猜想

根据这┅结论将图6-2补齐,如图6-7所示

图6-7 补齐后的上限函数表

最后可以通过如下方式证明公式6-7是成立的。

首先需要预先了解组合中的一个定理如公式6-8所示。

很容易证明 情况下公式6-7成立如公式6-9所示。

上一节中已经给出了证明不仅仅是满足不等号条件,而且满足等号

再使用数学歸纳法证明在的情况,公式6-7成立

假设公式6-10成立,则可以得到在的情况下公式6-11成立同时结合公式6-6的结论,公式6-12也能被推导出来

这一结果意味着:成长函数 的上限函数

在书写这一小节之前,还是想说明一下我面对这一小节时,看得是一知半解因为林老师本身也没打算將这个证明的详细流程全部给出,我觉得原因有几个:一是难度很高即使全部讲解能听懂的估计也没几个;二是思想更重要,你只需要知道它用到了什么原理去证明这个问题这比你了解这枯燥的数学推导更重要;三是结论比求解过程更重要。当然这不是说求解过程不重偠我会在看懂相关理论之后,整理出一个关于V-C限制完整证明的笔记但估计现在也没时间去看懂这一理论。

言归正传开始这一小节的簡单阐述。

在讲述之前几章时一直以为只需要证明出在假设函数为无限多的情况下,寻找成长函数 作为假设空间个数的上限直接使用該上限去取代原本霍夫丁不等式中的M便可得出结论,即在 接近0时也接近0,也就是机器是可以学习的实际与这一结果类似,但是稍有偏差在那本以为的霍夫丁不等式(如公式6-13所示)的公式中多出一些常量。

先给出结论公式如6 -14所示。

比较两个公式发现最终的结论比猜想的,在不等式的右侧三个不同位置多了三个常数分别是开头的地方多了一个2倍,成长函数中多了一个2倍指数函数中多了一个 。按先後循序分三步简单说明一下这些变化的原因。

公式6-15的说明(不敢叫做证明目前完全没有头绪,一到三步的说明都是自己的理解不正確之处还望指正)。

其中 的可能性是有限多种因为假设空间的种类被成长函数约束住了,而样本的大小又是固定的所以错误率也最多呮有种;但是的可能性还是无限多,因为它的数据是无限大错误率也自然也会无限多种。为了解决此问题提出了一种叫做影子数据的概念(ghost data)。使用跟输入样本一样多的数据有 ,用这组新的样本取代整个样本去近似求解在无限大的数据中的值求解的近似值记为。图6-8表示和的分布情况其中为它俩的分布中心,假设数据D的情况下很大从图中不难看出,再抽取一次数据得到的很大的几率最多只有条件很大的一半概率,意味着和很接近的几率最多只有很大这个条件的一半(因为从该图中得知和只可能变得小于)即很小的几率最多只囿很大这一几率的一半。换句话说很大的几率至少是很大这一几率的一半用公式6-16表示其含义如下:

将公式6-16稍微调整一下就可以得到公式6-17。

从公式6-17到公式6-15多了一个更强的约束因此从变成了 。

第二步分解假设空间的种类

其中的可能性与样本D有关,而与样本有关因此整个假设空间的种类可以写成 的个数,我们又从之前几章的内容得知种类的个数并非无限多,其上限最大为成长函数那因此坏事情发生的概率如公式6-18所示。

第三步使用无取回的霍夫丁。

还是用小球和罐子的那个例子解释罐子中不再是无限多个小球,而是2N个小球选择N个尛球而留下另外N个,可以通过公式6-19得出如下结论

这是一种无放回的霍夫丁,最终得到公式6-20

至此说明了(不敢叫证明)一个在机器学习領域很著名的理论——V-C上界制(Vapnik-Chervonenkis bound)。

2维的感知器其突破点为4,因此其成长函数为可以使用这个VC上界来说明在样本N足够大时候,发生坏倳的情况很少即选择一个在样本中错误率很小的g,可以得出其在整个数据上错误率也很低的结论说明机器学习是可能的。

}

基于神经网络来实现二分类问题

輸入层包含两个节点(B1是 bias 不属于输入层)

本网络包含两个隐藏层每层有两个节点

输出层的输出 y_ 是对二分类中标签为1的预测概率,标签为0嘚预测概率是 1 - y_

通过最小化  loss  反向传播就可以得到一个优化解

如何优化呢,可将loss看做是以 W1 、W2、W3、B1、B2、B3 为变量的函数loss分别对其求偏导,便可鉯得到 loss 与每一个参数的关系

 
 
 
 
 
}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信