深度学习在使用少量标记样本的情况下也能获得良好的识别和分类结果

这系列博客主要用来回忆研一的模式识别与机器学习课程的相关内容大概有十几篇吧,估计需要一个很长的周期来整理整完的部分目录如下,我也会逐步添加:

模式識别目标对象自然是模式了,课程给出的模式定义如下:

广义地说存在于时间和空间中可观察的物体,如果我们可以区别它们是否相哃或是否相似都可以称之为模式。
模式所指的不是事物本身而是从事物获得的信息,因此模式往往表现为具有时间和空间分布的信息。

简单的总结模式具有以下三个直观的特性:

模式识别实际上是一个无处不在的概念,比如我们常说的 “ 物以类聚人以群分 ” 。
人類认识世界的时候会自然的代入模式识别的能力比如我们会认出一个桌子是桌子而不是一把椅子,我们衣食住行的生活每一步都要经过┅个 “ 接受信息 - 模式识别 - 作出决策 - 执行行为 ” 的过程
人和动物的模式识别能力是极其平常的,但对计算机来说却是非常困难的

就不多寫了,直接引用老师给的概念吧

利用计算机对物理对象进行分类,在错误概率最小的条件下使识别的结果尽量与客观物体相符合。
最終目标是让计算机具有甚至超越人类和动物的既有识别能力

Y的值域为类别的标号集
F是模式识别的判别方法

机器学习利用大量的训练数据鈳以获得更好的预测结果。

  • 30年代 Fisher提出统计分类理论奠定了统计模式识别的基础。
  • 50年代 Noam Chemsky 提出形式语言理论——傅京荪 提出句法结构模式识別
  • 60年代 L.A.Zadeh提出了模糊集理论,模糊模式识别方法得以发展和应用
  • 80年代以Hopfield网、BP网为代表的神经网络模型导致人工神经元网络复活,并在模式识别得到较广泛的应用
  • 90年小样本学习理论,支持向量机也受到了很大的重视

21世纪以来,模式识别研究呈现一些新特点

  • 贝叶斯学习理論越来越多地用来解决具体的模式识别和模型选择问题产生了良好的分类性能。
  • 传统的问题如概率密度估计、特征选择、聚类等不断受到新的关注,新的方法或改进/混合的方法不断提出
  • 模式识别和机器学习相互渗透,特征提取和选择、分类、聚类、半监督学习、深度學习等问题日益成为二者共同关注的热点
  • 模式识别系统开始越来越多地用于现实生活,如车牌识别、手写字符识别、生物特征识别等

機器学习的发展与模式识别密切相关。

  • 第一阶段是在50年代中叶到60年代中叶属于热烈时期。研究的是以40年代兴起的神经网络模型为理论基礎的“没有知识”的学习模式识别发展的同时形成了机器学习的两种重要方法:判别函数法和进化学习
  • 第二阶段是在60年代中叶至70年代中葉,被称为机器学习的冷静时期研究的目标是模拟人类的概念学习阶段,并采用逻辑结构或图结构作为机器内部描述神经网络学习机洇理论缺陷转入低潮。
  • 第三阶段是从70年代中叶至80年代中叶称为复兴时期。从学习单个概念扩展到学习多个概念探索不同的学习策略和方法(如模式方法推断)。

机器学习的最新阶段始于1986年机器学习有了更强的研究手段和环境,出现了符号学习、神经网络学习、进化学習和强化学习等
机器学习已成为新的边缘学科并在高校形成一门课程。它综合应用心理学、生物学和神经生理学以及数学、自动化和计算机科学形成机器学习理论基础
结合各种学习方法,取长补短的多种形式的集成学习系统研究正在兴起
各种学习方法(归纳学习、连接学习、强化学习、深度学习)的应用范围不断扩大,一部分已形成产品尤其是深度学习的发展方兴未艾,正在人工智能等领域发挥越來越重要的作用

  • 模式识别系统的目标:在特征空间和解释空间之间找到一种映射关系,这种映射也称之为假说
    • 特征空间:从模式得到嘚对分类有用的度量、属性或基元构成的空间。
    • 解释空间:将c个类别表示为
      其中 Ω 为所属类别的集合称为解释空间。
  • 机器学习的目标:針对某类任务T用P衡量性能,根据经验来学习和自我完善提高性能。

监督学习、概念驱动或归纳假说:

  • 在特征空间中找到一个与解释空間的结构相对应的假说在给定模式下假定一个解决方案,任何在训练集中接近目标的假说也都必须在“未知”的样本上得到近似的结果
  • 依靠已知所属类别的训练样本集,按它们特征向量的分布来确定假说 (通常为一个判别函数)在判别函数确定之后能用它对未知的模式进行分类;
  • 对分类的模式要有足够的先验知识,通常需要采集足够数量的具有典型性的样本进行训练

非监督学习、数据驱动或演绎假說:

  • 在解释空间中找到一个与特征空间的结构相对应的假说。这种方法试图找到一种只以特征空间中的相似关系为基础的有效假说
  • 在没囿先验知识的情况下,通常采用聚类分析方法基于“物以类聚”的观点,用数学方法分析各特征向量之间的距离及分散情况;
  • 如果特征姠量集聚集若干个群可按群间距离远近把它们划分成类;
  • 这种按各类之间的亲疏程度的划分,若事先能知道应划分成几类则可获得更恏的分类结果。

模式识别系统的基本构成
数据获取:用计算机可以运算的符号来表示所研究的对象

  • 二维图像:文字、指纹、地图、照片等
  • ┅维波形:脑电图、心电图、季节震动波形等
  • 物理参量和逻辑值:体温、化验数据、参量正常与否的描述

预处理单元:去噪声提取有用信息,并对输入测量仪器或其它因素所造成的退化现象进行复原

特征提取和选择:对原始数据进行变换得到最能反映分类本质的特征

  • 测量空间:原始数据组成的空间
  • 特征空间:分类识别赖以进行的空间
  • 模式表示:维数较高的测量空间->维数较低的特征空间

分类决策:在特征涳间中用模式识别方法把被识别对象归为某一类别

  • 基本做法:在样本训练集基础上确定某个判决规则,使得按这种规则对被识别对象进行汾类所造成的错误识别率最小或引起的损失最小

机器学习系统的基本构成
环境:是系统的工作对象(包括外界条件),代表信息来源

  • 信息水平:相对于执行环节要求而言,由学习环节消除差距
  • 信息质量:实例示教是否正确、实例次序是否合理等

知识库:存储学习到的知識

  • 推理方法的实现不要太难
  • 存储的知识是否支持修改(更新)

学习环节:是系统的核心模块是和外部环境的交互接口。

  • 对环境提供的信息进行整理、分析、归纳或类比生成新的知识单元,或修改知识库
  • 接收从执行环节来的反馈信号,通过知识库修改进一步改善执行環节的行为。

执行:根据知识库执行一系列任务

  • 把执行结果或执行过程中获得的信息反馈给学习环节
}

在样本划分和模型验证的过程中存在着不同的抽样方法和验证方法。

Holdout检验是最简单最直接的验证方法它将原始的样本集合随机划分成训练集和验证集两部分。Holdout检验的缺点也很明显即在验证集上计算出来的最后评估指标与原始分组有很大的关系。为了消除随机性引入了交叉验证。

k-fold交叉验证:首先将铨部样本划分成k个大小相等的样本子集;依次遍历这k个子集每次把当前子集作为验证集,其余所有子集作为训练集进行模型的训练和評估;最后把k次评估指标的平均值作为最终的评估指标。

每次留下一个样本作为验证集其余所有样本作为训练集。样本总数为n依次对n個样本进行遍历,进行n次验证再将评估指标求平均值得到最终的评估指标。样本总数n较多的情况下留一验证法的时间开销极大。留一驗证是留p验证的特例留p验证是每次留下p个样本作为验证集,而从n个元素中选择p个元素有

种可能因此他的时间开销远高于留一验证。实際很少使用

不管是Holdout检验还是交叉检验,都是基于划分训练集和测试集的方法进行模型评估的然而,当样本规模较小时将样本集进行劃分会让训练集进一步减小,这可能影响模型训练效果自助法能维持训练集样本规模。

自助法是基于自主采样的检验方法自助法的验證过程:对于总数为n的样本集合,进行n次有放回的随机抽样得到大小为n的训练集。n次采样过程中有的样本会被重复采样,有的样本没囿被抽出过将这些没有被抽出过的样本作为验证集,进行模型验证

一个样本在一次抽样过程中未被抽中的概率为(1-1/n),n次抽样均未被抽中嘚概率为(1-1/n)^n当n趋于无穷大时,

因此当样本数很大时,大约有36.8%的样本从未被选择过可作为验证集。

为了进行超参数调优一般会采用网格搜索、随机搜索、贝叶斯优化等算法。超参数搜索算法包含的要素:1. 目标函数算法需要最大化/最小化的目标;2. 搜索范围。一般通过上限和下限来确定;3. 算法的其他参数如搜索步长。

网格搜索可能是最简单、应用最广泛的超参数搜索算法他通过查找搜索范围内的所有嘚点来确定最优值。如果采用较大的搜索范围以及较小的步长网格搜索有很大概率找到全局最优值。然而这种搜索方式十分消耗计算資源和时间,特别是需要调优的超参数比较多的时候在实际应用中,网格搜索法一般会先使用较广的搜索范围和较大的步长来寻找全局最优值可能的位置;然后会逐渐缩小搜索范围和步长,来寻找更精确的最优值这种操作方案可以降低所需的时间和计算量,但由于目標函数一般是非凸的所以很可能会错过全局最优值。

随机搜索的思想和网格搜索比较相似只是不再测试上界和下界之间的所有值,而昰在搜索范围内随机选取样本点理论依据是,如果样本点集足够大那么通过随机采样也能大概率地找到全局最优值或其近似值。随机搜索一般会比网格搜索更快但是和网络搜索的快速版一样,它的结果也是没法保证的

贝叶斯最优算法在寻找最优超值参数时,采用了與网格搜索、随机搜索完全不同的方法网格搜索和随机搜索在测试一个新点的时候,会忽略前一个点的信息;而贝叶斯优化算法则充分利用了之前的信息贝叶斯优化算法通过对目标函数形状进行学习,找到使目标函数向全局最优值提升的参数它学习目标函数形状的方法是,首先根据先验分布假设一个搜集函数;然后,每一次使用新的采样点来测试目标函数时利用这个信息来更新目标函数的先验分咘;最后,算法测试由后验分布给出的全局最值最可能出现位置的点对于贝叶斯算法,有一个需要注意的地方一旦找到了一个局部最優值,他会在该区域不断采样所以很容易陷入局部最优值。为了弥补这个缺陷贝叶斯优化算法会在探索和利用之间找到一个平衡点,探索就是在还未取样的区域获取采样点;而利用则是根据后验分布在最可能出现全局最值的区域进行采样

Google Vizier一个超参数调优系统。能自动優化超参数

过拟合是指训练模型对于训练数据拟合呈过当的情况,反映到评估指标上就是模型在训练集上的表现很好,但在测试集和噺数据上的表现较差欠拟合指的是模型在训练和预测时都表现不好的情况。

欠拟合是没有很好的捕捉到数据的特征不能很好的拟合数據。过拟合是模型过于复杂把噪声数据的特征也学习到模型中,导致模型泛化能力下降在后期应用过程中很容易输出错误的预测结果。

1) 从数据入手获得更多的训练数据。使用更多的训练数据是解决过拟合问题最有效的手段因为更多的样本能够让模型学习到更多更有效的特征,减小噪声的影响直接增加数据一般是困难的,可以通过一定的规则来扩充训练数据比如:在图像分类问题上,可以通过图潒的平移、旋转、缩放等方式扩充数据;更进一步地可以使用生成式对抗网络来合成大量的新训练数据。

2) 降低模型复杂度在数据较少時,模型过于复杂是产生过拟合的主要因素适当降低模型复杂度可以避免模型拟合过多的采样噪声。例如:在神经网络模型中减少网络層数、神经元个数等;在决策树模型中降低树的深度、进行剪枝等

3) 正则化方法。给模型的参数加上一定的正则化约束比如将权值的大尛加入到损失函数中。以L2正则化为例:

这样在优化原来的目标函数C0时,也能避免权值过大带来的过拟合风险

4) 集成学习方法。集成学习昰把多个模型集成在一起来降低单一模型的过拟合风险,如bagging方法

1) 添加新特征。当特征不足或现有特征与样本标签的相关性不强时模型容易出现欠拟合。通过挖掘上下文特征、ID类特征、组合特征等新的特征往往能够取得更好的效果。在深度学习中有很多模型可以帮助完成特征工程,如因子分解机、梯度提升决策树、deep-crossing等都可以成为丰富特征的方法

2) 增加模型复杂度。简单模型的学习能力较差通过增加模型的复杂度可以使模型拥有更强的拟合能力。例如在线性模型中添加高次项,在神经网络模型中增加网络层数或神经元个数等

3) 减尛正则化系数。正则化是用来防止过拟合的但当模型出现欠拟合现象时,则需要有针对性地减小正则化系数

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信