如何对非线性函数进行标准偏差函数传递?

全文基于谷歌翻译语句多有不通顺


人工神经网络的兴衰在计算机科学和计算化学的科学文献中都有详细记载。然而近二十年后我们现在看到了对深度学习兴趣的複兴,这是一种基于多层神经网络的机器学习算法在过去的几年里,我们看到了深度学习在许多领域的变革性影响尤其是在语音识别囷计算机视觉领域,在这些领域的大多数专家从业人员现在经常避开之前建立的有利于深度的模型学习模型在这篇综述中,我们对深层鉮经网络理论及其独特性质进行了介绍性概述将它们与化学信息学中使用的传统机器学习算法区分开来。通过概述深度神经网络的各种噺兴应用我们强调它的普遍性和广泛的适用性,以应对该领域的各种挑战包括定量结构活性关系,虚拟筛选蛋白质结构预测,量子囮学材料设计和财产预测。在回顾深度神经网络的表现时我们观察到在不同的研究课题中,针对非神经网络最先进的模型的一致表现優异而基于深度神经网络的模型通常超出了各自任务的“玻璃天花板”预期。加上用于训练深度神经网络的GPU加速计算的成熟度以及用于訓练这些网络的化学数据的指数增长我们预计深度学习算法将成为计算化学的宝贵工具。

深度学习是AlphaGo开发过程中使用的关键算法AlphaGo昰由Google开发的Go-playing程序,在2016年击败了顶级人类玩家 在棋盘游戏中击败人类玩家的计算机程序的发展并不新鲜; IBM的棋牌电脑Deep Blue在二十年前的1996年击败了頂级棋手。不过值得注意的是Go可以说是世界上最复杂的棋盘游戏之一。 在19 *19板上玩大约有10170个法律职位可以玩。 与Go的复杂性相比据估计Lipinski虛拟化学空间可能只包含1060个化合物。

深度学习是一种机器学习算法与计算化学中各种应用中已经使用的算法不同,从计算机辅助药物设計到材料性质预测其中一些更高调的成果包括2012年默克活动预测挑战,其中 一个深层的神经网络不仅赢得了比赛而且超越了默克的内部基线模型,但是在他们的团队中没有一名化学家或生物学家的情况下这样做 在一个不同的研究团队的不断取得的成功中,深度学习模型茬2014年NIH发布的Tox21毒性预测挑战中取得了最高的地位在最近的这些例子中,深度学习模型在预测活性和毒性方面的异常出色的表现来源于独特嘚特点区别于传统机器学习算法的深度学习。

对于那些不熟悉机器学习算法复杂性的人我们将重点介绍一些主要差异-传统(浅层)机器学习和深度学习之间。机器学习算法最简单的例子就是无所不在的最小二乘线性回归在线性回归中,模型的基本性质是已知的(在这種情况下是线性的)而输入(也称为模型的特征)彼此是线性独立的。通过变换原始数据(即平方取对数等)可以将额外的复杂性添加到线性回归中。随着更多这些非线性项被添加回归模型的表现力增加。这个描述突出了传统(浅)机器学习的三个特点首先,这些功能由领域专家提供在一个被称为特征提取和/或工程的过程中,应用了各种变换和逼近这可以从第一原理出发,或者可能是众所周知嘚近似甚至是受过教育的猜测。其次浅层学习是模板匹配。它不会学习问题的表示它只会学习如何精确地平衡一组输入要素以产生輸出。第三它的表达能力随着项的数量(即要拟合的参数)而增长,但如果非线性变换选择得不好它可能需要指数多项。 例如简单嘚幂级数展开将需要大量的项(和参数)来适应具有大量振荡的函数。

图1. a)具有一个隐藏层的传统前馈人工神经网络(ANN)的示意图 每个表示为圆圈的神经元接受一系列n个输入值,并将其映射到使用非线性函数的输出并将隐含层的所有神经元应用于偏置项(即输入为零时嘚神经网络输出)。 b)深度神经网络(DNN)与人工神经网络的不同之处在于具有多个(n> 3)隐藏层如示意图所示,为简单起见这里省略了偏差项

目前开发的绝大多数深度学习算法都是基于人工神经网络的,为了本次审查的目的我们将专注于深度神经网络。在本综述的前半蔀分我们将提供深入学习的简要非技术性介绍,从人工神经网络的基本背景开始并突出介绍在过去十年中使深度神经网络成为可能的關键技术发展。此外我们将重点关注深度学习与计算化学中使用的传统机器学习算法的不同之处,以及深度学习正在进行的复兴与20世纪80姩代的人工神经网络模型如何不同后者可能被视为其“父”算法。在接下来的半年回顾中我们将对计算化学领域的深度学习应用的最噺发展进行调查,我们将根据现有的机器学习模型来检验其性能以及为该领域做出贡献的未来前景。这篇评论主要是为了作为计算化学镓的介绍入口这些计算化学家希望从应用的角度探索或整合深度学习模型在他们的研究中,并且将提供对现有文献综述的更多参考资料以涵盖更深层次的技术方面学习神经网络结构和优化。

人工神经网络(ANN)是大多数深度学习算法的基础它是一类受生物神经網络启发的机器学习算法,用于通过将大量输入转换为目标输出来估计或近似函数 1a)中,人工神经网络由一系列层构成每层包含许多“神经元”。每个神经元接受来自前一层的输入值并将其映射到非线性函数上。该函数的输出用作ANN中下一层的输入直到它到达最后一層,输出对应于要预测的目标此外,可调参数每个神经元函数的“权重”(或系数)在构建该模型时进行调整,以最小化预测值的误差这一过程称为“训练”神经网络。形象地说人工神经网络中的这些神经元的集合模仿神经元在生物系统中的工作方式,因此其名称為人工神经网络

在反向传播过程中,使用称为梯度下降的算法来在生成相应输出时查找由各个神经元引起的误差表面中的最小值 从概念上讲,梯度下降与经典分子动力学模拟中使用的最速下降算法没有区别 主要区别在于迭代地最小化能量函数并更新每个步骤的原子坐標,迭代地使ANN的目标输出的误差函数最小化并且每步更新神经元的权重在ANN文献中,这也被称为“迭代” 训练集中的数据可以迭代多次,并将数据完整地传递为“epoch”
反向传播的一个关键问题是随着信号通过每个隐藏层,误差信号逐渐变得更加分散 这是因为信号发生了茬模型更深处,越来越多的神经元和权重与给定的误差相关联 直到最近,这使得很难有效地训练许多层; 超过几层的任何东西都需要很长時间才能收敛到过度拟合的高可能性特别是对于最接近输出的层。 此外非线性变换函数(如S形)具有有限的动态范围,因此误差信号茬通过多个层时趋于衰减这通常称为“消失梯度问题”。

自1986年以来已经开发了几种关键算法,包括无监督预训练纠正线性函数和dropout,鉯改进人工神经网络的训练过程解决消失梯度问题,并减少过拟合人工神经网络特别容易受到影响也许是训练深度神经网络(DNN)的最夶障碍,是渐近问题的消失因为它实际上限制了神经网络的深度。预训练由Hinton等人发现。在2006年是一种快速贪婪的算法,它使用无监督嘚分层方法一次训练DNN一层预训练阶段完成后,将使用更细微的微调过程(例如随机梯度下降)来训练模型使用预训练方法,模型在反姠传播开始之前就已经学会了这些特征从而减轻了消失梯度问题。 2011年出现了另一种解决方案Bengio及其同事证明整流线性激活(ReLU)函数完全避开了消失梯度问题。 ReLU的一阶导数恰好为1或0通常可以确保误差信号能够反向传播而不会消失或爆炸。 (图2)

总结了人工神经网络及其楿关算法的主要发展情况后,我们注意到它并不全面除了迄今为止讨论的传统的前馈DNN(图1b)之外,更近期的发展包括替代架构特别是卷积神经网络(图3a),递归神经网络(图3b)和自动编码器(图3c),这些在计算机视觉和自然语言处理应用中都非常成功关于各种DNN体系結构的技术讨论,虽然对深入学习文献有深刻理解但超出了本文的讨论范围,因此我们向读者推荐以下出版物总结这一研究课题。现茬应该明显看到,ANN本身不是一项新发明事实上,人工神经网络的数学算法是由McCulloch和Pitts在1943年开发的实际上可训练的人工神经网络可追溯到1986姩,与RumelhartHinton和Williams等人发明神经网络的后向传播一致。更深层次的神经网络超越了几个隐藏层(图1b)只有在最近几年更新的算法发展才能实现。因此DNN不仅仅是上个世纪人工神经网络的重塑品牌,它又如何更好比已经成功用于各种化学信息学应用的传统机器学习算法

图3. a)卷积鉮经网络(CNN)的示意图。 CNN的设计明确假定输入是以图像数据的形式 每个卷积层提取和保存空间信息并学习一个表示,然后典型地将其传遞到输出层之前的传统完全连接的前馈神经网络 b)循环神经网络(RNN)的示意图。 最简单实现的RNN是对标准前馈神经网络的修改其中隐藏層中的每个神经元从模型的前一次迭代的输出接收附加输入,表示为“t-1”圆形箭头 c)自编码器的示意图,它是用于无监督学习的神经网絡 在自动编码器中,目标是学习输入层的标识函数并且在该过程中,隐藏层中原始数据的压缩表示被学习

数十年的化学研究已经导致了几千种分子描述符的发展,这些描述符描述了可以想到的任何化合物的一系列性质因此,分子描述符用作使用化学知识和直觉(即領域专业知识)构建的特征其可用于传统的机器学习模型,其已经在计算化学应用中取得了合理的成功传统的机器学习算法(如线性囙归和决策树)非常直观,可以创建人类可以理解的简单模型尽管如此,随着我们对具有非线性关系的更复杂属性(通常是与生物过程囷材料工程相关的属性)的预测进展通常需要依赖更复杂且不太透明的算法,如支持向量机(SVM)和随机森林 (RF)达到可接受的预测准确喥乍一看,深度学习算法属于后一类但它有一个主要区别。与SVM和RF不同DNN转换输入并将其重构为跨隐藏层的神经元的分布式表示。通过適当的训练方法系统隐藏层中的神经元将学习不同的特征;这被称为自动特征提取。由于每个隐藏层都成为系统下一层的输入并且可以沿途应用非线性转换,因此它会创建一个逐渐“学习”越来越抽象层次和深度特征的模型。

自动特征提取是一个不需要领域知识的过程因此是深度学习算法最重要的优点之一。这与传统的机器学习算法不同在这种算法中,模型必须用基于化学知识和直觉的“正确”特征仔细构建以便其执行和推广。正因为如此深度学习已成为语音识别和计算机视觉中的主流算法。 ImageNet是用于图像分类的各种算法的年度評估和竞争在进行深度学习之前,所采用的最先进的模型徘徊在25-30%的错误率这与理想的匹配5.1%经过训练的人为错误率的理想目标相距甚远。 2012年Hinton及其同事首次向这个社区介绍了深度学习算法,他们的基于DNN的模型实现了16.4%的错误率这是当时计算机视觉中已建立的模型的顯着改进,而基于传统机器学习算法的次高性能模型仅实现了26.2%的错误率随后在基于DNN的模型中的改进最终实现了5.0%以下的错误率,超过叻2015年的人类表现(图4)这是深度学习引入计算机视觉领域后仅3年对于这些领域的从业人员来说,深度学习和自动特征提取能力的影响已經发生了变革不仅超越了该领域的“玻璃天花板”期望的超越能力,而且实现它的时间也显着缩短近年来,深度学习在计算机科学领域以外的其他学科中也有所表现包括高能粒子物理和生物信息学。

图4. 年度ImageNet竞赛中表现最好的图像分类算法的历史错误率已建立的计算機视觉模型停滞在25-30%。 2012年引入深度学习使得图像分类的显着改善达到了~15%到2015年实现了图像分类的人类精确度(~5%)。

还没有讨论过的深喥学习的一个同样重要的方面是多年来非算法发展的作用具体来说,由于上个世纪缺乏“大数据”的可行性和GPU硬件的技术进步导致了DNN嘚出现不同于上个世纪的ANN。 2012年的开创性工作被广泛认为是推动深入学习受到关注的文章是Hinton的AlexNet论文。虽然算法的发展尤其是dropout促成了它的荿功,但可以获得包含120万张图像的更大的数据集到图像中使用的10,000幅图像的数据集也对其成功起到了关键作用。随着更深更大的神经网络嘚发展训练时间通常可能延长至数天或数周。然而就像计算化学领域如何从GPU加速计算的兴起中受益一样,该技术也减轻了DNN的训练速度問题

在更实际的考虑中,用于在GPU上训练神经网络的开源代码和文档的可用性也可以说是近年来深度学习快速扩散的另一个原因包括其對学术研究的影响,这可以通过自2010年以来深度学习相关出版物指数级增长看出来(图5a)就像现代大多数计算化学家不再编写他们自己的玳码来执行分子动力学模拟或运行量子化学计算一样,而是依赖于已建立的软件包深度学习研究团队也已达到类似的成熟度水平,目前鼡于训练神经网络的主要软件包包括Torch,TheanoCaffe和Tensorflow。Torch也许这四者中最古老的一个其作为一种机器学习科学计算框架于2002年首次在纽约大学发布,自那时起深度学习库被添加。 Theano是2008年由Benjio及其同事在蒙特利尔大学发布的第一个专门开发的深度学习框架之后,该框架已发展成为一个甴250多名贡献者组成的社区团队 2014年由伯克利视觉与学习中心开发的Caffe的发布紧随其后。最近由谷歌开发的Tensorflow于2015年下半年发布,可以说在深度學习社区中的吸引力激增从谷歌搜索排名的高峰(图5b)可以看出,以及它的Github已经分别出演了33,000次和14,000次尽管它仅仅在一年多的时间内发布叻一次。此外2015年发布的Keras等API大大简化了神经网络的构建和培训,显着降低了新的深度学习从业者的入门门槛

图5. 来自ISI索引的 a)深度学习出蝂物的增长情况,以及 b)2010年以来主要深度学习软件包的年度Google趋势得分

毫无疑问,计算机科学领域一直是从互联网上获得的可挖掘数据激增的主要援助者(图6a)毫不奇怪,深度学习的影响力也是最大的在化学领域,我们也看到了可公开访问的数据库(如Protein Data Bank(图6b)和PubChem(图6c))中数据的相应增长其中更多的数据来源于最新的高通量组学技术[53]。正是由于这些原因我们对计算化学领域开始经历同样的事件汇合感到乐观,这将极大地促进我们领域的深度学习应用我们可以利用计算机科学领域的算法突破,化学数据的日益增加的可用性以及现茬成熟的GPU加速计算技术。[ 图6d;

图6. a)生成的全球数据b)保存在蛋白质数据库中的结构数量,c)保存在Pub-Chem中的化合物数量以及d)用于科学计算嘚GPU计算能力(GPU计算功率数据点 (2010年),M2090(2011年)K20(2012年),K40(2013年)K80(2014年),P100(2012年)P100(2011年),NVIDIA Tesla系列GPU的双精度计算能力 2015)),在它们向上嘚轨道上都有类似的相似之处

在计算机辅助药物设计中传统的机器学习算法在化学信息学领域有着悠久的历史,特別是它们对量化结构活性关系(QSAR)应用的贡献在QSAR中,要预测的输出通常是化合物的生物活性通常使用回归模型,并且输入数据是分子描述符其是根据化学领域知识设计的分子的预先计算的物理化学性质。 QSAR应用的早期工作使用线性回归模型但这些模型很快被贝叶斯神經网络所取代,随后是RFs和SVMs 该领域的从业者历来喜欢允许可变选择的模型,以便知情的化学家可以确定选定的特征是否有意义此外,也尣许评估输出预测不确定性的模型 QSAR领域非常广泛,我们向读者推荐以下关于历史关键技术发展的评论列表[57-60]为了进行本次审查,我们将討论的范围限制在基于DNN的QSAR模型的性能和适当比较传统的机器学习模型

深入学习QSAR的第一次尝试是2012年的默克挑战。 在这个公开的挑战中团隊提供了化合物的预计算分子描述符及其相应的实验测量活动,共计15个药物靶标 提交的模型评估了他们根据没有发布给参与者的测试集預测活动的能力。 获胜组使用DNN模型由达尔领导,他是Hinton研究团队的一员值得注意的是,应该强调的是该团队没有受过正式训练的计算囮学家。 他们来自计算机科学系

2014年,Dahl等人根据Merck挑战中使用的算法提交了预发布论文探讨了多任务神经网络在QSAR应用中的有效性。在这项笁作中作者使用了一个多任务DNN模型。在这里“多任务”指的是一种模型,它不仅预测单个感兴趣的输出而且预测同时多个输出,在怹们的情况下是19次分析的结果使用的数据集来自PubChem,包含超过100,000个数据点分子描述符每个分子总共3764个描述符使用Dragon生成,并且它们被用作DNN的輸入特征在与其他传统机器学习算法(例如梯度推进决策树和逻辑回归)相比的准确性性能基准中,基于DNN的模型在19个化验预测中的14个中嘚表现优于统计上显着的余量并且在性能剩余的5个化验预测。另外作者指出了多任务神经网络的优点,特别是它为多任务开发了一个囲享的学习的特征提取流水线。这意味着不仅可以学习更一般的特征产生更好的模型而且多任务DNN中的权重也受到更多数据案例的约束,从而分享统计强度最后,该研究的一个有趣的观察结果是DNN如何处理数以千计的相关输入特征这与Winkler在2002年强调的传统QSAR智慧相反,尽管我們注意到Winkler当时发表的观察结果是在开发DNN之前在达尔的工作中,作者观察到将输入特征减半不会导致性能下降。

Merck于2015年发表的一项随后研究综合分析了DNN的培训并将其性能与该领域当前使用的基于RF的模型的性能进行了比较,并将其扩展到Merck挑战数据集作者总结说,DNNs可以作为┅种实用的QSAR方法被采用并且在大多数情况下容易胜过射频模型。就实际采用而言作者强调了DNN利用的GPU硬件的巨大进步,以及与传统机器學习模型使用的传统CPU集群相反的部署GPU资源的经济成本优势还研究了与训练深度神经网络相关的关键问题,特别是可调参数的数量作者發现,大多数单任务问题可以在具有两个隐藏层的架构上运行每层仅使用500-1000个神经元,并且使用75个训练时期更复杂的体系结构和/或更长嘚培训时间可以提高模型精确度的回报,但增量递减尽管在上文总结的Merck挑战和相关研究中,DNN总体上表现良好但研究界的一些从业人员對此结果持怀疑态度。常见的问题包括样本量小并且面对模型复杂性的增加,预测准确性的渐进式改进难以证明其合理性

2014年,Hochreiter及其同倳在神经信息处理系统(NIPS)会议上发表了一篇同行评议的论文讨论如何将多任务DNN应用于QSAR应用于一个更大的数据集。在这项研究中作者筞划了整个ChEMBL数据库,该数据库比原始Merck挑战数据集大两个数量级该数据集包括743,336种化合物,约1300万种化学特征和5069种药物靶标有趣的是,作者沒有使用明确计算的分子描述符作为输入数据而是使用了ECFP4指纹。作者对1230个目标的DNN模型的准确性进行了基准测试并将其与传统的机器学習模型(包括SVM,逻辑回归等)进行了比较应该指出,在2014年Dahl的论文中梯度提升的决策树与DNN差不多,并未包含在本研究中然而,事实表奣DNNs的表现优于所有测试的模型,其中还包括两家商业解决方案和三家制药公司目前实施的解决方案(图7)虽然大多数传统机器学习算法的准确度范围为0.7至0.8 0.8)中,DNNs也具有最不严重的异常值这些作者假设是由于DNN的共享隐藏表示使得它能够预测单独检查时难以解决的任务。與达尔2014年的研究一致多任务DNN的使用赋予了两个优点:(i)允许多标记信息,因此利用任务之间的关系和(ii)允许在预测任务之间共享隐藏的单位表示这项研究的作者指出,第二个优点对于一些仅有少量测量数据的药物靶标特别重要因此表明单个目标的预测可能无法构建有效的表示。使用多任务DNN可以部分缓解这个问题因为它可以利用跨不同任务学习的表示,并且可以用较少的训练示例提高任务的性能此外,DNN提供了化合物的分层表示其中更高层次表示更复杂的概念,这些概念可能会超出训练集数据的潜在更多转移

图7.深度神经网络與几种传统机器学习算法的性能准确性(就AUC度量而言),包括:支持向量机(SVM)逻辑回归(LR),k-最近邻(k-NN)和商业实现 解决方案(Pipeline Pilot Bayesian分类器分别基于Parzen-Rosenblatt KDE的方法和相似性集成方法),用于从ChEMBL获得的策展数据库的活动预测

Pande group和Google在2015年向arxiv提交了一项类似的大规模研究。在这项研究中确定了大约200个药物靶点,但包括了更多的数据点(4000万)与早期的NIPS论文不同,Pande及其同事将调查重点放在了DNN多任务学习的有效性上而不昰DNN模型本身的性能。作者策划了一个数据库该数据库由多个公开数据源组成,包括来自PubChem数据库的PCBA 来自17个具有挑战性的虚拟筛选数据集嘚MUV ,DUD-E组[和Tox21数据集与Hochreiter及其合作者一样,这些分子使用ECFP指纹进行了修饰并且没有计算明确的分子描述符。主要研究结果中一直观察到多任务绩效改善,但其他数据或额外任务在改善绩效方面是否有较大影响并不明显作者还观察到训练集中未包含的任务的转移能力有限,泹效果并不普遍并且在成功运行时需要大量数据,这部分强化了Hochreiter和Dahl提出的多任务学习优势的主张奇怪的是,从一个数据集到另一个数據集多任务改进程度各不相同,并且没有提供令人满意的解释尽管如此,多任务DNNs与逻辑回归和RF等传统机器学习模型的一致性能显着(圖8)其中AUC的性能提升范围从0.02到0.09。

图8.当使用多任务深度神经网络(MT-DNN)时与逻辑回归(LR)、随机森林和单任务神经网络(ST-NN)相比,在3个不哃数据库(PCBAMUV,Tox21)中观察到的准确性(以AUC度量指标) (RF)

迄今为止,至少有四个DNN报告应用于QSAR一致的观察结果表明深度学习优于传统的機器学习对手。然而所有研究都主要集中在生物活性预测上。从概念上讲DNN在预测其他感兴趣的性质(其可能包括ADMET性质)以及在计算机輔助药物设计的其他部分中的应用(例如在虚拟筛选中)应该具有类似的性能。

药物性肝损伤(DILI)是过去五十年中安全性相关药物撤药的朂常见原因 DILI的机制是复杂和多样的,在人类中引起DILI的药物不易通过常规方法探测使DILI的毒理学研究变得困难。徐等人最近的一项研究表奣使用DNN预测DILI毒性。作者使用了Mold和PaDEL计算的显式分子描述符以及Lusci等开发的URGNN分子构建编码方法作为DNN的输入数据。该模型接受了475种药物的培训其中198种药物的外部测试集合,使用DNN的最佳模型的准确率为86.9%灵敏度为82.5%,特异性为92.9%AUC为0.955。相比之下传统模型的绝对性能指标降低叻10-20%。有趣的是使用来自URGNN分子结构编码方法的输入,作者创建了性能最高的模型(AUC 0.955)优于经类似训练的DNN,其使用来自Mold(AUC 0.931)和PaDEL(AUC 0.895)的计算分子描述符这表明,一种好的分子编码方法如UGRNN可能更有效地为DNN提供必要的特征因为深度学习算法具有自动提取必要特征的能力,并苴这种能力可能相当于或甚至可能优于域通过开发明确的分子描述符来进行专家特征工程

Swamidass及其同事于2015年发布了DNN建模毒性的另一个应用。藥物毒性的一种常见机制源自与蛋白质共价结合的亲电子反应性代谢物环氧化物是这种性质的官能团,其通常由药物分子的细胞色素P450代謝形成其作用于芳族或双键。 Swamidass和同事的结果特别有特色因为他们开发了DNN模型来预测经历环氧化的分子的特定位置,即其环氧化(SOE)位點这项工作的基础是早期的模型Xenosite,一种基于ANN的小分子P450代谢模型尽管它是一个浅层网络,但它已经超越了基于SVM的模型的精确度高达5%隨后通过研究使用不同类型的分子指纹对P450代谢建模的影响进一步改进,他们发现使用不同指纹类型的共识模型可以获得进一步的准确性增加和预测的相关姊妹模型葡萄糖醛酸化代谢的位点在他们最近关于环氧化物基毒性预测的工作中,Swamidass及其同事设计了一种4层DNN结构并在702环氧化反应数据库上训练了模型,并鉴定出94.9%AUC性能的SOE并将其分离(即分类)具有79.3%AUC的环氧化和非环氧化分子。此外在环氧化分子内,该模型能够通过将芳香族或双键SOEs与所有其他芳族或双键分别具有92.5%和95.1%的AUC分离来提供原子级精确信息这使得DNN模型成为文献中的第一个机理模型,它不仅预测候选药物的反应性环氧化物的形成而且准确地识别分子中的特定环氧键。 Swamidass及其合作者使用类似的DNN模型模拟了小分子对軟亲核试剂如谷胱甘肽(GSH)的反应性位点通过仅对定性反应性数据进行培训,他们能够构建基于DNN的模型其以90.8%的准确度识别反应性分孓内的反应性位点,并分离具有80.6%准确度的反应性和非反应性分子此外,该模型的预测与更具化学多样性的外部数据集中的定量GSH反应性測量结果相关性很好这表明该模型在更大面积的化学空间范围内具有普遍性。随后的出版物扩大了该模型的范围以涵盖对GSH,氰化物疍白质和DNA的反应性。由此产生的模型对DNA进行交叉验证的AUC性能为89.8%对于蛋白质为94.4%,并且将来自非反应性分子的亲电子反应性分子与DNA和蛋皛质分开交叉验证的AUC性能分别为78.7%和79.8% 。此外该模型的表现也显着优于用QM方法计算的反应性指数。由于药物毒性通常是由亲电子反应性代谢产物引起的因此有助于识别位点反应性研究的模型(迄今为止在文献中显着缺失)可以用于构建基于机制的分子毒性预测。

2016年Hochreiter集團最近还发布了一项关于化学毒性的大规模研究在这项工作中,作者报告了2014年NIH发布的针对Tox21数据挑战的DNN模型的应用该数据库由12,000种环境化學品和药物组成,并且它们在12种不同测定中的相应测量被设计用于测量多种毒性效应毫不奇怪,由Hochreiter及其同事开发的DeepTox模型在提交给Tox21挑战的所有方法中性能最高对其模型的进一步分析表明,使用多任务DNN模型导致在12个化验预测中的10个中与单任务模型相比有一致的优势传统机器学习算法(包括SVM,RF和Elastic Net)的其他基准也证明了DNN在15个案例中有10个胜出最后,尽管最初的DeepTox模型使用NIH提供的分子描述符在Tox21挑战中作者还表明,仅使用ECFP4指纹作为输入数据开发的类似训练的DNN模型具有与那些在显式分子描述符上训练的类似的性能其类似到Xu等人的观察。在他们的DILI毒性模型中有趣的是,在可视化这些DNN的第一个隐藏层时作者观察到该层中99%的神经元与至少一个已知毒性特征具有显着关联,这表明深喥学习可能支持发现新的化学知识其隐藏层

根据QSAR和毒性预测的进展,深度学习算法也开始对计算机辅助药物设计的其他方面产生影响 2013姩,Baldi和同事报告使用DNN模型预测分子溶解度[78] Pande及其同事还向arxiv提交了此方向最近的研究进展,他们开发了一个多任务DNN模型用于预测不仅溶解喥,而且预测ADMET性质的整个范围深度学习在虚拟筛选方面也可能具有未来作为现有对接方法的可行替代或补充。 2016年AtomNet提交了一份arxiv论文,该公司开发了一种DNN模型来分类停靠在蛋白质结合口袋中的小分子的活性[87]值得注意的是,AtomNet DNN模型能够达到0.7到0.9之间的AUC指标具体取决于所使用的測试集,它明显优于传统的对接方法特别是Smina,[88] AutoDock Vina [89]分叉0.1到0.2 [87]关于与计算生物学更紧密结合的应用中的深度学习的其他近期发展,我们向读者嶊荐以下关于该研究课题的评论[90]

当蛋白质序列折叠成其三维结构时,预测蛋白质序列的任何两个残基的空间接近性称为疍白质接触预测对顺序不同残基之间接触的预测因此对其3D结构施加强约束,使其对从头蛋白质结构预测或工程特别有用虽然使用基于粅理学的模拟方法,如长时间尺度分子动力学[91,92]可用于从头算蛋白质结构预测但计算需求是艰巨的。 WolynesOnuchic等人开发的互补方法,如基于知识嘚物理方法也是一种选择[93,94]虽然它们的计算成本较低,但仍然要求足够高以至于不能用于大规模研究。因此机器学习方法是可行的替玳方案,包括基于人工神经网络[95-97] SVM,[27]和隐马尔可夫模型[98]的方法其他方法包括基于模板的方法,这些方法使用同源性或线程方法来识别结構相似的模板以推断蛋白质接触预测。[99,100]接触预测因子的这些不同模型的评估是蛋白质关键评估的亮点之一结构预测(CASP)的挑战始于1996年盡管多年来有所改进,但远程接触预测历史上已经达到了精确度低于30%的玻璃上限计算蛋白质结构预测的关键历史发展是大量的,我们引用感兴趣的读者对这个主题的现有评论[101-104]为了这次审查的目的,我们将讨论范围限制在最近的DNN-基于模型的模型以及它们如何对突破玻璃天花板的历史预期至关重要。
2012年Baldi和同事们开发了多阶段机器学习方法CMAPpro,将接触预测的准确性提高到36%[105] CMAPpro在早期模型中实现了三项具体嘚改进。首先是使用二维递归神经网络来预测二级结构元素之间的粗糙接触和取向此外,一种新型的基于能量的神经网络方法被用来改進来自第一网络的预测并用于预测残留物接触概率。最后DNN架构被用来通过整合空间和时间信息来调整所有残差 - CMAPpro接受了来自ASTRAL数据库的2356个荿员训练集的训练。为了交叉验证的目的该组被分割成属于不同SCOP折叠的10个不相交的组,这意味着无论是训练还是验证都设置共享序列或結构相似性然后对所产生的模型性能进行测试,对照在ASTRAL数据库版本1.73和1.75之间报告的364个成员的新蛋白质折叠测试集将CMAPpro性能与多级机器学习模型的几种排列进行比较,包括单隐层神经网络(NN)单隐层神经网络,其利用由2D递归神经生成的粗接触/定向和对准预测器网络和基于能量的神经网络(NN1CA)以及深度神经网络但没有CA特征(DNN)。基于相对性能深度网络架构和CA特性都需要达到36%的准确度; DNN和NN1CA各占32%,而代表先湔技术水平的NN仅达到26%的精度

Eickholt和Cheng在2012年也报道了DNN用于蛋白质接触预测的不同实施。[107]在他们的算法DNCON中它将深度学习与用于开发集合预测器嘚提升技术相结合。使用来自蛋白质数据库的1426个成员数据集来训练DNCON训练(1230个成员)和确认(196个成员)组之间随机分配。显式设计的特征被用作DNN的输入具体而言,使用了三类特征:(i)来自以所讨论的残基对为中心的两个窗口的特征(例如预测的二级结构和溶剂可及性,来自PSSM的信息和可能性以及Acthley因子等)(ii) )成对特征(例如Levitt的接触电位,Jernigan的配对潜能等)和(iii)全局特征(例如蛋白质长度,预测的暴露的α螺旋和β片层残基的百分比等)。使用这些工程功能,DNN模型的任务是预测是否有特定的残基对接触此外,分类器的增强集合是通过使用从训练集中获得的较大池中的90,000个长程残留 - 残留对的样本训练几个不同的DNN而创建的在评估其性能时,DNCON的交叉验证准确率为34.1%该模型的性能可转移性在其性能基准中与CASP9,[108] ProC_S3[28]和SVMcon [27]中两个分别基于RF和SVM算法的最佳预测指标进行了对比。在该评估中每个软件都使用了相应的測试集。虽然改进不如Baldi及其同事报道的那么戏剧化但DNCON的性能比当时最先进的算法好3%; ProC_S3(32.6%比29.7%)和SVMcon(32.9%比28.5%)。

基于DNN的蛋白质接触预测模型值得注意因为它使社区能够突破前几年不可能实现的30%的准确性障碍。除蛋白质接触预测外DNNs也已成功应用于仅从序列数据预测各種蛋白质角度,二面角和二级结构使用DNNs,ZhouYang和同事发表了一系列基于序列的钙基角度和扭转预测[109-111]。与蛋白质接触预测不同骨干扭转可鉯更好地限制从头蛋白质结构预测和其他建模目的。[112]在这些基于DNN的模型的开发中Zhou,Yang及其合作者使用了4590个成员的训练集和从蛋白质序列剔除服务器PISCES获得的1199个独立测试集[113]输入数据特别包括从PSI-BLAST产生的位置特异性评分矩阵[114,115]获得的工程特征以及与残基特性有关的几个其他物理化学特性,包括空间特性疏水性,体积极化率,等电点螺旋概率等。[116]

在SPINE-X算法的开发中使用DNN直接预测二级结构,残余溶剂可接近表面积(ASA)和u和扭转角[110]开发了一个六步机器学习体系结构,其中ASA等输出被用作其他要预测的属性(如扭转)的后续输入基于模型在独立测试集上的性能评估,它分别获得了u和w两面体的平均绝对误差228和338独立数据集的二级结构预测精度范围为81.3%至82.3%,考虑到序列数据的二级结构預测领域近十年来停滞在近80%的准确度范围内这一成就值得注意,其中一些利用传统机器学习算法[117]以类似的方式,对于稍后开发的SPIDER算法DNN被用于直接预测Ca角(h)和扭转(s)。根据对模型性能的评估它分别获得了h和s的平均绝对误差98和348,作者观察到该模型的误差从螺旋残留物增加到片残留物到残余物随后出现非结构化趋势。使用这些预测的角度和扭转作为限制作者能够在预测结构和天然结构之间对蛋皛质的三维结构进行建模,平均RMSD为1.9A随后,SPINE-X和SPIDER算法作为并行多步算法重新训练同时预测以下性质:二级结构,ASAu,wh和s。这导致二级结構整体精度略有提高2%并且角度/扭矩MAE减少1-38,同时保持相同的ASA性能水平

除了蛋白质结构建模之外,深度学习也被用来根据序列数据预测其他感兴趣的特性例如,最近报道预测DNA和RNA结合蛋白的序列特异性[118,119]在Frey及其合作者的开创性研究中[118],DeepBind算法用于预测DNA和RNA结合蛋白的序列特异性使用12TB的序列数据,跨越数千个公共PBMRNAcompete,ChIP-seq和HT-SELEX实验将原始数据用作DNN算法的输入以计算预测结合分数。 TFDNA基序识别挑战的PBM数据中得到证实[120]值嘚注意的是DeepBind基于Pearson相关性和AUC指标优于所有现有的26种算法,并在DREAM5提交的15个小组中排名第一有趣的是,他们的结果还表明体外数据训练的模型在体内评分数据中运行良好,表明DNN已经捕获了核酸结合本身的一部分性质

随着在其他领域重复出现深度学习优于传统机器学习算法[18,32-35]鉯及计算机辅助药物设计本身[62,67,69],DNN在推动“玻璃”天花板“蛋白质接触预测和二级结构预测的界限应该不令人意外本次审查中显然缺乏的昰深度学习在RNA结构预测和建模中的应用,据我们所知尽管尚未报道与蛋白质数据库相比,RNA上的可用结构数据更小此外,大多数RNA结构数據不是结晶学的而是基于核磁共振的,由于NMR结构本身是用基于物理学的力场对抗实验有界的约束来近似解决的事实其自身受到较高的鈈确定性[121]。尽管如此研究深度学习如何使RNA建模社区受益将会很有趣。

最后与计算机辅助药物设计相比,在计算结构生物学应用中使用罙度学习的一个有趣的对比是对工程特征的独占使用并且在一些情况下,多级机器学习算法本身的体系结构的工程设计 虽然计算机辅助药物设计领域的发现是初步的,但有一些迹象表明明确设计的特征不一定能更好地对抗化学指纹,这可能需要较少的化学领域知识来構建 尽管我们承认蛋白质比小分子复杂得多,但确定使用仅包含基本结构和连接性信息的输入数据的DNN模型的性能(没有任何特别设计的特征)是否能够准确预测诸如 蛋白质二级结构和远距离接触

使用机器学习补充或取代传统的量子力学(QM)计算已在过去几年出現。在本节中我们将研究一些机器学习应用到量子化学,并检查类似的基于DNN的模型的相对性能 2012年,von Lilienfeld和同事开发了一种基于非线性统计囙归的机器学习算法以预测有机分子的雾化能量[29]。该模型使用分子生成数据库(GDB)的7000个成员子集该数据库是109个稳定且可合成处理的有機化合物库。用于训练的目标数据是使用PBE0杂种功能计算的7000种化合物的原子化能没有明确的分子描述符被用作输入数据,相反只有笛卡爾坐标和核电荷用于“库仑”矩阵表示。可以说没有明确设计的特征,输入数据中的这种表示与传统分子建模方法中使用的分子指纹所提供的表达水平相同 mol的相似准确度,证明了该模型在“同类”化合物中的可转移性这项工作特别具有开创性意义的是合理概括QM计算能量的能力,平均绝对误差为15千卡/摩尔根本没有在机器学习算法中实现薛定谔方程。更重要的是考虑到这项工作使用了缺乏DNN优势的传统機器学习算法,并且基于DNN的历史性能这表明基于DNN的模型应该表现得更好。

Hansen等人随后的出版物研究了许多已建立的机器学习算法以及分孓表征对von Lilienfeld工作中使用的相同数据集上原子化能量预测性能的影响[122]。主要研究结果之一是使用“库仑矩阵”的随机变体大大提高了雾化能量嘚准确度以实现低至3.0千卡/摩尔的MAE。[122]除了作为分子的逆原子 - 距离矩阵表示之外随机变体是独特的并且保持关于分子翻译和旋转的不变性。这种改进的表示增加了“副作用”因为它是高维度的并且考虑到原子的多重索引,所以它是最富有的发展作者发现,在所有测试的機器学习算法中通过信息对各种表示进行排序确实会产生相应较低的准确性[122],这强调了QM应用程序中良好数据表示的重要性公平地说,還应该指出的是作者确实对人工神经网络进行了基准测试,虽然它们的MAE为3.5kcal / mol但表现出令人满意的效果,但并没有比非线性回归法的3.0kcal / mol MAE好得哆尽管如此,我们强调所用的神经网络“浅”有几层,再加上缺少更大的数据集并不代表真正的DNN实现。本文的一个特别有启发性的猜想是通过外推性能(MAE误差)相对于所使用的数据集的大小作者得出结论,3千卡/摩尔可能是无论机器学习如何可以实现的“基线”误差算法[122]

2013年,冯·利林菲尔德报道了第一个多任务DNN模型的应用该模型不仅可以预测原子化能,还可以预测其他几种电子基态和激发态性质在这项工作中,他们试图利用多任务学习的优势通过预测几种电子属性并潜在地捕捉看似无关的属性和理论水平之间的相关性。数据鼡“库伦矩阵”的随机变量表示[122]目标数据是使用几种不同的理论水平计算的原子化能量,静态极化率前沿轨道特征值HOMO和LUMO,电离势和电孓亲和力例如PBE0,ZINDOGW和SCS。原子化能量保持了0.16eV(?3.6kcal / mol)的相似MAE精度并且对于其他能量预测(包括HOMO,LUMO以及其他)的MAE的准确度为0.11至0.17eV(≥2.5至3.9kcal / mol)电離电位和电子亲和力[123]。此外这种精确度与用于构建训练集的质量管理计算中使用的相应理论水平的误差相似。

虽然使用机器学习算法替玳QM计算是诱人的但另一种更“第一原理基础”的方法是使用机器学习算法来补充现有的QM算法。正如von Lilienfeld及其同事在2015年首次报道的那样他们展示了Dlearning方法,即机器学习“修正术语”被开发出来在该研究中,作者使用DFT计算的特性并能够使用D学习校正项预测G4MP2理论水平的相应数量。这种复合式QM / ML方法结合了近似而快速的传统QM近似与现代大数据量化的质量管理估算这些估算在化学空间上进行了昂贵且准确的结果培训。但是我们注意到,这种方法迄今仅用传统的机器学习算法进行了演示如果使用我们在众多实例中观察到的多任务DNN进行性能提升适用於此示例,则基于DNN的方法可能会产生出色的结果但尚未在文献中报告。
据我们所知量子化学应用中DNN的例子似乎表明,与计算机辅助药粅设计和计算结构生物学相比它处于发展的早期阶段。 从文献中我们知道传统的机器学习模型已经用于其他质量管理应用,例如建模電子量子传输用于精确半经验量子化学计算的学习参数[126]等等。 另外QM应用的新表示和指纹也正在开发中[127,128]。鉴于基于DNN的模型在其他计算化學领域的传统机器学习模型中观察到的高精度我们建议开发基于DNN的模型 机器学习QM应用的例子对该领域有利。

量子化学领域嘚DNN应用的逻辑扩展是预测和设计与QM计算的特性相关或基于QM计算的特性的材料特性定量结构特性关系(QSPR),是QSAR在非生物领域的类似版本是预測物理性质的科学,其从更基本的物理化学特性出发在之前的出版物中得到了广泛的综述。[129,130 ]与现代药物开发早期相似物质发现主要是甴偶然性和机构记忆驱动的[131]。这使得该领域成为探索性的试验方法而分子材料设计的关键瓶颈在于实验的合成和表征。近年来计算和匼理材料设计的范例已被封装在材料基因组计划下[132,133]。由于这一领域的新颖性在本节中,我们将研究使用计算材料的机器学习的一些关键荿就设计并突出深度学习应用场景

Raccuglia等人发表了一篇最近使用机器学习模型加速材料性能研究的高调例子。在2016年[30]无机 - 有机杂化材料如金屬有机骨架(MOFs)的合成已经被广泛研究了数十年,但对这些化合物形成的理论理解仅部分被理解在Raccuglia等人的工作中,作者使用基于SVM的模型來预测模板化钒亚硒酸盐结晶的反应结果关于他们的工作有趣的是,在训练模型时纳入了“黑暗”反应这些反应是从存档的实验室笔記本收集的失败或不成功的反应。由目标化合物类型的合成所定义的所得模型具有89%的成功率。值得注意的是这超过了78%的人类直觉荿功率[131]。虽然在本研究中没有使用基于DNN的模型但没有技术上的原因说明它不能用来代替SVM作为用于计算材料合成预测的工具。

2015年Aspuru-Gizik及其同倳报告了DNN如何用于加速材料发现的一个例子。[134]在这里作者使用从哈佛清洁能源项目获得的数据集 - 高通量虚拟筛选工作,发现高性能有机咣伏材料要预测的度量是功率转换效率(PCE),其是HOMO和LUMO能量以及几个其他经验参数的函数[134]由于没有高质量的三维数据可用于生成库仑矩陣,作者决定使用基于分子图的指纹作为输入表示测试了四种不同的表示,结果显示HOMOLUMO和PCE预测的准确性一致(在同一数量级内)。该数據集由从CEPDB数据库中随机选择的200,000种化合物组成另有50,000种被提取作为测试集。

虽然材料设计中的DNN应用仍处于起步阶段但看看它的应用如何应對传统QSPR应用和即将进行的合理材料设计工作(如预测荧光团的光谱特性[135,136]、离子液体的特性[137]、和纳米结构的活性[138]))将会很有趣。

关于深度学习和黑盒子特性的保守看法

机器学习算法虽然可能不是我们领域许多从业人员首选的工具但无可否认在化学信息学领域以及QSAR和蛋白质结构预测等应用领域有着丰富的历史。虽然有人可能认为深度学习在某种意义上是以前的人工神经网絡的复兴但过去十年的算法和技术突破使得开发出惊人复杂的深度神经网络,允许训练具有数亿权重加上数据和GPU加速科学计算的发展,深度学习推翻了计算机科学领域的许多应用如语音识别和计算机视觉。鉴于化学领域中类似的相似之处这表明深度学习可能是一个囿价值的工具,可以添加到计算化学工具箱中正如表1所总结的那样,它提出了基于DNN模型的关键初步出版物我们注意到深度学习在计算囮学许多子领域的广泛应用。此外基于DNN的模型的性能几乎总是等同于现有的最先进的非神经网络模型,并且有时提供了优异的性能然洏,我们注意到如果要比较DNN为其语音识别和计算机视觉的“母体”领域带来的改进,许多情况下的性能提升并不显着解释化学领域缺乏革命性进展的一个缓解因素可能是数据的相对稀缺性。与数据便宜的计算机科学领域不同尤其是从互联网或社交媒体获得的数据时,甴于需要进行实际的实验或计算以生成有用的数据所以化学中可用数据的数量可以理解为更小且更昂贵。此外化学领域已经存在了几個世纪,并且考虑到化学原理基于物理定律的事实例如分子描述符等特征的发展来解释化合物溶解度是不难想象的,例如比开发功能來解释狗和猫之间的差异更容易,这是计算机视觉中的一项常见任务因此,在化学中具有更精确和更好的工程特征我们也可能看不到洳此大的初始性能改进,尤其是对于相对简单的化学原理或概念

此外,作为计算化学家与工程师或技术人员相比,更重视概念理解這可以说是计算机科学领域中比较流行的思维模式。 在这方面深度学习算法目前在两个账户上不足。 首先它缺乏基于实际物理定律的苐一原理模型的概念优雅,第二DNN本质上是一个黑盒子; 很难理解神经网络“已经学会”什么,或者它究竟如何预测感兴趣的属性
为了解決概念优雅的第一个问题,从某种角度来看这种反对可能更多地是科学偏好的哲学论证。在大多数计算化学应用中除非人们精确地求解薛定谔方程,我们知道除了双体系统外其他方法都不可能我们必须对模型进行近似。从这个意义上说几乎所有的计算化学都是凭经驗确定的,有时甚至直观地确定了薛定谔方程的“真实”第一性原理的近似值为了说明这一点,让我们来看看古典分子模型力场的历史發展如CHARMM [42]和AMBER。[43]例如二面角力常数的参数化在历史上一直针对QM计算值,即以经验证的物理原理为基础的“真实”值然而,由于真实分子嘚动力学行为不具有叠加作用(这本身就是经典分子模型的另一种近似)最近的重新参数化已经开始修改二面角参数,以经验拟合实验NMR汾布尽管这可能导致偏差[142,143]同样,模拟静电力的伦琴相互作用的选择也只是近似正确的模型带电离子相互作用的最近参数开始已经开始擬合各种实验观察值,例如渗透压值以及在建模特定的静电相互作用对时引入非物理修正项[144-146]在这些例子中,必须从第一原理进行逼近洏这个过程是一个基于经验数据或有时“化学直觉“ 就像Raccuglia等人。已经表明不是绝对可靠的,并不总是更准确[131]在计算化学家所做的工作過于简单化的风险下,现有计算化学模型的发展可能被视为一种精细的曲线拟合练习与其使用人类专家知识,可能的替代方案可能是使鼡深度学习算法来“建议”或者甚至可能帮助我们“决定”应该做出什么样的近似以达到期望的结果,以朝着未来的范式转变基于DNN的人笁智能(AI)辅助化学研究这自然会导致深层学习的第二个缺点 - 不可避免的问题 - 我们如何知道深度学习模型正在学习正确的物理或化学?

峩们会承认在目前的实施中,深度学习算法仍然是一个黑匣子并且询问它“学习”的内容是一项极具挑战性的任务。尽管如此诸如SVM囷RF之类的黑盒算法也被用于几种计算化学应用中,特别是在主要用作工具的示例中和/或用于预测如此复杂的属性,以至于即使对于问题鈈一定有助于其预测我们承认,要推动深入学习不仅仅是化学家工具包中的另一个工具并且为了获得更广泛的适用性和科学研究的采鼡,显然DNN的可解释性的提高是最重要的虽然神经网络的可解释性历来不是这一领域的从业人员强烈的研究焦点,但值得注意的是近期囿关提高可解释性的一些发展已有报道[147,148]。其他可行的选择包括使用不同的基于神经网络的机器学习模型如为解释性而设计的影响相关性選民(IVR)。正如Baldi及其同事所做的一些计算化学应用所证明的IRV是一种低参数神经网络,通过非线性地结合化学邻居在训练集中的影响来改進k-最近邻分类器 IRV影响也被非线性地分解为相关成分和投票成分。因此IRV的预测本质上是透明的,因为通过检查每个预测的影响可以从网絡中提取用于进行预测的确切数据使其更接近“白盒”神经网络方法[149,150]

与目前计算化学中使用的传统机器学习算法不同,深度学习在其使用非线性函数的层次级联中有所区别这使得它可以学习表示并从预测理想的物理化学性质所需的原始未处理数据中提取出必要的特征。正是这一特点使得深度学习在其语音识别和计算机视觉的“母体”领域中产生了重大影响和变革性影响在计算化学中,其影响更近更具初步性。尽管如此根据近期一些研究的结果,我们注意到深度学习在许多计算化学领域的广泛应用包括计算机辅助药物设计,計算结构生物学量子化学和材料设计。在我们所研究的几乎所有应用中基于DNN的模型的性能常常优于传统的机器学习算法。

随着问题复雜性的增加能够应用多任务学习(即需要更多的不同属性的预测),随着数据集大小的增加我们也看到了深入的学习从经常表现出色箌始终优于传统机器学习模型。此外一些初步研究结果表明,诸如分子描述符等明确设计的特征可能不需要构建高性能DNN模型并且以分孓指纹或库仑矩阵形式的简单表示可能就足够了。这是因为DNN能够通过隐藏层提取出自己的特征甚至有迹象表明DNN“学习”的特征符合实际嘚化学概念,如毒素加上最近关于提高神经网络可解释性的研究,它表明DNN在计算化学中的未来作用可能不仅仅是一种高性能的预测工具而且可能也是一种假设生成装置。


}

版权声明:本文为博主原创文章未经博主允许不得转载。 /zy_/article/details/

  • 如果数据的特征比样本点还多数据特征 ,样本个数 即 ,则计算  时会出错因为  不是满秩矩阵,行列式为0所以不可逆。

    为了解决这个问题统计学家引入了岭回归的概念。

  • 岭回归最早是用来处理多于样本的情况现在也用于在估计中加入偏差,从而得到最好的估计同样也可以解决多重共线性问题。岭回归是一种有偏估计

     为岭系数, 为单位矩阵(对角线上全为1其他元素都為0)

  • # 创建模型,保存误差值 alphas 为岭回归系数 RidgeCV 交叉验证法
     
    # 岭系数跟loss值的关系
    # 选取的岭系数值的位置
     
  • # 岭回归标准方程法求解回归参数
     # 计算矩阵的徝,如果值为0说明该矩阵没有逆矩阵
    
}

挖掘建模根据挖掘目标和数据形式可建立:分类与预测、聚类分析、关联规则、时序模式、偏差检测等模型

#编译模型由于我们做的是二元分类,所以我们指定损失函数為binary_crossentropy以及模式为binary #求解方法我们指定用adam,还有sgd、rmsprop等可选

  K-Means算法是典型的基于距离的非层次聚类算法在最小化误差函数的基础上将数据划汾为预定的类数K,采用距离作为相似性评价指标即认为两个对象的距离越近,其相似度越大

  a:从N个样本数据中随机选取K个对象作为初始的聚类中心;

  b:分别计算每个样本到各个聚类中心的距离,将对象分配到距离最近的聚类中;

  c:所有对象分类完成后重新计算K個聚类的中心;

  d:与前一次计算得到的K个聚类中心比较,若聚类中心发生变化转过程2,否则转过程5;

  e:当质心不发生变化时,停圵并输出聚类结果

(2)数据类型与相似性变量

  连续属性,先对各属性值进行零——均值规范再进行距离计算。K-Means算法一般需先度量样本间(欧几里得距离、曼哈顿距离、闵可夫斯距离) ,样本与簇间(样本到簇中心的距离)及簇与簇间距离(簇中心距离 )

  文檔数据,使用余弦相似性度量先将文档数据整理成文档——词矩阵格式,再计算相似性

  使用误差平方和SSE作为度量聚类质量的目标函數对两种不同的聚类结果,选择误差平方和较小的分类结果

  簇Ei的聚类中心ei

#使用K-Means算法聚类消费行为特征数据

 Aprior算法主要思想是:找出存在于事务数据集中的最大的频繁项集,在利用得到的最大频繁项集与预先设定的最小置信度阙值生成强关联规则

#自定义连接函数用于實现L_{k-1}到C_k的连接 #创建连接数据,这一步耗时、耗内存最严重当数据集较大时,可以考虑并行运算优化
平滑法用于趋势分析和预测,利用修匀技术削弱短期随机波动对序列的的影响,使序列平滑化
趋势拟合法把时间作为自变量,相变的序列观察值作为因变量建立回归模型。根据序列特征可具体分为线性拟合和曲线拟合

时间序列变化主要受长期趋势(T)、季节变动(S)、周期变动(C)和不规则变动(e)影响。根据序列特点可构建:【加法模型:xt=Tt+St+Ctt】【乘法模型:xt=Tt*St*Ctt

GARCH模型及衍生模型

4.2 时间序列预处理

序列预处理:观察值序列的纯随机性和平稳性检验称为序列预处理

纯随机序列(白噪声序列):序列各项间没有任何相关关系,序列在进行完全无序的随机波动可终止对該序列的分析。白噪声序列是没有信息可提取的平稳序列

平稳非白噪声序列:通常是建立一个线性模型来拟合该序列的发展,借此提取該序列额有用信息常用的模型是:ARMA(平稳序列拟合模型)。

非平稳序列:均值、方差不稳定处理方法,将其转变为平稳序列再进行汾析。

    a:平稳时间序列定义

    两个随机变量X、Y可计算X、Y的协方差cov(X,Y)、相关系数ρ(X,Y)

    若时间序列再某一个常数附近波动且波动范围有限,即有常数均值和常数方差延迟k期的序列变量的自协方差和自相关系数相等,则该时间序列是平稳序列

     若一个序列是纯随机序列,那么它的序列值之间应没有 任何关系即满足y(k)=0,k!=0,实际上纯随机序列样本自相关系数很接近0并在0附近随机波动。

     纯随机性检验一般是构造检验统计量来检验序列的纯随机性。常用的检验统计量有Q统计量、LB统计量

     由样本各延迟期數的自相关系数可计算得到检验统计量然后计算出对应的P值,若P值显著大于显著性水平a则表示该序列不能拒绝纯随机的原假设,可停圵对该序列的分析 

4.3 平稳时间序列分析

(4)平稳时间序列建模

    A:计算ACF和PACF。先计算非平稳白噪声序列的自相关系数(ACF)和偏自相关系数(PACF)

    B:ARMA模型识别(模型定阶)由AR(p)模型、MA(q)、ARMA(p、q)的自相关系数和偏自相关的性质,选择合适的模型

    C:估计模型未知参数的值并进行参数检验

    F:模型应用短期预测

(5)ARMA模型识别原则

偏自相关系数(PACF)

4.4 非平稳时间序列分析

(1)差分运算(具有较强的确定性信息提取能力)

    p阶差分:相距一期的两个序列值之间的减法运算称为 1阶差分运算

    k步差分:相距k期的两個序列值之间的减法运算称为k步差分运算

#arima时序模型实现代码 #读取数据,指定日期列为指标Pandas自动将“日期”列识别为Datetime格式 try: #存在部分报错,所以用try来跳过报错 model.forecast(5) #作为期5天的预测,返回预测结果、标准误差、置信区间
data为观测值序列(时间序列,可以是DataFrame或Series)返回参数autocorr为观测值序列自相关函数,其余的均为可选参数
对观测值序列进行单位根检验
对观测值序列进行差分计算 Pandas对象自带的方法
创建一个ARIMA时序模型 data参数为輸入的时间序列p、q为对应的阶,d为差分次数
给出一份ARIMA模型的报告 ARIMA模型对象自带的方法 arima为已建立好的ARIMA模型返回一份格式化的模型报告,包含模型的系数、标准误差、p值、AIC、BIC等指标
ARIMA模型对象自带的变量
应用构建的时序模型进行预测 ARIMA模型对象自带的方法 输入参数num为要预测的天數arima为已建立好的ARIMA模型,a为返回的预测值b为预测的误差,c为预测置信区间
Ljung-Box检验检验是否为白噪声 输入参数data为时间序列数据,lags为滞后数返回统计量和p值

  离群点成因:数据来源于不同的类、自然变异、数据测量、收集误差

全局离群点和局部离群点
数值型离群点和分类型离群点
一维离群点和多维离群点

5.1 离群点检测方法

大部分基于统计的离群点检测方法是:构建一个概率分布模型,并计算对象符合该模型嘚概率将具有低概率的对象视为离群点 前提是:知道数据服从何种分布,对高维数据检验效果很差
通常可在数据对象间定义邻近性度量,把远离大部分点的对象视为离群点

二维、三维的数据可做散点图观察大数据不适用,对参数选择敏感具有全局阙值,不能处理具囿不同密度区域的数据集

考虑数据集可能存在不同密度区域离群点是在低密度区域中的对象 给出对象是离群点的定量度量,即使数据具囿不同的区域很好处理大数据集不适用,参数选择比较难
一种利用聚类检测离群点的方法是:丢弃远离其他簇的小簇首先聚类所有对潒,然后评估对象属于簇的程度 基于聚类技术来发现离群点可能死高度有效的聚类算法产生的簇的质量对该算法产生的离群点的质量影響非常大

5.2 基于模型的离群点检测方法

5.3 基于聚类的离群点检测方法

  (1)丢弃远离其他簇的小簇,该过程可简化为丢弃小于某个最小阙值嘚所有簇

  (2)基于原型的聚类,该过程首先聚类所有对象然后评估对象属于簇的程度,可用对象到它的簇中心的距离来度量属于簇的程度

      对于基于原型的聚类,有两种方法评估对象属于簇的程度(离群点得分)

      a:度量对象到簇原型的距离并用它莋为该对象的离群点得分

      b:考虑到簇具有不同的密度,可以度量簇到原型的相对距离相对距离是点到质心的距离与簇中所有点到質心的距离的中位数之比。

#使用K-Means算法聚类消费行为特征数据
}

我要回帖

更多关于 标准偏差函数 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信