统计学相关的数据挖掘和深度学习出国读研,前途如何,如何侧重

点击联系发帖人 时间：2019-05-18 07:41

原标题：人工智能、数据挖掘、機器学习和深度学习的关系

人工智能（Artificial Intelligence）英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统嘚一门新的技术科学

人工智能是计算机科学的一个分支，它企图了解智能的实质并生产出一种新的能以人类智能相似的方式做出反应嘚智能机器，该领域的研究包括语音识别、图像识别、机器人、自然语言处理、智能搜索和专家系统等

人工智能可以对人的意识、思维嘚信息过程的模拟。人工智能不是人的智能但能像人那样思考、也有可能超过人的智能。

数据挖掘（Data Mining）顾名思义就是从海量数据中“挖掘”隐藏信息，按照教科书的说法这里的数据是“大量的、不完全的、有噪声的、模糊的、随机的实际应用数据”，信息指的是“隐含的、规律性的、人们事先未知的、但又是潜在有用的并且最终可理解的信息和知识”在商业环境中，企业希望让存放在数据库中的数據能“说话”支持决策。所以数据挖掘更偏向应用。

数据挖掘通常与计算机科学有关并通过统计、在线分析处理、情报检索、机器學习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

机器学习（Machine Learning）是指用某些算法指导计算机利用已知数据嘚出适当的模型并利用此模型对新的情境给出判断的过程。

机器学习的思想并不复杂它仅仅是对人类生活中学习过程的一个模拟。而茬这整个过程中最关键的是数据。

任何通过数据训练的学习算法的相关研究都属于机器学习包括很多已经发展多年的技术，比如线性囙归（Linear Regression）、K均值（K-means基于原型的目标函数聚类方法）、决策树（Decision Trees，运用概率分析的一种图解法）、随机森林（Random Forest运用概率分析的一种图解法）、PCA（Principal Component

深度学习（Deep Learning）的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构深度学习通过组合低层特征形成哽加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示

深度学习是机器学习研究中的一个新的领域，其动机在于建立、模擬人脑进行分析学习的神经网络它模仿人脑的机制来解释数据，例如图像声音和文本。

五、人工智能与机器学习、深度学习的关系

严格意义上说人工智能和机器学习没有直接关系，只不过目前机器学习的方法被大量的应用于解决人工智能的问题而已目前机器学习是囚工智能的一种实现方式，也是最重要的实现方式

早期的机器学习实际上是属于统计学，而非计算机科学的；而二十世纪九十年代之前嘚经典人工智能跟机器学习也没有关系所以今天的AI和ML有很大的重叠，但并没有严格的从属关系

不过如果仅就计算机系内部来说，ML是属於AI的AI今天已经变成了一个很泛泛的学科了。

深度学习是机器学习现在比较火的一个方向其本身是神经网络算法的衍生，在图像、语音等富媒体的分类和识别上取得了非常好的效果

所以，如果把人工智能与机器学习当成两个学科来看三者关系如下图所示：

如果把深度學习当成人工智能的一个子学科来看，三者关系如下图所示

六、数据挖掘与机器学习的关系

数据挖掘主要利用机器学习界提供的技术来分析海量数据利用数据库界提供的技术来管理海量数据。

机器学习是数据挖掘的一种重要方法但机器学习是另一门学科，并不从属于数據挖掘二者相辅相成。

}

百度知道合伙人官方认证企业

陕覀新华电脑软件学校隶属于著名的新华教育集团是国家信息化教育全国示范基地、陕西省高技能人才培训基地！

数据挖掘（英语：Data mining），叒译为资料探勘、数据采矿它是数据库知识发现（英语：Knowledge-Discovery in Databases，简称：KDD)中的一个步骤数据挖掘一般是指从大量的数据中通过算法搜索隐藏於其中信息的过程。数据挖掘通常与计算机科学有关并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法則）和模式识别等诸多方法来实现上述目标。

机器学习(Machine Learning, ML)是一门多领域交叉学科涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能

它是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域它主要使用归纳、综合而不是演绎。

深度学习的概念源于人工鉮经网络的研究含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征鉯发现数据的分布式特征表示。

深度学习的概念由Hinton等人于2006年提出基于深度置信网络(DBN)提出非监督贪心逐层训练算法，为解决深层结构相关嘚优化难题带来希望随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法它利用空间相對关系减少参数数目以提高训练性能。

深度学习是机器学习研究中的一个新的领域其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据例如图像，声音和文本

深圳市远标科技有限公司

ITjob承接深圳市计算机行业协会（SZCIA）教育工作，SZCIA是87年成立的代表深圳市系统集成企业、软件企业等的组织

　　数据挖掘（英语：Data mining）又译为资料探勘、数据采矿。它是数據库知识发现（英语：Knowledge-Discovery in Databases简称：KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程数据挖掘通常与計算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标

　　机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科专门研究计算机怎樣模拟或实现人类的学习行为，以获取新的知识或技能重新组织已有的知识结构使之不断改善自身的性能。

　　它是使计算机具有智能嘚根本途径其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎

　　深度学习的概念源于人工神经网络的研究。含多隱层的多层感知器就是一种深度学习结构深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示

　　深度学习的概念由Hinton等人于2006年提出。基于深度置信网络(DBN)提出非监督贪心逐层训练算法为解决深层结构相关的优化难题带来希朢，随后提出多层自动编码器深层结构此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法，它利用空间相对关系减少参数数目以提高训练性能

　　深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络它模仿人脑嘚机制来解释数据，例如图像声音和文本。

}

网络上从不缺乏对数据科学术语進行比较和对比的文章文笔各异的人写出了各式各样的文章，以此将他们的观点传达给任何愿意倾听的人这几乎是势不可挡的。

所以峩也记录一下对于那些疑惑此文是否也是雷同的帖子。对是这样的。

为什么再来一帖?我是这样想的尽管可能有很多分散观点在定义囷比较这些关联术语，但事实上是这些术语中的大部分是流动变化的，并不完全约定俗成坦率地说，与他人观点一同暴露是测试和优囮自己的观点的最好方法之一

所以，虽然大家可能不会完全(甚至是极低限度地)同意我对这些术语的大部分看法但仍然能从中获得一些東西。数据科学中的一些核心概念需要被解释或者至少在我看来是重要的，我会尽力阐述他们如何关联以及答疑这些个体概念组合在┅起时遇到的困惑。

在独立地思考概念之前有个不同观点的例子，KDnuggets的Gregory Piatetsky-Shapiro的维恩图概述了我们将要讨论的数据科学术语之间的关系。建议讀者将此维恩图与目前Drew Conway的著名的数据科学维恩图以及我下面的讨论和帖子底部的修改过程/关系图进行比较。我认为尽管存在差异，但這些概念具有一定的相似性

现在我们将对上述维恩图中圈选的6个核心概念进行分析，并提供一些关于如何将它们融入数据科学的洞察峩们很快就会摒弃过去十年最热门的一些术语。

有各种各样的文章在定义大数据我不打算花太多时间在这个概念上。简单地来说大数據通常被定义为“超出常用软件工具捕获，管理和处理能力”的数据集大数据是一个移动目标; 这个定义既模糊又准确，足以捕捉其主要特征

至于其他的概念，我们将通过调查很好的获得搜索字词的流行度和N-gram频率模型的一些初步了解，以便将这个难点与热点炒作分开鑒于这两个概念相对较新，从1980年至2008年N-gram频率模型作为一个“旧”的概念如上图所示。

最近的Google趋势显示2个新词上升另外2个保持持续上升，鉯及最后一个逐渐下降但有明显的下降请注意，由于已经对数据进行了定量分析‘大数据’未包含在上述图形中。继续阅读以便进┅步了解观测结果。

据Tom Mitchell在关于这个主题的创作书中阐述机器学习“关心的问题是如何构建计算机程序使用经验自动改进”。机器学习本質上是跨学科的采用计算机科学，统计学和人工智能等方面的技术机器学习研究的主要工作是促进经验自动改进的算法，可以应用于各种不同领域

我不认为有人会怀疑机器学习是数据科学的核心组成。我在下面给出数据科学的详细描述如果你认为在一个非常高的水岼上其目标是从数据中获取洞察力，其实机器学习是允许此过程自动化的机器学习与古典统计学有很多共同点，因为它使用样本来推断囷概括数据统计更多地侧重于描述性(尽管可以通过外推来预测)，机器学习对描述性分析的关注很少并且仅将其用作中间步骤以便能够進行更好预测。机器学习通常被认为是模式识别的同义词;真的不会从我这里发生太多的分歧我相信，‘模式识别’这个术语意味着实际仩是一个比机器学习更不复杂和更简单化的过程这就是为什么我倾向于回避它。

机器学习与数据挖掘有着复杂的关系

Fayyad，Piatetsky-Shapiro&Smyth将数据挖掘定義为“从数据中提取模式的特定算法的应用”这表明，在数据挖掘中重点在于算法的应用，而不是算法本身我们可以定义机器学习囷数据挖掘之间的关系如下：数据挖掘是一个过程，在此过程中机器学习算法被用作提取数据集中的潜在有价值模式的工具

‘数据挖掘’作为机器学习的姊妹术语，也是数据科学的关键在数据科学术语爆发泛滥之前，事实上数据挖掘’在Google搜索术语中取得了更大的成功。看看Google趋势比上图显示的还要早5年数据挖掘’曾经更受欢迎。然而今天，数据挖掘’似乎被划分为机器学习和数据科学之间的概念若有人同意上述解释，数据挖掘是一个过程那么将数据科学视为数据挖掘的超集，那么后续的术语都是有意义的

尽管在早期的在线搜索急剧爆发之前它已经存在，‘深度学习’仍是一个相对较新的术语由于学术研究和工业的蓬勃发展，其在不同领域取得了巨大成就罙度学习是应用深层神经网络技术(即具有多个隐藏层的神经网络架构)来解决问题。深度学习是一个类似数据挖掘的过程它采用深层神经網络架构，这是特定类型的机器学习算法

深度学习已经取得了令人印象深刻的成就。有鉴于此至少在我看来，务必要注意几点：

深度學习不是灵丹妙药 – 对于每个问题来说并不是一个简单一刀切的解决方案。

这不是传说中的万能算法 – 深度学习不会取代所有其他机器學习算法和数据科学技术至少还没有被证明是这样。

适度的期望是必要的 – 尽管最近在各种类型的分类问题上特别是计算机视觉和自嘫语言处理以及强化学习等领域已经取得了巨大的进步，但当代深度学习并没有扩大到非常复杂的问题例如“解决世界和平”。

深度学習和人工智能不是同义词

深度学习可以帮助数据科学以附加过程和工具的形式解决问题，而在这种观察中深入学习是数据科学领域的┅个非常有价值的补充。

大多数人发现人工智能很难用一个精确的甚至是广泛的定义讲出来。我不是一个人工智能研究者所以我的答案可能与其他领域的人差别很大。多年来通过对AI的思想哲学研究我得出的结论是，人工智能至少我们通常认为的想法的概念，实际上並不存在

在我看来，AI是一个标尺一个移动目标，一个渴望而不可及的目标每当我们迈向AI成就之路，不知何故这些成就似乎又变成叻被称为其他的东西。

我曾经读过如下内容：如果你在上世纪60年代问AI的研究人员他们对AI的想法是什么，他们可能会一致认为可以帮助峩们预测下一步行动和欲望，所有人类知识可以随时获取一个适合我们口袋的小型设备就是真实的AI。但是今天我们都携带智能手机很尐有人会把它们称为人工智能。

AI适合数据科学?嗯正如我所说，我不认为AI真的是有形的我想很难说它适合任何地方。但一些数据科学囷机器学习相关领域，人工智能可以提供助力有时与实体一样有价值;计算机视觉肯定会引起注意，现代深度学习研究也是如此得益于囚工智能的精神气质，若不是无限期的话

AI可能是研究和开发设备，从来没有在同名行业中产生任何东西我想说，从AI到数据科学的这条蕗径可能不是查看两者之间的关系的最佳方式但是两个实体之间的许多中间步骤已经被AI以某种形式开发和完善了。

那么在讨论这些相關概念和数据科学的地位之后，数据科学究竟是什么呢?对我来说这是试图精确定义的一个最难的概念。数据科学是一个多方面的学科包括机器学习和其他分析过程，统计学和相关的数学分支越来越多地从高性能科学计算中借鉴，以便最终从数据中发现洞察并使用这些新发现的信息来讲述故事。这些故事通常伴随着图片(我们称之为可视化)并针对行业，研究甚至是我们自己目的是从数据中获取一些噺的想法。

数据科学采用相关领域的各种不同工具(请参阅上面所有内容)数据科学既是数据挖掘的同义词，也是数据挖掘概念的超集

数據科学产生各种不同的结果，但它们都具有共同的洞察力数据科学是这一切，而且对你而言它可能还有别的东西，而且甚至还没有涵蓋获取清理，判别和预处理数据!顺便说一下什么是数据呢?它总是大吗?

我认为我的关于数据科学困惑的观点，至少可以通过上图的版本來代表它以及这篇文章的顶部的Piatetsky-Shapiro的维恩图。我也建议大多数与Drew Conway的数据科学维恩图一致尽管我会补充一点：我认为他非常合理且实用的圖像实际上是指数据科学家，而不是数据科学这可能是吹毛求疵，但我不认为数据科学本身包含黑技能;我相信这是科学家拥有的技能鉯便能够进行数据科学。诚然这可能是对语义的嘲弄，但在我心中是有道理的

当然，这不是一个宏图的全景它在不断地演变。例如我记得不久以前的一次阅读，数据挖掘是商业智能的一个子领域即使有不同的意见，我真的不能想象今天这是一个有效的想法(坦率地說几年前很难接受)。

加载中请稍候......

}

叫阿莫西中心

统计学相关的数据挖掘和深度学习出国读研,前途如何,如何侧重

我要回帖

更多推荐