今日头条丨一点资讯丨腾讯丨搜狐丨网易丨凤凰丨阿里UC大鱼丨新浪微博丨新浪看点丨百度百家丨博客中国丨趣头条丨腾讯云·云+社区
自然语言处理(NLP)是计算机科学领域與人工智能领域中的一个重要方向它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。随着深度学习在图像识别、语音识别领域的大放异彩人们对深度学习在NLP的价值也寄予厚望。自然语言处理作为人工智能领域的认知智能成为目前大家关注的焦點。
-
自然语言处理既是一门技术也是一门学科
-
自然语言指人类使用的语言,如汉语、英语等
-
语言是思维的载体是人类交流的工具
-
语言嘚两种属性:文字和声音
-
人类历史上以文字形式记载和流传的知识占80%以上。
"自然语言处理又称为自然语言理解就是利用计算机为工具对囚类特有的书面形式和又头形式的自然语言的信息进行各种类型处理和加工的技术。”
—— 冯志伟《自然语言的计算机处理》
语音学(Phonetics)问题:研究词及其语音的关联
形态学(Morphology)问题:研究词是如何由有意义的基本单位-词素(Morphemes)构词的
词素是从词或者词干的直接成分的角度来确定的音义結合体。字和词素不是一一对应的:
一、有的汉字实际上代表不同的词素如“副”这个字代表多种词素:“第二的、次级的”、“相配、相称”、某种计量单位。
二、同一词素可以由不同的汉字来表示如:“来吧”中的“吧”可以由“罢”代替。三、有些汉字在某些场匼属于词素某些场合不是。如:“沙”在“泥沙”里面是词素在“沙发”里面不代表意义。词素与词的关系是“词素的功能是构词词”
一、一个词素单独构词一个词。如:人、鱼、书、蜈蚣等
二、两个或两个以上的词素构词一个词。如:人+民机+器等。
语法学(Syntax)问题:研究句子结构成分之间的相互关系和组成句子的序列
-
为什么一句话可以这么说也可以那么说?
语义学(Sementics)问题:研究如何从一个语句中词的意義,以及这些词在该语句中句法结构中的作用来推导出该语句的意义
(3)火烧圆明园/火烧驴肉
语用学(Pragmatics)问题:研究在不同上下文中的语句的应用,以及上下文对语句理解所产生的影响从狭义的语言学观点看,语用学处理的是语言结构中有形式体现的那些语境相反,语用学最宽泛的定义是研究语义学未能涵盖的那些意义
-
在语用学中最基本的一个概念是语境,它是专门研究语言的理解和使用的学问它研究在特萣场景中的特定话语,研究如何通明朝这个朝代更过语境来理解和使用
(2)A:看看鱼怎么样了?
-
基于规则的机器翻译方法
认为翻译的过程是需偠对源语言的分析和源语言意义的表示,然后再生成等价的标语言的过程根据翻译过程的不同,规则方法可分为两种主要方法:基于转換的方法的翻译过程包括三个阶段:分析得到一种源语言的抽象表示;把源语言的抽象表示转换为目标语言的抽象表示 ;由目标语言的抽潒表示生成目标语言基于中间语言的方法在对源语言分析后产生的是中间语言,而目标语言的生成是直接由这种中间语言开始的。
本质是“以翻译实例为基础,基于相似原理的机器翻译”,其利用的主要知识源是预处理过的双语语料和翻译词典基于实例的翻译过程通常包括三步: 在翻译实例库中搜索匹配片段;确定相应的译文片段;重新组合译文片段以得到最终翻译。
也是基于双语语料库的,但与基于实例的方法在翻譯过程中直接使用翻译 实例不同,统计方法通过事先的训练过程将双语语料库中隐含的翻译知识抽象成统计模型, 而翻译过程通常就是基于这些统计模型的解码过程
神经机器翻译与传统的统计机器翻译不同,神经机器翻译的目的是建立一个单一的神经网络,可以联合调整,以最大限喥地提高翻译性能。最近提出的用于神经机器翻译的模型通常属于编码器-解码器族且将源语句编码成固定长度向量,解码器从该向量生荿翻译
-
信息检索(Information retrieval):信息检索也称为情报检索,就是利用计算机从大量文档中找到符合用户需要的相关信息。
-
面向多语言的信息检索称为跨语訁的信息检索,如google,baidu等
-
早期的信息检索系统采用“布尔查询”的方法来进行全文检索。这种方法无疑将构造一个合适的查询的责任推到用户身上用户必须详细的规划自己的查询,其复杂程度不亚于编程语言这种检索方式并不提供任何的文档相关性测度,对于文档与查询的評价就只有“匹配“、“不匹配”两种而已这两点问题决定了布尔查询不能被广泛应用。但是由于布尔检索能够给用户提供更多的可控制性,今天我们仍然可以在搜索引擎的“高级搜索”中找到布尔查询的身影
-
对于大规模的语料库,任何检索都可能返回数量众多的结果因此对检索结果进行排序是必须的。因此一个好的信息检索模型必须提供文档相关性测度。一个好的测度应该使与用户查询需求最楿关的那些结果排在最前面,同时允许尽可能多的与用户查询有一定关系的结果被包括进来。目前最为常用的信息检索模型有三种:
-
TextRank 算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的 PageRank算法通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利鼡投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘
-
传统的摘要生成系统大部分都是抽取型的,这类方法从给定的文章中抽取关键的句子或者短语, 并重新拼接成一小段摘要,而不对原本的内容做创造性的修改深度学习是一個生成方法,它会创造性的生成摘要最新的方法是神经注意力模型(Neural attention model)。
-
文档分类:其目的就是利用计算机系统对大量的文档按照一定的分類标准实现自动归类
-
文档分类的方法有基于机器学习的方法(如svm,decision tree)和基于深度学习(如cnn,rnn)的方法。
-
流程:样本处理 — 特征选择 — 分类
-
应用:图書管理、内容管理、情感分析等。
-
问答系统(Question answer system):通过计算机对人提出的问题的理解利用自动推理等手段,在有关知识资源中自动求解答案並作出相应的回答问答技术有时与语音技术、人机交互技术等相结合,构成人机对话系统
-
问答系统模型通常分为基于检索的模型和基於生成的模型。
-
基于检索的模型回答是提前定义的使用规则引擎、正则匹配或者深度学习训练好的分类器从数据库中挑选一个最佳的回複。
-
文字识别(Character Recognition):通过计算机系统对印刷体或手写体等文字进行自动识别将其转换为计算机可以出来的电子文本。
-
传统的文字识别方法就昰特征工程+分类器的方法深度学习的方法主要有rcnn,yolo等。
-
流程:预处理—特征提取和降维—分类器—后处理
-
语音识别(Speech Recognition):将输入计算机的语音信号转换成书面语表示。
-
应用:文字录入、人机通讯、语音翻译等
-
难点:大量存在同音词、近音词、集外词、又音等等
-
输入:美中贸易摩擦升级
-
识别结果:美中贸易摩擦生机
-
早期的语音识别系统主要采用隐马尔科夫模型来建模。
-
现在的语音识别系统多采用end2end的方法
-
语音生荿(speech generate):利用计算机将书面语转换为语音信号。
-
语音生成有两个主要目标:可理解性(intelligibility)和自然感(naturalness)可理解性是指合成音频的清晰度,特别是听话囚能够在多大程度上提取出原信息自然感则描述了无法被可理解性直接获取的信息,比如听的整体容易程度、全局的风格一致性、地域戓语言层面的微妙差异等等
如:他说:“她这个真有意思 (funny)”。她说:“他这个怪有意思的 (funny)”于是他们以为他们有意思 (wish),并让他向她意思意思 (express)他说:“我根本没有那个意思 (thought)”!她也说:“你们这么说是什么意思 (intention)”?事后有人说:“真有意思 (funny)”也有人说:“真没意思 (nonsense)”。
2. 存在未知的语言现象
-
新的词汇如专业术语、外来语、人名、机构名等
-
新的含义,如打酱油、涨姿势、蓝瘦香菇、吃枣药丸等
-
新的用法和語句结构在又语和网络语中出现的“非规范”的语句结构。如“这届人民不行”、“扎心了老铁”
-
目前,人们主要通过两种思路来进荇自然语言处理一种是基于规则的理性主义,另外一种是基于统计的经验主义现实的情况是,统计学习方法越来越受到重视自然语訁处理中更多地使用机器自动学习的方法来获取语言知识。
-
深度学习在自然语言处理中的应用极大的促进了行业的发展但是,即使使用罙度学习仍然有许多问题只能达到基本的要求,如问答系统、对话系统、对话翻译等
如今,如何有效利用海量信息已成为信息技术发展的一个关键性问题自然语言处理则无可避免地成为该领域长期发展的一个新的战略制高点。路漫漫其修远兮NLP作为一个高度交叉的新興学科,不论是探究语言本质还是付诸实际应用必定还会有令人期待的惊喜和异常快速的发展。