大神速度进来分析分析,单纯的分析事情不要批判性分析,关于情感和心理学!!!!!!

在线文本情感分析技术及应用 - 学术资料 - 北京大学互联网与社会研究中心
公告公示:
您当前所在页面:&&&&&&
在线文本情感分析技术及应用
Web2.0时代的到来,增强了互联网络的人际交互性与即时性,使互联网逐渐成为大众普遍交流观点、抒发情感的平台,同时也积累下关于人类心理和行为的海量文本信息,可供社会科学研究之用。心理学的情绪结构理论中有关类型分类取向和维度取向的理论成果,为信息科学研究中的情感词库、情感分析工具的开发和发展,提供了心理科学基础。利用在线文本情感分析技术研究大众社会心理,拓宽了包括心理学在内的社会科学研究范畴;同时社会科学也为在线文本情感分析研究提供了新的研究命题和理论框架。二者相辅相成,共同推动计算社会科学的发轫与发展。
乐国安&董颖红&陈浩&赖凯声
(南开大学社会心理学系,天津300071)
计算社会科学分类号B849:C91
随着Web2.0应用的出现,互联网进入了开放性、交互性更强,由用户产生内容(user&generated&content,UGC)、决定内容的时代。人们借助聊天室、个人日志、博客、社交网络、微博客等网络应用工具,在网上自由公开表达自己的思想、情感,与他人交流观点、看法,形成正式或非正式的社交网络。同时,互联网也积累下关于人类心理和行为的海量在线文本信息,成为社会科学研究的新对象,扩大了其广度与深度,为社会科学的发展带来了前所未有的机遇,推动了计算社会科学(computational&social&science)等交叉学科的诞生(Laze&retal.,2009)。
与此同时,在线文本分析技术为挖掘和分析互联网上的海量信息,提供了技术支持与保证。传统的在线文本分析大多基于客观要素,如根据研究的主题对信息进行分类,而忽视了其中所蕴含的主观要素,比如情感信息。近年来,对在线文本的情感分析成为信息科学的研究热点;而情绪、情感一直是心理学的研究重点,心理学关于情绪、情感的研究成果,对于挖掘和分析网络信息具有重要的参考价值。越来越多的信息科学学者意识到这一点,不仅在传统的情感分析工具中加入一些心理学元素,而且还根据心理学的情绪结构理论构建了多个全新的研究工具,为在线文本的情感分析注入了心理学思想。利用这些研究工具对在线文本进行情感分析,已取得诸多有价值的研究成果,无形中拓宽了社会科学研究的疆界。
1情绪结构理论的两大取向
情绪(emotion)是一个异常复杂的心理学概念,到目前为止,关于情绪的概念内涵,心理学家们仍未达成共识。他们用同一个概念表达着不同的含义、心理过程和功能,导致长久以来对于情绪的结构有着不同的看法和理论观点。概括起来,主要有情绪结构的分类取向(categorical&approach)与维度取向(dimensional&approach)。
情绪分类取向认为情绪是个体在进化过程中发展出来的对刺激的适应性反应。该理论关注情绪的各个方面,如生理机制、外部表现等,认为情绪是由基本情绪(basice&motion)及在此基础上形成的复合情绪(complexe&motion)构成的。基本情绪是人和动物所共有的,是先天的,不学而能的,在发生学上有共同的原型或模式。它们在个体发展早期就已出现,每一种基本情绪都有独特的生理机制和外部表现。非基本情绪或复合情绪,则是多种基本情绪综合的产物,或基本情绪与认知评价等相互作用的结果(Ekman&&&Friesen,1971)。研究者们对基本情绪的数量和概念有不同的观点。目前,普遍较为认可的基本情绪包括快乐、悲伤、愤怒、恐惧、厌恶和惊奇6种。
情绪维度取向则认为情绪是高度相关的连续体,是一种较为模糊的心理体验状态,很难区分出各种具体的情绪,各种情绪在几个基本维度上高度相关,所以应抓住情绪的不同维度或核心对其进行解析。Mehrabian和Russell(1974)提出了情绪的“愉悦度 唤醒度支配度”三维度模型(pleasure&arousal&dominance,PAD)。愉悦度也称为情绪的效价,从不愉悦到愉悦有不同的程度;唤醒度是对生理和心理激活程度的体验,有高低之别;支配度是对影响、支配周围环境和他人或反过来受其影响、支配的一种体验。但也有学者认为愉悦情绪和不愉悦情绪是两个相互独立的维度而非一个维度的两极,如Watson和Tellegen(1985)提出的积极 消极情感模型(positive&and&negative&affect,PANA),认为积极情感(positive&affect,PA)和消极情感(negative&affect,NA)是两个相对独立、基本的维度。
情绪的分类和维度取向从不同的角度对情绪的结构进行阐释,其实并不存在本质矛盾,维度是分类的基础,如悲伤、愤怒和焦虑都属于负性情绪,但在唤醒和支配度上存在着差异(乐国安,董颖红,2013)。二者对于在线文本情感分析技术工具的改进和全新开发均具有重要理论意义。根据不同的情绪结构理论,学者们已优化、构建了多个不同的情感词库,为以在线文本情感分析为重要方法的计算社会科学研究奠定了技术基础。
2情感分析技术
在信息科学领域中,情感分析(sentiment&analysis)是指利用自然语言处理(natural&language&processing)、统计或机器学习(machine&learning)等技术对文本的主观态度、情绪或观点进行语义定向(semantic&orientation)或极性分析(polarity&analysis),也可称作观点挖掘(opinion&mining)(Das&Chen,2001)。
根据文本的层次,从宏观到微观可将情感分析分为文档、句子和词汇三个水平。文档水平的分析关注将整个文档区分为主观或客观、正性或负性(Pang,Lee,&&Vaithyanathan,2002)。相对于文档,句子水平的分析更加有效,因为一个文档既包括主观句,也包括客观句。比如,新闻一般被认为是客观的,但是有研究发现其中44%的句子是主观句(Wiebe,Wilson,Bruce,Bell,&Martin,2004)。而词汇是语言的基本单位,词的极性与句子或文档的主观性之间有着密不可分的关系,含有一个形容词的句子有56%的可能性是一个主观句(Bruce&Wiebe,1999);除了形容词之外,动词、副词和名词等也具有一定作用(Voll&Taboada,2007;Russo,2010)。此外,个体在进行语言表达时所选择的词汇不仅能够反映其性别、年龄等人口学特征,还能折射其动机、人格、社会地位等心理或社会特质(Penne&baker,Mehl,&Niederh&offer,2003)。因此,词汇是文本情感分析的基础。
Pang和Lee(2008)对文本情感分析的方法和技术有过详细论述。目前,常用的方法主要有:(1)基于自然语言处理技术,通过确定情感表达与主题之间的关系,分析文本中某一主题的情感倾向而不是简单地将文本分为正负性(Nasukawa&Yi,2003);(2)基于机器学习,根据训练数据并利用支持向量机(supported&vector&machines,SVM)等技术,将文本区分为正负性(Pang&Lee,2005);还有一些学者将自然语言处理加工和机器学习技术结合起来(Prabowo&The&lwall,2009)。虽然采用这些方法分析文本的情感倾向,获得了许多有意义的研究成果,但是基于机器学习的方法要求利用大量数据进行测试和训练,对于小文本,如Twitter.com或新浪微博(www.weibo.com)等微博客上的文本并不适用。针对微博客文本的情感分析,多数研究者建议根据早期的语言学知识,采取更加透明化的方法——词汇匹配技术(termbased&matching&technique),即通过匹配文本中含有的词汇与情感词库中的情绪词来判断文本的情感倾向,如含有正性词的微博客文本的情感倾向为正性,而构建合适的情感词库无疑是这种方法的基础(O’Connor,Balasubramanyan,Routledge,&Smith,2010)。
3情感词库的构建与发展
情感词库(sentimentlexicon)是将文本的情感定向与单个词汇联系起来的纽带,每个词都可看作是某种观点信息的集合,是研究文本的情感和主观性的线索。关于词汇的情感定向分类已经有多项研究,一些人利用语料库(corpus),根据词汇之间的搭配关系,如并列、递进、转折等将形容词分为正负性。这种方法的缺点是其运算法则局限于形容词或副词,而且必须根据连接词才能判断新词的极性(Turney&Littman,2002);另一些利用词典等资源,从字典或词典中找到种子词的同义或反义词,或从词汇的定义或注释中寻找相关信息。
常用的建立情感词库的方法概括起来主要有两种:一是人工产生,即从现有的字典中搜索词汇,人为对其分类建立情感词库,如General&Inquirer。General&Inquirer被认为是最早的一款情感词库兼计算机情感分析程序,其情绪词来源于《哈佛词典(第4版)》(HarvardIV-4Dictionary)和《拉斯韦尔词典》(Lass&well's&Dictionary),按照情感正负性对词汇进行分类(Stone,Dunphy,Smith,&Ogilvie,1966)。随着信息技术的发展,结合情绪心理学研究成果,该词库目前具有情绪效价、PAD三维度分类、有关自我的词等180个分类。
人工建立情绪词库费时费力,所含的词汇较少,而且存在评分者偏差。随着计算机技术的发展,利用某种资源自动或半自动化地建立词库已成为主流方法。首先找到一些典型的正性和负性词作为种子词,然后利用某种词汇资源,如Wordnet,从中找到种子词的同义或反义词,并计算新词与这些种子词的联系,自动或半自动化地建立词库。Wordnet是一个在线的词汇数据库,它不同于一般按照字母顺序排列词汇的词典,而是仿照心理语言学对人的词汇记忆的研究,根据词汇之间的语义关系构成词网,以同义词集合作为基本的构建单位(Miller,Beckwith,Fellbaum,Gross,&Miller,1993)。Hu和Liu(2004)就利用Wordnet分析了形容词的极性,首先将那些具有明确情感定向的词作为种子词,然后分析其它词与种子词的同义或反义关系,如果一个词与正性词是同义词,那么它也是一个正性词;如果一个词与负性词是反义词,那么它是一个正性词。Esuli和Se&bastiani(2006)采用类似方法建立了情感词库Senti&Word&Net。他们从Word&net数据库中寻找种子词的同义和反义词,经过几次迭代,这些词也具有了一定的极性,然后用这些词的注释训练机器学习分类器,并用这个分类器判断Wordnet中其它词汇的极性。由于每个词具有多种不同的含义,因而有不同的主客观性、正性和负性特征。他们采用向量的形式表示每一个词在上述三个特性上的分数,每一个特性的分数区间均为[0,1],总分为1。Ohana和Tierney(2009)采用Senti&wordnet对网络影评进行情感分析,表明Senti&Wordnet是有效的情感分类工具。
Opinion&Finder是目前使用较为广泛的一种情感词库与文本主观性分析程序,它能够自动识别文本中的情绪、观点、猜想和其它主观性内容,其目的是识别主观语句并标识出这些句子中的各种主观成分,包括表达者、正负性情绪词汇等(Wilson,Wiebe,&Hoffman,2005)。Opinion&Finder中的词汇主要来源于文献、字典、词典和General&Inquirer,共有2718个正性词和4912个负性词。
由台湾大学自然语言处理实验室建立的《台湾大学情感词典》(National&Taiwan&University&Sentiment&Dictionary,NTUSD,Ku,Liang,&Chen,2006),其词汇来源于General&Inquirer的中文翻译和《中文网络情绪词典》(Chinese&network&sentiment&dictionary,CNSD),经过人为修订共包含2812个正性词和8276个负性词。孙瑛泽、陈建良、刘俊杰、刘昭麟和孙文豐(2010)利用NTUSD,结合朴素贝叶斯模型对中文短句进行情绪分类研究,发现人们在网站Plurk.com上表达的负面情绪较多。
上述情感词库根据正负性情绪的简单二分法观点对词汇进行分类,忽略了人类情绪的丰富性和多样性,而基于情绪结构理论构建的新近情感词库则细分出更多种情绪类型或维度。譬如,WordNet-Affect基于Wordnet扩展核心词范围,经筛选最后得到的情感词库共有4787个词,分为快乐、悲伤、愤怒和恐惧4种基本情绪(Strapparava&Valitutti,2004)。又比如Bradley和Lang(1999)建构的《标准英语情感词汇库》(Affective&Norms&for&English&Words,ANEW),依据情绪结构的PAD模型,要求被试对各情绪词的愉悦度、唤醒度和支配度进行9级评分,而非简单地划分正负性。初期的情绪词主要来自心理学的情绪量表,词汇数量较少。近年来,ANEW的词汇数量已超过3000,在网络文本情感分析中发挥出越来越重要的作用。
POMS-1是在《心境状态量表》(Profile&of&Mood&States,POMS)的基础上发展出的情感分析词库(McNair,Lorr,&Droppleman,1971),它从Wordnet(3版)和《罗热新千年同义词词典(第一版)》(Roget’s&New&Mill&ennium&Thesaurus)中搜寻POMS中6类心境词汇的同义词,将原始的65个词汇扩展为793个(Pepe&&Bollen,2008)。而GPOMS则是基于POMS&bi量表(McNair,Heuchert,&&Shilony,2003),采用点互信息方法原则(pointo&fmutual&information),认为经常同时出现的词汇所表达的意义相似,具有相同极性的可能性较大,因此从网络资源中找到出现在原始量表的72个词周围4到5个词汇范围之内的所有词,经过筛选最终得到了964个词,构成GPOMS词库(Bollen,Mao,&Zeng,2011)。
“语言询问和词汇计数系统”(LinguisticInquiryandWordCount,LIWC)是一款基于心理学的文本情感分析软件,情感词库是其程序的核心(Pennebaker,Francis,&Booth,2007)。LIWC所采用的词汇来源于各种字典、词典、问卷等,分类涉及各种词性、情绪、社会及环境等多个方面。在这些分类中,有的是确定的,如冠词仅包括a、an、the三个;而一些却有极强的主观性,如情绪。目前LIWC共有406个正性词和499个负性词,其中正性情绪又分为乐观、积极体验和其它正性情绪,负性情绪包括焦虑、愤怒、悲伤和其它负性情绪。研究发现LIWC具有良好的结构效度,能够较好地测量情绪表达(Kahn,Tobin,Massey,&Anderson,2007)。Bantum和Owen(2009)通过研究乳腺癌患者经过网上干预后的情绪表达,发现LIWC能够快速识别出患者文本中所表达的情绪。在其它诸如注意力集中、社会关系、思维风格和个体差异等方面的研究中,LIWC也具有重要作用(Tausczik&Pennebaker,2010)。
一些研究者认为,以上这些可称为“领域一般性”的情感词库在分析文本时容易产生歧义。某一领域的正性词汇在其它领域可能表达负性意义,而且在研究特殊问题时,领域特殊性词汇比一般性词汇具有更大的测量敏感性,所以应该开发领域特殊性的情感词库。譬如,Loughran和McDonald(2011)在《哈佛词典(第4版)》的基础上开发了一个专门用于会计和金融领域的《金融情感词典》(Financial&Sentiment&Dictionary,FSD)。在General&Inquirer的基础上,Young和Soroka(2011)结合《罗热同义词词典》和《回归意象词典》(Regressive&Imagery&Dictionary,RID),构建了用于政治领域的《词汇编码情感词典》(Lexicoder&Sentiment&Dictionary,LSD)。另外,DICTION是一款用于分析政治声明(如总统讲话)的计算机程序,程序包含有1000个词汇,分析文本在活力、乐观、确定性、现实性和公民性5个方面的特征(Hart,2001)。TAS/C是一种用于心理治疗的计算机程序,共有2000多个情绪词,分为愉悦、赞同、依恋3个维度(Mergenthaler,1993)。
基于词典资源分析词汇极性的方法简单易行,不需要训练数据。但值得注意的是,此类方法没有考虑词汇出现的语境,难以对同一个词的不同意思进行区分(Chung&Penne&baker,2007)。如“骄傲”在“这是国人的骄傲”中是一个正性词,而在“他是一个容易骄傲的孩子”中则是一个负性词,因此那些没有强烈极性的词在分类时容易出错。
目前,国内信息科学学者开展文本情感分析研究时,大多基于《Hownet情感词典》(Hownet&Sentiment&Dictionary)构建新的情感词库。Hownet是由董振东和董强(1999)联合设计的一个常识知识库,其中包括中英文的正负情绪词、正负评价词、主观表达词和程度级别词。其以中英文所表示的概念为描述对象,根据概念与概念及概念的属性之间的关系形成一个网状的知识系统,这是它与Wordnet的本质不同(张笛,2011)。研究者们根据Hownet的结构特点计算两个词汇或概念之间的语义相似度,然后对词汇的情感倾向性做出判断(陈岳峰,苗夺谦,李文,张志飞,2011;罗亚平,2010;朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德,2006)。譬如《中文基础情感词词典》,其以Hownet发布的情感词作为基础,根据词语的语义相似度计算词语的情感权值,共含有2807个正性词和2474个负性词(柳位平,朱艳辉,栗春亮,向华政,文志强,2009)。除此之外,国内研究者们还针对网络在线文本进行了多项情感分析研究,如对网络评论的语义倾向性分析(丁建立,慈祥,黄剑雄,2010;周德友,2008);对宾馆评论的情感分析(杨鼎,阳爱民,2010);对新闻媒体褒贬值的计算并据此预测股市的波动(王超,李楠,李欣丽,梁循,2009)。Feng,Wang,Yu,G..Yang和N.Yang(2009)从NTUSD和Hownet中选取词汇构建新的情感词库,并对网上的产品评价信息进行分析,帮助消费者和企业领导者做出决策(杨超,冯时,王大玲,杨楠,于戈,2010)。
国内信息科学研究者越来越重视对文档、句子和词汇的情感倾向性分析,并取得了多项研究成果,但是缺乏像国外的General&Inquirer这样较为公认的情感词库或文本情感分析程序,导致各项研究成果之间难以直接进行比较;而且所构建的情感词库也多是正负性的简单二分,缺乏对复杂多样的人类情绪现象的深入洞察。随着以新浪微博为代表的中国新一批微博客工具产品的诞生,网络应用无论在用户范围上,还是在影响力上,都达到了前所未有的高度。北京航空航天大学开发了国内第一个微博情感分析系统Mood&lens,他们基于表情符号将微博情绪分为快乐、悲伤、愤怒和厌恶4种类型,研究情绪波动模式并建立了实时监测系统(Zhao,Dong,Wu,&Xu,2012)。但是表情符号的分类较为模糊,许多符号很难明确地分为不同的情绪类型,而且许多有情绪意义的微博内容并不会加注表情符号。构建一个基于微博客文本的标准化情感词库很有必要,该情感词库应结合情绪结构理论或情绪心理学的研究成果,从情绪类型和情绪维度两个角度展开分析。
4在线文本情感分析中的心理学研究
基于情感词库,利用词汇匹配技术分析在线文本情感倾向的方法目前还不成熟,仍存在许多缺陷。但是,现阶段所取得的实证研究成果,表明它确实是有效测量大众情绪的方法,所得的情绪指标能在一定程度上显著地预测现实世界中的社会经济现象,如利用在线文本情感分析对产品市场份额、影视票房、疾病和信息的传播状况、政治选举结果的预测,对宏观经济形势分析,对突发事件预警等(Yu&Kak,2012)。这种面向海量在线文本信息的情感分析技术,能在一定程度上做到实时测量社会大众的情绪波动,为社会心理等研究注入活力,增强相关社会科学研究成果的实用价值。
在线文本情感分析为解决心理学理论之争提供了一条可能途经。譬如,社会心理学研究发现聚集在一起的人往往具有相同或类似的心理特征,这可能是由于人们更愿意与具有相同特点的人相处(同质性吸引),也可能是人们的心理或情绪状态影响了与之交往的其他人,使之趋同(社会感染)(Parkinson&Simons,2009)。Bollen,Gon?alves,Ruan和Mao(2011)从网上人群的主观幸福感(subject&ivewell-being)入手,分析社交网络中以上两种社会心理机制的作用。他们采用Opinion&Finder分析用户所发微博客中的情感信息,通过一段时间内累积的情绪来推断其主观幸福感水平,发现同质性吸引是影响人们社会性联结的更为重要的因素。
日照时间会影响人们的情绪,但究竟是绝对日照时间还是相对日照时间影响了人们,在心理学界一直存有争议。Golder和Macy(2011)利用LIWC研究了各个国家的民众在微博客网站Twitter.com上表达的正负性情绪,在一天、一周和一年中的变化,发现相对日照时间是影响人们情绪的主要因素;而且还验证了心理学中关于正负情绪相互独立的观点,高的正性情绪并不必然伴随出现低的负性情绪。Pepe和Bollen(2008)采用POMS1研究在线公众对未来的情绪,他们收集了网络用户的10741封发往未来的电子邮件,通过比较邮件中的词汇与POMS1中的词汇,得到这些邮件在POMS量表6类心境上的分数,发现长远来说人们是乐观的,而对不久的将来则有一些困惑和担忧。
传统社会科学研究在分析民众的社会、经济、政治态度时,主要采取随机取样的方法进行问卷或电话调查,如密歇根消费者信心指数(Michigan&Consumer&Confidence&Index,CCI)、盖洛普经济信心指数(Gallup&Economic&Confidence&Index,Gallup&ECI)等。研究者发现,通过在线文本情感分析技术获得的公众情绪指标,如推特投资者情绪指数(Twitter&Investor&Sentiment,TIS),不仅与一些民意测验指标或传统经济指标具有显著相关,而且还能提前1~2天预测现实经济走势(Mao,Counts,&Bollen,b)。
Bollen,Mao和Pepe(2010)采用POMS1分析Twitter.com中的情感信息,研究其与股市波动、原油价格、社会事件(如总统选举和感恩节)之间的关系,结果发现社会、政治、文化和经济领域的事件对大众情绪有重要的、即时的、独特的影响;而道琼斯工业指数(Dow-Jones&Industrial&Average,DJIA)和西德州轻质原油期货(West&Texas&Intermediate,WTI)价格的长期波动对公众情绪有累积的、延迟的影响效应,如2008年冬天的愤怒、紧张和抑郁情绪的增长与秋季经济持续低迷有关(Bollen,Pepe,&Mao,2010)。他们还利用Opinion&Finder和GPOMS分析人们在Twitter.com上的情绪表达,发现平静和快乐情绪能够显著增加对DJIA走势方向的预测效果,准确率达到87.6%(Bollen,Mao,etal.,2011)。同样从Google.com和Twitter.com上搜索与股市相关的信息,并与传统的CCI和GallupECI进行比较,发现谷歌洞察(Google&Insight&for&Search,GIS)和TIS能够显著预测股市的波动(Maoetal.,2011a)。这些研究成果表明在线文本情感分析是一种有效的测量社会公众情绪的方法,但是这些研究主要根据某种情感词库或分析方法,探究公众在某特定网络资源上表达的情感与社会经济事件的关系,所得结果难以检验这些研究工具自身的效度,以及区分研究工具、网络资源特异性、影响情感和社会事件关系的其它因素对研究结果的作用。因此,Mao等(2011b)调查了4种数据资源,包括传统调查数据、新闻媒体的标题、搜索引擎Google.com和Twitter.com,并采用多种情绪指标,如TIS、负性新闻情绪(Negative&News&Sentiment,NNS)及金融词汇,在Twitter.com和Google.com上的出现和被搜索频数,比较其对经济指数,如DJIA、交易量和金价等的预测作用。结果发现,传统的投资者情绪调查,如投资者智能(Investor&Intelligence)和每日情绪指数(Daily&Sentiment&Index,DSI)滞后于市场变化;而在线网络情绪指标TIS及1~2天前Twitter.com上出现的金融词汇频率对市场变化有显著的预测作用。
O’Connor等(2010)利用Opinion&Finder,研究与消费者信心和政治选举有关的微博客情感定向,并与消费者情绪指数(Index&of&Consumer&Sentiment,ICS)、Gallup&ECI及总统选举期间选民投票情况进行比较,发现基于Twitter.com的情绪信息分析方法能够重复传统方法获得的结果。英国学者Lansdall-Welfare,Lampos和Cristianini(2012)利用WordNet-Affect分析了98万用户历时31个月在Twitter.com上所发的信息,发现周期性的事件,如圣诞节、情人节等,在每年会有相似的情绪波动模式;突发的经济或政治事件对公众的情绪有显著影响,如2010年10月英国政府关于公共财政支出减少的通知,增加了公众的负性情绪;在线文本情感分析获得的公众情绪指标可预示某些社会事件的发生,如在2011年夏季的伦敦骚乱发生之前,公众的愤怒情绪从春季就开始持续增加。
值得注意的是,上述研究将在线文本情感信息按照不同的情绪类型进行分类,同等程度地考虑每一个词对文本情感定向的作用,这与实际情形并不完全相符,比如“邪恶”应该比“坏”具有更大的权重。Dodds和Dan&forth(2010)采用ANEW对大量的英文歌词、歌名、博客等文本信息的情感倾向进行分析,考虑了每个词汇的愉悦程度,而不是简单地认为每个词都具有相同权重,发现歌词的愉悦度从20世纪60年代至90年代中期持续处于下降状态,而同一体裁内的作品变化并不明显;博客的愉悦度则从2005年到2009年缓慢上升。为了更加全面地了解公众在Twitter.com上的情绪表达,他们增加了词库的容量,从Twitter.com、Google&Books、歌词()、《纽约时报》(种类型的文字材料中,按照出现频次选取了10222个不同的词或词组,包括多种语言、复数、动词联合、俚语、缩写、无情绪意义或中性的词,如“the”、“of”等,采用与开发ANEW相类似的方法,让被试对这些词的愉悦度进行评定,研究这些材料的愉悦程度随时间变化的规律(Dodds,Harris,Kloumann,Bliss,&Danforth,2011)。
通过收集、分析公众海量在线文本信息中的情绪表达开展社会科学研究,得到了诸多令人振奋的成果,说明可以从在线文本材料中获得正常且精确的社会公众情绪指标。在线文本情感分析技术可以对公众情绪进行实时测量,一定程度上摆脱了传统社会科学研究受到的经费、时间、人力等方面的制约,克服了主观报告和事后回忆准确性等研究范式固有缺陷,以及很大程度上避免了样本代表性难以保证等弊端。这些宝贵的数据为包括社会心理学家在内的社会科学家们提供了新的研究机遇(Miller,2011)。虽然在线文本情感分析技术这种方法目前仍未成熟,相关的重量级研究成果还较少,下某些结论仍需慎重,但是已有研究成果仍激励和启示我们,传统社会科学采用的费时、费力的大规模调查等方法,能够用在线文本情感分析技术进行部分替代或补充。
5总结与展望
Web2.0应用的诞生使得互联网络进一步成为人们自发即时表达情感、分享信息,进行人际交流和社会参与的重要媒介。互联网数据收集的实时性,文本内容范畴的丰富性,海量信息分析的高效性,突破了传统社会科学研究的诸多局限,也扩大了社会科学的研究范畴。预测能力较低一直是社会科学研究的缺陷之一,基于在线文本情感分析获得的情绪指标对现实中的社会经济现象,诸如股市波动、突发性事件等,皆显示出一定的预测效应。
反之,社会科学视角也不断为信息科学研究的拓展注入新鲜血液与动力,情绪心理学的研究成果和理论越来越多地应用于在线文本情感分析之中,如ANEW的建构方法被广泛借鉴、应用于情感词库的开发里。一些重要的传统情感词库也不再是简单的正负情绪二分法,而是更多地结合心理学关于情绪结构的研究成果,承认人类情绪的丰富性与多样性,更多地结合情绪结构理论模型,如General&Inquirer。此外,根据情绪结构理论,研究者还构建了多个全新的在线文本挖掘与分析情感词库,如POMS-1、GPOMS等。信息科学技术研究社会现象最终获得的只是结果,对于结果发生的原因和内在机制却需要社会科学家给予理论解释,如多项研究发现在线公众的情绪可预示出突发性社会事件的发生迹象(Gilbert&Karahalios,2009;Lansdall-Wel&fareetal.,2012),但是对于其背后的社会心理机制则需要社会科学家助力进一步探究。
总之,信息科学技术为社会科学的研究提供了新工具和新的可能性;而社会科学视角则提供给信息科学研究以新的题材和理论意蕴。所有这些使得计算社会科学、计算社会心理学等交叉学科正逐渐成为科学共同体的研究新热点(Asur&Huberman,2010;Quercia,Kosinski,Stillwell,&Crowcroft,2011)。
参考文献 :
陈岳峰,苗夺谦,李文, 张志飞.(2011).基于概念的词汇情感倾向识别方法. 智能系统学报, 6, 489–494.
丁建立,慈祥,黄剑雄.(2010).网络评论倾向性分析.计算机应用,30, .
董振东,董强.(1999).知网[EB/OL].取自: http://www.keenage.com/html/c_index.html
柳位平,朱艳辉,栗春亮,向华政,文志强.(2009). 中文基础情感词词典构建方法研究.计算机应用,29,.
罗亚平.(2010).面向网络舆情的中文评论文本情感倾向分析研究. 硕士学位论文,东北财经大学.
孙瑛泽, 陈建良,刘俊杰,刘昭麟,孙豐文.(2010).中文短句之情绪分类.
In Proceedings of the 22nd conference on computational linguistics and speech processing (pp. 184–198). Taiwan.
王超,李楠,李欣丽, 梁循.(2009).倾向性分析用于金融市场波动率的研究. 中文信息学报,23,95–99.
杨超, 冯时,王大玲,杨楠,于戈.(2010).基于情感词典扩展技术的网络舆情倾向性分析.小型微型计算机系统, 31,691–695.
杨鼎,阳爱民.(2010).一种基于情感词典和朴素贝叶斯的中文文本情感分类方法.计算机应用,27,.
乐国安,董颖红.(2013). 情绪的基本结构:争论、应用及其前瞻.南开学报(哲学社会科学版),(1),140–150.
张笛.(2011). Wordnet与 Hownet 之比较. 青年文学家, (13), 153, 155.
周德友. (2008). 基于 Hownet 的中文语义倾向性分析技术 研究. 硕士学位论文, 东北大学.
朱嫣岚, 闵锦, 周雅倩,黄萱菁,吴立德. (2006). 基于Hownet 的词汇语义倾向计算.中文信息学报 ,20,14–20.
Asur, S., & Huberman, B. A. (2010). Predicting the future with social media. In Proceedings of the 2010 IEEE/WIC/ACM international conference on web Intelligence and intelligent agent technology (pp. 492–499). Toronto: IEEE.
Bantum, E. O., & Owen, J. E. (2009). Evaluating the validity of computerized content analysis programs for identification of emotional expression in cancer narratives. Psychological Assessment, 21, 79–88.
Bollen, J., Gon&?alves, B., Ruan, G. C., & Mao, H. N. (2011). Happiness is assortative in online social networks. Massachusetts Institute of Technology, 17, 237–251.
Bollen, J., Mao, H. N., & Pepe, A. (2010). Determining the public mood state by analysis of microblogging posts. In Proceedings of the 12th international conference on the synthesis and simulation of living systems (Artifical Life XII). Odense, Denmark: MIT Press.
Bollen, J., Mao, H. N., & Zeng, X. J. (2011). Twitter mood predicts the stock market. Journal of Computational Science, 2, 1–8.
Bollen, J., Pepe, A., & Mao, H. N. (2010, April). Modeling public mood and emotion: Twitter sentiment and social-economic phenomena. In ICWSM, Raleigh, North Carolina.
Bradley, M. M., & Lang, P. J. (1999). Affective Norms for English Words (ANEW): Instruction manual and affective ratings (Technical report C-1). Gainesville, FL: The Center for Research in Psychophysiology, University of Florida.
Bruce, R. F., & Wiebe, J. M. (1999). Recognizing subjectivity: A case study of manual tagging. Natural Language Engineering, 5, 187–205.
Chung, C. K., & Pennebaker, J. W. (2007). The psychological function of function words. In K. Fiedler (Ed.), Social communication: Frontiers of social psychology (pp. 343–359). New York: Psychology Press.
Das, S., & Chen, M. (2001, July). Yahoo! for Amazon: Extracting market sentiment from stock message boards. In Proceedings of the Asia Pacific finance association annual conference, Bangkok.
Dodds, P. S., & Danforth, C. M. (2010). Measuring the happiness of large-scale written expression: Songs, blogs, and presidents. Journal of Happiness Studies, 11, 441–456.
Dodds, P. S., Harris, K. D., Kloumann, I. M., Bliss, C. A., & Danforth, C. M. (2011). Temporal patterns of happiness and information in a global social network: Hedonometrics and Twitter. PLoS One, 6, e26752.
Ekman, P., & Friesen, W. V. (1971). Constants across cultures in the face and emotion. Journal of Personality and Social Psychology, 17, 124–129.
Esuli, A., & Sebastiani, F. (2006). SentiWordNet: A publicly available lexical resource for opinion mining. In Proceedings of the 5th conference on language resources and evaluation conference (pp. 417–422). Genoa, Italy.
Feng, S., Wang, D. L., Yu, G., Yang, C., & Yang, N. (2009). Chinese blog clustering by hidden sentiment factors. In Advanced data mining and applications, LNAI 5678 (pp. 140–151). Berlin, Germany: Springer.
Gilbert, E., & Karahalios, K. (2009, November). Widespread worry and the stock market. In Proceedings of the 4th lnternational AAAI conference on weblogs and social media. Arlington, Virginia.
Golder, S. A., & Macy, M. W. (2011). Diurnal and seasonal mood vary with work, sleep, and daylength across diverse cultures. Science, 333, .
Hart, R. P. (2001). Redeveloping DICTION: Theoretical considerations. In M. D. West (Ed.), Theory, method, and practice in computer content analysis (pp. 43–60). New York, USA: Ablex.
Hu, M. Q., & Liu, B. (2004). Mining and summarizing customer reviews. In Proceedings of the 10th ACM SIGKDD international conference on knowledge discovery and data mining (pp. 168–177). New York, USA: ACM
Kahn, J. H., Tobin, R. M., Massey, A. E., & Anderson, J. A. (2007). Measuring emotional expression with the Linguistic Inquiry and Word Count. The American Journal of Psychology, 120, 263–286.
Ku, L. W., Liang, Y. T., & Chen, H. H. (2006). Tagging heterogeneous evaluation corpora for opinionated tasks. In Proceedings of the 5th international conference on language resources and evaluation (pp. 667–670). Genoa, Italy.
Lansdall-Welfare, T., Lampos, V., & Cristianini, N. (2012, April). Effects of the recession on public mood in the UK. In Proceedings of the 21st international conference companion on World Wide Web (pp. ). New York: ACM.
Lazer, D., et al. (2009). Computational social science. Science, 323, 721–723.
Loughran, T., & McDonald, B. (2011). When is a liability not a liability? Textual analysis, dictionaries and 10-Ks. Journal of Finance, 66, 35–65.
Mao, H. N., Counts, S., & Bollen, J. (2011a). Computational economic and finance gauges: Polls, search, & Twitter. In Behavioral finance meeting. Stanford, CA.
Mao, H. N., Counts, S., & Bollen, J. (2011b). Predicting financial markets: Comparing survey, News, Twitter and search engine data. ArXiv preprint arXiv:.
McNair, D. M., Heuchert, J. P., & Shilony, E. (2003). Profile of Mood States. Bibliography, . New York, USA: Multi-Health Systems Inc.
McNair, D. M., Lorr, M., & Droppleman, L. F. (1971). Profile of Mood States. San Diego: Educational and Industrial Testing Service.
Mehrabian, A. & Russell, J. A. (1974). An approach to environmental psychology. Cambridge: MIT Press.
Mergenthaler, E. (1993). TAS/C User Manual. Ulm, Germany: Ulmer Textbank.
Mergenthaler, E. (1996). Emotion-abstraction patterns in verbatim protocols: A new way of describing psychotherapeutic processes. Journal of Consulting and Clinical Psychology, 64, .
Miller, G. (2011). Social scientists wade into the tweet stream. Science, 333, .
Miller, G., Beckwith, R., Felbaum, C., Gross, D., & Miller, K. (1993). Introduction to WordNet: An on-line lexical database. Oxon, UK: Oxford University Press.
Nasukawa, T., & Yi, J. (2003). Sentiment analysis: Capturing favorability using natural language processing. In Proceedings of the 2nd international conference on Knowledge capture (pp.70–77). New York: ACM.
O’Connor, B., Balasubramanyan, R., Routledge, R. B., & Smith, A. N. (2010, May). From tweets to polls: Linking text sentiment to public opinion time series. In Proceedings of the International AAAI conference on weblogs and social media. Washington, DC.
Ohana, B., & Tierney. B. (2009). Sentiment classification of reviews using SentiWordNet. In Proceedings of the 9th IT&T conference. Dublin.
Pang, B., & Lee, L. (2005). Seeing starts: Exploiting class relationships for sentiment categorization with respect to rating scales. In Proceedings of the 43rd annual meeting on&association for computational linguistics (pp. 115–124). Stroudsburg, PA, USA: Association for Computational Linguistics
Pang, B., & Lee, L. (2008). Opinion mining and sentiment analysis. Foundations and Trends in Information Retrieval, 2, 1–135.
Pang, B., Lee, L., & Vaithyanathan, S. (2002). Thumbs up? Sentiment classification using machine learning techniques. In Proceedings of the ACL-02 conference on Empirical methods in natural language processing (pp. 79–86). Stroudsburg, PA, USA: Association for Computational Linguistics.
Parkinson, B., & Simons, G. (2009). Affecting others: Social appraisal and emotion contagion in everyday decision making. Personality and Social Psychology Bulletin, 35, .
Pennebaker, J. W., Francis, M. E., & Booth, R. J. (2007). Linguistic inquiry and word count: LIWC2007–Operation’s manual. Austin, TX: LIWC.net.
Pennebaker, J. W., Mehl, M. R., & Niederhoffer, K. G. (2003). Psychological aspects of natural language use: Our words, our selves. Annual Review of Psychology, 54, 547–577.
Pepe, A., & Bollen, J. (2008, March). Between conjecture and memento: Shaping a collective emotional perception of the future. In Proceedings of the AAAI Spring Symposiumon Emotion, Personality, and Social Behavior. Palo Alto, CA.
Prabowo, R., & Thelwall, M. (2009). Sentiment analysis: A combined approach. Journal of Informetrics, 3, 143–157.
Quercia, D., Kosinski, M., Stillwell, D., & Crowcroft, J. (2011, October). Our twitter profiles, our selves: Predicting personality with twitter. In Proceedings of 2011 IEEE 3rd international conference on and 2011 IEEE 3rd international conference on social computing (socialcom), Privacy, security, risk and trust (passat) (pp. 180–185). Boston, MA: IEEE.
Russo, I. (2010, May). Discovering polarity for ambiguous and objective adjectives through adverbial modification.
In Proceedings of LREC. Valletta, Malta.
Stone, J. P., Dunphy, C. D., Smith, S. M., & Ogilvie, M. D. (1966). General Inquirer. Cambridge: MIT.
Strapparava, C., & Valitutti, A. (2004). Wordnet-Affect: An affective extension of WordNet. In Proceedings of the 4th international conference on language resources and evaluation (pp. ). Lisbon, Portugal.
Tausczik, R.Y., & Pennebaker, W. J. (2010). The psychological meaning of words: LIWC and computerized text analysis methods. Journal of Language and Social Psychology, 29, 24–54.
Turney, P. D., & Littman, M. L. (2002). Unsupervised Learning of Semantic Orientation from a Hundred-Billion-Word Corpus. Technical Report ERC–1094(NRC 44929), National Research Council of Canada.
Voll, K., & Taboada, M. (2007). Not all words are created equal: Extracting semantic orientation as a function of adjective relevance. In proceedings of the 20th Australian Joint conference on artificial intelligence (pp. 337–346). Berlin, Heidelberg: Springer-Verlag.
Watson, D., & Tellegen, A. (1985). Toward a consensual structure of mood. Psychological Bulletin, 98, 219–235.
Wiebe, J., Wilson, T., Bruce, R., Bell, M., & Martin, M. (2004). Learning subjective language. Computational Linguistics, 30, 277–308.
Wilson, T., Wiebe, J., & Hoffman, P. (2005, October). Recognizing contextual polarity in phrase-level sentiment analysis. In Proceeding HLT '05 Proceedings of the conference on human language technology and empirical methods in natural language processing (pp. 347–354). Vancouver, B. C., Canada.
Young, L., & Soroka, S. (2012). Affective news: The automated coding of sentiment in political texts. Political Communication, 29, 205–231.
Yu, S., & Kak, S. (2012). A survey of prediction using social media. ArXiv preprint arXiv: .
Zhao, J. C., Dong, L., Wu, J. J., & Xu, K. (2012, June). MoodLens: An emoticon-based sentiment analysis system for Chinese tweets in Weibo. In KDD’12, Beijing, China.
心理科学进展 (编辑:wangmei)
上一篇:下一篇:
地址:北京市海淀区北京大学资源东楼1525室&&&&|&&&&邮箱:&nbsp}

我要回帖

更多关于 批判性话语分析 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信