基于用户兴趣爱好的微博热点话题复习 兴趣与爱好挖掘系统怎么使用

本篇博客说是与@phunter_lau PK而写的,其实我无心PK,产品设计技术方案都是面向用户的,写博客也一样,单纯只想跟大家聊聊。几句话说在前头,个人不过是产品改进过程中的一个参与者,但博文将广泛涉猎。本文会有太多“个人”观点,但也仅仅是“个人”观点。
首先,介绍下我们团队负责的主要产品线:Feed流里面的“好友关注”,首页右侧的“可能感兴趣的人”,以及客户端“新的好友”页。微博的用户都应该会看到过这三个界面。
其中,“好友关注”采用投放的方式,“可能感兴趣的人”采用嵌入页面的方式,“新的好友页”则是用一个可以不停下拉的界面去支撑用户的主动行为。
第一个问题,这些结果是如何创造出来的?也就是推荐语料是如何生成的?@phunter_lau说,我们的结果只是去补充关系网络,这其实这是我们最初的方法,但现在这只是方法之一。当前出结果的方式主要分为如下几种:
二度关系:也就是“关注的关注”,“好友的好友”两种结果,这个直观上也很好解释,例如你关注了一个人,那么他所关注的人,有可能是他的朋友,有可能是他的爱好,你会有一定感兴趣的概率;
兴趣协同;如果你关注了林书豪,我们认为你可能对湖人队以及NBA感兴趣,于是给你推科比,湖人队,NBA官方账号等。主要方法是用主题模型,将用户的粉丝列表投影到一个低纬度空间。通过这个向量计算Item的相似度,再基于ItemBased协同计算备选,在这个过程中,再嵌入聚类,让结果分散在多个兴趣中;
细粒度时效性协同:如果用户关注了林书豪,我们会在较短的时间之内给用户反馈其瞬时兴趣,给其推荐他的粉丝团,贴吧等感兴趣。这里依然是ItemBased协同,通过用户的粉丝列表,计算相似度。
如上这几种方式,基于二度关系的结果用于补全与扩展用户的关系网络;兴趣协同则是挖掘用户兴趣,并对兴趣进行发散,通过发散后得到的大层面兴趣构建结果;而最后一种方式,则是用户当前兴趣的一种顺延,准确但没有惊喜。
二度关系推荐的最大问题在于,微博不仅仅是个关系网络,更是一个兴趣网络,一个人所关注的人中,最有价值的是他感兴趣的那些。例如我喜欢海贼王,NBA,所以就会关注海贼王运营号,NBA的球星,但是他们与我其实没有社交关系,他们感兴趣的人(关注的人),他们的社交圈子与我也没有太大关系。但部分情况下,二度关系依然是一种非常重要的出结果方式,短期内应该不会抛弃它。
我们也在尝试其他的方式,例如:
UserBased协同:这种协同的方式是找出与用户拥有共同兴趣的圈子,将这个圈子感兴趣的对象推荐给用户。尤其是找到与用户处于同一个圈子并且拥有较高“鉴赏能力”的节点,他们关注的人将更好;
基于图模型的方式:利用图挖掘方法,挖掘用户所处社团结构,将从属同一个社团的其它成员推荐给用户。这种方式试图克服“二度关系”的粗陋,深度探索微博的网络拓扑结构;
SVD方法:类似于兴趣协同,其根本思想是将Item的特性,用户兴趣均投影到低维度空间,通过两个向量的内积作为相关度,然而受限于效率,依然处于不成熟阶段。
等等,还有一些。是否这些就是最好的?我们也无法判断,但一直在路上。用户对于微博用户推荐系统的误解可能在于推荐理由是“间接好友”与“间接好友数”,但这只是因为我们暂时还没有想到更好的推荐理由罢了,后台已经远不限于“关系”了。
然后呢,我也聊聊预估与特征工程。
推荐系统的职能是否是做预估?预估是如此让人迷恋,模型与数据的魅惑尽在“预估”,我也爱“预估”。但“预估”不是推荐系统最重要的事情,不仅仅因为转化率与点击率等数字无法彻底代表推荐系统质量,而效果也不完全取决于算法。最重要的是,推荐系统首要问题是解决个性化需求,这往往是在推荐“语料”生成阶段解决的,而不是在“预估”阶段解决的。
也就是说,推荐系统的最大问题在“如何生成结果”,而不是“如何排序结果”。因为无法让所有的Item全部进入排序模块(Item少的推荐系统除外),那么只能在“生成结果”阶段减少结果量,显然每个人结果不同,于是这个阶段解决个性化问题是更加合适的。从推荐效果竞赛角度上看,“如何生成结果”对应单预估算法,而“如何排序结果”则对应“assembling”阶段。当然,“如何生成结果”广义上也属于“如何排序结果”,也可以算是预估(特征工程)的部分了。(未来我可能会为微博广告与推荐算法团队的特征工程积累单独撰文,但本文就不再多说了。)
在微博用户推荐架构体系中,预估也是非常重要的一个环节,一方面通过用户的属性信息进行调权,一方面用于融合多种来源的推荐结果。另外值得一提的是,我们也有两种架构方式:离线与在线。前者是基于Hadoop的一套时效性较差但数据量较大的离线计算体系,后者则是基于C/C++计算的,用于反馈用户的瞬时行为的体系。于是当前的体系如下图:
最后一个问题,为什么用户会反感?
博文里面陈述了我们的改进历程,在过去的一年里面,我们的这几个产品线,点击率关注率等数据提升都超过100%,部分已经到了200%。对现在的效果,个人比较自信,但的确有很多地方容易造成用户反感。
采用主动投放的方式:将结果投放到用户的Feed流里面,是一件非常危险的事情——打断用户要做的事。就算结果质量高,但用户没有加关注欲求,那依然让用户反感。要注意,Twitter也是做了这个功能的,但是Twitter应该只是用了ItemBased方法做了实时推荐,在用户关注一个账号不久,立即给他推荐与这个账号相关的账号。相对而言,微博的投放有点缺乏节制;
没有满足用户延续需求的界面,用户无法比较效果:Twitter有“发现”模块,里面有一个独立的找人页面,可以通过不断下拉的方式,不停的得到结果。那么,一方面,用户需要加人而又不是一个具体需求(需提需求回去搜索)会主动到这个界面找结果。一方面从产品设计上,这样的方式明显更加健康,另一方面,这些结果即使有一部分不符合自己需求,自己依然不会感到非常糟心,相反,微博信息流投放以及首页右侧展示只有两三个结果,一旦出现前女友这种,就让用户糟心死;
广告投放:为了养活这个大团队,微博不能不做广告,这个任谁也无可厚非。我们只能在用户体验与生存盈利之间取折中,部分广告结果自然不会太好,但我们会尽力而为。
转自:小科记事本,作者:,他是新浪微博技术大牛
相关阅读:
转载请注明来自36大数据(): &
除非特别注明,本站所有文章均不代表本站观点。报道中出现的商标属于其合法持有人。请遵守理性,宽容,换位思考的原则。一点资讯如何构想移动时代兴趣门户?
作者:腾讯科技
腾讯科技 宗秀倩 11月6日报道对于新闻阅读应用而言,似乎大的格局已经确定。腾讯、网易、搜狐、新浪已经基于门户优势布局新闻客户端;新闻订阅类应用有鲜果、Zaker、Flipboard等;基于用户兴趣爱好挖掘,代表产品有今日头条等。作为刚刚上线两个月的一点资讯,进入这个市场,是否还有自己的价值?“现在我们的产品有人说像Zite,又有人说像今日头条。过两个月,就完全不是这样了。”一点资讯创始人郑朝晖这样说。在郑朝晖的构想中,一点资讯的背后有一整个“一点X”应用序列,支撑这个序列的是基于兴趣挖掘的兴趣平台。割裂的烦恼郑朝晖创业之前,在雅虎硅谷总部工作了七年。2010年,他带团队回国创立雅虎北京研究院,担任院长一职。在雅虎工作期间,他一直做全网搜索和个性化信息推荐的技术优化工作。在产品形态保持稳定的前提下,在雅虎的技术体系中,信息搜索质量能提升1-2%对技术团队而言便是巨大的进步。郑朝晖逐渐发现,技术上的量变对用户的实际影响不大,但是产品的天花板开始出现,技术很大程度上被产品形态束缚。“技术和产品应该联动创新才能真正实现千人千面的兴趣发现和推荐。”郑朝晖说。他认为,在移动互联网时代,无论是门户、搜索引擎,还是社交网络都在试图通过不同的信息筛选方式更精准地满足互联网信息爆炸时代人们对个人兴趣信息的获取,而信息组织方式必将是完全围绕用户个人兴趣展开,更准确的定义是兴趣门户。小众应用?2012年,郑朝晖选择了离职创业。与大公司的产品和技术割裂不同,他统一了搜索引擎和推荐引擎的开发,在封闭开发一年以后,推出主打兴趣挖掘的移动应用“一点资讯”。从名字望去,人们很容易将其和已有的新闻App联系在一起进行对比。在用户的兴趣挖掘上,与今日头条类似,一点资讯同样基于微博等社交平台的数据兴趣挖掘,也有一些不同,会添加用户的身份角色,比如爱旅游等,从身份去判断用户的喜好。一点资讯也在尝试基于微信的阅读,通过培育微信账号进行推送信息。在他看来,微信占据人们的大部分时间,成为人们的阅读平台。他甚至希望微信可以开放接口,如此一来可以基于人们在微信中体现的兴趣进行挖掘。基于自媒体信息的筛选也可以成为一点资讯工作的一部分。除此之外,一点资讯还采取推荐后和用户互动二次确认兴趣的方式,这类似于用户订阅和兴趣挖掘两种路径的中间状态,更快地找准用户的兴趣点进而进行推荐。基于兴趣导向的新闻阅读应用的模式已经不新了。国外典型性代表是Zite,但后来被CNN收购,无法覆盖主流用户群。是否兴趣挖掘类应用都注定是小众应用?郑朝晖认为,Zite主要覆盖的是新闻领域,他的推荐架构无法超出新闻的范围。而一点资讯的覆盖范围是全网的,就像搜索引擎一样。他透露,一点资讯只是选择从新闻领域切入,背后还有一系列的“一点X”应用,基于某一个具体的领域,比如科技、美食等,可以是好几百个应用,背后依托技术平台,开发封装一个应用的成本极低。具体哪些领域的应用应该深度定制,则需要参考用户的兴趣。规模化问题之所以从人们普遍不看好的新闻领域切入,郑朝晖有自己的一套逻辑:如果新闻领域都能实现用户规模化,其他领域就更不用发愁了。不过新闻App的推广本身就是个难题。在一点资讯上线两个月后,应用推广无疑成为当务之急。尤其是对数据挖掘类应用而言,没有海量信息,挖掘就无从谈起。这也是郑朝晖目前最着急要做的事情。因为在有规模化用户后,才能实现自己的另一个构想——兴趣广告。用户的门槛,郑朝晖设定到1000万。如果达到这个数字后,他认为,可以搭建基于兴趣的广告推荐系统,这和资讯的推荐逻辑如出一辙。不过从目前来看,达到这个目标尚需时日。与此前两年兴起的移动应用创业潮相比,低成本的推广手段少之又少,这无疑增加了推广难度和代价。
官方微博/微信
每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。
↑扫描二维码
想在手机上看科技资讯和科技八卦吗?想第一时间看独家爆料和深度报道吗?请关注TechWeb官方微信公众帐号:1.用手机扫左侧二维码;2.在添加朋友里,搜索关注TechWeb。
相关的资讯有:
相关的博文有:
9.7英寸的iPad Pro上,苹果带来了一个很有用的功能,那就是屏幕支持True Tone功能,简...
雷军昨晚确认,小米6定于4月发布。按照此前小米官微的说法,他们将在国内首发骁龙835...
三星前不久刚刚公布了S8手机,这款手机应该是今年Android平台目前最强大的产品,不过...
据路透社北京时间4月1日报道,在运营成本降低近一半后,黑莓公司第四财季亏损额好于预...
北京时间4月1日早间消息,大数据软件公司Cloudera周五向纽交所提交IPO招股书,计划融...
富士康发布了2016年第四季度及全年业绩。第四季度,富士康净利润同比增长30%,超出了...
与优酷合并多时的土豆网今天公布了全新的LOGO标识,从“笑脸”图案变成了“亲亲嘴”,...
支付宝旗下理财产品余额宝正受到越来越多尝试理财的用户的青睐,其收益也是越来越高,...
Windows 10的第四次重大更新就要来了,微软已经明确4月11日推送它。现在,微软再次发...
《Legacy of Discord - Furious Wings》(简称LOD)海外上线不足半年,已获得691次App......
火影忍者手游三代火影可以通过组织争霸赛获得碎片,三次跨服第一并且组织捐赠的小伙伴......
王者荣耀体验服3月27日更新,老夫子重做之后上线了,下面为大家介绍新版老夫子的详细......
夜雾迷城活动2月22日5:00—2月28日23:59,本次活动新增套装黎明之冠新月之吻,下面为......
Copyright (C)
All rights reserved.
请选择一张图片分享
要转发到新浪微博,请
要转发到QQ空间,请基于有指导LDA用户兴趣模型的微博主题挖掘--《山东大学学报(理学版)》2015年09期
基于有指导LDA用户兴趣模型的微博主题挖掘
【摘要】:用户发布的微博内容能够体现用户兴趣,微博中用户的转发、评论、回复、他人评论等微博行为对用户兴趣具有很强的指导作用。为了有效利用用户微博行为,提出了一种基于有指导LDA(latent dirichlet allocation)的微博内容用户兴趣建模方法。首先通过分析对微博的转发、评论、回复、他人评论这4个因素对用户微博兴趣主题的影响,定义了4种约束关系;然后基于用户微博内容,将4种约束关系融合到LDA模型中构建有指导的LDA微博主题生成模型,最后得到用户的微博主题分布,从而获得用户兴趣模型。实验结果表明,相比LDA模型,该方法的准确率有很大提高,引入4种信息对微博用户兴趣发现有非常重要的指导作用。
【作者单位】:
【关键词】:
【基金】:
【分类号】:TP391.1【正文快照】:
0引言随着社交网络的不断发展,微博的社交地位也越来越突出。目前主流的微博平台有Twitter、新浪等。基于微博内容,挖掘用户兴趣,进而发现具有相同兴趣爱好的用户社区,对于用户聚合和资源整合具有非常大的帮助。当前在用户兴趣挖掘研究方面的方法主要有以下几类:一是基于用户
欢迎:、、)
支持CAJ、PDF文件格式,仅支持PDF格式
【参考文献】
中国期刊全文数据库
林鸿飞,杨元生;[J];计算机研究与发展;2002年07期
张晨逸;孙建伶;丁轶群;;[J];计算机研究与发展;2011年10期
姚全珠;宋志理;彭程;;[J];计算机工程与应用;2011年13期
【共引文献】
中国期刊全文数据库
刘永利;欧阳元新;闻佳;熊璋;;[J];北京航空航天大学学报;2010年02期
陈大平;;[J];长春理工大学学报(高教版);2009年10期
伊雯雯;何福男;;[J];常州信息职业技术学院学报;2010年04期
张真继;刘红璐;孙洁;;[J];东北师大学报(自然科学版);2005年04期
张美香,陈俊杰,赵栓柱;[J];电脑开发与应用;2005年05期
孙多;;[J];电脑知识与技术(学术交流);2007年21期
彭耶萍;;[J];电脑知识与技术;2009年20期
陈明志;陈健;许春耀;陈为旭;林柏钢;;[J];福州大学学报(自然科学版);2011年06期
孙乃利;王玉龙;沈奇威;;[J];电信技术;2012年12期
王君泽;马静;杜洪涛;;[J];电子政务;2013年01期
中国重要会议论文全文数据库
邹博伟;张宇;范基礼;郑伟;刘挺;;[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
徐志明;宋毅;冯子威;李生;;[A];第六届全国信息检索学术会议论文集[C];2010年
刘娜;肖智博;路莹;唐晓君;肖鹏;;[A];2013年中国智能自动化学术会议论文集(第五分册)[C];2013年
中国博士学位论文全文数据库
余伟;[D];武汉大学;2011年
刘娜;[D];大连海事大学;2012年
徐振宁;[D];中国人民解放军国防科学技术大学;2002年
应晓敏;[D];中国人民解放军国防科学技术大学;2003年
周斌;[D];同济大学;2007年
李强;[D];浙江大学;2006年
荆永君;[D];东北师范大学;2008年
潘建国;[D];上海大学;2009年
许应楠;[D];南京理工大学;2012年
田占伟;[D];哈尔滨工业大学;2012年
中国硕士学位论文全文数据库
蔡宇虹;[D];哈尔滨工程大学;2010年
祖金锋;[D];哈尔滨理工大学;2010年
夏超伦;[D];浙江大学;2011年
田凤珍;[D];河北农业大学;2011年
郑义;[D];沈阳师范大学;2011年
王洪明;[D];北京邮电大学;2011年
翟姗姗;[D];华中师范大学;2011年
郇秀花;[D];安徽大学;2011年
刘佳音;[D];杭州电子科技大学;2009年
冯子威;[D];哈尔滨工业大学;2010年
【二级参考文献】
中国期刊全文数据库
伍建军;康耀红;;[J];海南大学学报(自然科学版);2007年01期
林鸿飞,李业丽,姚天顺;[J];计算机研究与发展;2000年04期
林鸿飞;[J];计算机研究与发展;2001年09期
林鸿飞;战学刚;姚天顺;;[J];计算机科学;2000年02期
苏金树;张博锋;徐昕;;[J];软件学报;2006年09期
【相似文献】
中国期刊全文数据库
胡吉明;陈果;;[J];图书情报工作;2014年02期
刘培奇;孙捷焓;;[J];计算机应用;2012年02期
程艳花;谭怒涛;黄磊;王建英;;[J];计算机工程与应用;2009年27期
黄正鹏;;[J];福建电脑;2008年08期
张燕平;窦蓉蓉;赵姝;曹振田;;[J];计算机工程;2010年14期
赵炜;陈俊杰;李海芳;;[J];计算机工程与应用;2009年18期
吴秀清;范丽亚;;[J];聊城大学学报(自然科学版);2011年04期
楚克明;李芳;;[J];上海交通大学学报;2010年11期
刘杰;张福生;冯达;;[J];舰船电子工程;2013年04期
郑世卓;崔晓燕;;[J];软件;2014年01期
中国重要会议论文全文数据库
楚克明;李芳;;[A];第五届全国信息检索学术会议论文集[C];2009年
Jussi K蔺春涛;高冬;;[A];2004年CT和三维成像学术年会论文集[C];2004年
中国硕士学位论文全文数据库
楚克明;[D];上海交通大学;2010年
王敏;[D];西安电子科技大学;2013年
程龙龙;[D];辽宁大学;2014年
刘海旭;[D];北京邮电大学;2013年
周振宇;[D];上海交通大学;2013年
章万锋;[D];浙江大学;2004年
周林;[D];西南交通大学;2012年
李书涛;[D];南京理工大学;2013年
李阳;[D];哈尔滨工业大学;2013年
邹友辉;[D];杭州电子科技大学;2013年
&快捷付款方式
&订购知网充值卡
400-819-9993
《中国学术期刊(光盘版)》电子杂志社有限公司
同方知网数字出版技术股份有限公司
地址:北京清华大学 84-48信箱 大众知识服务
出版物经营许可证 新出发京批字第直0595号
订购热线:400-819-82499
服务热线:010--
在线咨询:
传真:010-
京公网安备75号推荐极光推送目标用户为0论文题目阅读
热门极光推送给指定用户论文参考资料阅读
同类论文推荐分析新浪微博的用户管理与大数据利用经验
作者:佚名
字体:[ ] 来源:大数据魔镜博客 时间:01-12 10:34:03
这篇文章主要介绍了新浪微博的用户管理与大数据利用经验,作为亿级用户的微博的运营经验,非常值得社区类网站进行参考,需要的朋友可以参考下
用户管理微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作:原创、转发、回复、阅读、关注、@等。其中,前四个是针对短博文,最后的关注和@则针对的是用户之间的关系,关注某个人就意味着你成为他的粉丝,而他成为你的好友;@某个人意味着你想要他看到你的微博信息。微博被人们认为是&自媒体&,即普通大众分享与本身相关的&新闻&的途径。最近,有些人使用自己在自媒体上的影响力而盈利的报道屡见不鲜。那微博上个人影响力是怎样计算的呢?微博上还有哪些算法作为看不见的手在管理着我们?我们的每一个行为怎样影响着算法呢?直观上看,微博其实是人类社会的一个简单的缩影,微博网络的一些特点,也许可以启发我们得到真实的社会网络上的规律。得益于社交网络的爆发式发展,&社会计算&尤其是社交网络分析成为数据挖掘的新宠儿。下面我们就针对微博网络分析的一些算法进行简单的介绍,其中的有些算法对于其他的社交应用可能也适用。
1.标签传播微博用户量浩大,不同的人有不同的兴趣。挖掘每个用户的兴趣有助于更加精准的广告投放、内容推荐。为了得到每个用户的兴趣,可以为用户打上标签,每个标签代表用户的一个兴趣,用户可以拥有一个或多个标签。为了得到最终的用户标签,先做第一个假设:每个用户的好友(或粉丝)中与该用户具有相同兴趣的人占多数。这就引出了本文介绍的第一个算法,即标签传播算法。在这个算法中,每个用户的标签取其好友或粉丝中标签最多的一个或多个。当然,可以将好友和粉丝的标签都考虑进来,整合的时候可以考虑赋予好友的标签和粉丝的标签不同的权重。标签传播算法的过程如下:1)对一部分用户给出初始标签;2)对每一个用户,统计其好友和粉丝的标签数目,赋予该用户出现次数最多的一个或者多个标签。3)循环进行第2步,直到用户的标签不再发生大的变化为止。
2.用户相似度计算标签传播算法实现起来比较简单,其缺点在于当所做的假设不符合事实时,比如为了社交上的礼貌,我们一般会把自己的亲友添加关注,这些人不一定和我们拥有同样的标签;该算法的结果就会变得很差。解决的办法就是通过计算用户之间的相似度来衡量好友或粉丝的标签对用户标签的贡献率。因而得到第二个假设:与用户越相似的好友或粉丝,其标签越可能是用户的标签。那么,如何衡量用户之间的相似度呢?这就需要考虑到用户发表的微博信息了,包括转发的和原创的。这里是要考虑用户之间的相似度而不是用户微博之间的相似度,因而在实际计算时,将某个用户的所有微博信息聚集到一起进行计算。一个可选的方法是使用词袋法将微博信息表示成词语向量,然后直接使用余弦方法等计算其相似度。但这个方法太过简单,不容易达到好的结果,这里介绍一种基于LDA(隐含狄利克雷分布)的相似度计算方法。LDA仍然使用词袋法表示文本,但是在中间添加了一个主题层,形成了&文档-主题-词语&三层概率模型,即每篇文档看成是主题的一种概率分布,主题又被看成是单词的概率分布。在LDA模型下,文档可以被看成按照如下方式生成:1)对于每篇文档:2)从主题分布中抽取一个主题;3)从该主题的词语分布中抽取一个词语;4)重复第2步和第3步,直到该文档的所有词语都生成。LDA模型参数的估计算法不在本文的讨论范围之内。这里只需要知道,通过LDA可以得到每个用户的微博信息的主题分布。然后使用余弦方法、KL距离等计算相似度的方法来得到用户间主题分布的相似度,以之作为用户之间的相似度。而后使用该相似度对标签传播进行加权。
3.时间因素和网络因素上述的算法还有什么缺点呢?随着时间的变化,用户的兴趣是会变化的,计算用户相似度的时候每次都把所有微博信息都聚合在一起不太合理。对此,可以通过选取距离当前时间较近的N条微博。比如,对每个用户,选取距离当前时间最近的50条微博聚在一起放到LDA中训练。此处的N既不能太大也不能太小。太大则不容易反映用户兴趣的时间变化,太小则由于用户发表微博的随机性容易引起兴趣的漂移。为了使效果最好,可以不拘泥于一个固定的N,比如可以考虑对每个用户按照其发表微博的时间序列做N值的自适应。至此,在算法中还没有考虑微博关系中由回复、转发、@等所构成的网络信息。以转发为例,如果在用户的微博中频繁的转发某个好友的微博,那么用户和该好友的相似度相比其他好友来说应该会更高。这里可以看做是假设三:用户转发某好友的微博的频率越高,用户与该好友的兴趣相似度越大。相似的,可以得到假设四:用户微博中@某用户的频率越高,用户与该好友的兴趣相似度越大。由此就得到了计算相似度的另外的因素。有很多方法可以添加一个新的因素到原有的相似度计算方法中,比如可以考虑将转发频率量化为值,作为权重添加到相似度的衡量中去。
4.社区发现微博社区是指在微博中关系紧密的人组成的团体,社区内部的人之间联系紧密,社区之间的联系则比较稀疏。这里所指的关系紧密有两层含义,第一是社区内部的人之间的兴趣相似度大;第二是指社区内部的人之间的关系要近,比如要求社区内部的两个用户不能超过二度关联,二度关联即好友的好友。兴趣相似度在上文已有叙述,关系相似度则需要利用用户之间的关注关系来进行计算。以用户的关注关系为单向链,可以将所有的微博用户之间的关系表示为一个巨大的有向图。用户之间的关系相似度可以简单的考虑,比如使用用户间的最短路径的倒数。但是这种方法衡量的不精确,我们知道,在现实世界中,存在着六度理论,在微博网络及其他社交网络中,往往关系会更加紧密。因而这种简单的关系相似度只能有至多六个离散值,显然不够精确。为了达到更好的效果,这里不仅以最短路径作为显式量度,还要考虑一些隐式的量度。这里先给出两个假设,分别为假设五和假设六:两个用户的共同好友越多,这两个好友的关系相似度越高。两个用户的共同粉丝越多,这两个好友的关系相似度越高。这里可以借鉴Jaccard相似度的计算方式,将这两种假设的量化函数表示为交集的大小与并集的大小之商。以假设五为例,其量化指标又被称为共指向性相似度,量化时使用两个用户共同好友的数目除以两个用户所有好友的数目。假设六的量化指标被称为共被指向性相似度,计算方式与共指向性相似度类似。从意义上讲,这两种相似度不仅仅是关系上的度量,在一定程度上也衡量了用户之间的兴趣相似程度,直观上看,两个用户共同关注的好友越多,他们的兴趣相似程度也越大。这两种相似度还有一个专业的名字,是基于结构情景的相似度计算。得到了最短路径相似度、共指向性相似度、共被指向性相似度后,可以采用一种加权函数将它们融合起来,得到最后的相似度。之后,可以采用一些聚类算法如K-Means、DBSCAN等进行聚类操作,得到最后的社区簇。也可以采用相似度加权的标签传播算法,把具有相同标签的人作为一个社区。
5.影响力计算在社区发现中,使用微博中的关系网络可以提高相似度计算的精确度。但关系网络能做的事情还有很多,影响力计算便是其中比较重要的应用。说到影响力的计算,这里借鉴了网页排名中的算法。网页排名中广为人知的算法当属PageRank了,该算法由google创始人拉里&佩奇和谢尔盖&布林发明,随着google在商业上的成功而声名鹊起。该算法根据网页之间的链接来确定网页的排名,其核心在于一个假设,质量高的网页所指向的网页的质量必定也高。根据PageRank的思想,可以得到微博上影响力的假设,称之为假设七:影响力高的用户关注的用户的影响力必定也高。将用户看成是PageRank中的网页,将关注关系看做是网页中的链接关系。从而,可以根据PageRank的算法流程得到在微博关注网络上的影响力计算算法:1)赋予所有用户相同的影响力权重;2)将每个用户的影响力权重按照其关注的人数等量分配;3)对每个用户来说,其影响力等于其粉丝分配给他的权重之和;4)第2步和第3步迭代,直到权重不再发生大的变化为止。在网页排名中,基于网络关系的算法还有HITS、HillTop算法等,这些算法也可以借鉴到影响力计算中来。上面的算法有什么缺点呢?如果只是基于关系网络的话,那么很容易就造成,粉丝数目多的人影响力必然会很高。这样就导致有些用户去购买一些僵尸粉就可以达到很高的影响力了。这样的算法显然是不能应对实际情况的,因为还有太多的信息没有用到。用户的影响力除了他的微博关系之外,还与他的个人属性有很大的关系,比如用户的活跃度、微文的质量等。用户的活跃度可以使用其发表微博的频度来衡量,微文的质量可以采用其被转发的数目、被回复的数目来得到。通过对这些值进行衡量,再加上上面算法的结果,就可以得到更加精确的影响力结果。当然,也可以这样考虑,用户之间的回复关系、转发关系、@关系均可以构成网络,它们也有相应的假设,分别为假设八、假设九、假设十:影响力越高的用户回复的微博的影响力越高,从而使该微博主人的影响力变高。影响力越高的用户转发的微博的影响力越高,从而使该微博原创作者的影响力变高。影响力越高的用户倾向于在其微博中@影响力高的用户。这样就又得到了转发网络、回复网络、@网络三种网络,借鉴PageRank算法,可以得到另外的三种影响力结果。将它们与关系网络的影响力结果进行融合,就可以最终的影响力结果了。这里的融合可以简单的考虑成结果的加权和,复杂的融合方法不在本文的范围之内。
6.话题因素和领域因素得到了影响力的计算方法之后,可以做些什么呢?可以对当前的热点话题进行影响力分析,得到谁在微博上成为当前热点话题的意见领袖。具体做法是这样,找到和当前热点话题相关的微文,从而找到参与当前热点话题的用户。如何找到和当前热点话题相关的微文呢?有话题标签的微文自不必说,对于没有话题标签的微文来说,可以使用上文中介绍的LDA算法,它可以在用户的所有微文中找到用户的主题分布,也可以对一条微文找到主题分布,一般来说,由于微文的字数限制在140以内,比较短,因而一条微文包含的主题数目不会太多,取该微文的主题分布中概率最高的主题当做其主题即可。找到话题对应的微文与用户之后,运行影响力计算算法,就可以得到该话题中影响力较大的用户了。这也是舆情监测、社会热点监控的一个方面。对于标签传播算法得到的结果,对同一标签下的用户运行影响力计算算法,可以得到该标签下的影响力排名,即领域内影响力排名。比如,李开复在全部领域内的影响力或许不是最高的,但在IT领域,其影响力绝对是数一数二的。
7.垃圾用户识别在影响力计算中,提到要避免僵尸用户对影响力计算的干扰。在算法中,如果可以识别这样的用户,在计算影响力时将其排出在外,不仅可以提高效果,还可以降低计算量。与影响力计算相似,垃圾用户的识别要同时考虑用户属性与链接关系两方面的因素。对于垃圾用户来说,有一些统计上的特征与正常用户不同。比如如下几点:垃圾用户一般发微文具有一定的时间规律性,可以使用熵值对此进行衡量,熵是衡量随机性的一种量度,随机性越大,熵值越小。具体做法为将一定的粒度进行时间切片统计,得到每个时间片内的博文概率,然后依照概率进行熵值的计算。熵值越大代表用户发微文的时间越有规律,越有可能是垃圾用户。垃圾用户有些倾向于在微文中恶意的@其他人,因而有些垃圾用户的微文中@使用的比例比一般用户高。有些垃圾用户的微文中为了进行广告的推广,添加大量的URL。可以通过微文中的URL比例进行衡量。也有些用户为了骗取URL的点击,微文中的内容与URL对应界面的内容不一致,这时需要判断微文与URL内容的一致程度,简单的做法可以使用词袋法将微文与URL对应界面表示成词语向量,查看微文中的词语在URL对应网页中出现的频度。对于那些为做广告推销的用户,还可以对其微文进行文本分类,判断其微文是否是广告,如果某用户的相当一部分微文是广告,则该用户可能是垃圾用户。垃圾用户一般随意的关注用户,故其粉丝数目与好友数目的比例与正常用户会有差别。而且正常用户一般是通过好友关系添加好友的,这样会形成关注三角形,如A看到其好友B关注了C,那么若A也去关注C,就形成了A关注B、C,B关注C的三角形。一般来说,由于垃圾用户关注的随意性,其关注三角形的比例与正常用户不同。当然,垃圾用户与正常用户的不同之处不止这些,本文不再一一枚举。垃圾用户的识别本质上是一个二分类问题,获得了这些属性之后,就可以将这些信息输入到一个机器学习的分类模型中,比如逻辑斯蒂回归(LR)、决策树、朴素贝叶斯等,就可以对其进行分类了。当然,还没有用到链接信息。一般来说,垃圾用户会去关注正常用户,而正常用户不会关注垃圾用户。这即是假设十一:正常用户不倾向于关注垃圾用户。这样就可以再次使用PageRank算法来对用户是否是垃圾用户的概率进行计算。这里需要注意的是,算法初始化时采用上面的分类器结果,将垃圾用户的概率设为1,正常用户的概率设为0。在PageRank计算过程中,不能通过简单的求和公式计算,比如如果一个用户关注了多个垃圾用户的时候,求和后概率可能大于1;因而需要使用一些归一化方法或指数族函数进行概率的更新。
大数据利用1.聚合、计算、输出、反馈形成数据和业务闭环微博大数据其实是一个很闭环的业务,从底下的原始数据开始,微博一条一条的文本,实际都是非结构化数据。通过自然语言处理的技术,把每一条文本内容提取出来,之后放在底层网络上。如一个客户对一家饭的评论内容,将内容提取后就放到这个饭店的边框上。基于文本处理还可以做语义的分析,把这些非结构化的内容进行结构化,再上一层达到算法层,这个算法实际就是跟不同场景不同的算法,到达用户端,用户端再回到底层的数据算法当中。因此整个过程并不是一个孤立的,而且跟场景的理解关系非常大。每个点都非常灵活,要把这个合力用到整个闭环上。
2.平台化思路建设计算能力、数据能力、服务能力大数据本身的建设如果从效率提升来讲,其实是一个平台化的东西。微博的在线场景非常多,每个在线场景都会留下用户的行为。所以对微博来说,大数据的建设是一个平台化的思路。所谓平台化的思路,要从不同的场景里面去做足够的抽象,这个抽象有三层含义,一个数据结构的抽象,还有一个是策略算法的抽象,还有就是输出的抽象,三个层面的抽象。从场景上来说,会分成内容流,用户流,推荐搜索,还有开放平台的输出,还有离线报告的应用,不同的业务,不会去针对每个业务特点去做,而会把场景要用的策略算法做一个梳理,具体在工程实施的时候,有一些是需要批处理的,有一些是需要流处理的。
3.结合云计算技术挖掘大数据价值新浪微博数据类型非常多,内部分基本是几十个领域,而每个领域从一开始都是从底层往上做,做数据非结构化到结构化的转化。但是走到一定阶段,如果想要做到场景级别,还是需要垂直领域的理解。新浪有各个频道,跟音乐、电影这些门户频道有比较深入的合作,到这个阶段并不是技术层面的事情,而是跟垂直领域,跟行业关系密切。另外新浪微博也跟外面合作伙伴有一些合作,这些合作伙伴会把算法部署到新浪的计算环境当中来,因为毕竟涉及到一些数据的问题,不可能把这个开放的程度过大。如果能够有技术合作的公司把垂直领域的理解还有他们的算法部署在我们这个环境之上的话,他们获得数据的范围可以更大,这个也是新浪微博后面的一个发展方向。新浪微博提供一个云环境,在这个环境里面,可以用到基础的数据,微博基础数据。另外还可以用到大数据这边已经做到的一些标签,还有自然语言处理这些内容,甚至就是这些合作伙伴可以基于新浪微博提供的基础数据,还有挖掘出来的标签,他自己挖掘的标签,做一些APP,来满足用户的诉求。
4.建立合作更好的满足客户需求新浪微博跟一些其他领域合作伙伴进行多方面的尝试。目标主要是围绕用户的衣食住行各种需求,目前已经跟央视索福瑞有一些合作,这是已经上线的产品,后台的数据包括给微博文本打上标签,还有大家平时见到的曲线图。在微博电视指数里面,想表达的是某一款电视在播出的时候,在社交媒体上会有口碑的影响力,还会有用户的覆盖度,这些都是节目制作方,电视台都非常关心的内容。我们从后台的数据来看,某一款节目在播前、播中、播后都有一个曲线,这个曲线那来之后,比如《爸爸去哪儿》,比如《中国好声音》,这款产品究竟在哪个地区哪类用户有非常好的反响,这个用户是什么年龄群的,微博上观众经常关注什么,看什么,在这样一个场景里面新浪微博都能够获得。前端展示出来的就是一个微博电视指数,但是后台其实还有很多要做的事情。
5.开放微博大数据和云计算环境整个微博大数据建设的过程当中,也希望能够跟有共同服务用户这一点理解诉求一致的行业的合作伙伴去进行合作。这里面微博这边能够开放出来的就是UGC的内容流,还有基于微博这个生态体系所打的用户方面的一些标签。还有能够提供一个开放云计算的环境,具体合作也有三个层面,最基础的就是数据这个层面的合作,比如数据的互补,对奇。第二个是场景层面,比如在微博这个场景上面一些功能,用户在使用微博的时候,互联网产品本身就是在创造场景,不断满足人细分场景下的需求。新浪微博跟这个垂直行业的伙伴一起寻找,在其他场景还有哪些可以做的。第三个就是产品的层面,这个形式不一定在微博内,具体什么形式不确定。
大家感兴趣的内容
12345678910
最近更新的内容}

我要回帖

更多关于 简历兴趣爱好怎么写 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信