绿知了小店店总团后台

知了的N种叫法|知了|城市_凤凰资讯
知了的N种叫法
用微信扫描二维码分享至好友和朋友圈
@信_天高地厚:清晨4:30今年第一次听到了知了的叫声,知了没变身前俺那里叫它爬擦(pa ca),恁那里都叫它么名啊?
原标题:知了的N种叫法@信_天高地厚:清晨4:30今年第一次听到了知了的叫声,知了没变身前俺那里叫它爬擦(pa ca),恁那里都叫它么名啊?@枕桉:老少狗!@耦花深处:爬爬。@?訫沄:这个难道没有叫“du liao hou”的吗?@李大拿的自留地儿:街遛龟(jie liu gui)。@城市上空的蓝天:我们老家叫“假妞”。@峰回路转圈:知了猴。
用微信扫描二维码分享至好友和朋友圈
04/13 08:36
04/13 08:36
04/13 08:38
04/13 08:37
04/13 08:37
04/13 09:27
04/13 09:27
04/13 09:27
04/13 09:27
04/13 09:28
12/03 09:23
12/03 09:07
12/03 08:12
12/03 08:12
12/03 09:26
04/13 09:04
04/13 09:04
04/13 09:04
04/13 09:04
04/13 09:04
04/13 00:38
04/13 00:38
04/13 00:38
04/13 00:38
04/13 00:38
凤凰资讯官方微信
播放数:475062
播放数:294580
播放数:200614
播放数:5808920
48小时点击排行我们都知道百度号称"全球最大得中文搜索技术供给商"。中国所有供给搜索引擎得门户网站中,百度是全球最优秀得中文信息检索与传递技术供给商。其中可定制、高扩展性的调度算法使得搜索器能在极短得时间内采集到最大数目的互联网信息。
&&&&百度搜索引擎使用了高性能得"网络蜘蛛"程序自动得在互联网中搜索信息。百度搜索引擎拥有目前世界上最大得中文信息库,总量达到6000万页上面,并且还在以每天几十万页得速度快速增长。
由于百度后台运用了高效得信息索引算法,大大提高了检索时得响应速度和承受大网站流量时得稳定性,相应的作为搜索引擎的谷歌也是,可是我们怎么知道这些搜索引擎是怎么计算这些信息并采集到给需要的人的呢?作为seoer初学者,我查找了先关的信息,算法很多,核心的大致分一下3点:
Hilltop算法
是由Krishna&Baharat在2000年左右所研究的,于2001年申请了专利,并且把专利授权给Google使用,后来Krishna&Baharat本人也加入了Google。
Hilltop算法可以简单理解为与主题相关的PR值。传统PR值与特定关键词或主题没有关联,只计算链接关系。这就有可能出现某种漏洞。比如一个PR值极高的关于环保内容的大学页面,上面有一个链接连向一个儿童用品网站,这个链接出现的原因可能仅仅是因为这个大学页面维护人是个教授,他太太在那个卖儿童用品的公司工作。这种与主题无关、却有着极高PR值的链接,有可能使一些网站获得很好的排名,但其实相关性并不高。
&&&&Hilltop算法就尝试矫正这种可能出现的疏漏。Hilltop算法同样是计算链接关系,不过它更关注来自主题相关页面的链接权重。在Hilltop算法中把这种主题相关页面称为专家文件。显然,针对不同主题或搜索词有不同的专家文件。
&&&&根据Hilltop算法,用户搜索关键词后,Google先按正常排名算法找到一系列相关页面并排名,然后计算这些页面有多少来自专家文件的、与主题相关的链接,来自专家文件的链接越多,页面的排名分值越高。按Hilltop算法的最初构想,一个页面至少要有两个来自专家文件的链接,才能返回一定的Hilltop值,不然返回的Hilltop值将为零。
&&&&根据专家文件链接计算的分值被称为LocalRank。排名程序根据LocalRank值,对原本传统排名算法计算的排名做重新调整,给出最后排名。这就是前面讨论的搜索引擎排名阶段最后的过滤和调整步骤。
Hilltop算法最初写论文和申请专利时对专家文件的选择有不同描述。在最初的研究中,Krishna&Baharat把专家文件定义为包含特定主题内容,并且有比较多导出链接到第三方网站的页面,这有点类似于HITS算法中的枢纽页面。专家文件链接指向的页面与专家文件本身应该没有关联,这种关联指的是来自同一个主域名下的子域名,来自相同或相似IP地址的页面等。最常见的专家文件经常来自于学校、政府及行业组织网站。
&&&&在最初的Hilltop算法中,专家文件是预先挑选的。搜索引擎可以根据最常见的搜索词,预先计算出一套专家文件,用户搜索时,排名算法从事先计算的专家文件集合中选出与搜索词相关的专家文件子集,再从这个子集中的链接计算LocalRank值。
&&&&不过在2001年所申请的专利中,Krishna&Baharat描述了另外一个挑选专家文件的方法,专家文件并不预先选择,用户搜索特定查询词后,搜索引擎按传统算法挑出一系列初始相关页面,这些页面就是专家文件。Hilltop算法在这个页面集合中再次计算哪些网页有来自于集合中其他页面的链接,赋予比较高的LocalRank值。由于传统算法得到的页面集合已经具备了相关性,这些页面再提供链接给某一个特定页面,这些链接的权重自然应该很高。这种挑选专家文件的方法是实时进行的。
&&&&通常认为Hilltop算法对2003年底的佛罗里达更新有重大影响,不过Hilltop算法是否真的已经被融入进Google排名算法中,没有人能够确定。Google从来没有承认、也没有否认自己的排名算法中是否使用了某项专利。不过从排名结果观察及招揽Krishna&Baharat至麾下等迹象看,Hilltop算法的思想得到了Google的极大重视。
&&&&Hilltop算法提示SEO,建设外部链接时更应该关注主题相关的网站。最简单的方法是搜索某个关键词,目前排在前面的页面就是最好的链接来源,甚至可能一个来自竞争对手网站的链接效果是最好的。当然,获得这样的链接难度最大。
TrustRank算法
TrustRank是近年来比较受关注的基于链接关系的排名算法。TrustRank可以翻译为&信任指数&。
TrustRank算法最初来自于2004年斯坦福大学和雅虎的一项联合研究,用来检测垃圾网站,并且于2006年申请专利。TrustRank算法发明人还发表了一份专门的PDF文件,说明TrustRank算法的应用。
&&&&TrustRank算法并不是由Google提出的,不过由于Google所占市场份额最大,而且TrustRank在Google排名中也是一个非常重要的因素,所以有些人误以为TrustRank是Google提出的。更让人糊涂的是,Google曾经把TrustRank申请为商标,但是TrustRank商标中的TrustRank指的是Google检测含有恶意代码网站的方法,而不是指排名算法中的信任指数。
&&&&TrustRank算法基于一个基本假设:好的网站很少会链接到坏的网站。反之则不成立,也就是说,坏的网站很少链接到好网站这句话并不成立。正相反,很多垃圾网站会链接到高权威、高信任指数的网站,试图提高自己的信任指数。
&&&&基于这个假设,如果能挑选出可以百分之百信任的网站,这些网站的TrustRank评为最高,这些TrustRank最高的网站所链接到的网站信任指数稍微降低,但也会很高。与此类似,第二层被信任的网站链接出去的第三层网站,信任度继续下降。由于种种原因,好的网站也不可避免地会链接到一些垃圾网站,不过离第一层网站点击距离越近,所传递的信任指数越高,离第一级网站点击距离就越远,信任指数将依次下降。这样,通过TrustRank算法,就能给所有网站计算出相应的信任指数,离第一层网站越远,成为垃圾网站的可能性就越大。
&&&&计算TrustRank值首先要选择一批种子网站,然后人工查看网站,设定一个初始TrustRank值。挑选种子网站有两种方式,一种是选择导出链接最多的网站,因为TrustRank算法就是计算指数随着导出链接的衰减。导出链接多的网站,在某种意义上可以理解为&逆向PR值&比较高。
&&&&另一种挑选种子网站的方法是选PR值高的网站,因为PR值越高,在搜索结果页面出现的概率就越大。这些网站才正是TrustRank算法最关注的、需要调整排名的网站。那些PR值很低的页面,在没有TrustRank算法时排名也很靠后,计算TrustRank意义就不大了。
&&&&根据测算,挑选出两百个左右网站作为种子,就可以比较精确地计算出所有网站的TrustRank值。
计算TrustRank随链接关系减少的公式有两种方式。一种是随链接次数衰减,也就是说如果第一层页面TrustRank指数是100,第二层页面衰减为90,第三层衰减为80。第二种计算方法是按导出链接数目分配TrustRank值,也就是说,如果一个页面的TrustRank值是100,页面上有5个导出链接,每个链接将传递20%的TrustRank值。衰减和分配这两种计算方法通常综合使用,整体效果都是随着链接层次的增加,TrustRank值逐步降低。
&&&&得出网站和页面的TrustRank值后,可以通过两种方式影响排名。一种是把传统排名算法挑选出的多个页面,根据TrustRank值比较,重新做排名调整。另一种是设定一个最低的TrustRank值门槛,只有超过这个门槛的页面,才被认为有足够的质量进入排名,低于门槛的页面将被认为是垃圾页面,从搜索结果中过滤出去。
&&&&虽然TrustRank算法最初是作为检测垃圾的方法,但在现在的搜索引擎排名算法中,TrustRank概念使用更为广泛,常常影响大部分网站的整体排名。TrustRank算法最初针对的是页面级别,现在在搜索引擎算法中,TrustRank值也通常表现在域名级别,整个域名的信任指数越高,整体排名能力就越强。
HITS是英文Hyperlink-Induced&Topic&Search&的缩写,意译为&超链诱导主题搜索&。
按照HITS算法,用户输入关键词后,算法对返回的匹配页面计算两种值,一种是枢纽值(Hub&Scores),另一种是权威值(Authority&Scores),这两个值是互相依存、互相影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。权威值指的是所有导入链接所在页面的枢纽值之和。
&&&&上面的定义比较拗口,我们可以简单地说,HITS算法会提炼出两种比较重要的页面,也就是枢纽页面和权威页面。枢纽页面本身可能没有多少导入链接,但是有很多导出链接指向权威页面。权威页面本身可能导出链接不多,但是有很多来自枢纽页面的导入链接。
&&&&典型的枢纽页面就是如雅虎目录、开放目录或好123这样的网站目录。这种高质量的网站目录作用就在于指向其他权威网站,所以称为枢纽。而权威页面有很多导入链接,其中包含很多来自枢纽页面的链接。权威页面通常是提供真正相关内容的页面。
&&&&HITS算法是针对特定查询词的,所以称为主题搜索。
HITS算法的最大缺点是,它在查询阶段进行计算,而不是在抓取或预处理阶段。所以HITS算法是以牺牲查询排名响应时间为代价的。也正因为如此,原始HITS算法在搜索引擎中并不常用。不过HITS算法的思想很可能融入到搜索引擎的索引阶段,也就是根据链接关系找出具有枢纽特征或权威特征的页面。
成为权威页面是第一优先,不过难度比较大,唯一的方法就是获得高质量链接。当你的网站不能成为权威页面时,就让它成为枢纽页面。所以导出链接也是当前搜索引擎排名因素之一。绝不链接到其他网站的做法,并不是好的SEO方法。
这些是多方面找到的资料,希望可以帮助大家多了解下,也有不全面的信息,希望多多指导!
阅读(...) 评论()非典型的千万用户后台之路 - 简书
<div class="fixed-btn note-fixed-download" data-toggle="popover" data-placement="left" data-html="true" data-trigger="hover" data-content=''>
写了11467字,被12人关注,获得了25个喜欢
非典型的千万用户后台之路
三年前,原本我只是个不学无术的数据小码农,空有一腔热情;而当时公司也处在艰难的转型期,旧产品不见起色,新产品前途未卜。想见着也不可能用这么小的数据玩出花来,而新产品的数据也不是一时半会能成规模。还是本着最大限度学习的心思,鼓足勇气和老板提换岗,要去扛后台开发的大旗,最大程度参与到产品的一线去。一个小决定,换来的是整整半年的不眠之夜,眼见着第1个用户到第500万个用户,眼见着1台到4台再到10台服务器,眼见着后台业务由单一的播放到能播放能上传再到有完整的社交交互。从刚开始三天两头崩溃出事故,到最终一点不怕市场的同事搞拉新的活动,什么状况都能做到心中有数、遇事不慌。回头一想吓一大跳:自己并不是后台工程师科班出身,从来对语言和框架的争论无感无力,网络编程的基础知识更是差强人意,但是凭着小米步枪,凭着奇技淫巧,凭着持续思考和不断尝试,居然也能搭建起一个支撑千万级别用户的后台框架。总结那半年,留下了5条事关生死的建议,在这里泣血奉上。
数据的读写是服务器性能的核心
一个完整的后台服务,组件其实就只分3种:接入、逻辑和数据。这好比一家饭店,后台工程师就是开店的老板,客人数量小于1万,服务流程是第一位的,老板们吭哧吭哧忙着写逻辑;1万到10万之间,接入组件的设计会是重中之重:一个店的服务能力有限,老板们忙着多开几个分店,让客人分流,而决定客人到哪一个分店的,就是接入组件;但是用户一旦大于10万,数据的读写能力就决定了这家超级饭店的服务容量,不管开多少个分店,都要保证数据是一致的,读起来又快又准,而写数据不会影响到读的性能。表结构怎么设计,数据库怎么分布(主从、读写分离、分库、分表),缓存怎么选怎么分布,就是老板们最重要的工作(让老板高兴的是,名片也可以改印个高大上的抬头:架构师)。
一旦用户量过了十万,要再想光靠数据库一部卡车打天下就不太现实了,而缓存(物理存储地在内存,天生比数据库读写性能强)这匹野马的出现就满足了我们对于速度的极致需求。缓存对服务器的架构带来了两个深远的影响:一是热数据和冷数据的分离:热数据访问的人多,缓存挡在前面,为数据库分担巨大的读压力;而热数据从产品的角度也更应获得快速的响应。二是数据一致性的门槛提高,更新数据库的同时必须更新缓存,一旦缓存更新失败,数据库也一定要回滚而保证数据的一致性,不能闹给客人上冷菜的笑话。当然缓存存什么、怎么存,也是大有一番学问,容我下一小节再讲。但缓存的重要性总结一句话:没有缓存是万万不能的。无论你是选老马Memcached还是火热的头马Redis,一定要在数据库感受到压力之前上马,并且做好缓存备份和恢复的预案。当然,平安无事你是没办法感受到缓存的好处的,它就像一个平时提醒你吃饭睡觉多喝热水的备胎,只有当她弃你而去之时,你看着服务器哗哗成百倍上涨的响应时间,恨不得找块豆腐一头撞死。
列表、实体和冗余
Web时代,由于翻页前后用户出现了界面的切换,用户对于列表本身的变化并不敏感(假如翻页的同时列表新加入了内容,只要保证用户浏览的这个片段没有重复就可以),但是移动端这种滚动列表的设计简直就是所有后台工程师的梦魇(加入用户上拉列表获取更多的同时新加入了内容,那用户会看到相邻两个重复的内容,然后就气炸了,什么破APP!),应对「列表重复」这个难题的方法出一本书都够了。因为这个需求,我们只能放弃了原有的自增ID,采用时间戳作为获取列表片段的方式:简单来讲,就是客户端每次都上报一个当前页最后一个内容的时间戳,服务器再去取比这个时间更旧的若干个内容。这里必须要感谢Redis的作者提供了如此丰富的缓存使用的API,我觉得Redis最出色的一点就是把列表的所有使用场景都设想得很通透。
实体就是热数据,热数据的缓存有两问:一是存什么?有人会说简单,把整个结构体转化为一个JSON存进去不就得了?但这其实是有问题的,当你的服务器要面对数十万同时到来的用户,可能短短一瞬就要做数以千万计的JSON到结构体之间的来回切换,而这个过程的效率实际上是很不理想的,那么也许你要想一些更快的方案(此处买个关子)。二是怎么存?雪崩效应并不罕见,一旦源数据改变,一时间许多个线程同时去访问更新缓存的API,服务器瞬间堵死,想到后台工程师会因此而失业,我默默加了一个锁。
小张是端菜的服务员,这次上菜,他要先去凉菜区取个土豆丝、再去荤菜区取个东坡肉、顺到素菜区取个手撕包菜、最后到饮料区再拎两瓶果汁,听起来很低效,对不?这和数据获取的过程是类似的,数据库的表设计首要考虑的是归类,比如用户的信息存一张表,用户和小组的关系再存一张表,那么如果有一个场景需要读用户以及他最后访问过的小组,就得做两次的数据表读取,一旦这个场景频繁出现,适当的数据冗余(把用户最后访问的小组ID加入到用户表的字段中)就能够降低数据库的读取压力。所以表设计一定一定一定(重要的事情说三遍)要考虑业务场景。
异步,是不是真异步?
有的小盆友跑来问我,我这个服务器框架选的牛啊,异步多线程的,单进程并发一万多轻而易举,怎么还是慢啊?我说,「异步」这个词可不要说得太轻松,底层异步了,流程里的每个步骤是不是异步的呢?数据库读写、缓存读写、外部接口的访问,这些都不能异步吧?既然不是异步,卡在哪里你还不知道呢,还不赶紧打日志。还是说说最令我崩溃的一个案例:某次服务器炸了,打多少次日志都没办法定位到卡住的原因。最后猜是怎么着?竟然是日志组件(Log4j)就不是异步的,打日志这个步骤就卡住了,欲哭无泪。
日志、监控和有损服务
一个高级饭店要有厨师,要有大堂经理,要有端盘子的,要有收银的,但千万别忘了还要有保安。他虽然不是饭店成功与否的核心因素,但是如果缺了他,危机时刻就会应付不来。下面这三位哥们就是服务器的保安:日志、监控和有损服务。
先说日志,日志是很微妙的,打多了不行,影响性能、占据空间,打少了,关键问题排查不出原因。那么哪些是必打的呢?我认为有三点:一是行为的基本属性,无非是何时何地何人,时间、用户ID、IP、版本(存下来除了排错,还可以用来做数据分析);二是往返的参数,尤其是客户端上报的参数,服务器返回的数据也许会很大,不建议所有都打印,可以打印统计数据,比如返回了多少个小组之类;三是报错信息,底层一定要catch所有的出错信息,并把它打到单独的日志里。
再说监控,日志是一旦发现了问题帮助我们找出问题的原因的工具,那么什么能帮我们发现问题呢?答案是监控和告警。监控与日志不同,要抓核心的数据,不能多,我建议取三个数据:用户的并发访问数、读取的人均响应时间、写入的人均响应时间,告警的话再加上服务器的崩溃、重启的次数,以及主机性能相关的指标(CPU、内存、硬盘等)。
「发生这种事,大家都不想的。饿不饿,我给你煮碗面?」,服务器运气不好崩溃了,我便常常用这句TVB的经典台词与小伙伴们调侃。其实无论事前机关算尽,成长期的APP总会遇到服务器出状况的。但是,以我有限的经验,服务器的问题往往不出在自身,而是它所依赖组件导致的问题,比如Memcached机器dump、转码服务队列阻塞、或者图片存储空间爆满等等。那么在问题被解决之前,总不能干瞪眼,看着用户投诉一波波来吧?我们会想,对于现在的业务来说,最不能崩溃的场景是什么?比如播放是我们的最基础服务,那我们死也要保证任何外部组件的崩溃都不能影响热门内容的播放,因此我们要把这部分少而重要的热数据加载到内存,以防止外部存储出了什么问题,服务器自己还有碗面吃。真正是,自己的事情自己干,靠天靠地靠祖宗,不算是好汉。
服务分离与复制
服务器体系越长越大,我们首要做的事情是分封,儿子长大了,总要给他一块地盘,当个小王,从此自己打拼去。于是数据读写被抽象成服务了,同时对APP和前端负责,做最大的一个王;编码解码抽象成服务了,反正编码解码是给UGC用户提供的,想当明星的人总要等得起;日志存储和解析也抽象成服务了,反正有少许的丢失我们也不介意。表面看来服务器被拆得支离破碎,增加了网络时延,是一笔不划算的生意,但实际上对服务器的稳定性大有助益。为什么?一是大王国被拆成小王国了,定位问题更容易,迁移和复制也更简单,数据读写有压力?没问题!再给两块地盘。二是在整个链条上,任何一个环节都是多点,俗话说,不把鸡蛋都放在一个篮子,任何一台服务器dump都不会要了我们的命。
细枝末节且不提,总结当时半年内服务器高速发展期留下来的经验,我认为最重要的就是这五点,业务场景不同,服务器的架构和侧重点也肯定会略有差异;不过这五点基本等同于锦囊,等同于基石,等同于保命符,做好了,这饭店生意一定蒸蒸日上。恭喜你,老板!
更多精彩内容,欢迎关注微信公众号「码农咖啡馆」
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮
被以下专题收入,发现更多相似内容:
如果你是程序员,或者有一颗喜欢写程序的心,喜欢分享技术干货、项目经验、程序员日常囧事等等,欢迎投稿《程序员》专题。
专题主编:小...
· 213902人关注
《知了》专题大到包罗IT业及互联网的大情小态,小到收罗便利的工具和应用,准则是“用大脑思考、用良心酿字、用简单逻辑表述、用诚意筛选”,...
· 53440人关注
讨论IT行业发展方向,分享最新IT技术。只要是IT相关大家尽情讨论
· 150人关注
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
选择支付方式:您的赞赏,是对我创作的最大鼓励。|赞赏
收藏已收藏 | 155赞 | 17
扫码分享到微信
前开发转产品运营,求收留~
2篇作品8.1k阅读总量
热门问题12345678910}

我要回帖

更多关于 绿知了小店店招商部 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信