百度为什么点不开剩余部分

百度搜索帮助中心-百度空间常见问题
&百度空间常见问题
我的百度空间地址是什么?登录百度空间后,打开主页页面,此时浏览器中显示的地址为您的百度空间地址。您可以把它记下来,复制给您的好友用于添加链接或者直接在浏览器中输入即可直接访问您的百度空间。
如何创建我的空间?
1)若您没有百度帐号请在“百度空间”主页,点击“立即注册并创建我的空间”按照说明进行注册。
若您有百度帐号请在登录框中输入您的用户名及密码。
2)登录注册后为您的空间指定唯一的网址:
该网址为指定的唯一网址;
只允许汉字、字母、数字和下划线;
一旦申请成功即不可更改;
3)填写空间名称(最多为40个汉字),您可以在以后更改此标题。(详情参见)
4)完成“激活您的空间”页面内容的填写,点击“创建空间”按钮,完成创建。
如何设置密码和提高密码的安全级别?
在登录状态下,点击页面右上角的用户ID,进入个人帐户中心,进入‘修改安全设置’(页面左下角)。
您可以修改密码。
1)可以将用户帐号“和电子邮箱绑定”在一起,一旦绑定后,将不可更改。
2)可以设置“密码保护问题”,以保障帐号的安全性。
3)可以设置“手机验证信息”,当帐号被盗时,可以通过您填写的手机信息来做身份确认。一旦填写后,将不可更改。
如何找回丢失的密码?
首先进入百度空间首页,点击忘记密码进入页面,在这里填写您要找回密码的用户名;点击下一步,请填写您注册时填写的电子邮箱,如果您设置了密码保护功能,则请填写密码保护答案,填写完成后提交;我们会将修改密码的链接发送到您在个人中心设置的电子邮箱中,请您在24小时内登录电子邮箱修改,过期作废!
如何设置文章置顶??
第一步:添加自定义模块。
登录后在设置——高级设置——内容模块,选择添加自定义模块,确定后,点击“保存修改”。
第二步:修改自定义模块名称,并添加想要置顶的文章。
添加自定义模块后,点击自定义模块上“编辑”。
A:模块名称——点击“编辑”后可修改成你想要的名字。如:我的精彩推荐等等。
B:链接名称——可填写你想推荐的文章标题。如:我的五一流水账。
链接地址——可填写你推荐的文章的地址。
描述——可填写你的推荐理由或者对推荐文章的简介等,当然也可以不填。
填写完毕后,点击“确定”即可。
如果在删除某一文章分类,是否会将该分类中的文章删除?
当删除某一分类,您可以不必担心该分类中的文章被删。原在该分类的文章被放入“默认分类”中。
如何查看我的好友空间的内容更新?
在“友情链接”里您的好友若有内容更新,会在其名字前有图标显示。点击可查看好友的空间。
如何有篇日志不想让其他人看到,怎么办?
在您撰写新的文章时,选择“状态”中的“私有”,这样您的这篇日志就不会被其他人看到。
有篇日志我只想与好友分享,怎么办?
在您撰写新的文章时,选择“状态”中的“仅向好友开放”,这样您的这篇日志就只会被你空间中好友列表中的好友看到了。
如何在文章里添加图片?
点击“标题”下面的工具条里的
按钮,点击“浏览”按钮,选择图片后再点“打开”按钮即可插入图片。
发表新文章时为什么没有成功?
1)长时间没有进行操作,服务器自动设置退出。
2)文章内容的字数超出字数限制(合20000汉字)。
3)文章内容中含有非法字眼。
如果您的文章超过字数限制,请分两次或多次发表新文章。
如果写文章的时间过长,请在提交前先全部复制内容一下,如果发表不成功,可以退后再次发表时黏贴内容,不至于写的文章丢失。
如果内容中含非法字眼,请检查内容删除非法的字眼。
为何我的照片上传不上去?
首先,请确认你上传的照片小于3M,并且内容积极健康。
其次,目前相册支持以下格式的图片上传:JPG、GIF、BMP、PNG。
再有,上传文件可能遇到空间限制。如果您将要上传的文件大小超过了您的空间中剩余的大小,您的上传将会失败,并且会收到“可用空间不足”的提示。
如何删除评论?
登录后可以点击每篇文章下方的评论中的“删除”链接删除评论。
我的相册能放多少张照片
每个注册用户都可以获得1G的免费可用空间,可以存放大约张的高精度数码相片。
如何添加我的好友?
1 )当您在浏览好友的信息中心页面时,点击页面中的 “ 添加好友 ” 链接,即可将该用户加入您的好友列表中。
2 )您还可以在下面的编辑框内输入好友名,点击 “ 添加好友 ” 即可将该用户加入您的好友列表中。
怎样设置我每页的日志数?
在“设置”——“基本设置”中的“ 每页显示文章”中可选择每页的日志数 5 篇、 10 篇、 15 篇。
我的主页中如何只显示摘要?
在“设置”——“基本设置”中的“文章显示”中可选择摘要形式,在主页显示你的日志的摘要。
为什么背景音乐添加后播放不出来?
1)可能是由于您添加的背景音乐网址不正确。
2)也可能是您设置的背景音乐的播放地址连接速度不好。
您可以到,在搜索框中输入您想查询的歌曲名或者歌手名、歌词的一部分,然后点击“搜索”按钮,进入搜索结果页后显示相关歌曲的列表。点击歌曲名,将歌曲的url复制到背景音乐曲目填写框内即可。
怎么添加或修改空间的背景图片?
在“设置”——“高级设置”中选择自定义模板,在新开页面上端桔色区域点击“背景图片”选择您喜欢的背景图片。
如何随意移动我的空间模块?
在“设置” 中选择模板设置中的“自定义模板”,用鼠标拖拽想要移动模块即可。
使用空间有哪些限制?
1)文章分类名称的长度最少1字节,最长50字节;
2)文章内容(正文)的长度最短1字节,最长40000字节;
3)相册空间的大小是1GB;
4)相册中上传的每张图片最大是3MB;
5)相册名称的长度最少1字节最多50字节;
6)每个用户最多可以建立80个相册;
7)百度空间名称长度最少1字节,最长80字节;
8)百度空间简介长度最长为200字节;
9)友情链接的名称长度最少1字节,最长20字节。
如何知道有多少个朋友到我的空间
在主页的右下角“已有N人次访问本空间”可以看到。如果想要获得更多的信息,可以在“设置”中的“访问统计”中查看。
在哪可以自定义我空间的CSS?
在“设置”的高级设置中选择CSS自定义,如何自定义空间CSS请参见。
我定义好CSS的模板,怎么换了另一个之后原来定义的内容都没有了?
当您写完CSS,想换掉模板时,请先将您的代码用记事本单独保存。更换好模板后,再将修改的部分加在里面。
如何订阅RSS?
设定:“模板设置”——“高级设置”——“自定义模板”—— “内容模块”——勾选“RSS订阅”
订阅您感兴趣的百度空间:复制你感兴趣的空间地址,点击RSS模块的“编辑”,将地址粘贴到“RSS源地址”,保存即可。
订阅新闻资讯:可以通过“新闻”进入其他门户网站订阅各种信息。
如何在文章里转贴视频?
您可以点击“标题”下面的工具条里的按钮,输入您要转贴的视频网络源地址即可。
转贴视频需要注意什么?
1)您可以直接转贴在百度上传的视频();同时百度空间还支持以下网站的视频转贴,其他网站视频链接地址无效:
mofile.com
2)在转贴视频时,请选择用于个人空间或博客转贴使用的flash视频源链接地址,并完整进行粘贴。
如何在‘关于我’里插入相册?
您可以点击工具条里的按钮,选择您要插入的相册即可。具体操作查看。
为什么我的文章被锁定私有?
您的文章被锁定私有可能由于以下原因:
1、文章含有政治敏感信息
2、文章含有暴力的图片或文字等信息
3、文章含有恶意攻击以及违反法律、法规等其他违反的信息
为什么我的文章被删除?
您的文章被删可能由于以下原因:
1、文章含有政治敏感信息
2、文章含有色情、暴力的图片或文字等信息
3、文章含有对个人或者机构的不属实信息,对方投诉要求予以删除
4、文章含有恶意攻击以及违反法律、法规等其他违反的信息
空间宠物的体力值、欢迎词是什么意思?
体力是宠物生存的基础,每天宠物会消耗一定的体力值。您可以通过喂食来增加宠物的体力值,及时的喂养有助于宠物的健康。请注意,如果您领养的宠物长时间没有得到喂食,当它体力值下降到零时,它会被空间的收容中心收容,再也不会回来了。欢迎词是您为宠物设定的一段话,这样每当有人访问您的空间时,宠物会主动说出这句话来。另外,您还可以为宠物设定留言,宠物在页面上走动时,随时可能会停下来说出您想让宠物说的话。
如何获取高级礼物赠送机会?
高级礼物带有钻石()标志。您每成功赠送出5个普通礼物,系统就会立刻奖励您1次高级礼物的赠送机会。更多玩法,敬请期待。
如何反馈关于百度空间的更多问题?
您可以访问 或者访问 和反馈您的问题。
& 2014 Baidu  百度的管理层,你们全特么瞎了吗?竟然允许日杂开这样的贴吧?  平时回帖连“慰安妇”这样的词都发不出去,提示是敏感词,可现在这些日杂竟然发这种内容的帖子,是怎么通过审核的?  这样的贴吧是谁批准通过的?  百度是不是全体都投靠鬼子,变成汉奸公司了?  有请李彦宏进来看看,看看您的公司都为百姓做出了什么贡献。  http://card.weibo.com/article/h5/s#cid=&vid=&extparam=&from=&wm=&ip=106.37.25.134
主帖获得的天涯分:0
楼主发言:12次 发图: | 更多
      这种公然侮辱红军女战士的图片,百度,你们是怎么审核的,这样的图片是怎么通过的?
  是谁在给这样的贴吧撑腰?你们究竟得到了什么好处?
      公然宣扬鬼子的自杀机,你们是瞎了,还是真不知道?
  看到人很少
        审核通过这些图的编辑,建议你们回家查查家谱,看看你们祖上是否有鬼子血统,如果有,建议你们滚出中国。
  这个贴吧意图太明显了,就是朝人喷粪。  同时测试中国人的麻木程度,就跟有人说你老妈是妓女,有人还傻笑。那这个人就确定你这个家庭是可以干翻的。
  看了好愤怒,我们该做点什么吧  
  这些杂碎!
  网警都去吃屎了么?  
  测试了2个,都被封了,很好。
  赶快封  
  把这个帖子顶上去。。。最好可以 联系一些新闻媒体。。有正义感的媒体现在也不缺。。。让全国人民看看,。。。在GCD 的领导下。这种公然带有严重侮辱解放军的侮辱人民的图片 百度是怎么发出来的。。还 特么的高雅艺术。。。我呸!!!
  把贴顶上去 。。让更多的人看到。日杂 倭畜 是怎样公然侮辱人民的。。
  让更多人关注下,非望得到重视。  
  别大惊小怪的,纳兔吧的人都这幅操行,你越是觉得义愤填膺他越是感觉到乐趣
  顶!  
  苏联走狗、祸国殃民
  支持楼主  
  支持楼主
  百度皮痒了
  如果是中国人干了这么禽兽不如的事,真该把他们拉去回炉了。王八蛋
  @Steven深sir
03:51:03  如果是中国人干了这么禽兽不如的事,真该把他们拉去回炉了。王八蛋  -----------------------------  
  百度就是日本鬼子开的!
因为你再百度贴吧里面
(日本鬼子)几个字  
  网络实名
  都是些台蕃在上面玩.
  顶  
  打开网页看了一下,楼主帖子里的神风特攻吧、介支个下了山吧早就打不开了,为何还要发这种帖子?
  我玩百度贴吧很多年了这个我有点清楚,百度上确实有很多台湾年轻人在玩,比如被封了的日本之家,以前进去看了一下就知道不是我们同一个世界的人,看现在被合并的日本吧就知道了大多数是喜欢日本的大陆人基本不会那么多极端言论都是发发去日本旅游留学的,而且百度贴吧年龄普遍偏小,而且发帖的水平看还是天涯论坛的高不少,天涯论坛的基本都比较大了不好忽悠!还有最近一两年有些吧出现了北方少数民族的,不如蒙古天骄吧,还有很多零散的吧里也有这些人的身影,这些个吧里的人都是失去理智的,其实很多吧主和小吧都是日杂美分,他们不会来天涯,因为他们试过了还是百度贴吧好糊弄一点!
  这帮畜生
  顶,百度去死
  只有严查才能杜绝
  顶楼主
  都上去,不要沉了  
  举报啊,网监网警  
  百度日杂不是一般的多  
  楼主去举报贴吧吧。
  失望,此党已非当日之党了
  有很多吧都比较恶心人,百度难辞其咎,  
  看一看
  @玉壶装冰心
07:48:35  打开网页看了一下,楼主帖子里的神风特攻吧、介支个下了山吧早就打不开了,为何还要发这种帖子?  -----------------------------  我们给北京晚报打了电话,还咨询了律师,结果第二天神风特攻吧就关闭了,我发这个帖子是想问一下,这样的贴吧是如何通过审核的?那样的图片是谁放出来的?  关闭了就没责任了吗?这样的贴吧如果是中国人审核,怎么会通过呢?
          出卖血友吧,我没怎么生气,那不过是利益熏心而已,但当这样的图片百度能审核通过,我觉得这就不是钱的问题了,连一点做中国人的底线都没有了!也丧失了最起码的民族尊严!
  放到微博上  
  同志们,干过去  
  这是什么吧 我要举报  
  微博@独家网,他们有专门跟进
  没有日杂,没有美分,都是些轮子在搞事。有兴趣的追一下就知道了。他们很受用你们的称呼,jy gz,日杂,美分,都他妈是谁啊?其实就一个轮子,还有就是二独,可后者已经委了。
  特来顶帖!  
  贴吧本来就很多日杂  
  @玉壶装冰心
07:48:35  打开网页看了一下,楼主帖子里的神风特攻吧、介支个下了山吧早就打不开了,为何还要发这种帖子?  -----------------------------  @钱是赚来的
23:50:16  我们给北京晚报打了电话,还咨询了律师,结果第二天神风特攻吧就关闭了,我发这个帖子是想问一下,这样的贴吧是如何通过审核的?那样的图片是谁放出来的?  关闭了就没责任了吗?这样的贴吧如果是中国人审核,怎么会通过呢?  -----------------------------  百度一向脑残,你不知道么?
  @钱是赚来的 48楼
23:59  出卖血友吧,我没怎么生气,那不过是利益熏心而已,但当这样的图片百度能审核通过,我觉得这就不是钱的问题了,连一点做中国人的底线都没有了!也丧失了最起码的民族尊严!  -----------------------------李彦宏是个有钱就是爹的人渣,王欣被判十年李彦宏干的事够他死几回了。然而这人是有背景的,窃猪者刑窃国者候,,现在你知道为什么我说高层里面有日杂汉奸了吧?  
  @钱是赚来的
21:41:00    这种公然侮辱红军女战士的图片,百度,你们是怎么审核的,这样的图片是怎么通过的?  —————————————————  去网警举报啊,我手机  
  微博曝光  
  @平壤户口高级干部
03:06:38  苏联走狗、祸国殃民  -----------------------------  走你麻痹,别他妈的给你的王八同类打掩护
  举报去啊  
  可以举报网信办
  触目惊心啊~这一刻大家该做的就是把这个帖子顶起来,让更多的人,更多的媒体知道,让有关部门注意到,至于真假,又相关责任人和有关部门来权衡甄别。末了再公开具体细节
  多么血腥猎奇的图片,画这图的得多丧心病狂
  顶!看看网络管理部门的人都在干嘛?  
  上图是我见过最变态的图。  画这种图的人要下地狱!
  @生徒男
00:10:01  把贴顶上去 。。让更多的人看到。日杂 倭畜 是怎样公然侮辱人民的。。  -----------------------------
  义愤填膺
  监管层严重渎职
  支持楼主  
  顶贴,气愤!
  我国表示   不允许 我的狗这么做!这是军国主义行为  
  顶  
  @钱是赚来的
23:59:00    出卖血友吧,我没怎么生气,那不过是利益熏心而已,但当这样的图片百度能审核通过,我觉得这就不是钱的问题了,连一点做中国人的底线都没有了!也丧失了最起码的民族尊严!  —————————————————  放出来也对,至少可以让我们看到人心依然险恶!国人当自强!他们怎么侮辱我们的英雄,我们就用多么热爱我们的国家,民族来答谢他们!很多国人都已经不知礼义廉耻,爱国爱民  
  @钱是赚来的
23:59:00    出卖血友吧,我没怎么生气,那不过是利益熏心而已,但当这样的图片百度能审核通过,我觉得这就不是钱的问题了,连一点做中国人的底线都没有了!也丧失了最起码的民族尊严!  —————————————————  让他们刺激刺激还在睡梦中的那些人,刺激刺激那些还存在圣母心态的国家领导集体!政治教育是相当的失败!  
  麻木的人,
  顶!  
  不能忍  
  百度确实堕落了!
  中国吧 2012 只要说中国好的基本就会删帖禁言 呵呵  
  就是说,错别字还一堆
  看看公知力挺的纳吧  
  百度就是一坨屎~依靠垄断地位,肆无忌惮敛钱??  百度搞出了什么狗屁创新吗?  
  几十亿人世界人啥人都有。。。真实林子大了啥鸟也有。。。。人无法做到统一的好人。。。总有些渣渣败坏这个世界。。。。
  上次纳吧殴打自干五,警方偏向“纳吧”,公知纷纷为“纳吧”叫好  自干五群体还觉得很不解,很委屈  我那时就对自干五说过  你们就是一群幼稚的民族主义者,以为上层也都是民族主义  却不知道,反共反华的急先锋南方系,旗下龙头《南方日报》是广东省委机关报  公知不是国企老总,就是党报妓者,要不就是御用文人,靠贪污款发家的买办资本家  上层根本不是铁板一块,早就变质了,买办官僚资本利益集团在中国的势力非常强大  它们掌控着中国9成的媒体和舆论平台  自干五就是一群天真的网民,幼稚的民族主义者,根本不清楚自己的敌人在哪里  你们的敌人在主席台前三排  
  顶、  
    @斯图卡98: 也难怪在海外与轮子藏疆毒开会,回来屁事没有。原来是有大领导给罩着~  @张长锁88:圈子保护,毒舌出击。这是一个很古老的集团谋利方式,古今中外,大到国家集团,小到社团企业,无不利用这个方式,篡谋伐利。大眼之流的公知,明说,他们属于利益集团圈子的毒舌,这个集团三部分组成 :贪官污吏,为富不仁,宗教恶势力。这三者利用公知毒舌,在外蛊惑,他们背后做事谋权。   
  早就发现百毒有问题了!
百毒就是日本的狗
日本杂碎  
  @平壤户口高级干部 19楼
03:06  苏联走狗、祸国殃民  -----------------------------  狗林木的,死巴子!  
  顶,一定要揪出这些畜生,太气愤了,TMD日杂  
  这次反台毒事件,紫光阁和外交部的官微都被买办们屏蔽了  何等嚣张?如果你们还跳不出这个圈子,不敢承认敌人就在主席台前三排  你们永远也斗不过赵家狗    @毛泽东:要使社会主义国家蜕变为资本主义国家,首先要使共产党蜕变为修正主义的党。新的和旧的资产阶级分子,新的和旧的富农,以及形形色色的蜕化变质分子,他们都是修正主义的社会基础,他们千方百计从共产党内寻找自己的代理人。  资产阶级影响的存在,是修正主义的国内根源。屈服于帝国主义的压力,是修正主义的国外根源。  在整个社会主义阶段中,在社会主义国家共产党内,不可避免地存在马克思列宁主义同各种机会主义、主要是修正主义的斗争。这种修正主义的特点,就是在否认阶级和阶级斗争的名义下,站在资产阶方面向无产阶级进攻,把无产阶级专政变为资产阶级专政
  @平壤户口高级干部 19楼
03:06  苏联走狗、祸国殃民  -----------------------------      【视频】蒋介石出卖外蒙内幕  http://www.tudou.com/programs/view/7BUiOo5x1Mo  @转载围脖:在大陆的时候,同意外蒙古毒立的是蒋光头,和外蒙古建交的是蒋光头。跑到台湾后,坚决要把外蒙古印回中国版图的还是蒋光头,十几年后,让外蒙古顺利加入联合国的还是蒋光头,做人做到这个份上,实在是够高了。脸皮厚度超过宇宙的半径!    我不明白他(毛泽东)为什麽这样动怒。为了合乎情理,我作了最後一次尝试,我说:“假如你愿意,你们的潜艇可以使用摩尔曼斯克件基地。” “不要!我们不想在摩尔曼斯克干什麽,也不希望你们在我们这儿干什麽。英国人和别的外国人已经在我们国土上呆了很多年,我们再也不想让任何人利用我们的国土来达到他们自己的目的。”  ----------《赫鲁晓夫回忆录》
使用“←”“→”快捷翻页
<span class="count" title="万
<span class="count" title="万
请遵守言论规则,不得违反国家法律法规回复(Ctrl+Enter)一天进步一点点。只要今天比昨天好,就有希望!
百度分词算法
百度分词算法分析一 分词又叫,切词,划词等 我感觉是seo中应该仔细学好的技术。 我有个实验站1000左右ip的站,首页是按照分词写的,每天可以在 百度得到100~200的ip 效果还是很明显的。 网上这类详细讲解的文章比较少 我找了几篇转过来,大家可以学下看。
--------------------------------------------------------- 查询处理以及分词技术
随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象. 搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。
但是,如何设计一个高效的搜索引擎?我们可以以百度所采取的技术手段来探讨如何设计一个实用的搜索引擎.搜索引擎涉及到许多技术点,比如查询处理,排序算法,页面抓取算法,CACHE机制,ANTI-SPAM等等.这些技术细节,作为商业公司的搜索引擎服务提供商比如百度,GOOGLE等是不会公之于众的.我们可以将现有的搜索引擎看作一个黑盒,通过向黑盒提交输入,判断黑盒返回的输出大致判断黑盒里面不为人知的技术细节.
查询处理与分词是一个中文搜索引擎必不可少的工作,而百度作为一个典型的中文搜索引擎一直强调其”中文处理”方面具有其它搜索引擎所不具有的关键技术和优势.那么我们就来看看百度到底采用了哪些所谓的核心技术.
我们分两个部分来讲述:查询处理/中文分词.
一. 查询处理
用户向搜索引擎提交查询,搜索引擎一般在接受到用户查询后要做一些处理,然后在索引数据库里面提取相关的信息.那么百度在接受到用户查询后做了些什么工作呢?
1. 假设用户提交了不只一个查询串,比如”信息检索 理论 工具”.那么搜索引擎首先做的是根据分隔符比如空格,标点符号,将查询串分割成若干子查询串,比如上面的查询就会被解析为:&信息检索,理论,工具&三个子字符串;这个道理简单,我们接着往下看.
2. 假设提交的查询有重复的内容,搜索引擎怎么处理呢?比如查询”理论 工具 理论”,百度是将重复的字符串当作只出现过一次,也就是处理成等价的”理论 工具”,而GOOGLE显然是没有进行归并,而是将重复查询子串的权重增大进行处理.那么是如何得出这个结论的呢?我们可以将”理论 工具”提交给百度,返回341,000篇文档,大致看看第一页的返回内容.OK.继续,我们提交查询”理论 工具 理论”,在看看返回结果,仍然是那么多返回文档,当然这个不能说明太多问题,那看看第一页返回结果的排序,看出来了吗?顺序完全没有变化,而GOOGLE则排序有些变动,这说明百度是将重复的查询归并成一个处理的,而且字符串之间的先后出现顺序基本不予考虑(GOOGLE是考虑了这个顺序关系的).
3. 假设提交的中文查询包含英文单词,搜索引擎是怎么处理的?比如查询”电影BT下载”,百度的方法是将中文字符串中的英文当作一个整体保留,并以此为断点将中文切分开,这样上述的查询就切为&电影,BT,下载&,不论中间的英文是否一个字典里能查到的单词也好,还是随机的字符也好,都会当作一个整体来对待.至于为什么,你用查询” 电影dfdfdf下载”看看结果就知道了.当然如果查询中包含数字,也是如此办理.
到目前为止,一切很简单,也很清楚,百度怎么处理用户查询的呢?归纳如下:首先根据分割符号将查询分开,然后看看是否有重复的字符串,如果有,就抛弃多余的,只保留一个,接着判断是否有英文或者数字,如果有的话,把英文或者数字当作一个整体保留并把前后的中文切开.
接着该干什么呢?该考虑分词的问题了.
二. 中文分词
首先,讲讲百度的分词时机或者条件问题,是否是个中文字符串百度就拿来切一下呢?非也,要想被百度的分词程序荣幸的切割一下也是要讲条件的,哪能是个字符串就切割啊?你当百度是卖锯条的么?
那么什么样的字符串才满足被切割的条件呢?简单说来,如果字符串只包含小于等于3个中文字符的话,那就保留不动,当字符串长度大于4个中文字符的时候,百度的分词程序才出马大干快上,把这个字符串肢解掉.
怎么证明呢?我们向百度提交”电影下载”,看看返回结果中标为红字的地方,不难看出来,查询已经被切割成&电影,下载&两个单词了,说明分词程序已经开工了,如果是比4个中文字符更长的字符串,那分词程序就更不客气了,一定大卸八块而后快.我们来看看三个字符的情况,提交查询”当然择”,看起来这个查询不伦不类,那是因为我希望看到这个字符串被切分为&当然,择&,返回结果365篇相关页面,翻到最后一页,发现标红的关键字都是”当然择”连续出现的情况,好像没有切分,但是还不确定,那么再提交人工分好的查询”当然 择”看看,返回结果1,090,000篇,基本上可以确定没有进行分词了,当然另外一种解释是:对于三个字符先切分,然后将切分后的结果当作一个短语查询,这样看到的效果和没有切分是相似的.但是我倾向于判断百度对于少于3个字符的串没有切分,奥卡姆不是说了么”如无必要,勿增实体”,干吗做无用功呢.那么如果没有切分,会有一个随之而来的问题,怎么从索引库里面提取未切分的字符串呢?这牵扯到索引的问题,我觉得百度应该采取了两套索引机制,一种是按照单词索引,一种是按照N-GRAM索引,至于索引的具体问题,以后在详细论述.
下面我们看看百度是采取的何种分词算法,现在分词算法已经算是比较成熟了,有简单的有复杂的,比如正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等,有兴趣的可以用GOOGLE去搜索一下以增加理解.这里就不展开说了.但是要记住一点的是:判断一个分词系统好不好,关键看两点,一个是消除歧义能力;一个是词典未登录词的识别比如人名,地名,机构名等.
那么百度用的是什么方法?我的判断是用双向最大匹配算法.至于怎么推理得出的,让我们一步步来看.当然,这里首先有个假设,百度不会采取比较复杂的算法,因为考虑到速度问题.
我们提交一个查询”***北京华烟云”,又一个不知所云的查询,尽管不知所云但是自有它的道理,我想看看百度的分词是如何消歧以及是否有词典未登录词的识别的功能,如果是正向最大匹配算法的话,那么输出应该是:”***/北京/华/烟云”,如果是反向最大匹配算法的话,那么输出应该是:”毛/泽/东北/京华烟云”,我们看看百度的分词结果:”***/北/京华烟云”,一个很奇怪的输出,跟我们的期望相差较多,但是从中我们可以获得如下信息:百度分词可以识别人名,也可以识别”京华烟云”,这说明有词典未登录词的识别的功能,我们可以假设分词过程分为两个阶段:第一阶段,先查找一个特殊词典,这个词典包含一些人名,部分地名以及一些普通词典没有的新词,这样首先将”***”解析出来,剩下了字符串”北京华烟云”,而”北/京华烟云”,可以看作是反向最大匹配的分词结果.这样基本说得通.为了证明这一点,我们提交查询”发***北”,我们期望两种分词结果,一个是正向最大匹配&发毛,泽,东北&,一个是上述假设的结果&发,***,北&,事实上百度输出是第二种情况,这样基本能确定百度分词采取了至少两个词典,一个是普通词典,一个是专用词典(人名等).而且是专用词典先切分,然后将剩余的片断交由普通词典来切分.
继续测验,提交查询”古巴比伦理”,如果是正向最大匹配,那么结果应该是&古巴比伦,理&,如果是反向最大匹配,那么结果应该是&古巴,比,伦理&,事实上百度的分词结果是&古巴比伦,理&,从这个例子看,好像用了正向最大匹配算法;此外还有一些例子表明好像是使用正向最大匹配的;但是且慢,我们看这个查询”北京华烟云”,正向最大匹配期望的结果是&北京,华,烟云&,而反向最大匹配期望的结果是&北,京华烟云&,事实上百度输出的是后者,这说明可能采用的反向最大匹配;从这点我们可以猜测百度采用的是双向最大匹配分词算法,如果正向和反向匹配分词结果一致当然好办,直接输出即可;但是如果两者不一致,正向匹配一种结果,反向匹配一种结果,此时该如何是好呢?从上面两个例子看,在这种情况下,百度采取最短路径方法,也就是切分的片断越少越好,比如&古巴,比,伦理&和&古巴比伦,理&相比选择后者,&北京,华,烟云&和&北,京华烟云&相比选择后者.还有类似的一些例子,这样基本可以解释这些输出结果.
但是仍然遗留的问题是:如果正向反向分词不一致,而且最短路径也相同,那怎么办?输出正向的还是反向的结果?我们再来看一个例子.提交查询”遥远古古巴比伦”,这个查询被百度切分为&遥远,古古,巴比伦&,说明词典里面有”巴比伦”,但是是否有”古巴比伦”这个词汇不确定,此时看不出是正向切分还是反向切分得出的结果,换查询为”遥远古巴比伦”,此时被切分为”遥远/古巴比伦”,这说明词典里面有”古巴比伦”这个词汇,这说明了”遥远古古巴比伦”是正向最大匹配的结果.那为什么”遥远古古巴比伦”不会被反向切分为”遥/远古/古巴比伦”呢,百度的可能选择是这种情况下选择单字少的那组切分结果.
当然还可以继续追问:如果切分后单字也一样多,那怎么办?最后看一个例子,查询”王强大小:”,百度将其切分为”王/强大/小”,是正向切分的结果,如果是反向的会被切分为”王/强/大小”,这说明有歧义而且单字也相同则选择正向切分结果.
OK,看到这里可能头已经有些晕了,最后总结一下百度的分词算法,当然里面还是有猜测的成分,算法如下:
首先查询专用词典(人名,部分地名等),将专有名称切出,剩下的部分采取双向分词策略,如果两者切分结果相同,说明没有歧义,直接输出分词结果.如果不一致,则输出最短路径的那个结果,如果长度相同,则选择单字词少的那一组切分结果.如果单字也相同,则选择正向分词结果..
百度一直宣传自己在中文处理方面的优势,从上面看,分词算法并无特殊之处,消歧效果并不理想,即使百度采取比上述分词算法复杂些的算法也难以说成是优势,如果说百度有优势的话,唯一的优势就是那个很大的专用词典,这个专用词典登录了人名(比如大长今),称谓(比如老太太),部分地名(比如阿联酋等),估计百度采用学术界公布的比较新的命名实体识别算法从语料库里面不断识别出词典未登录词,逐渐扩充这个专门词典.如果这就是优势的话,那么这个优势能够保持多久就是个很明显的问题.
baidu分词算法分析之二 版主实习中,争取转正。大家多多支持 :) ------------------------------------------------------------ 接《百度分词算法分析一》 Spelling Checker拼写检查错误提示(以及拼音提示功能)    拼写检查错误提示是搜索引擎都具备的一个功能,也就是说用户提交查询 给搜索引擎,搜索引擎检查看是否用户输入的拼写有错误,对于中文用户来说一般造成的错误是输入法造成的错误.那么我们就来分析看看百度是 怎么实现这一功能的.   我们分析拼写检查系统关注以下几个问题:   (1)系统如何判断用户的输入是有可能发生错误的查询呢?   (2)如果判断是可能错误的查询输入,如何提示正确的词汇呢?      那么百度是如何做的呢?百度判断用户输入是否错误的 标准,我觉得应该是查字典,如果发现字典里面不包含这个词汇,那么很有可能是个错误的输入,此时启动错误提示功能,这个很好判断,因为如果 是一个正常词汇的话,百度一般不会有错误提示,而你故意输入一个词典不可能包含的所谓词汇,此时百度一般会提示你正确的检索词汇.    那么百度是怎么提示正确词汇的呢?很明显是通过拼音的方式,比如我输入查询" 制才",百度提供的提示词汇为: “:制裁 质材 纸材",都是同 音字.所以百度必然维持着一个同音词词典,里面保留着同音词信息,比如可能包含着下面这条词条: “ zhi cai à制裁,质材,纸材",另外还有一 个标注拼音程序,现在能够看到的基本流程是: 用户输入" 制才",查词典,发现没有这个词汇,OK,启动标注拼音程序,将" 制才"标注为拼音"zhi cai",然后查找同音词词典,发现同音词" 制裁,质材,纸材",那么提示用户可能的正确拼写.   整体流程看起来很简单,但是还有一些遗留 的小问题,比如是否将词表里面所有同音词都作为用户的提示信息呢?比如某个拼音有10个同音词,是否都输出呢?百度并没有将所有同音词都输 出而是选择一定筛选标准,选择其中几个输出.怎么证明这一点?我们看看拼音"liu li"的同音词,紫光输入法提示同音词汇有" 流丽 流离 琉璃 流利"4个,我们看看百度返回几个,输入"流厉"作为查询,这里是故意输入一个词典不包含的词汇,这样百度的拼写检查才开始工作,百度提示: " 琉璃刘丽 刘莉 ",这说明什么?说明不是所有同音词都输出,而是选择输出,那么选择的标准是什么?我能够猜测到的方法是对于用户查询LOG进行 统计,提取用户查询次数多的那些同音词输出,如果是这样的话,上面的例子说明用户搜索"琉璃"次数比其它的都要高些,次之是" 刘丽",再次是" 刘莉",看来大家都喜欢查询自己或者认识的人的名字.   另外一个小问题:同音词词典包含2字词,3字词,那么是否包含4字词以及更长的词 条?是否包含一字词? 这里一字词好回答,不用测试也能知道肯定不包含,因为你输入一个字,谁知道是否是错误的呢?反正只要是汉字就能在词表 里面找到,所以没有判断依据.二字词是包含的,上面有例子,三字词也包含,比如查询 "中城药"百度错误提示:"中成药",修改查询为"重城药",还 是提示"中成药" ,再次修改查询 "重城要",百度依然提示"中成药". 那么4字词汇呢?   百度还是会给你提示的,下面是个例子:   输入:静华烟云 提示 京华烟云   输入:静话烟云 提示 京华烟云   输入:静话阎晕 提示 京华烟云   那么更长的词汇是否提 示呢?也提示,比如我输入: "落花世界有风军",这个查询是什么意思,估计读过古诗的都知道,看看百度的提示"落花时节又逢君",这说明什么?说 明同音词词典包含不同长度的同音词信息,另外也说明了百度的核心中文处理技术,也就是那个词典,还真挺大的.   但是,如果用户输入的 查询由两个或者两个以上子字符串构成,那么百度的错误提示功能就罢工了,比如输入查询"哀体",百度提示"艾提 挨踢",但是.输入为 "我 哀体 ",则没有任何错误提示.   还有一个比较重要的问题:如果汉字是多音字那么怎么处理?百度呢比较偷懒,它根本就没有对多音字做处理.我 们来看看百度的一个标注拼音的错误,在看这个错误前先看看对于多音字百度是怎么提示错误的,我们输入查询"俱长",百度提示"剧场 局长", “俱长"的拼音有两个:"ju zhang /ju chang" ,可见如果是多音字则几种情况都提示..现在我们来看看错误的情况, 我们输入查询"剧常",百度 提示":剧场局长",提示为"剧场"当然好解释,因为是同音字,但是为什么 "局长"也会被提示呢?这说明百度的同音字词典有错误,说明在"ju chang"这个词条里面包含"局长"这个错误的同音词.让我们顺藤摸瓜,这个错误又说明什么问题呢?说明百度的同音词典是自动生成的,而且没有 人工校对.还说明在自动生成同音词典的过程中,百度不是根据对一篇文章标注拼音然后在抽取词汇和对应的拼音信息获得的,而是完全按照某个 词典的词条来标注音节的,所以对于多音字造成的错误无法识别出来,如果是对篇章进行拼音标注,可能就不会出现这种很容易发现的错误标注. 当然还有另外一种解释,就是"局长"是故意被百度提示出来可能的正确提示词汇,因为考虑到南方人"zh"和 "ch"等前后鼻音分不清么,那么是这 样的么?我们继续测试到底是何种情况.是百度有错误还是这是百度的先进的算法?   我们考虑词汇"长大 ",故意错误输入为"赃大",如果 百度考虑到了前后鼻音的问题,那么应该会提示"长大",但是百度提示是"藏大".这说明什么?说明百度并没有考虑前后鼻音问题,根本就是系统错 误. 我们输入查询"悬赏",故意将之错误输入为"悬桑",没有错误提示,说明确实没有考虑这种情况.前鼻音没有考虑,那么后鼻音考虑了么,我们 输入":经常",故意改为后鼻音 "经缠",百度提示为"经产 经忏",还是没有考虑后鼻音.这基本可以确定是百度系统的错误导致.   根据以 上推导, 我们可以得出如下结论:百度是将分词词典里面每个词条利用拼音标注程序标注成拼音,然后形成同音词词典,所以两个词典是同样大的 ,而且这个词典也随着分词词典的增长而在不断增长. 至于标注过程中多音字百度没有考虑,如果是多音字就标注成多个发音组合,通过这种方式 形成同音词词典.这样的同音词词典显然包含着很多错误.   最后一个问题:百度对于英文进行拼写检查么?让我们试试看,输入查 询"china",不错,搜到不少结果,专注中文搜索的百度还能搜索到英文,真是意外的惊喜.变换一下查询"chine",会更加意外惊喜的给我们提 示"china"吗?百度提示的是: 吃呢持呢,原来是不小心触发了百度的拼音搜索功能了.那么拼音搜索和中文检查错误是否采用同一套同音词词典 呢,让我们来实验一下,搜索"rongji",百度提示" 榕基 溶剂 容积",OK,换个中文查询"容机",百度提示" 榕基 溶剂容积",看来使用的是同一套 同音词词典.也就是说百度的中文纠错和拼音检索使用的机制相同,中文纠错多了一道拼音注音的过程而已.难道这就是传说中那个百度的"事实 上是一个无比强大的拼音输入法"的拼音提示功能么?   最后让我们总结归纳一下百度的拼写检查系统:   后台作业: (1)前面的文 章我们说过,百度分词使用的词典至少包含两个词典一个是普通词典,另外一个是专用词典(专名等),百度利用拼音标注程序依次扫描所有词典中 的每个词条,然后标注拼音,如果是多音字则把多个音都标上,比如"长大",会被标注为"zhang da/chang da"两个词条.   (2)通过标注完的 词条,建立同音词词典,比如上面的"长大",会有两个词条: zhang daà长大" , chang daà长大.   (3)利用用户查询LOG频率信息给予每个 中文词条一个权重;   (4)OK,同音词词典建立完成了,当然随着分词词典的逐步扩大,同音词词典也跟着同步扩大;      拼写 检查:   (1)用户输入查询,如果是多个子字符串,不作拼写检查;   (2)对于用户查询,先查分词词典,如果发现有这个单词词条,OK, 不作拼写检查;   (3)如果发现词典里面不包含用户查询,启动拼写检查系统;首先利用拼音标注程序对用户输入进行拼音标注;    (4)对于标注好的拼音在同音词词典里面扫描,如果没有发现则不作任何提示;   (5)如果发现有词条,则按照顺序输出权重比较大的几个提 示结果;      拼音提示:   (1)对于用户输入的拼音在同音词词典里面扫描,如果没有发现则不作任何提示;   (2)如果 发现有词条,则按照顺序输出权重比较大的几个提示结果;
baidu分词算法分析之三 分词系列最后一章 ------------------ 之三:对百度分词算法的进一步分析
上面说过,经过分析得出百度的分词系统采用双向最大匹配分词,但是后来发现推理过程中存在一个漏洞,而且推导出来的百度分词算法步骤还是过于繁琐,所以进一步进行分析,看看是否前面的推导有错误.
那么以前的分析有什么漏洞呢?我们推导百度分词有反向最大匹配的依据是百度将"北京华烟云"分词为&北,京华烟云&,从这里看好像采用了反向最大匹配,因为正向最大匹配的结果应该是&北京,华,烟云&,但是由此就推论说百度采用了双向最大匹配还是太仓促了,前面文章我们也讲过,百度有两个词典,一个普通词典,一个专有词典,而且是专有词典的词汇先切分,然后将剩余片断交给普通词典去切分.所以上面的"北京华烟云"之所以被切分成&北,京华烟云&,另外一个可能是:京华烟云这个词汇是在专有词典里面存储的,所以先分析,这样得出"京华烟云",剩下"北",没什么好切分的,所以输出&北,京华烟云&.
这里只是假设,那么是否确实"京华烟云"在专有词典呢?我们再看一个例子"山东北京华烟云",百度切分的结果是&山东,北,京华烟云&,如果"京华烟云"在普通词典,如果是反向切分,那么结果应该是&山,东北,京华烟云&,如果是正向切分应该是&山东,北京,华,烟云&,无论如何都分不出&山东,北,京华烟云&.这说明什么?说明"京华烟云"是在那个专有词典,所以先切分出"京华烟云",然后剩下的"山东北"交由普通词典切分,明显是正向最大匹配的结果输出&山东,北&.当然按照我们在第一篇文章的算法推导"山东北"的切分也会得出&山东,北&的结论,但是明显比正向最大匹配多几个判断步骤,既然效果一样,另外一个更加简洁的方法也能说得通,那当然选择简便的方法了.所以初步判断百度采取的是正向最大匹配.
我们继续测试采用何种分词算法,为了减少专有词典首先分词造成的影响,那么查询里面不能出现相对特殊的词汇,构筑查询"天才能量级",这里应该没有专有词典出现过的词汇,百度切分为&天才,能量,级&,看来是正向最大匹配的结果.另外,如果所有查询词汇都出现在专有词典,那么采取的是何种方法?这样首先就得保证词汇都出现在专有词典,这么保证这一点呢?我们构造查询"铺陈晓东方",百度切分为&铺,陈晓东,方&,可以看出"陈晓东"是在专有词典的所以先切分出来.另外一个例子 "山东京城",百度切分为&山东,京城&,说明"东京"是在普通词典的.OK,构造查询"陈晓东京华烟云",通过前面分析可以看出两个词汇都在专有词典里面,百度切分为&陈晓东,京华烟云&,说明对于专有词典词汇也是采取正向最大匹配或者双向最大匹配.那么使用反向最大匹配了吗?构造查询例子"陈晓东方不败",首先我们肯定"陈晓东"和"东方不败"都是在专有词典出现的,如果是正向切分,那么应该是&陈晓东,方,不败&或者&陈晓东,方,不,败&如果是反向切分则是&陈,晓,东方不败&,可以看出百度的切分是&陈晓东,方,不败&或者&陈晓东,方,不,败&,说明采用的是正向最大匹配.通过分析,百度的词典不包含"不败"这个单词,所以实际上百度的切分结果是&陈晓东,方,不,败&,很明显这和我们以前推导的算法是有矛盾的,所以以前的分析算法确实有问题,所以结论是百度采取的是正向最大匹配算法.
重新归纳一下百度的分词系统:首先用专有词典采用最大正向匹配分词,切分出部分结果,剩余没有切分交给普通词典,同样采取正向最大匹配分词,最后输出结果.
另外,GOOGLE也是采用正向最大匹配分词算法,不过好像没有那个专用词典,所以很多专名都被切碎了.
从这点讲,GOOGLE在中文词典构建上比百度差些,还需要加把子力气才行,不过这也不是什么多难的事.
没有更多推荐了,}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信