企业网站建设

建站知识

今日已发布信息: 447814
累计注册用户: 50985778

搜索引擎的网页去重算法大剖析

近似重复网页 完全相同 如果两篇文档内容 布局格式

概述: 有的在内容上稍做修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如HTML、Postscript)。内容重复可以归结为以下4种类型。   ·  类型一:如果两篇文档内容和布局格式上毫无差别,则这种重复可以叫做完全重复页面。   ·  类型二:如果两篇文档内容相同,但是布局格式不同,则叫做内容重复页面。   ·  类型三:如果两篇文档有部分重要的内容相同,并且布局格式相同,则称为布局重复页面。     ·  类型四:如果两篇文档有部分重要的内容相同,但是布局格式不同,则称为部分重复页面。   所谓近似重复网页发现,就是通过技术手段快速全面发现这些重复信息的手段,如何快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之一。   发现完全相同或者近似重复网页对于搜索引擎有很多好处。   1.  首先,如果我们能够找出这些重复网页并从数据库中去掉,就能够节省一部分存储空间,进而可以利用这部分空间存放更多的有效网页内容,同时也提高了搜索    引擎的搜索质量和用户体验。   2.  其次,如果我们能够通过对以往收集信息的分析,预先发现重复网页,在今后的 网页收集过程中就可以避开这些网页,从而提高网页的收集速度。有研究表明重    复网页随着时间不发生太大变化,所以这种从重复页面集合中选择部分页面进行    索引是有效的。   3.  另外,如果某个网页的镜像度较高,往往是其内容比较受欢迎的一种间接体现也就预示着该网页相对重要,在收集网页时应赋予它较高的优先级,而当搜索引擎系统在响应用户的检索请求并对输出结果排序时,应该赋予它较高的权值。   4.  从另外一个角度看,如果用户点击了一个死链接,那么可以将用户引导到一个内容相同页面,这样可以有效地增加用户的检索体验。因而近似重复网页的及时发现有利于改善搜索引擎系统的服务质量。   实际工作的搜索引擎往往是在爬虫阶段进行近似重复检测的,下图给出了近似重复检测任务在搜索引擎中所处流程的说明。当爬虫新抓取到网页时,需要和已经建立到索引内的网页进行重复判断,如果判断是近似重复网页,则直接将其抛弃,如果发现是全新的内容,则将其加入网页索引中。

天之道,其犹张弓欤?高者抑之,下者举之en馀者损之,不足者补之,天之道损有馀而补不足。人之道则不然,损不足以奉有馀。孰能有馀以奉天下,唯有道者。(道法自然)自然规律,就犹如射箭一样,弓位高了就往下压一压(高者抑之),弓位低了就往上抬一抬(下者举之)。用多余去补不足。人之道(规律),则不是这样。它是损不足去奉多余。什么样的人才能用有余去奉天下呢?唯有有道者。因此圣人为而恃,功成而不处,不会去想在众人面前立贤名,以均天下。搜索所遵循就是这样的一个规律。   据统计表明,近似重复网页的数量占总网页数量的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%,即互联网页面中有相当大的比例的内容是完全相同或者大体相近的重复网页有多种类型,这些重复网页有的是没有一点儿改动的副本,有的在内容上稍做修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如HTML、Postscript)。内容重复可以归结为以下4种类型。   ·  类型一:如果两篇文档内容和布局格式上毫无差别,则这种重复可以叫做完全重复页面。

 

  台湾教育网站  盐田蛇口进出口代理   今日推荐免费建站   分类信息   泰兴网站建设公司

 

  ·  类型二:如果两篇文档内容相同,但是布局格式不同,则叫做内容重复页面。   ·  类型三:如果两篇文档有部分重要的内容相同,并且布局格式相同,则称为布局重复页面。     ·  类型四:如果两篇文档有部分重要的内容相同,但是布局格式不同,则称为部分重复页面。   所谓近似重复网页发现,就是通过技术手段快速全面发现这些重复信息的手段,如何快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之一。   发现完全相同或者近似重复网页对于搜索引擎有很多好处。   1.  首先,如果我们能够找出这些重复网页并从数据库中去掉,就能够节省一部分存储空间,进而可以利用这部分空间存放更多的有效网页内容,同时也提高了搜索    引擎的搜索质量和用户体验。   2.  其次,如果我们能够通过对以往收集信息的分析,预先发现重复网页,在今后的 网页收集过程中就可以避开这些网页,从而提高网页的收集速度。有研究表明重    复网页随着时间不发生太大变化,所以这种从重复页面集合中选择部分页面进行    索引是有效的。   3.  另外,如果某个网页的镜像度较高,往往是其内容比较受欢迎的一种间接体现也就预示着该网页相对重要,在收集网页时应赋予它较高的优先级,而当搜索引擎系统在响应用户的检索请求并对输出结果排序时,应该赋予它较高的权值。   4.  从另外一个角度看,如果用户点击了一个死链接,那么可以将用户引导到一个内容相同页面,这样可以有效地增加用户的检索体验。因而近似重复网页的及时发现有利于改善搜索引擎系统的服务质量。   实际工作的搜索引擎往往是在爬虫阶段进行近似重复检测的,下图给出了近似重复检测任务在搜索引擎中所处流程的说明。当爬虫新抓取到网页时,需要和已经建立到索引内的网页进行重复判断,如果判断是近似重复网页,则直接将其抛弃,如果发现是全新的内容,则将其加入网页索引中。

 

高可用集群之heartbeat安装配置

准备工作

1 注意事项,集群事物信息传递靠节点名称来识别,靠IP来传递;

对于高可用节点名称的解析使用host文件,名称和uname -n 保持一致,不建议使用DNS解析

修改hosts,network文件中的主机名,hostname更改主机名

测试:通过主机名可以ping通


2 SSH互信通信,第一个节点自我启动,第二个节点需要在第一个节点远程ssh来操作

生成密钥文件:

# ssh-keygen -t rsa -f ~/.ssh/id_rsa -P ""

# ssh-copy-id -i ./.ssh/id_rsa.pub root@node2.hiyang.com


3 时间同步

可以把其中一台配置成时间服务器


heart相关下载

http://clusterlabs.org/

http://www.linux-ha.org/wiki/Main_Page heartbeat官网

http://fedoraproject.org/wiki/EPEL epel

实验环境:linux 为CentOs 5.1


1 安装

yum install -y epel-release

yum install -y heartbeat


2 目录说明

/etc/ha.d/{authkeys ha.cf haresources}配置文件

/etc/ha.d/rc.d/ask_resources

/etc/ha.d/rc.d/hb_takeover

/etc/ha.d/rc.d/ip-request

/etc/ha.d/rc.d/ip-request-resp

/etc/ha.d/rc.d/status

/etc/ha.d/resource.d 资源代理目录


3 node1配置文件

配置文件,在/etc/ha.d下未提供配置文件,可以

# rpm -ql heartbeat | grep -E “authkeys|ha.cf|haresources”

/usr/share/doc/heartbeat-2.1.4/authkeys

从中复制需要的配置文件到/etc/ha.d/下


3.1 heartbeat通信加密方法 authkeys 600

# chmod 600 authkeys


生成authkeys使用的随机数

# dd if=/dev/random count=1 bs=512 | md5sum

配置如下

# vim authjeys

auth 3

3 md5 0f58dcf475d107b8eb8c96499d384e84


3.2 服务主配置文件 ha.cf

只改两项:bcast和node 

nodenode1.hiyang.com

nodenode2.hiyang.com

bcasteth0# Linux 


3.3 资源管理配置文件 haresources

# node1  10.0.0.170 Filesystem::/dev/sda1::/data1::ext2

node1.hiyang.com IPaddr::192.168.8.110/24/eth0 Filesystem::192.168.8.111:/web/htdocs::/var/www/html::nfs httpd

#此处高可用了FIP、文件系统(NFS)、httpd服务


说明:主节点名称 FIP 资源代理::资源参数,资源代理间用空格隔开


资源代理寻找顺序/etc/ha.d/resource.d/ --> /etc/init.d


fip是否配置在和fip同一网段的网卡上的判定程序

/usr/lib/heartbeat/findif


4 node2配置

node2上,heartbeat配置,和node1完全相同,直接scp,注意保留文件属性

# scp -p authkeys ha.cf haresources node2.hiyang.com:/etc/ha.d


5 启动heartbeat

4.1 先手动测试网页是否可以正常打开,正常的话关闭httpd;

4.2 node1

# service heartbeat start

# ssh node2.hiyang.com “service heartbeat start”


6 测试

    node1和node2上提供不同的页面文件,以便测试区分

6.1 浏览器访问fip,httpd服务在node1上,OK

6.2 在node1上执行/usr/lib/heartbeat/hb_standby,此时,node1宕掉

6.3 浏览器访问fip,看网页服务是否转移到node2;在node2上执行/usr/lib/heartbeat/hb_standby,此时,node2宕掉,服务转回node1

6.4 也可以通过ifcofnig,查看fip的转移

提供NFS,此处在另一台linux上,共享了一个目录

# vim /etc/exports

/web/htdocs 192.168.8.0/24(rw,async)


# showmount -e 192.168.8.111

Export list for 192.168.8.111:

/web/htdocs 192.168.8.0/24






来自为知笔记(Wiz)



怎样利用BOLG对网站进行推广

  记得当上站长的第一天,我的一个好朋友(也算是我的老师)就跟我说过,去注册一些博客并经常维护。这对于一个SEO初学者的我来说,当时非常不理解为什么要这样做,因此也并没太在意。而五个月后的今天,通过自己对SEO的学习、了解逐渐意识到了博客的重要性。

  一.为什么要注册博客。

  对于一个普通的网民来说,博客不外乎就是自己的日记本,把每天的心情、经历等记录下来。而对于一个网站站长来说,却是一个推广自己网站的平台。许多公司也都会采取博客营销的方式来推广自己的产品,这是网络营销其中的一种有效方式。

  推广你的网站,一定要有针对性的做大量的外链。在这个时候,你有自己的一定数量一定质量的博客并都带有你指向你网站的链接,这不就是你的强大的外链吗?而如果网站如果是新站的话,权重绝对不会比这些博客的权重高,这就是强大的后台支柱。举一个生活中的例子:一个刚参加工作的年轻人,受到很多长辈、领导的表扬,从别人看来,这个年轻人确实应该是相对比较优秀的人吧。同样的道理,刚刚上线的网站,就得到了一系列强大的外链,这对搜索引擎看来,这个网站也应该是一个不错的网站吧。当然,这里有一个“度”的问题,我们只针对正常的推广方式而言,如果采取作弊的手段则另当别论。

  二.怎样去注册及维护博客。

  注册博客的时候,当然首选权重高、PR高、收录快的一些大型博客网站,这样你的一些博客文章很快就可以得到收录,相对成效当然会更好。这并不是说权重低的博客就不要去做了,只是效果更慢而已,从长远打算来说,有时间还是可以做一做的。

  博客有了,最为重要的是博客的内容。坚持原创,这一原则是至始至终都应该遵守的。你的东西都是别人没有的,这才会成为经典,如果你的东西在网上一搜大片大片的出现,别说是搜索引擎,谁看了都会觉得是抄袭得来的。

  对于采用博客推广的网络营销方式,最好拟定一下计划。比如在维护博客的时候,选定几个权重最高的博客,最好坚持每天更新,更新的文章不需要很多,每天一两篇都行,带上锚文本链接。然后加上友情链接。

  三.博客推广方式的缺点

  采取博客营销推广方式,在短时间内成效不会见好,一些博客一天内可以收录,一些博客几天,甚至几周都不一定会收录。

  现在搜索引擎算法变得不可捉摸,搜索引擎针对博客外链的权重轻重划分还未可知。所以本人在此申明,以上仅代表本个人的观点。

闲谈SOGOU的Sogou Rank功能

  我们一直都很关注Google PR,一直把它当做为网站权重的衡量标准,那么今天我们来看点不同的,我们国内还有一个Sogou。

  几年前搜索引擎google的评价网页级别的参数Page Rank曾经引起了轰动,并申请了专利。PR一般可以理解为指向一个网页的链接越多,而这些链接本身的权重越高,那么这个被指向的网页的重要性及PageRank就越高,不过网页级别的计算需要进行多个循环的替代计算,才能得到近似于最终结果的PR值。

  Google PR是用来描述某一个文件或网页的重要性或地位,PR只与外部链接页(linking pages)的数量以及质量有关系。PR以前是SEO领域里最关注的话题,因为PR高低在很大程度上决定着网页排名,成为SEO重点研究对象很正常;不过,随着PR在搜索排名中的权重降低以及搜索引擎算法不断完善,PR已不是关注的焦点。

  而现在国内的搜索引擎厂商搜狗(www.sogou.com)也推出了其网页评级参数。查询一个站点被sogou所评定的级别分数很简单(当然,前提条件是这个站点必须已经被sogou收录了),只要打开搜狗的搜索页面,在搜索栏里面写上 “link:your website” 就可以查看到该网站的Sogou Rank值。

  搜狗的sougou rank范围是0~100,这个与google的pr范围0~10不一样。同时,查询sogou rank很便捷,我们不需要安装像google toolbar那样的第三方插件。

  以下是我在sogou中对爱秀网的sogou rank进行查询的截图:

  

 

  顺便再查查其他著名站点的sogou rank分数,列表如下:

  www.google.com 84

  www.yahoo.com.cn 80

  www.baidu.com 83

  www.sina.com.cn 86

  www.sohu.com 89

  www.163.com 94

  而www.sogou.com自己的sogou rank只有76,看来还是比较公正,而我们看到google给自己的pr为10。如果其他朋友有兴趣,也可以去查查自己的站点的分数是多少。

  以下是sogou官方对sogou rank的介绍:

  什么是Sogou Rank?

  Sogou Rank是搜狗衡量网页重要性的指标,不仅考察了网页之间链接关系,同时考察了链接质量、链接之间的相关性等特性,是机器根据SogouRank算法自动计算出来的,值从0至100不等。Sogou Rank值越高,该网页在搜索中越容易被检索到。

  如何提升Sogou Rank?

  为了提高您的页面的Sogou Rank,您需要使页面清晰易读,让更多同领域的高Sogou Rank站点来链接您的页面。同时您需要慎用您的对外链接,尤其是对低质量站点的链接(如果链接到垃圾站点,将极有可能降低您的Sogou Rank)

  另外,Sogou也对sogou rank对其自然排名的影响以及在sogou中如何获取好的排名做了说明:

  Sogou Rank是影响页面排名的一个重要因素,但不是全部因素。你同样需要努力去丰富自已页面的内容,给页面选择尽可能简洁明了的标题,拒绝向恶意堆砌关键字的垃圾页面提供链接。

一篇软文是怎样赚到10万的

今天给大家分享的是,如何通过一篇软文赚到10万。

很多人应该听过或者做过借贷宝,我一个朋友做过,赚了2万多。我自己注册了一下,没怎么推广,只赚了几百多。 借贷宝相当于CPA。推广一个人注册,实名认证绑卡可以赚20元。其实我好好做的话,能赚到钱,过去推广5毛一个的调查网,我给他们推广了几千名会员,现在20元的佣金一个我竟然没有激情去做,也许做网络久了,有些心累吧。做一个事还是初生的有闯劲。

我的强项是seo,也通过seo赚过一些小钱。对搜索引擎的变化我比一般人敏感。每天用搜索引擎的次数在100次左右。借贷宝我没有推广,但是研究了一些人的推广方法。有的通过QQ群免费分享知识,让别人加群,然后再让他们注册。有的通过新闻源发贴抢占关键词。还有的通过猪八戒发任务,直接让人注册。也有的通过微信转发送东西,形成病毒式营销。信息差永远是存在的,就看你能掌握多少势差。

接下来进入正题,我们用好搜和百度搜索”借贷宝“。可以看到同一个网页,一个排名第2,一个排名第4。

打开网页一看,流量非常惊人。150万访问量

按照4%的转化率,这篇文章的作者至少已经赚了10万了。并且流量还在源源不断,每个月增加20万的访问量,这篇文章的作者每月可以被动增加1~2万的收入。很多人一年都赚不到10万,而这个朋友只是运作成功一个贴子就可以多赚10几万。这就是互联网的神奇之处。

我们再看看他在搜狐平台发的总贴数。84篇文章,就这一篇流量是最大的,其他文章访问量也就几百,很平常,他这里有运气的成分。我还是要谈一下,他的流量为什么会这么大。

我用好搜和百度搜索他的网页,没有找到其他外链。

这说明一点,搜狐公众平台,本身的权重很高,不需要做外链。百度和好搜都给它面子。

再看一下他的互动,你就知道为什么排名那么好了?!

每一个评论就相当于网页更新一次,因为互动的很频繁,人数众多。搜索引擎就认为这是一个重要的网页,再加上互动的时候有逗留时间,停留时间长,也是搜索引擎认为是重要网页的依据。所以它形成了良性循环。只要搜狐不删除,它的排名依然很强悍。大家以后如果做seo,可以去搜狐申请自媒体平台,借用它的高权重来做关键词优化,不管长尾的还是短尾的,都会有好的排名。


http://tw.kvov.com.cn/jzxx23057.html

我跟你在一起你连最原始的快乐都给不了我,我们分手吧……
大意与事故挂钩,小心与平安交友
把自己忘了,才是真的忘了。
世上无难事只要肯登攀。
如果有人大声疾呼“名誉高于生命”,这其实就等于说,“人的生存和安适是无足轻重的,他人如何看待我们才是首要的问题”。