企业网站建设

建站知识

今日已发布信息: 317057
累计注册用户: 78057528

101做站方案半年小结

百度收录

概述: 因此一切都很顺利。我尽量在淘宝上寻找便宜的虚拟空间,一是为了对比;二是为了网站不在同一个服务器。   五月搬了新家,拉了宽带,从原来单位脱离出来职业建站。从网吧买了一台旧电脑,本想找个人更新网站,可一直找不到合适的。   五月十九日那天,女朋友和我提出了彻底分手的要求,我答应了。之前的一切美好愿望破灭,一切计划变得很苍白。我开始逃避,第二天就逃离那个城市。在五月底拿到了第二笔钱,处理了一些事情之后。开始接触一个新的项目,后来因为资金没有完全到位一直拖到7月下旬。在那段时间里,要感谢一位朋友帮我更新网站,而我就偶尔关心一下外链,收部分钱。

  在时间面前,有时很无力,过去的再也不能重新来过,唯有向前看,总结过去,才能进步。

  2008年4月前后,在接触了友情链接市场之后,并尝试着接了几个外链业务,发现这一全新的领域。根据自己对建站、百度收录、pr更新(提高)的种种经验,在4月底制定了101建站计划,凭10个公务员网站、5个电影站及之前的一些数据拿到了第一笔创业资金。因为自己之前一直做站,因此一切都很顺利。我尽量在淘宝上寻找便宜的虚拟空间,一是为了对比;二是为了网站不在同一个服务器。

  五月搬了新家,拉了宽带,从原来单位脱离出来职业建站。从网吧买了一台旧电脑,本想找个人更新网站,可一直找不到合适的。

 

  台湾免费网站设计  反渗透设备厂   今日推荐免费建站   分类信息   吴江网站建设公司

 

  五月十九日那天,女朋友和我提出了彻底分手的要求,我答应了。之前的一切美好愿望破灭,一切计划变得很苍白。我开始逃避,第二天就逃离那个城市。在五月底拿到了第二笔钱,处理了一些事情之后。开始接触一个新的项目,后来因为资金没有完全到位一直拖到7月下旬。在那段时间里,要感谢一位朋友帮我更新网站,而我就偶尔关心一下外链,收部分钱。

  下面还是说说网站程序、百度收录、pr大家比较关心的事情吧!

  先说网站程序:我的站主要使用了kingcms、wodig、科讯cms、马克斯电影。功能就不介绍了,科讯cms、马克斯电影先后被人放毒,而且是全部,估计是程序本身的问题。

  百度收录、k站、k首页:收录只是一个时间问题,新站只要合理的增加几个外链,20天左右都能收录;只有两个站被k,是导航站,都是大量收录之后,然后被k,是数据问题,因为没有时间管理,只修改了标题没有改内容;卖了一段时间外链以后,百度开始k我站的首页,不过一段时间以后又恢复,几十个站轮流来,呵呵。

  pr更新:在7月底的更新中,有七八个站pr到3,2也有,1也有,不动的也有,外链几乎相同。8月初,有个pr3的掉了,其他一切正常。

  再接再厉,继往开来... ...

 

sns是网站优化发展之路

  面对近日来百度调整排名规则,谷歌不断采取的补齐来融入中国本土文化,当谷歌步步逼近的时候,百度也不断在调整,波及n多seoer。在一个变动的年代,免不了淘汰一批跟不上步伐seoer。不想被淘汰,那seo必须耐住性子,不急躁,不浮躁,同时必须加快速度寻找创新寻找出路,不能在两大搜索引擎竞争中成为牺牲品。

  2009年5月17的站长大会中周鸿明在会上说:社区是未来互联网发展方向。还有在2006年4月8日站长大会的时候,第二个会议内容就是:邀请风险投资者以及关注社区价值的成功互联网创业者贡献各自对于社区价值的发现和认识。

  Adworld2009互动营销世界会议提到网络广告发展的趋势:社区营销从两大方向驱动网络营销变革,采用SNS的营销方式,将会形成一环扣一环的,一个小群体到另外一个小群体用户与用户以及与品牌主张的深度联结。营销平台化将成为搜索引擎竞争的制高点,也成为高效服务广告主的必要途径。

  明显大家都看好社区发展的前景,SNS必将成为未来互联网的发展趋势。国内知名的社区类型都不外乎是游戏类,例如“开心网”,交友类,如“校内、51、亿友”等。虽然现在作为SEO交流的地方很多很多,比如点石,落伍者,站长网...但是深层的里面有很多利益存在,所以就目前的互联网发展来看,作为SEO盈利的机会越来越小,seo必须转型求发展,sns将是一个风尚标!

对于网站网站优化过程中不容易被考虑到的一点重要问题

  在做网站SEO的过程中,很多人会碰到网站优化的方向不明确的问题,如果SEO的方向不明确,就会使得网站向四面八方发展,所有关键词都得不到一个好的排名,而方向定得好,很多词的排名都能做上去.我拿一个我的例子来说一下吧,我个人的一个站点www.gxseo.org,是做SEO相关资料的网站,而大家看看我网站的标题”广西SEO|SEO培训|SEO服务|SEO网站优化技术-广西老吴SEO资料站”,大家一眼就看出了我网站主要想做的主要关键词是”广西SEO”和”SEO培训”,问题出现了,哪个是我要做的最最主要的关键词呢?看到这里,如果给你选择一下,然后默默做个选择,说说为什么,一会看看我的分析.

  出处:广西老吴SEO培训

看完做大师 无线端优化45问介绍

  新质量得分、PC&无线独立质量得分、无线质量得分和手机标严格对应。优势:直观了解PC和无线上的不同效果,更好的针对不同的平台优化。

  无线溢价,从原先1-200%调整为1-400%,从计划、宝贝层面皆可调整 。优势:提升无线溢价幅度,无线流量快到碗里来。

  

 

  创意指定、PC和无线设备指定、创意轮播&优选。 优势:针对PC和无线不同设备优化创意提升点击率,测图用轮播。排名透出PC&无线实时排名优势:更清楚如何调整出价来获得排名,尤其是无线端优势:直观了解PC和无线上的不同效果,更好的针对不同平台优化。

  位置:直通车PC推广位增加淘宝主搜结果页的位置,包括首页的翻页的位置。排序规则:按照目前搜索直通车的排序规则来进行排序,且要求推广宝贝和搜索关键词保持较高的相关性,质量得分分维度需要满足4格或以上,才有在该位置上展现的机会。结算价格:扣费规则目前等同于搜索直通车右侧展现位的扣费规则,即下一名的质量得分x下一名的出价/你的质量得分+0.01,单次点击产生的费用不会大于您所设置的出价。建议:如掌柜想要在该位置获得展现建议在推广过程中不断的优化关键词质量分,保持推广关键词和推广宝贝较高的相关性,尽量将您的相关度分值提升到4格及以上,同时其他分维度也要优化到较高的分值,并根据推广营销效果适当调整出价来争取该位置的展现。

  直通车定向增加手淘资源位,手淘创意要求今日最新上线的创意符合提示,可以进入后台,打开展示位置,找到手淘两个位置,右侧会出现和的标志来告知当前设置的创意是否符合投放的要求。(新图需要24小时审核时间)创意要求:①浅色背景图:可以使用场景图,但避免色调过深。②无牛皮癣:牛皮癣即大块的标签贴,如下图中的红色角标。③无边框无水印。④少文字。⑤图片清晰高,不会显得模糊。当前手淘覆盖人群最大的为店铺访客和智能投放。因此建议大家还是要开启智能投放和店铺访客人群。

  无线端问题解答:

  1、怎么快速提升无线质量得分?

  当无线整体质量都很差,大部分关键词无线得分都很低时,通常是帐户的基础质量不好,需要从优化基础质量做起,通常的做法: 新建或选取空的计划无线为主(400%大折扣)建立优质宝贝(点击率高!)推广优质词(优先有移动标的)获取适量展现和点击(关键点在取得高点击反馈)基础质量改善逐步放大质量继续改善正常推广。 当然,在这个过程中,需要结合比如创意优化,精准推广,店铺内功优化等其他方面来配合进行。

  2、直通车质量得分不稳定,无线和pc质量得分差距比较大,一个6一个10怎么解?

  质量分本身反应了关键词在各自设备端的反馈效果等质量情况;2丶顺势而为,对质量分占优势的设备,可以适当加大力度;3丶对质量分劣势的,找现原因,看是在影响质量分的哪些维度不够好,针对性改善。4丶一般而言,质量分会随着推广的持续趋向稳定。

  3、关键词有手机标跟没手机标差别在哪呢?

  关键词的无线质量分达6分,有手机绿标,代表在无线端有展现资格;无线质量分在7分或以上,有手机蓝标,代表在无线端有首屏展现资质。5分及以下,无手机标志,表示不能在无线端展现。

  4、PC和移动端的质量分拆分以后PC端的点击反馈 还影响移动端的质量得分吗?

  PC和无线不会互相影响,整体账户的表现会影响到PC和无线的质量分,建议关注整体账户的质量分和推广效果情况。

  5、新计划移动端质量分低怎么办,目前没有手机标。

  移动质量分建议关注分维度的情况,创意质量丶买家体验和相关性,建议提高整体账户的情况,选择无线有优势的宝贝,选择有手机标的词,对于没有手机标的词,建议开广泛匹配提高出价,可能会获得无线流量。

  6、到底直通车是设置几百个关键词好,还是就设置几个关键词好?

  这个没有绝对,关键词需要根据您的推广目的来,建议最开始投放加精准的长尾词丶品牌词丶品牌+类目词丶品牌+属性词,提高整体质量得分较高,后面再加上pv较大的热词。

  7、无线端的点击率超过4%,产出比超过2,为什么质量得分只有6分或7分呢?

  质量分并不只是考虑点击率和转化率,同时也会考虑跟产品的相关性和客户体验。可以观察下这几项在质量分里是否没有满格。

  8、定向投放和关键词投放建议分开投放还是一块投放,为什么?

  定向投放和关键词投放是在一起的,可以针对定向上的位置做溢价来投放,来争取这些位置上更多的流量。定向的推广是不影响搜索的质量得分和效果的,所以可以放在一起。

  9、无线词表在哪里下载呀?

  http://www.365128.com?spm=0.0.0.0.mmiqbk这个是词表地址。无线词表可以在添加关键词的地方,是移动包可以来添加。

  10、开始推手机直通车的时候质量得分不高,如果想开到前面那个价格特别高,有没有什么好的方法解决一下这个出价太高的问题。

  出价太高而又不得不出时,你可以适当降低展现量,比如,间隔时段推广,选择少量地域推广,选择优质搜索人群推广等等,等质量分养高好,再放大推广范围。

  11、无线和pc直通车 现在都是千人千面吗?

  现在不是系统干预的千人前面,而是用人群溢价的方式,来实现展现的千人千面。我们可以针对精准客户提高直通车溢价,让我们的商品能更多展现在老客户面前。

  12、现在要不要分开来开两个计划,pc跟无线的?

  可以从宝贝、关键词、创意等多方面来对计划进行单独投放,但是不同类目还是有不同做法,对于服饰而言,宝贝多、关键词多,可能做单独分开的计划操作上还是有点麻烦,建议根据店铺的实际情况去做。

  13、定向的点击转化会影响关键词的质量得分吗?

  不会影响。

  14、无线点击率高,但是展现很少会涨分吗?

  不好要看相对情况。通常只要是好的点击反馈都有助于涨分,但是否在分数上直观的看到提上去,还要看相应量度是否达到。

  15、出价高,无线端连6分都没有,怎么去培养?

  这种情况,通常是账户权重不够好。我的习惯是要重新优选商品,优选无线关键词,先尽量做到无线流量,维护好点击率转化率,等账户权重足够好了,再加的新品前期关键词分数都会比较高。

  16、有部分账户第一天放上去都是6分以上的词,第二天掉了好多到3丶4分的,这种情况怎么办?

  无线上面对于质量得分的影响因素,其中点击率和点击转化率是很重要的,所以主要是由于流量引入店铺后 ,但是相应的转化率不高,所以影响到了质量得分,后期可能也会在质量得分的影响因素上也会降低点击转化率对于质量得分的影响,有助于质量得分稳定。

  17、小类目怎么选词呢?有些精准长尾词搜索指数低于100,搜索指数高的都是大词。

  选词有多种渠道。平时我们也可以从数据魔方的淘词里找词。另外可以从搜索下拉框选词。对于小类目来说,数据魔方的淘词很有效。

  18、无线猜你喜欢我开启了定向为什么没有展现?

  手淘定向有一些要求,通常原因可能是:1、手淘创意不符合要求。2、出价太低。3、圈定的人群数量太小。4、定向初开启缺乏数据。 建议在后台详细查看下相关要求,比如,手淘创意要求: 创意要求: ①浅色背景图:可以使用场景图,但避免色调过深。 ②无牛皮癣:牛皮癣即大块的标签贴,如下图中的红色角标。 ③无边框无水印。 ④少文字。 ⑤图片清晰高,不会显得模糊。

  19、质量分的影响因素,点击率和转化率可以理解,但是相关性和客户体验应该怎么优化呢?

  相关性,是跟商品属性和标题有关。标题分推广标题和商品标题。客户体验,是收藏加入购物车比例之类的,以及店铺的DSR。这些在直通车帮助里都有明确的解释。

  20、直通车的4个计划关键词不能重复吗?

  同一个商品,没必要重复关键词。不同的商品,关键词可以重复2次。直通车规则,在站内一个关键词可以展现两款商品。

  21、计划推广一段时间了,效果一直都挺好。突然有一天在晚上7点多推广计划达到日限额, 会对第二天的推广造成不良影响吗?

  建议及时来修改计划的日限额,适当的调高,另外后台也有预算建议和提醒功能,建议预算建议及时修改预算,这样有助于持续为店铺引流,保证正常的推广。

  22、新开计划怎么入手?

  新开计划,应该是以测试款式的点击率为主。保留好的点击率的款式,逐渐提升账户权重,后面会好做很多。然后才是选词的事情。有多个计划,可以每个计划用不同的词。比如有一个计划专门做精准词,另外一些计划专门测试广泛词。精准词我的习惯是用中心匹配。广泛词我是用广泛匹配。

  23、之前质量分基本是满分10分的,最近无线质量分出来后,排名降了,PC质量分降了,无线质量分也每天在下降,点击少扣费高,是什么原因呢 ?

  之前质量分是融合的,所以你看到的质量得分是较高的,但是实际上很可能pc质量分是低的,或者无线质量分是低的,之前质量得分和手机标也不是对应的,现在都是对应的,即7-10分是蓝标,6分是绿标,1-5分是黄标,针对质量得分来降低cvr对于质量得分的影响,那么后续请持续的来优化创意质量即点击率,还有保持关键词和宝贝的相关性,最后是整体账户的推广效果。

  24、点击率对质量分的影响权重有多大?

  首先单一维度的权重是相对的,首先,不能有明显短板,如果有一个比如1格的短板,那你点击率再高有时也没用的。在相关性达标,买家体验各项也OK的情况下,点击率就成为了影响质量分的核心因素,你理解它的权重多大都不为过,通常这是你与优质同行较量的最关键的部分。

  25、怎么关闭计算机端的投放?

  大多数店铺不能关闭计算机端的投放。如果你的本意是为了只投无线端,可以降低PC端出价,加大无线端的出价比例。现在无线出价比例可以到400%,通过这种方式可以降低你在PC端的投放,也差不多是关闭PC的效果了。建议按出价和实时排名工具随时去优化关键词的出价。

  26、PC与无线现在要单独进行养分了是吗,维度前期与后期分别是什么?

  PC和无线是需要分别养分。前期是考核账户权重,相关性,后期是点击率,转化率,客户体验。

  27、请问无线端转化率和点击率哪个权重大点?

  点击率的权重大些。

  28、质量都10分以后该如何保持质量分稳定?

  A:直通车质量分规则里,10分是个标准分。后台在计费时,是根据另外一个质量分基础分做的计算。同是10分,基础分也可能会差几倍。我们在到了10分后仍然需要不断优化。优化的主要方向还是点击率转化率等。

  29、新推广的商品,是否优先考虑PC的质量得分,等PC的质量得分提高后,再开始优化无线质量得分,这样的操作思路正确吗?

  从某个角度上来说,这个也是正确的,因为新推广的宝贝,将PC的质量得分优化后,相当于该计划的质量得分是较高的,那么无线开启后,无线的质量得分主要是受到整体账户和该计划的影响,所以可能会得到较高的质量得分,建议你实时优化相关性,优化无线详情,优化创意提高点击率。

  30、调整关键词出价多少的范围对质量得分的影响比较小?

  一般大家都会碰到这种情况,有时候突然触发无线端,做到大流量怎么办?有时这种触发可能是亏钱的。我们需要降低出价。我降低的方式是每次10%这样降,尽量维持有足够的流量。不会一下直接降很多。降价的频次可以多一些。比如一个小时我反复观察,可以考虑降1~2次。而如果降价导致没有流量了,我会逐渐再提价回来,看是否还能恢复一些流量。要避免陡降,有时候好不容易做的质量分会浪费了。

  31、频繁修改价格对质量分有什么影响吗?当质量分上去之后怎么去调整出价呢?直接降低出价是不是也会影响质量分呢?

  频繁修改价格如果价格很悬殊,那么是会影响质量得分,因为出价修改后 ,排名也是有变化,无线上的排名差一名,流量和点击率就会相差较多,因为是隔5个或10个宝贝才会出现一个直通车宝贝。

  32、直通车成交影响自然搜索排名吗?

  直通车带来的销量,对自然搜索排名有帮助。

  33、修改日限额对宝贝质量得分是否会有影响?

  尽量不要停车。只是修改日限额,对质量分不会有影响。

  34、7-10分有首屏展示,那6分是不是只有混排,出价再高,也不会在首屏展示。混排具体概念是什么,什么叫混排呢?

  现在7-10分,表示有机会在首屏展现,但是需要调整出价才能排在前面。现在的首屏指的是无线的前3个位置,混排是从第4个位置开始称为混排,那么在7-10分最终可能出现在首屏,也可能在混排,但是质量得分6分就只能在混排出现。

  35、点击率和转化率多高 质量分才会涨呢??我上次大词的点击率和转化率都达到行业平均值的两倍了,还是没有涨,为什么呢?

  具体每个词的点击率和转化率,是按该设备(PC或无线)下投放该词的对手点击反馈情况来决定的,所以我不知你比较的CTR和CVR有没有分设备比较;2丶质量分从110分是按一定的规律分布的,质量分越高,相应指标要求就越高。你现在的分数,如果已经要求相应指标是行业均值的两倍,那它就只是维持,而不会上涨。

  36、怎么提升点击率 ,主图优化了好多次了?

  点击率表面上看是主图设计最重要,但其实影响的更基础的要素非常多,比如宝贝本身,是影响点击率的最重要因素之一;其他还有,销量丶词的精准度丶直通车搜索人群与产品定位的吻合度等等都有关系。就创意图来说,除了宝贝本身,拍摄和模特表现力;文案;排版;配色等等都与点击率息息相关。

  37、人群溢价是搜索人群溢价吗? 但是没开搜索人群溢价会有影响吗?

  搜索人群溢价能提高关键词的点击率和转化,有助于质量得分的提高。

  38、如果一个关键词,点击率不高,但转化率高,是不是质量得分和质量得分的权重很难上升?

  点击率在质量得分影响里面是很重要的,因为是计入创意质量的,影响还是不小的。

  39、如何确定我已经成功投放手淘位置?

  勾选无线设备,且定向人群有出价,即有投放手淘位置啦。1-2天内没有流量是正常的,耐心等待!如果一直没有流量,请检查创意是否不符合要求,或者标题中带有敏感词。

  40、为什么我没有开定向,定向的站内无线还有流量?

  答:请检查一下计划的平台设置,是否勾选无线设备,无线设备目前不区分搜索和定向,因此勾选后即同时选择搜索和定向的无线渠道投放。

  41、我的定向无线效果不是很好,怎么去优化(关闭)呢?

  答:定向的转化周期较搜索长且流量较小,建议掌柜以一个周期(7天)来观察流量的转化效果,不要着急关闭。如果一定要关闭,请通过建立独立搜索和定向计划来区分,在搜索计划中关闭定向的投放,在定向计划中关闭关键词的投放。

  42、出价太高了,怎么样调低,但是搜索无线出价又不变?

  答:由于当前无线的开启以及折扣都是搜索定向通用,因此如果需要独立操作的话,建议可以建立定向独立计划,即在独立搜索计划中暂停定向投放,在定向计划中暂停搜索关键词推广。

  43、为什么有的宝贝有定向无线流量,有的宝贝没有定向无线流量?

  手淘位置对于创意有一定要求,符合要求的才能获得展现,请检查当前宝贝的创意是否符合规范。

  44、我开通了质量分拆分,因此在宝贝页面也可以调整无线折扣,是否对定向有效?

  答:对定向有效。

  45、我开通了质量分拆分,因此在宝贝页面也可以区分PC/无线投放创意,是否对定向有效?

  答:目前创意分渠道投放功能对定向无效。

怎样解决site网站收录不在第一页

  我是新来的,现在维护的是(中国液压机械网http://www.yyjx.org.cn和中国液压网http://www.yeyawang.org.cn),在百度排名和收录都一直良好。最近一段时间,我发现百度收录液压机械网首页并不是百度收录第一页,有时首页会跑到收录第二页,有时甚至跑到第三页上去,这直接带来的后果就是我的网站关键词排名不稳,也造成了我的网站排名不稳定。后来我看一些关于这方面的文章,对一些部分进行了修改,网站才有所好转!这其中的方法向各位到来!

  第一:检查友情链接。发现有几个链接的网站,被百度k了,收录是零,这样得通知一下站长,把他的网站链接先删除。还有一些外链被降权了,但并不意味着是坏链接,可能是百度调整了算法,只要对方降权得不厉害,没有被百度K掉,链接就不要轻易去掉,否则会造成链接下降太快,引起百度蜘蛛的误解。

  第二:经常网站的更新。坚持原创,自己写软文。百度有个算法法则,加一篇原创就加一分,加一篇采集就减一分,所以,宁要精品不要粗制滥造,这对减少垃圾,净化互联网是有好处的,毕竟大家上百度查询,看到是的千篇一律的东西,那就一点意思也没有了。

  第三:网站的权重问题。 site网站不到第一的,大多数是权重低的,所以大家做链接的时候最好就是问问某某关键词排名第几,用关键词排名来判断权重是个不错的方法。

  还有网站内容不要杂乱无章,信息分类要一目了然,相当于网站应该有一个很好的地图,栏目和添加的信息内容要相符才行,这样百度蜘蛛才会光顾你的站!

搜索引擎要触及的专业知识要点剖析

  随着互联网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找自己所需的信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。搜索引擎是指互联网上专门提供检索服务的一类网站,这些站点的服务器通过网络搜索软件(例如网络搜索机器人)或网络登录等方式,将Intemet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库,从而对用户提出的各种检索作出响应,提供用户所需的信息或相关指针。用户的检索途径主要包括自由词全文检索、关键词检索、分类检索及其他特殊信息的检索(如企业、人名、电话黄页等)。下面以网络搜索机器人为例来说明搜索引擎技术。

  1.网络机器人技术

  网络机器人(Robot)又被称作Spider、Worm或Random,核心目的是为获取Intemet上的信息。一般定义为“一个在网络上检索文件且自动跟踪该文件的超文本结构并循环检索被参照的所有文件的软件”。机器人利用主页中的超文本链接遍历WWW,通过U趾引用从一个HT2LIL文档爬行到另一个HTML文档。网上机器人收集到的信息可有多种用途,如建立索引、HIML文件合法性的验证、uRL链接点验证与确认、监控与获取更新信息、站点镜像等。机器人安在网上爬行,因此需要建立一个URL列表来记录访问的轨迹。它使用超文本,指向其他文档的URL是隐藏在文档中,需要从中分析提取URL,机器人一般都用于生成索引数据库。所有WWW的搜索程序都有如下的工作步骤:

  (1)机器人从起始URL列表中取出URL并从网上读取其指向的内容。

  (2)从每一个文档中提取某些信息(如关键字)并放入索引数据库中。

  (3)从文档中提取指向其他文档的URL,并加入到URL列表中。

  (4)重复上述3个步骤,直到再没有新的URL出现或超出了某些限制(时间或磁盘空间)。

  (5)给索引数据库加上检索接口,向网上用户发布或提供给用户检索。

  搜索算法一般有深度优先和广度优先两种基本的搜索策略。机器人以URL列表存取的方式决定搜索策略:先进先出,则形成广度优先搜索,当起始列表包含有大量的WWW服务器地址时,广度优先搜索将产生一个很好的初始结果,但很难深入到服务器中去;先进后出,则形成深度优先搜索,这样能产生较好的文档分布,更容易发现文档的结构,即找到最大数目的交叉引用。也可以采用遍历搜索的方法,就是直接将32位的IP地址变化,逐个搜索整个Intemet。

  搜索引擎是一个技术含量很高的网络应用系统。它包括网络技术、数据库技术动标引技术、检索技术、自动分类技术,机器学习等人工智能技术。

  2.索引技术

  索引技术是搜索引擎的核心技术之一。搜索引擎要对所收集到的信息进行整理、分类、索引以产生索引库,而中文搜索引擎的核心是分词技术。分词技术是利用一定的规则和词库,切分出一个句子中的词,为自动索引做好准备。目前的索引多采用Non—clustered方法,该技术和语言文字的学问有很大的关系,具体有如下几点:

  (1)存储语法库,和词汇库配合分出句子中的词汇;

  (2)存储词汇库,要同时存储词汇的使用频率和常见搭配方式;

  (3)词汇宽,应可划分为不同的专业库,以便于处理专业文献;

  (4)对无法分词的句子,把每个字当作词来处理。

  索引器生成从关键词到URL的关系索引表。索引表一般使用某种形式的倒排表(1nversionUst),即由索引项查找相应的URL。索引表也要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻关系或接近关系,并以特定的数据结构存储在硬盘上。

  不同的搜索引擎系统可能采用不尽相同的标引方法。例如Webcrawler利用全文检索技术,对网页中每一个单词进行索引;Lycos只对页名、标题以及最重要的100个注释词等选择性词语进行索引;Infoseek则提供概念检索和词组检索,支持and、or、near、not等布尔运算。检索引擎的索引方法大致可分为自动索引、手工索引和用户登录三类。

  3.检索器与结果处理技术

  检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行检索,同时完成页面与检索之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。

  通过搜索引擎获得的检索结果往往成百上千,为了得到有用的信息,常用的方法是按网页的重要性或相关性给网页评级,进行相关性排序。这里的相关度是指搜索关键字在文档中出现的额度。当额度越高时,则认为该文档的相关程度越高。能见度也是常用的衡量标准之一。一个网页的能见度是指该网页入口超级链接的数目。能见度方法是基于这样的观点:一个网页被其他网页引用得越多,则该网页就越有价值。特别地,一个网页被越重要的网页所引用,则该网页的重要程度也就越高。结果处理技术可归纳为:

  (1)按频次排定次序通常,如果一个页面包含了越多的关键词,其搜索目标的相关性应该越好,这是非常合平常理的解决方案。

  (2)按页面被访问度排序在这种方法中,搜索引擎会记录它所搜索到的页面被访问的频率。人们访问较多的页面通常应该包含比较多的信息,或者有其他吸引入的长处。这种解决方案适合一般的搜索用户,而因为大部分的搜索引擎都不是专业性用户,所以这种方案也比较适合一般搜索引擎使用。

  (3)二次检索进一步净化(比flne)结果,按照一定的条件对搜索结果进行优化,可以再选择类别、相关词进行二次搜索等。

  由于目前的搜索引擎还不具备智能,除非知道要查找的文档的标题,否则排列第一的结果未必是“最好”的结果。所以有些文档尽管相关程度高,但并不一定是用户最需要的文档。

  搜索引擎技术的行业应用:

  搜索引擎的行业应用一般指类似于千瓦通信提供的多种搜索引擎行业与产品应用模式,大体上分为如下几种形式:

  1、政府机关行业应用

  n全面满足内部工作人员对互联网信息的全局观测需求。

  n及时解决政务外网、政务内网的信息源问题,实现动态发布。

  n快速解决政府主网站对各地级子网站的信息获取需求。

  n全面整合信息,实现政府内部跨地区、跨部门的信息资源共享与有效沟通。

  n节约信息采集的人力、物力、时间,提高办公效率。

  2、企业行业应用

  n实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。

  n及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。

  n为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。

  n大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存储、挖掘的相关费用,是提高企业核心竞争力的关键。

  n提高企业整体分析研究能力、市场快速反应能力,建立起以知识管理为核心的竞争情报数据仓库,是提高企业核心竞争力的神经中枢。

  3、新闻媒体行业应用

  n快速准确地自动跟踪、采集数千家网络媒体信息,扩大新闻线索,提高采集速度。

  n支持每天对数万条新闻进行有效抓取。监控范围的深度、广度可以自行设定。

  n支持对所需内容智能提取、审核。

  n实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。

  4、行业网站应用

  n实时跟踪、采集与网站相关的信息来源。n及时跟踪行业的信息来源网站,自动,快速更新网站信息。动态更新信息。

  n实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。

  n针对商务网站提出商务管理模式,大大提高行业网站的商务应用需求。

  n针对资讯网站分类目录生成,提出用户生成网站分类结构。并可以实时增加与更新分类结构。不受级数限制。从而大大利高行业的应用性。

  n提供搜索引擎SEO优化专业服务,快速提高行业网站的推广。

  n提供与CCDC呼叫搜索引擎的广告合作。建立行业网站联盟,提高行业网站知名度。

  5)网络信息监察与监控

  n网络舆情系统。如“千瓦通信-网络舆情雷达监测系统”

  n网站信息与内容监察与监控系统,如“千瓦通信-网站信息与内容监测与监察系统(站内神探)”

  随着因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞 针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。目前, 搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。

  搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来的技术。据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计,全球目的网页超过8亿,有效数据超过9T,并且仍以每4个月翻一番的速度增长。用户要在如此浩 瀚的信息海洋里寻找信息,必然会"大海捞针"无功而返。搜索引擎正是为了解决这个"迷航"问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为"网络门户"。搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。本文旨在对搜索 引擎的关键技术进行简单的介绍,以起到抛砖引玉的作用。

  分 类

  按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:

  1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人 工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏 览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高 ,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是 :Yahoo、LookSmart、Open Directory、Go Guide等。

  2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:"天网"、悠游、OpenFind等。

  3.元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用 户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更 全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引 擎的代表是WebCrawler、InfoMarket等。

  性 能 指 标

  我们可以将WEB信息的搜索看作一个信息检索问题,即在由WEB网页组成的文档库中检索 出与用户查询相关的文档。所以我们可以用衡量传统信息检索系统的性能参数-召回率(R ecall)和精度(Pricision)衡量一个搜索引擎的性能。

  召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系 统(搜索引擎)的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量 的是检索系统(搜索引擎)的查准率。对于一个检索系统来讲,召回率和精度不可能两全 其美:召回率高时,精度低,精度高时,召回率低。所以常常用11种召回率下11种精度的 平均值(即11点平均精度)来衡量一个检索系统的精度。对于搜索引擎系统来讲,因为没 有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。目前的搜索引擎系 统都非常关心精度。

  影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询 的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相 关度反馈的机制。

  主 要 技 术

  一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。

  1.搜索器

  搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜 不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信 息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。目前有 两种搜集信息的策略:

  ● 从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深 度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常 是一些非常流行、包含很多链接的站点(如Yahoo!)。

  ● 将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽 搜索。搜索器搜集的信息类型多种多样,包括HTML、XML、Newsgroup文章、FTP文件、 字处理文档、多媒体信息。搜索器的实现常常用分布式、并行计算技术,以提高信息 发现和更新的速度。商业搜索引擎的信息发现可以达到每天几百万网页。

  2.索引器

  索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生 成文档库的索引表。

  索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、 URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;内容索引项是用来 反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和 多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取, 因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切 分。

  在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分 度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短 语索引项的提取方法有统计法、概率法和语言学法。

  索引表一般使用某种形式的倒排表(Inversion List),即由索引项查找相应的文档 。索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或 接近关系(proximity)。

  索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现即时 索引(Instant Indexing),否则不能够跟上信息量急剧增加的速度。索引算法对索引器 的性能(如大规模峰值查询时的响应速度)有很大的影响。一个搜索引擎的有效性在很大 程度上取决于索引的质量。

  3.检索器检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与 查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。

  检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。

  4.用户接口

  用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的 目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。 用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。

  用户输入接口可以分为简单接口和复杂接口两种。

  简单接口只提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制,如 逻辑运算(与、或、非;+、-)、相近关系(相邻、NEAR)、域名范围(如.edu、.com) 、出现位置(如标题、内容)、信息时间、长度等等。目前一些公司和机构正在考虑制定 查询选项的标准。

  未 来 动 向

  搜索引擎已成为一个新的研究、开发领域。因为它要用到信息检索、人工智能、计算 机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和 技术,所以具有综合性和挑战性。又由于搜索引擎有大量的用户,有很好的经济价值,所 以引起了世界各国计算机科学界和信息产业界的高度关注,目前的研究、开发十分活跃, 并出现了很多值得注意的动向。

  1.十分注意提高信息查询结果的精度,提高检索的有效性用户在搜索引擎上进行 信息查询时,并不十分关注返回结果的多少,而是看结果是否和自己的需求吻合。对于一 个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在结果中筛选。解 决查询结果过多的现象目前出现了几种方法:一是通过各种方法获得用户没有在查询语句 中表达出来的真正用途,包括使用智能代理跟踪用户检索行为,分析用户模型;使用相关 度反馈机制,使用户告诉搜索引擎哪些文档和自己的需求相关(及其相关的程度),哪些 不相关,通过多次交互逐步求精。二是用正文分类(Text Categorization)技术将结果分 类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。三是进行站点类 聚或内容类聚,减少信息的总量。

  2.基于智能代理的信息过滤和个性化服务

  信息智能代理是另外一种利用互联网信息的机制。它使用自动获得的领域模型(如We b知识、信息处理、与用户兴趣相关的信息资源、领域组织结构)、用户模型(如用户背景 、兴趣、行为、风格)知识进行信息搜集、索引、过滤(包括兴趣过滤和不良信息过滤) ,并自动地将用户感兴趣的、对用户有用的信息提交给用户。智能代理具有不断学习、适 应信息和用户兴趣动态变化的能力,从而提供个性化的服务。智能代理可以在用户端进行 ,也可以在服务器端运行。

  3.采用分布式体系结构提高系统规模和性能

  搜索引擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有千秋。但 当系统规模到达一定程度(如网页数达到亿级)时,必然要采用某种分布式方法,以提高 系统性能。搜索引擎的各个组成部分,除了用户接口之外,都可以进行分布:搜索器可以 在多台机器上相互合作、相互分工进行信息发现,以提高信息发现和更新速度;索引器可 以将索引分布在不同的机器上,以减小索引对机器的要求;检索器可以在不同的机器上。

http://tw.kvov.com.cn/jzxx25068.html