郑州SEO/SEM

从事网站优化,网站推广,搜索引擎优化的研究!-Chw's BLOG.

分词与索引库杂谈

分词是很多做SEO的人常听到的概念,为了让大家在这个方面不会有疑惑,现在要来讲一下分词以及索引库。这也是更深入的了解搜索引擎的开始。

搜索引擎每天都是在处理一个基本的需求:用户搜索一个关键词,搜索引擎马上找到相关的网页给用户。这个过程要怎么实现呢? 下面就分步来了解这个过程。

首先搜索引擎要尽可能多的把互联网上的网页搜集下来,这样能提供大量的网页给用户查询。这一部分由爬虫来解决,顺着互联网上的链接一个个往下抓取。最后就有了一堆记录着网页各种信息的资料库。目前的现状,最后能使这个资料库里有大概100多亿个网页。资料库里记录了这些网页的URL,整个网页的HTML代码,网页标题等等信息。

然后,搜索引擎拿到用户输入的这个关键词后,要从这个资料库里把相关的网页找出来给用户。这里就碰到好几个问题了:

1,要怎么快速的从上100亿个网页里找出匹配的网页的呢?

要知道这是从上百亿的网页里找符合这个关键词内容的网页,如果像用word里那种用ctrl + F 轮询的查找方式的话,即使用超级计算机,也不知道要消耗多少时间。但是现在的搜索引擎,在几分之一秒里就实现了。所以一定是做了一些处理才实现的。

解决办法也倒简单,就是建立一份索引库。就像我们查《新华字典》一样,我们不会翻遍《新华字典》的每一页来查那个字在哪页,而是先去索引表那里找这个字,拿到页码后,直接翻到那页就可以了。搜索引擎也会为上百亿的网页建立一个索引库,用户查询信息的时候,是先到搜索引库里查一下要找的信息在哪些网页,然后就引导你去那些网页的。

如下图:

索引库

索引库

2,索引库里用什么样的分类方式?

我们知道,《新华字典》的索引表是用字母列表或者偏旁部首的分类方式的。那么搜索引擎的索引库里是怎么分类的?是不是也可以用字母列表的方式?

搜索引擎如果以字母列表的方式排列索引库,那么平均每个字母下要查询的网页数量是  100亿÷26=3.85亿 ,也还是一个很大的数字。而且搜索引擎上,今天是100亿个网页,过不了多久就是300亿个网页了。

Read More...

可以捕捉各大搜索引擎蜘蛛的Php代码

1:把以下内容放在php文档<? ?>之间开头或结尾即可。

2:查看具体的搜索引擎机器人爬行纪录请访问程序中涉及的txt文档,大家可以自行修改路径。该文档内容包括蜘蛛爬行日期、时间、蜘蛛名称和网址。

function get_naps_bot()
{
$useragent = strtolower($_SERVER['HTTP_USER_AGENT']);

if (strpos($useragent, 'googlebot') !== false){
return 'Googlebot';
}

if (strpos($useragent, 'msnbot') !== false){
return 'MSNbot';
}

if (strpos($useragent, 'slurp') !== false){
return 'Yahoobot';
}

if (strpos($useragent, 'baiduspider') !== false){
return 'Baiduspider';
}

if (strpos($useragent, 'sohu-search') !== false){
return 'Sohubot';
}

if (strpos($useragent, 'lycos') !== false){
return 'Lycos';
}

if (strpos($useragent, 'robozilla') !== false){
return 'Robozilla';
}
return false;
}


function nowtime(){
$date=date("Y-m-d.G:i:s");
return $date;
}

$searchbot = get_naps_bot();

if ($searchbot) {
$tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']);
$url=$_SERVER['HTTP_REFERER'];
$file="robotlog.txt";
$time=nowtime();
$data=fopen($file,"a");
fwrite($data,"Time:$time robot:$searchbot URL:$tlc_thispage\n");
fclose($data);
}

Read More...

[转载]做英文站的具体步骤

我这里是以做CJ联盟为例子,如果做的是外贸产品站,基本也大同小异。

1 在CJ联盟里选一个值得去推广的产品,最好是日常用品,然后选择关键词。比如申请到一个卖衣服广告主,那么你可以选择 girls colthes 作为你的主推关键词,这个关键词选择很重要!不可太热门太宽泛,也不可太小。太热门了你不好做上去,热情容易耗尽,太小了,即使做到第一名流量也不大,没有意义。

2 玉米选择务必要包含你的主关键词,最好只用com,其他的一概不考虑,常见的玉米组合方式 girlscolthesforyou  girlscolthes4you girlscolthestoyou girlscolthes2you yourbestgirlscolthes 等等。
...

Read More...

[转]百度百科给百度优化带来的思考

百度旗下产品百度知道、百度贴吧、百度百科权重都很高,特别是百度百科更有代表性,不仅仅在百度搜索引擎赋予很高的权重,而且谷歌等搜索引擎赋予的权重也不低,关键词在搜索引擎中的排名也不低。从某种意义上来讲,网站权重只是搜索引擎排名中一个重要的参考指标,然而百度、谷歌搜索引擎排名算法规则是一个综合性考量,如何才能更加清晰的了解百度、谷歌搜索引擎的SEO?万能导航网的站长曾经说过:“我们不应该只看别人说什么,更重要的是看别人做什么?”所以我们可以从百度的百科、知道等百度成功的产品上找到答案。

  在此通过对百度旗下产品的相关页面分析,找出这些成功产品的一些优化成功方法可以借鉴,在这里以百度百科为例总结如下:

  1、整体结构自然和谐,并不追求尽量简化代码。

  百度产品中无论是知道还是百科,产品网页的头部大量使用JS,页面中间部分是TABLE和DIV+CSS混合结构,并不像我们经常宣传的那样,尽量不用JS,结构使用DIV+CSS,尽量不用TABLE结构。由此知道精简并不是网站优化的重点,万能导航网没有采用DIV+CSS结构,无论从收录或者优化排名方面都取得良好的效果,所以站长不要为自己的网站不是完全采用DIV+CSS结构而耿耿于怀。

Read More...

标签<#CACHE_INCLUDE_CATEGORY_1#>不显示文章的解决方法

如果你想用zblog做cms,在首页调用各个栏目的话,这个标签可以实现<#CACHE_INCLUDE_CATEGORY_1#>。

不过有的网友反映在首页调用了这个标签以后,生成首页还是显示这个标签<#CACHE_INCLUDE_CATEGORY_1#>,并没有显示zblog中id为1的栏目的文章。

其实解决方法很简单,只需要安装一个列表插件即可,用zblog的在线插件管理即可安装!

Read More...
分页:[«]1[2][3][4][5][6][»]

日历

<< 2011-9 >>

Sun

Mon

Tue

Wed

Thu

Fri

Sat

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30