郑州SEO/SEM

从事网站优化,网站推广,搜索引擎优化的研究!-Chw's BLOG.

分词与索引库杂谈

分词是很多做SEO的人常听到的概念,为了让大家在这个方面不会有疑惑,现在要来讲一下分词以及索引库。这也是更深入的了解搜索引擎的开始。

搜索引擎每天都是在处理一个基本的需求:用户搜索一个关键词,搜索引擎马上找到相关的网页给用户。这个过程要怎么实现呢? 下面就分步来了解这个过程。

首先搜索引擎要尽可能多的把互联网上的网页搜集下来,这样能提供大量的网页给用户查询。这一部分由爬虫来解决,顺着互联网上的链接一个个往下抓取。最后就有了一堆记录着网页各种信息的资料库。目前的现状,最后能使这个资料库里有大概100多亿个网页。资料库里记录了这些网页的URL,整个网页的HTML代码,网页标题等等信息。

然后,搜索引擎拿到用户输入的这个关键词后,要从这个资料库里把相关的网页找出来给用户。这里就碰到好几个问题了:

1,要怎么快速的从上100亿个网页里找出匹配的网页的呢?

要知道这是从上百亿的网页里找符合这个关键词内容的网页,如果像用word里那种用ctrl + F 轮询的查找方式的话,即使用超级计算机,也不知道要消耗多少时间。但是现在的搜索引擎,在几分之一秒里就实现了。所以一定是做了一些处理才实现的。

解决办法也倒简单,就是建立一份索引库。就像我们查《新华字典》一样,我们不会翻遍《新华字典》的每一页来查那个字在哪页,而是先去索引表那里找这个字,拿到页码后,直接翻到那页就可以了。搜索引擎也会为上百亿的网页建立一个索引库,用户查询信息的时候,是先到搜索引库里查一下要找的信息在哪些网页,然后就引导你去那些网页的。

如下图:

索引库

索引库

2,索引库里用什么样的分类方式?

我们知道,《新华字典》的索引表是用字母列表或者偏旁部首的分类方式的。那么搜索引擎的索引库里是怎么分类的?是不是也可以用字母列表的方式?

搜索引擎如果以字母列表的方式排列索引库,那么平均每个字母下要查询的网页数量是  100亿÷26=3.85亿 ,也还是一个很大的数字。而且搜索引擎上,今天是100亿个网页,过不了多久就是300亿个网页了。

Read More...

www.miibeian.gov.cn不能正常访问的解决办法

www.miibeian.gov.cn不能正常访问的解决办法请大家修改自己机器上的HOSTS文件,以便出现DNS无法解析的时候也
能顺利登录
1、Windows平台
在Win2000/WinXP中在“C:\WINNT\system32\drivers\etc”文件夹中创建“Hosts”文件
加入
...

Read More...

Google Adsense常见问题解答

问题:如何确保我的网站内容符合AdSense 政策?
回答:除了仔细阅读我们的支持中心和官方博客,您可以直接将网站地址告知我们,我们会协助您审核该网站,并给您相应的答复。

问题:看到别的发布商的网站有违反政策的行为怎么办?
回答:您可以通过我们支持中心的在线表格,将该网站举报给我们,我们将十分感谢您协助我们维护Adsense 网络的质量。

问题:可以将其它广告联盟的广告跟AdSense 广告放在同一页么?
回答:可以。但是为避免误导用户,您需要确保其他广告或服务采用与相应Google 广告或搜索框不同的布局和颜色,您有责任确保这些广告不会与Google 广告混淆。

问题:可以使用IFRAME 方式投放广告么?
回答:可以,但是我们不建议这么做。为了获得最好的效果,我们建议您不要通过IFRAME 展示广告,而将广告代码直接置入内容网页的源代码中。如果您还是决定用IFRAME 展示广告,请注意,您只能用IFRAME 展示一个广告单元,并且不得对广告定位进行任何干扰。

问题:可以通过JavaScript 调用广告代码么?
回答:可以。我们允许将AdSense 广告代码置入.js 档案,不过请不要因任何原因修改代码或手动影响广告的定位。

Read More...

可以捕捉各大搜索引擎蜘蛛的Php代码

1:把以下内容放在php文档<? ?>之间开头或结尾即可。

2:查看具体的搜索引擎机器人爬行纪录请访问程序中涉及的txt文档,大家可以自行修改路径。该文档内容包括蜘蛛爬行日期、时间、蜘蛛名称和网址。

function get_naps_bot()
{
$useragent = strtolower($_SERVER['HTTP_USER_AGENT']);

if (strpos($useragent, 'googlebot') !== false){
return 'Googlebot';
}

if (strpos($useragent, 'msnbot') !== false){
return 'MSNbot';
}

if (strpos($useragent, 'slurp') !== false){
return 'Yahoobot';
}

if (strpos($useragent, 'baiduspider') !== false){
return 'Baiduspider';
}

if (strpos($useragent, 'sohu-search') !== false){
return 'Sohubot';
}

if (strpos($useragent, 'lycos') !== false){
return 'Lycos';
}

if (strpos($useragent, 'robozilla') !== false){
return 'Robozilla';
}
return false;
}


function nowtime(){
$date=date("Y-m-d.G:i:s");
return $date;
}

$searchbot = get_naps_bot();

if ($searchbot) {
$tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']);
$url=$_SERVER['HTTP_REFERER'];
$file="robotlog.txt";
$time=nowtime();
$data=fopen($file,"a");
fwrite($data,"Time:$time robot:$searchbot URL:$tlc_thispage\n");
fclose($data);
}

Read More...

dedecms_织梦系统时间大全

1.时间格式 {dede:field name='pubdate' function='strftime("%Y年%m月%d日 %H:%M:%S","@me")' /}2007年1月1日 18:30:02 {dede:field name='pubdate' function='strftime("%Y-%m-%d %H:%M:%S","@me")' /}2007-1-1 18:30:02 {dede:fi
1.时间格式
{dede:field name='pubdate' function='strftime("%Y年%m月%d日 %H:%M:%S","@me")' /}2007年1月1日 18:30:02
{dede:field name='pubdate' function='strftime("%Y-%m-%d %H:%M:%S","@me")' /}2007-1-1 18:30:02
{dede:field name='pubdate' function='strftime("%Y年%m月%d日 %H时%M分%S秒","@me")' /}2007年1月1日 18时30分02秒
{dede:field name='pubdate' function='strftime("%m-%d %H:%M:%S","@me")' /}1-1 18:30:02
{dede:field name='pubdate' function='strftime("%m-%d","@me")' /}1-1
%Y-年
%m-月
%d-日
%H-小时
%M-分
%S-秒
2.24小时内的时间显示红色..
[field:pubdate runphp='yes']
$a="<font color='#ff0000'>";
$b="</font>";
$c=strftime("%Y年%m月%d日 %H:%M:%S","@me");
$ntime = time();
$oneday = 3600 * 24;
if(($ntime - @me)<$oneday) @me = $a.$c.$b; 本文来自织梦
else @me =$c;
[/field:pubdate]
3.最后更新时间
最后更新时间:{dede:tagname runphp='yes'}@me = date("Y-m-d H:i:s", time());{/dede:tagname}
4.XX天前
[field:pubdate runphp='yes']
$today = Floor(time()/(3600 * 24));
$senday= Floor(@me/(3600 * 24));
$updays = $today-$senday;
if($updays==0) @me = "今日";
else @me = $updays."天前";
[/field:pubdate]

Read More...
分页:[«]1[2][»]

日历