搜索引擎优化技巧一w3m

搜索引擎优化(SEO),必要的必须的一个前提就是让网站的内容被搜索引擎良好的识别!搜索引擎官方推荐的工具是lynx文本浏览器,而lynx对gb2312编码的网站显示依赖于系统编码设置,如果系统编码设置为zh_CN.UTF-8,则gb2312的网站无法良好显示。w3m就是一款具备了lynx特性,同时能够良好兼容gb2312编码网站的文本浏览器。

lynx官网: http://lynx.browser.org/

w3m官网: http://www.w3m.org/http://w3m.sourceforge.net/

w3m的使用很简单,在命令行下输入以下内容即可:

w3m http://网站域名

 

 

SEO(搜索引擎优化)的一点心得!

SEO是Search Engine Optimization的缩写,译为搜索引擎优化,也叫网站优化。SEO有时也指search engine optimizer,即搜索引擎优化师。SEO这个行业98年在美国正式形成,2001年底在对旗帜广告等注意力经济的批判中,SEO在美国崛起成为新的热点,代表着搜索力经济时代到来。这股浪潮席卷到日本是在2002年夏天,中国则在2004年年初初步开始了SEO热。

定位关键词
优质关键词的标准是:
(1) – 要有一定的人会搜。
(2) – 要和自己的业务相关。
(3) – 最好还没有被同行重视,这样竞争程度低,成本低。
中文还没有比较精确的帮助选择关键词的工具,但是可以参考以下两个网址:
(1) – http://d.baidu.com/rs.dhtml
(2) – http://db.sohu.com/regurl/pv_price/query_consumer.asp

Yahoo和Google的区别

有人问Yahoo和Google的区别。
1, Google注重语义分析和链接,Yahoo注重title和H1,H2,H3。

2, Google比Yahoo更新的快得多。

由于只要把页面本身优化好,就能在Yahoo中取得很好的排名,而这些页面优化都是自己可以控制的,所以说Yahoo优化比Google优化更容易,所用时间更短,特别是对于热门关键词,两者的区别更明显。从另一个角度来说,能把Google优化好的人,不一定水平有多高,可能只不过是手头有较多的链接资源可以利用;若服务期过了以后,把指向你的链接一撤,你的排名就会掉下来。而若能把Yahoo优化好,说明你的网页优化本身是好的,你的排名基础是扎实的,你的服务商为你做了一些扎扎实实的工作。

我想特别强调一下Google的强大的语义分析能力。我今天在Google中搜”seo入门”, 结果排在第一名的是一个关于”seo基础”的网页。这个网页针对”seo基础”作了很好的优化。我看了这个网页的源文件,没有出现一个”入门”。这个网站是个新站,没有多少外部链接,首页PR为0,为什么这个内页会排在很多含”seo入门”的网页之?而且第一页中有七个页面都是针对”seo基础”的,并用红体字突出显示,足见Google把”入门”和”基础”看成极为接近的词。再在Yahoo中搜”seo入门”,发现排在前三页的没有针对”seo基础”的,全都针对”seo入门”。

影响网站排名的因素

影响网站排名的因素大致可以分为外部因素和内部因素。重视内部因素以百度为代表,而google更重视外部因素。下面我就对外部和内部因素做一下简单的说明。
简单的来说外部因素指的是你的链接资源,链接资源包过导出、导入、反向等。
内部的因素来自多方面,比如:<title>, 图片的alt,h1 – h6,color = red…..

Dance

Dance其实就是指Google或者baidu等搜索引擎重新安排它的搜索结果的排名的过程。在Dance时期(google – 三到五天内、百度大概一个星期),你可以发现搜索结果会有大幅度的波动。
Dance的由来:在更新过程中,搜索引擎(GOOGLE、BAIDU)不可能关闭服务器来进行维护,即使是只有一分钟的掉线也会给它们带来不可想象的损失。所以就有了我们现在看到的这个术语–Dance。

如何检查Google Dance? Google有8台主要的WWW网络服务器在线,它们分别是
1. www-ex.google.com – (就是我们平常所用的www.google.com)
2. www-sj.google.com – (亦可通过www2.google.com进入)
3. www-va.google.com – (亦可通过www3.google.com进入)
4. www-dc.google.com
5. www-ex.google.com6. www-in.google.com
7. www-zu.google.com
8. www-cw.google.com

在Google Dance过程中,你可以检查上页所列的这8个Google网络服务器。某段时间内它们显示的结果会有较大的不同,就好象在跳舞一样。正因如此,它们的更新过程就被称作“Dancing/跳舞”,所以就有了Google Dance这个名字。

想要查看Google Dance是否在进行中,最简单直接的办法就是到www.google.com去做一个查询。在Google搜索结果页面上方的蓝条中,会显示这样的信息:“共有626,000项查询结果,这是第1-10项。搜索用时0.48秒。”然后你再到www2.google.com和www3.google.com上做相同条件的查询,如果相同的查询得出的搜索结果数量不同,那就表明Google正在更新中。

title
把关键字放在title是一个明智的做法。但是千万不要过滥,至于关键字放多少合适呢?目前网络上还没有一个统一的标准,一般是不推荐超过75个字。但是75以内不是不就合理了呢?
个人认为title的关键字最多不要超过30个,因为在前30以后的关键字的作用已经微乎其微了。
最好是控制在10 – 20个为佳。
另外title的组合也是有技巧的。我们假设一个网站需要做优化。就以“深圳奥众汽车租赁”为例,我们可以在首页的title写 “深圳奥众汽车租赁 – 深圳汽车租赁、婚车租赁、租赁汽车报价……”
开头我说过,最好不要超过30个,但是这里面明显的是很多内容了,这样合理吗?
其实这样做也算是合理的,在不超过75个的前提下,都算是合理的,只不过后面的那些就没那么有说服力了而已。
页内关键字
页内关键字是baidu 非常注重的一个方面,以前面的汽车租赁来说,关键字定位 [深圳]汽车租赁
尽量要在页面内出现汽车租赁和 深圳汽车租赁这几个关键字。
出现形式,页内的h1 -h6 是最重要的表现方式,如果觉得不好看,可以用css重定义。
另外就是 <font color=”red”></font>和<b ></b>
当然了这些千万不用用得太多,否则和容易被认为是作弊行为。一般控制在h标签控制在1-2个,red也不好超过20个.而b就无所谓了
图片alt属性
做设计的知道,页面不可能是纯文字表现形式,那样太死板,不好看,所以就引入了图片元素。而图片元素是不能被搜索引擎识别的,那么关键的地方就是图片的alt上面了。
为每个图片加上alt属性是一个良好的习惯。
alt的取名建议,不要太长,比如:深圳汽车租赁,汽车租赁有限公司,婚车租赁
,商务用车…
一个图片而已哪里有那么多的内容呢?很明显的就是欺骗搜索引擎,不要当他们是笨蛋,他会不留情的马上删掉你的站!
META
很多朋友认为META是很重要的,但是为什么我会放到这么后面的位置才提到?
其实现在META在搜索引擎里面起的作品已经很小很小了。无论是常用的keywords、description还是其他的一些标签
同title和alt一样,千万不要关键字过滥,一般也是在15个内。
个人建议,如果你不会设计MATE关键字,就不要放,因为现在的MATE很脆弱了,很容易被认为是作弊,得不尝失!
网站结构
网站结构对于所有的搜索引擎都是很重要的,如果没必要,不要让你的网站结果超过3层,太深的结构不利于被收录。
清晰的结构是一个很好的开端,搜索引擎很喜欢结构清晰的站点,过你的站点必须要有3层或者更多的,那么推荐你在首页或者其他容易被链接的页面做一个站点地图。,把所有站点的结果罗列清楚。
很多朋友很喜欢做一个站点地图放着,实际上却是普通用户无法范围的,针对搜索引擎的。
一来没有导入链接(死连接)是很不名著的做法,虽然一样可以被搜索引擎收录,但是这样的效率却打了折扣!
另外还有一些因数,如网站的页面名称,如果汽车租赁的站点,qiche.htm这样的名称比000.htm这样的名称来得容易让搜索引擎接受,并且加大你关键字的出现率。
更新频率、PR值等等

外部因素,这里介绍的并不是纯粹的外部因素,只是把GOOGLE更侧重的一类划分在这类里面!
链接资源
有一个或者多个流量高的站点同你做链接,那么很容易提高你的排名。
影响链接质量的因素有:
页面内的链接数量。如果一个页面内有超过100个连接,那么你的重要程度就为1%或者为0了,因为一个页面超过100个连接的部分全部视为无效了。
说明部分。说明部分是给关键字做文章的好地方。
<a href = www.37zz.com> Web设计、Web编程、分享交流  </a>
这样的写法。a标签的说明文字,就成了一个质量很高的连接,但是说明文字千万也别太多哦!和titil、MATE这些一个道理的。
PR值。本来这个是归在页内因素的,发现放在外部更合理,影响了文章的条理性,不好意思。
如果有一个PR值高的站点同你做连接,不仅能够提高你的PR,而且同时也能提高排名哦,很多人不这么认为,其实,PR高带来的是google对你网站重要程度的认同感。同时当然对排名有影响了。

补充:
总结影响排名的因素

网站结构合理性

网站页面大小

PR值

链接

关键字的出现频率(包过title、MATE、h1 -h6、b等等)

网站的更新频率

网站的流量

是否有被google认为是权威的站点做连接

影响网站更新的因素

1、google基本上已经将meta所起的作用降到很低很低,无论是常用的keywords、description还是其他的一些标签。

2、网站自身的更新频率

3、PR值

4、网站结构

5、服务器(速度也是很重要的,如果速度慢到搜索机器人抓取都能超时的话,那就……)

 

 

eafin(e峰.Net)(一叶枫舟)

看了.每次搜索的时候看到一堆的 此广告位招租 ,心里就不爽,为什么我们中国的SEO不能象国外的SEO一样通过正常的搜索引擎优化方式来竞争呢…
发个PR值为10的优化站(国外的,应该是非正当方式弄上去的…相同的页面,想PR为多少就多少,值得研究…)
http://www.pr10.darkseoteam.com/
http://www.pr10.darkseoteam.com/pagerank-9.php
http://www.pr10.darkseoteam.com/pagerank-8.php
http://www.pr10.darkseoteam.com/pagerank-7.php
http://www.pr10.darkseoteam.com/pagerank-6.php

 

如何防止网站内容被采集?

采集就是使用程序通过自动化操作复制数据。

首先说明,只要是能让浏览器访问的,就没有不能采集的。但是可以通过一定的手段让采集变得非常麻烦,进而在大量数据的情况下延迟采集完成时间,加大采集难度。

 

 

 

 

建站后为了充实网站的内容,不断地采集内容,以获取更大的流量,为了网站创造最大的利益。从来都不会理会采集来的信息是否完整,是否便于用户阅读。采集功能当真是一无是处?采集功能的出现,为很多站长节省了宝贵的时间,让他们拥有更多的时间去做更多的事情;采集来的信息也可以方便网站访客。

为什么会出现这样的现象?现在采集器泛滥,很多CMS都有相应的采集功能;而防止采集有效的方法确是少得可怜。防采集保护的并不仅仅是网站内容,也保护了站长的热情,站长的劳动成果。

很多防采集方法在施行的时候需要考虑是否影响搜索引擎对网站的抓取,所以先来分析下一般采集器和搜索引擎爬虫采集有何不同。

相同点:

  • 两者都需要直接抓取到网页源码才能有效工作
  • 两者单位时间内会多次大量抓取被访问的网站内容
  • 宏观上来讲两者IP都会变动
  • 两者多没耐心的去破解你对网页的一些加密(验证),比如网页内容通过js文件加密,比如需要输入验证码才能浏览内容,比如需要登录才能访问内容等。

不同点:

搜索引擎爬虫先忽略整个网页源码脚本和样式以及html标签代码,然后对剩下的文字部分进行切词语法句法分析等一系列的复杂处理。而采集器一般是通过 html标签特点来抓取需要的数据,在制作采集规则时需要填写目标内容的开始标志何结束标志,这样就定位了所需要的内容;或者采用对特定网页制作特定的正则表达式,来筛选出需要的内容。无论是利用开始结束标志还是正则表达式,都会涉及到html标签(网页结构分析)。

然后再来提出一些防采集方法

  • 限制IP地址单位时间的访问次数
    1. 分析:没有哪个常人一秒钟内能访问相同网站5次,除非是程序访问,而有这种喜好的,就剩下搜索引擎爬虫和讨厌的采集器了。
    2. 弊端:一刀切,这同样会阻止搜索引擎对网站的收录。
    3. 适用网站:不太依靠搜索引擎的网站。
    4. 采集器会怎么做:减少单位时间的访问次数,减低采集效率。
  • 屏蔽 IP
    1. 分析:通过后台计数器,记录来访者IP和访问频率,人为分析来访记录,屏蔽可疑IP。
    2. 弊端:似乎没什么弊端,就是站长忙了点。
    3. 适用网站:所有网站,且站长能够知道哪些是google或者百度的机器人。
    4. 采集器会怎么做:打游击战呗!利用IP代理采集一次换一次,不过会降低采集器的效率和网速(用代理嘛)。
  • 利用js加密网页内容
    1. Note:这个方法我没接触过,只是从别处看来。
    2. 分析:不用分析了,搜索引擎爬虫和采集器通杀。
    3. 适用网站:极度讨厌搜索引擎和采集器的网站。
    4. 采集器会这么做:你那么牛,都豁出去了,他就不来采你了。
  • 网页里隐藏网站版权或者一些随机垃圾文字,这些文字风格写在css文件中
    1. 分析:虽然不能防止采集,但是会让采集后的内容充满了你网站的版权说明或者一些垃圾文字,因为一般采集器不会同时采集你的css文件,那些文字没了风格,就显示出来了。
    2. 适用网站:所有网站
    3. 采集器会怎么做:对于版权文字,好办,替换掉。对于随机的垃圾文字,没办法,勤快点了。
  • 用户登录才能访问网站内容
    1. 分析:搜索引擎爬虫不会对每个这样类型的网站设计登录程序。听说采集器可以针对某个网站设计模拟用户登录提交表单行为。
    2. 适用网站:极度讨厌搜索引擎,且想阻止大部分采集器的网站。
    3. 采集器会怎么做:制作拟用户登录提交表单行为的模块
  • 利用脚本语言做分页(隐藏分页)
    1. 分析:还是那句,搜索引擎爬虫不会针对各种网站的隐藏分页进行分析,这影响搜索引擎对其收录。但是,采集者在编写采集规则时,要分析目标网页代码,懂点脚本知识的人,就会知道分页的真实链接地址。
    2. 适用网站:对搜索引擎依赖度不高的网站,还有,采集你的人不懂脚本知识。
    3. 采集器会怎么做:应该说采集者会怎么做,他反正都要分析你的网页代码,顺便分析你的分页脚本,花不了多少额外时间。
  • 防盗链措施(只允许通过本站页面连接查看,如:Request.ServerVariables(“HTTP_REFERER”) )
    1. 分析:asp和php可以通过读取请求的HTTP_REFERER属性,来判断该请求是否来自本网站,从而来限制采集器,同样也限制了搜索引擎爬虫,严重影响搜索引擎对网站部分防盗链内容的收录。
    2. 适用网站:不太考虑搜索引擎收录的网站。
    3. 采集器会怎么做:伪装HTTP_REFERER嘛,不难。
  • 全flash、图片或者pdf来呈现网站内容
    1. 分析:对搜索引擎爬虫和采集器支持性不好,这个很多懂点seo的人都知道。
    2. 适用网站:媒体设计类并且不在意搜索引擎收录的网站。
    3. 采集器会怎么做:不采了,走人。
  • 网站随机采用不同模版
    1. 分析:因为采集器是根据网页结构来定位所需要的内容,一旦先后两次模版更换,采集规则就失效,不错。而且这样对搜索引擎爬虫没影响。
    2. 适用网站:动态网站,并且不考虑用户体验。
    3. 采集器会怎么做:一个网站模版不可能多于10个吧,每个模版弄一个规则就行了,不同模版采用不同采集规则。如果多于10个模版了,既然目标网站都那么费劲的更换模版,成全他,撤。
  • 采用动态不规则的html标签
    1. 分析:这个比较变态。考虑到html标签内含空格和不含空格效果是一样的,所以< div >和< div >对于页面显示效果一样,但是作为采集器的标记就是两个不同标记了。如果次页面的html标签内空格数随机,那么采集规则就失效了。但是,这对搜索引擎爬虫没多大影响。
    2. 适合网站:所有动态且不想遵守网页设计规范的网站。
    3. 采集器会怎么做:还是有对策的,现在html cleaner还是很多的,先清理了html标签,然后再写采集规则;应该用采集规则前先清理html标签,还是能够拿到所需数据。

 

  • 在文章的头尾加上随机广告
  • 网站采集者在采集时,通常都是指定头尾特征从哪到哪过滤。我们这里讲的第一种方法:文章头尾加随机广告,当然随机广告是不固定的。

    比如你的文章内容是“简明现代魔法”,则随机广告的加入方法:

    1 <div id="xxx">随机广告1  欢迎访问简明现代魔法  随机广告2</div>

    随机广告1和随机广告2每篇文章只要随机显示一个就可以了。

  • 在文章正文页面插入重复特征头尾代码的注释
  • 文章列表加随机不同的链接标签,比如<a href=””,<a href=”,当然,这个可以用正则去掉,但足于对付通用的CMS采集系统了。

    1 <!--<div id="xxx_文章ID">-->
    2 其它标题或内容...
    3 <!--<div id="xxx_文章ID">-->
    4 <div id="xxx_文章ID">
    5 随机广告1  欢迎访问简明现代魔法  随机广告2
    6 <!--</div>-->
    7 </div>
    8 <!--</div>-->

     

     

  • 加在文章列表的随便链接样式
  • 即:正文头尾或列表头尾添加 <!–重复特征代码–>

    原理是让采集的人无法抓到列表链接规律,无法批量进行采集。

    1 <a href="xxx.html">标题一</a>
    2 <a alt="xxx" href="xxx.html">标题二</a>
    3 <a href='xxx.html'>标题三</a>
    4 <a href=xxx.html>标题四</a>

如果你把三种方法全部加上,我想一定能让想采集的人头疼半天而放弃的。

 

总结:

一旦要同时搜索引擎爬虫和采集器,这是很让人无奈的事情,因为搜索引擎第一步就是采集目标网页内容,这跟采集器原理一样,所以很多防止采集的方法同时也阻碍了搜索引擎对网站的收录,无奈,是吧?以上10条建议虽然不能百分之百防采集,但是几种方法一起适用已经拒绝了一大部分采集器了。

 

IBM 教程:改进大型站点的搜索营销

作为一名 Web 站点开发人员,使您的 Web 站点得到搜索引擎的关注是获得成功的关键因素之一。在这个共分四部分的系列中,您将学习对 Web 站点进行有机优化所需的基础知识。在这个系列的最后一部分中,您将学习专门针对大型 Web 站点或具有许多动态页面的站点的技术。

您的 Web 站点有多大?数千个页面?数百万个页面?如果页面数量超过几千个,那么在搜索引擎优化方面就会遇到在小型站点中没有的特殊问题。我们来谈谈如何对大型站点进行成功的 SEO。

大型 Web 站点对 SEO 提出了一些新挑战。如果您能够将整个 Web 团队集合在一间会议室中,那么您的站点还不算大。您或许拥有一家非常成功的企业,但是您的问题不同于我们这个四部分的 SEO 系列所探讨的问题。

在 第 1 部分 和 第 2 部分 中,Jennette Banks 概述了搜索营销以及关键词规划和优化的基础知识。在 第 3 部分 中,我们集中介绍了如何让页面进入搜索索引。在这三篇文章中,您看到了所有 Web 站点(无论规模如何)必须如何做才能吸引 Google 等互联网搜索引擎的关注。但是,大型 Web 站点确实有所不同。如果您的 Web 站点由数千甚至数百万页面组成,就会遇到这些特殊的 SEO 挑战。

在第 4 部分中,我们要解决大型 Web 站点特有的问题。我们将讨论维护大型 Web 站点的大型 Web 团队为什么会给搜索营销造成问题,还将探讨全球化 Web 站点和具有许多动态 Web 页面的站点的技术挑战。

说服大型组织关注搜索问题

大型站点的 SEO 之所以问题多多,是因为需要许多不同的小组都采取适当的措施,SEO 才能获得成功(参见 参考资料)。无论怎样对 Web 站点和 Web 团队进行组织,它们都会被划分为小组,这些小组就会造成问题。根据站点的不同,您可能会遇到下面这些问题或其中一部分问题:

  • 多个专家团队。开发人员和信息架构师之间没有交流,营销人员和 Web 管理员之间也缺乏协作。
  • 多个产品站点。您销售的每种产品都由单独的团队负责,他们都会从头开始设计站点的 Web 体验。
  • 多种受众。每个营销团队都针对一个或多个目标市场对单独的 Web 站点进行设计。
  • 多个国家和多种语言。玻利维亚站点和巴西站点由不同的团队负责。
  • 多种技术。营销页面使用门户服务器,产品目录使用电子商务服务器 —— 而且这些技术来自不同的厂商。

尽管看似令人畏缩,但可以将整个 Web 站点上的多个 Web 小组组织起来,让他们表现得就像一个搜索营销团队一样。可以让各个小组采取一致的行动,这样就不会分散力量。正如在本系列前面的文章中所介绍的,每个 Web 站点的所有者都必须采取一些重要的措施,以确保搜索营销能够获得成功,但是大型站点需要采用更有组织的方式:

  • 对 Web 团队进行培训。程序员必须恰当地使用 JavaScript 代码。文字编写人员必须在文本中使用目标关键词。如果不进行培训,Web 团队就不知道应该做什么。对于大型 Web 站点,这些低层任务在本质上没有特殊之处,但是在大型组织中需要掌握这种技能的人很多。全面的有组织的培训计划对于大型站点的成功非常重要。
  • 设置标准。为编写 robots.txt 文件的方式建立一个标准。修改现有的内容标准以确保每个页面都有页面标题。简单地说,要确保所有标准都反映 SEO 最佳实践。提供了标准之后,每位专家都要完成搜索营销所需的任务,因为服从这些标准已经成了他们的工作。小型站点和大型站点之间的差异是,大型站点是过程驱动的。将适当的 SEO 实践添加进标准中之后,就可以使用这些过程来实现 SEO。
  • 实施标准。尽可能检查完成的工作是否符合现有的过程(比如页面和代码复查)和其他项目规则。还可能需要实现一些新的检查方法。如果 Web 管理员忽视了关于重定向的标准,那么使用一个爬行器来检查重定向并标出不适当的重定向。如果文字编写人员忽视了在页面标题中包含关键词的要求,那么让您的爬行器检查站点上的每个页面,并报告没有适当页面标题的页面。要尽可能强制要求所有人遵守现有过程或刚建立的新过程。
  • 衡量站点的进展。要不断关注针对重要关键词的搜索排名。度量 Web 站点的每个部分的流量并观察其变化趋势。统计符合重定向和内容标准的页面数量。然后,定期与 Web 站点每个部分的负责人分享这些结果。对每个业务单位的表现进行评分,这会督促各位负责人,他们进而会督促其下属完成所需的任务。

当然,这种组织性的变化会给人造成一定的压力。但是,如果将整个 Web 团队组织在一起并采用正确的实践,那么您的大型站点会由于好名声(使搜索者愿意点击您的页面)、高质量的内容(使其他站点愿意链接您的站点)和更高的营销预算(允许投资于更好的设计和技术)而获益。关于将团队组织在一起的更多信息,请参见 参考资料。

成功的关键是说服。计算增加的站点流量会带来多大的好处,从而说明搜索改进的价值。告诉大家竞争对手在搜索结果中的排名比您的公司高多少,让他们有急迫感。要求团队作为搜索者亲自体验一下,从而让他们理解为什么搜索改进那么重要。请记住,没有人存心破坏您的搜索改进计划 —— 他们只是没有意识到这些工作的意义。越充分地向他们解释这些工作的作用,让他们融入其中,就会越快地看到成果。

说服团队

在这个方面要多加努力。您知道什么方式最适合在公司中推广新思想吗?您的组织可以发布电子邮件新闻通告吗?召开会议?Blog?Podcast?Web 研究会?还是需要更个性化的接触方式?如果需要,可以为每个地区办公室制作 PowerPoint 幻灯片。要确保消息被可靠地发出和接收,从而改变团队的工作方式。

得到了团队成员的理解,他们在工作时已经考虑到了 SEO 原则,在此之后还可能要面对两个大挑战:如何跨全球范围进行搜索营销以及如何处理动态 Web 站点。

接触全球的受众

在一个国家用一种语言进行搜索营销有一定难度,随着 Web 站点涉及的国家和语言的增加,问题会成倍增加。我们先讨论国家问题,然后讨论语言问题。

搜索者常常希望将搜索结果限制于某一国家,尤其是在打算进行网上购物时:他们希望在自己的国家中找到一家使用本国货币进行交易的厂商。这很简单,不是吗?不完全是。为了进行有机搜索,判断每个页面的正确国家不能仅仅依靠搜索引擎的猜测。

那么,Google 和其他搜索引擎如何猜测页面的国家呢?它们使用站点域名(“mydomain.com”)的 IP 地址来判断站点的 Web 服务器所在的国家(参见 参考资料)。如果泰国页面实际上就在泰国,那么没问题。如果为了节约经费,针对东南亚的所有页面都放在中国,搜索引擎就会误认为这些泰国页面是属于中国的。

实际上,搜索引擎比这要聪明一点儿,但只是一点儿。除了查看服务器所在的国家之外,它们还会查看顶级域名(.com、.de 等等)来判断国家。无论页面驻留在哪里,在 URL 中使用国家顶级域名(比如 “de” 表示德国)的页面(比如 “www.deutschefirma.de”)会被认为是属于那个国家的页面。

遗憾的是,大多数全球化 Web 站点对每个页面都使用 “.com” 顶级域名。例如,IBM 的德国主页是 “www.ibm.com/de”,除非这个页面放在德国,否则搜索引擎不会意识到这个页面来自德国。这个问题很重要,因为如果搜索者将结果限制为来自德国的页面,他们就找不到这个来自 IBM 的页面。

幸运的是,有经验的搜索者已经习惯了搜索引擎的这一缺陷,所以他们常常会搜索用德语 编写(而不是来自德国)的页面,从而找到想要的页面。从长远来看,搜索引擎可能会变得更聪明,可以认出 IBM 的德国主页属于德国,到那时,搜索者就不需要这么有经验了。

语言问题

Google 和 Yahoo!™ 都是美国的大型搜索引擎,但是对于世界的其他地方,怎么样呢?Google 实际上在许多国家都占据第一位,但是也要注意在一两个国家市场上占优势的本地搜索引擎(参见 参考资料)。一定要参阅 Search Engine Watch 报告(参见 参考资料),了解各国市场上搜索引擎的份额分布,这样就可以针对适当的搜索引擎进行 SEO 工作,并度量来自适当搜索引擎的流量。

搜索引擎不容易判断出页面的国家,但是它们在探测页面的语言方面要出色得多。搜索引擎一般会通过三方面的迹象来判断页面的语言:它的语言元标记,比如 <meta http-equiv=”content-language” content=”ja”> 表示日语;它的字符编码,比如 <meta http-equiv=”content-type” content= “text/html; charset=shift-jis”>;以及对内容进行分析。因为页面上编写的语言和字符编码常常不正确,所以只有在搜索引擎无法通过分析页面上的单词模式识别出语言的情况下,才会使用这些信息(参见 参考资料)。

在大多数情况下,搜索引擎会正确地探测出页面的语言,而不需要您采取任何措施。但是,对于单词非常少的页面,在页面上正确地编写语言和字符集元标记就很重要了;否则的话,当搜索者寻找用特定语言编写的页面时,搜索引擎就不会包含您的页面。

但是,让搜索引擎正确地探测出页面的语言只是个开始。如果您用英语执行所有 SEO 任务,并简单地将结果翻译成其他语言,就会遇到问题。假设您为产品选择了最流行的英语关键词,然后将它们翻译成德语:这不能保证您选择了最流行的德语单词。翻译出的单词在语言学上是正确的,但对于搜索不一定是最优的。如果在德国 SEO 工作中选择了意思正确但不常用的关键词,效果就会大打折扣(参见 参考资料)。

即使对页面的英语版本进行了精心的处理,使其包含正确的关键词,而且在每个页面上都使用适当数量的关键词,也不要指望标准的翻译过程会保持英语优化的成果。必须按照与英语页面相同的方式对德语页面进行优化,以求获得相似的 SEO 效果。

在进行全球化搜索营销活动时,要记住这些关于语言和国家的提示,这样才能在竞争中领先。

如何处理动态站点?

大型 Web 站点通常用动态页面进行装载 —— 它们使大型站点更容易保持新颖的内容和设计。但是,对于动态页面进行优化更困难。

Google 用同样的方式对待动态页面和静态页面的内容,所以本系列前面的文章中讨论的所有内容优化技术也适用于动态页面。

对于静态页面,文字编写人员只需编辑包含页面内容的 HTML 文件 —— 例如,在页面标题中添加关键词。动态页面就没这么简单了。因为动态页面是由程序动态地生成的,所以页面的内容来自两种不同类型的来源:

  • 数据库。页面上变化的信息(动态部分)常常来自某种关系数据库或其他数据库。例如,产品描述页面可能会从电子商务目录数据库中提取信息。实际上,动态页面可以从许多来源提取信息,甚至是那些不称为数据库的来源,比如内容管理系统。
  • 模板。页面上保持不变的信息(比如每个产品页面上都有的公司名称和 “添加到购物车” 按钮)常常保存在一个模板文件中,这个文件还指定使用哪些 HTML 标记来生成页面。

为了对动态页面上的内容进行优化,首先必须查明内容来自哪里,然后才能修改它。内容由负责更新数据库的小组来管理 —— 可能是内容管理系统的文字编写人员,或者是产品目录的数据输入员。

另一方面,模板常常由 Web 开发人员控制。在某些情况下,模板是一个容易更新的单独的文件 —— 大多数内容管理系统就采用这种方式。在其他时候,HTML 存储在软件本身中,所以程序员必须修改软件才能改变 HTML。

与修改静态页面相比,修改动态页面往往要花费更多精力和时间来说服团队。这是坏消息。好消息是,如果说服了团队修改一个动态页面,他们常常会修改所有动态页面。对于静态页面,修改一个页面时仅影响这一个页面。使用来自数据库的内容通常还会简化质量控制,因为与用 HTML 编辑器检查静态页面相比,数据输入程序可以更容易地检查输入。

结束语

SEO 很有挑战性,而在大型站点上挑战会成倍增加。有许多团队同时参与站点的管理,很难让他们向着同一方向努力。而且,多个国家和动态页面也会增加复杂性。

但是,如果您以前认为 SEO 在大型站点上是不可行的,现在应该知道,这是可行的,也应该知道该怎么去做了。

 

IBM 教程:让 Web 页面进入搜索引擎索引

作为一名 Web 站点开发人员,使您的 Web 站点得到搜索引擎的关注是获得成功的关键因素之一。在这个共分四部分的系列中,您将学习对 Web 站点进行有机优化所需的基础知识。在这个系列的第 3 部分中,您将学习如何让 Web 站点的页面进入搜索索引。

Web 搜索是热点,而且越来越热门。四分之三的 Web 用户经常进行搜索,64% 的 Web 用户以搜索作为寻找信息的主要方法(参见 参考资料 中相关研究的链接)。这些用户会找到您的站点吗?您的 Web 站点会错过机会吗?

在本系列的前两部分中,Jennette Banks 概述了搜索营销(第 1 部分)以及关键词规划和优化的基础知识(第 2 部分)。

在第 3 部分中,我们重点介绍让 Web 站点的页面进入搜索索引所需的知识。搜索索引是 Google 和 Yahoo!® 这样的搜索引擎在用户进行搜索时使用的数据库。如果 Web 页面没有被编入搜索引擎的索引,那么引擎就不会找到它,所以将页面添加到索引中是取得 SEO 成功的关键一步。

我的站点上有多少页面进入了索引?

如果想知道您的站点上有多少页面进入了索引,那么先做个简单的测试。进入 Google 或者您喜欢的其他搜索引擎,搜索您公司的名称。如果公司名称是一个常见名称(比如 AAA Plumbing 或 Acme Industries),那么再加上地区(AAA Plumbing Peoria)或公司最出名的产品(Acme Industries sheet metal),看看您的站点是否被找到了。

如果发现一个 Web 站点根本 没有被编入搜索索引中,那么通常有两个原因:

  • 站点是新的。如果 Web 站点是刚刚建立的,而且在搜索索引中没有其他站点链接到它,那么搜索引擎还没有发现它。在这种情况下,只需让其他某些站点链接到您的站点。
  • 站点被禁止了。如果搜索引擎认为您的站点采用了不道德的(即黑帽)SEO 做法,就可能会从它们的索引中删除您的所有页面。如果您发现自己处于这种糟糕的境地,那么找一位搜索营销专家来对站点进行分析并找出违反道德的地方,在纠正问题之后,向搜索引擎请求予以 “宽恕”。

如果幸运的话,在搜索引擎中输入公司名称时,至少会找到您 Web 站点上的一个页面。通常情况是任何特定的搜索引擎只将您的部分页面编入了索引中,但是如果几乎所有页面都被编入了索引,就更好了。没有编入索引的页面越多,您站点的潜在访问者就越有可能转向您的竞争对手(如果他们的页面已编入索引)。

包含率

首先,计算包含率(inclusion ratio),也就是被搜索引擎编入索引的页面占总页面数的百分比。当然,理想的包含率是 100%,但是稍微低一些也可以让人满意。如果页面中只有不到 50% 被包含在搜索索引中,那么就要认真对待了。

为了计算包含率,将搜索引擎索引中的页面数除以您站点上的页面总数。如果您的 Web 站点相当小,那么估算站点的页面总数可能很容易,但是对于大型站点,有时候很难查明有多少个页面。对于大型站点,可以使用几种方法估算页面数:

  • 询问 Web 管理员。Web 管理员以前肯定被问到过这个问题,他很可能已经做过研究。
  • 统计内容管理系统中的文档数量。通常,每个文档会创建一个独特的页面,所以这会给出页面数的估计值。
  • 使用工具:OptiSpider™ 或 Xenu 等程序会检查站点并报告找到了多少个页面(参见 参考资料)。

对 Web 站点的规模进行估算之后,就要查明站点中有多少页面被编入了索引。Google、Yahoo! Search 和 MSN Search 都提供了 “site:” 操作符,它会报告您需要知道的信息。输入 site:,后面加上您的域名(比如 site:kodak.com),查看返回的结果。更方便的工具是 Marketleap 的免费工具 Saturation Reporting Tool(参见 参考资料),它会显示任何站点在每个搜索索引中的页面数。

爬行器路径

如果计算包含率的结果很糟糕,那么该怎么办呢?首先,我们回顾一下搜索引擎如何将页面编入索引。搜索引擎使用专门设计的称为爬行器(spider 或 crawler)的程序来检查站点上的页面。

爬行器收集每个页面的 HTML,并记录到其他页面的链接,这样以后它就可以去收集这些页面的 HTML。您可以想像到,经过足够长的时间之后,爬行器最终会找到 Web 上的每个页面(至少是每个链接到其他页面的页面)。获得页面,找到页面上的所有链接,然后获得链接到的那些页面,这个过程称为 “在 Web 上爬行”。

因为爬行器是这样工作的,创建对每个页面的链接可以简化让站点被编入索引的任务 —— 我们将这些技术称为爬行器路径(spider path)。您的站点已经包含路径,而且可能已经有了最重要的爬行器路径类型:站点地图。如果站点只包含少量页面,那么站点地图可以列出并链接到站点上的每个页面。

但是,站点地图不应该超过 100 个链接,所以比较大的站点地图必须链接到分类页面,这些页面再链接到站点上的其他页面。最大型的 Web 站点通常划分成针对各个国家的分站,这就需要特殊的站点地图,称为国家地图(country map),其中列出每个国家的名称并链接到各个国家站点的主页。爬行器非常喜欢这种技术。(参见 参考资料 中大型站点地图的示例。)

只有爬行器到了您的站点上,站点地图才会发挥作用,但是还有更加主动的使页面被编入索引的方法。Google 和 Yahoo! 都提供包含程序(inclusion program),专门用来使页面被编入索引。Google 的 beta 程序称为 Sitemaps(参见 参考资料),它是免费的,提供几种向 Google 爬行器通知页面位置的方法。甚至可以请求 Google 对您的一部分页面进行更频繁的索引更新。Yahoo! 提供一个付费的包含程序 SiteMatch(参见 参考资料),它承诺在 48 小时内对您的页面重新编制索引。(Google 对时间没有做出承诺。)

RSS feed 提供了另一种方法,可以在页面发布时使页面迅速地被编入索引。使用 Ping-O-Matic!(参见 参考资料)通知搜索引擎在 RSS feed 有了新条目,新条目常常会在一两天内被编入索引。

清理爬行器路径

徒步旅行的队伍要让开路者去探索和标出前进路线,但是开路者必须经常清理这些路径,使路径不会损毁或荒废。爬行器路径也是一样的;除非经常检查它们,否则很可能就会阻塞了。

如果您忽视了爬行器的工作方式,爬行器路径就很容易成为爬行器陷阱。对人来说很好的页面却可能阻碍爬行器。爬行器是自动的,所以不会像人类访问者那样填写注册表单。如果链接到站点上的页面所需的操作不仅仅是沿着 HTML 锚标记走,那么这个链接可能会对爬行器隐藏。

这意味着 JavaScript、Flash、frames 和 cookie 也会造成问题。如果您的 Web 页面没有这些技术就根本无法显示,那么页面就不会被爬行器编入索引。另外,如果用户需要这些技术才能使用链接,那么爬行器就无法沿着链接前进。

爬行器只查看 HTML 代码,就像有视力障碍的用户所用的屏幕阅读器一样。要想体会一下爬行器看到了什么,可以在查看页面时禁用浏览器对 cookie、JavaScript 和图形的支持,或者使用文本模式的 Lynx 浏览器或 Lynx Viewer(参见 参考资料)。如果页面可以使用 Lynx 完整地显示,那么它们很可能能够被编入索引。根本不显示或者显示得很不完整的页面不容易被搜索引擎找到。

即使您避免使用这些惹麻烦的技术,仍然可能会给爬行器造成阻碍。爬行器对 HTML 代码的正确性要求非常严格 —— 浏览器就要宽容多了。在浏览器中看起来很好的页面却可能阻碍爬行器,这会使爬行器看不到或误解整个页面或部分页面。HTML 检验服务(参见 参考资料)和 Firefox 浏览器可以发现这些错误。

还必须注意爬行器对每个页面的内容大小限制。大多数爬行器只对页面中的前 100,000 个字符编制索引。这个数字听起来似乎很大,但是如果在页面中添加 JavaScript 程序和样式表,或者把整个用户手册放进一个 PDF 文件中,那么很快就会达到这个限制。所以,可以考虑将手册分割为每章一个 PDF,并将所有 JavaScript 和样式表代码转移到外部文件中。

欢迎爬行器

清理了爬行器路径之后,必须确保爬行器是受欢迎的。最明显的建议是,当爬行器到达时,确保站点正在运行,能够做出响应。因为不知道爬行器什么时候会访问您的站点,频繁地停机(即 “维护时间窗”)会有风险,如果爬行器在站点停机时到来,它就会认为站点是失效的,从而转到其他站点去。

如果站点的响应速度非常慢,这几乎和完全失效一样糟糕,因为爬行器是按进度计划运行的。对于缓慢的站点,它们编入索引的页面更少,而且再次访问的频率更低,因为在同样的时间内它们能够在其他地方处理更多的页面。

即使您的站点通常不停机而且速度很快,仍然有可能由于错误地编写了机器人指令(robots instruction) 而将爬行器拒之门外。可以使用 robots.txt 文件让爬行器避开某些页面、目录或整个站点,所以如果站点的指令编写错了,就可能赶走爬行器。另外,每个页面都可以有一个 robots 标记,它指示爬行器是否将这个页面编入索引,以及是否沿着其中的链接前进(参见 参考资料。)

留住爬行器

即使您的站点欢迎爬行器,也不能保证它以后不会遗弃这个站点。

会阻碍爬行器的一个问题是对页面使用长的动态 URL。许多动态 URL 需要用参数来选择要显示的内容,比如来自 Canada 产品目录的产品 2372 的法文说明。爬行器很反感这些动态站点,因为参数的组合几乎是无穷的 —— 爬行器不希望在站点中迷路。当爬行器看到 URL 超过 1,000 个字符或者其中的参数超过两个时,它们往往会跳过这些页面。

如果您的站点存在这些有问题的 URL,就必须参考 Web 服务器的文档,研究如何改变 URL 的形式以使爬行器满意。例如,Apache 使用 “mod_rewrite” 功能(参见 参考资料)修改 URL,其他 Web 服务器也有相似的功能。

所谓的 “会话标识符” 也会吓走爬行器。一些程序员在 URL 中创建一个参数,用来捕捉关于当前访问者的信息(常常用 “id=” 加上惟一的字母数字编码来标识)。爬行器很讨厌这种技术,因为它导致成百上千的不同 URL 显示同样的内容。程序员应该将这一信息存储在 Web 应用服务器的会话层或者 cookie 中。(但是,正如前面讨论的,显示页面应该不需要 cookie,否则爬行器无法将它编入索引。)

分析了动态页面之后,还要注意另一个可能给页面造成麻烦的问题。重定向 这种技术告诉浏览器和爬行器请求的 URL 已经改变了。例如,如果您的公司改名了,它可能也会改变 Web 站点的域名,所以重定向可以将来自旧 URL 的所有访问者转到新的 URL。但是,对于爬行器有效的重定向方法只有一种:服务器端重定向,也称为 301 重定向(参见 参考资料)。其他重定向技术对浏览器是有效的,比如元刷新重定向和 JavaScript 重定向,但是爬行器无法沿着这些重定向的路径前进,这会使重定向的页面不被编入搜索索引。

结束语

显然,页面必须先被编入索引,然后搜索引擎才能找到它们,但是大多数页面没有被编入索引。在 1999 年,所有 Web 页面中大约有 16% 被搜索引擎编入了索引,但是几年之后,这个比例大大下降了:在 2001 年,估计只有 0.03% 的页面被编入了索引。

既然这个比例如此低,您的站点中很可能有许多页面没有被编入索引,因此这些页面不可能被搜索到。您现在知道应该如何解决这个问题了。

但是,仅仅进入搜索索引还不够。在这个 SEO 系列的第 4 部分中,我们将讨论大型 Web 站点特有的一些搜索营销问题,比如如何对动态页面进行优化、如何跨多国站点工作以及如何让大型团队进行协同工作。

 

IBM 教程:SEO 关键词和基础设施策略

作为一名 Web 站点开发人员,使您的 Web 站点得到搜索引擎的关注是获得成功的关键因素之一。在这个共分四部分的系列中,您将学习对 Web 站点进行有机优化所需的基础知识。在第 1 部分中,您了解了为什么白帽 SEO 技术对站点有益的背景知识。在第 2 部分中,您将开始进行优化。我们将创建对关键词进行 “自左上角向下” 优化的策略,并进一步了解影响站点在搜索引擎中排名的其他因素。

在 Google 中获得好排名的关键是对页面上的可见关键词进行优化。正如我在本系列 第 1 部分 中提到的,一些 Web 站点管理员在早期的 SEO 活动中认为,在所有可用区域中塞满关键词就能够提高搜索引擎排名。这些早期的黑帽 SEO 技术未能取得完全的成功,因为关键词常常与页面上的实际内容不符,这误导了搜索引擎和用户。但是,这些早期的黑帽 SEO 技术在大方向上差不多是正确的,因为关键词优化对于提高站点在搜索引擎结果中的排名很重要。

在这一期中,将学习对关键词进行自左上角向下的白帽 SEO 技术,帮助您为站点选择和优化适当的关键词。另外,还将了解其他白帽 SEO 策略,并学习如何解决基础设施问题来提高站点对搜索引擎的吸引力。

从左上角向下的关键词优化策略

只需两步,即可在关键词策略战役中取得成功:

  1. 关键词选择:判断页面提供了什么内容。然后判断潜在受众可能使用哪些词来搜索您的页面,并根据这些词创建关键词。
  2. 关键词优化:将这些关键词应用于适当的页面(推荐的数量是每个页面 3 至 5 个关键词),并自左上角开始,向下进行优化。这常常要处理页面的前 200 个单词 —— 页面标题标记、标题、摘要等等。

基本上,关键词越接近左上角,Google 给予它们的权重就越大。我将这称为 “自左上角向下(top-left-down)” 关键词优化策略。用户最初查看 Web 站点的方式与爬行器的方式相同,所以按照自左上角向下强调关键词也是一种良好的 Web 设计实践(参见 视线跟踪和搜索行为)。

要想利用关键词策略取得成功,最好是将关键词放在接近页面顶部的地方。许多因素会影响整个搜索引擎排名,包括(但不限于)出站和入站链接、对重定向的使用和其他基础设施问题。但是,SEO 的第一步是选择关键词。

视线跟踪和搜索行为
Enquiro Eye Tracking 研究项目研究了人们查看搜索结果的方式,进一步证明了用户会以自左上角向下的方式查看搜索
结果和 Web 页面,这也称为 “黄金三角(golden triangle)”。关于 Google 和 “黄金三角” 的更多信息,参见 
参考资料。

任务 1:关键词选择策略

关键词优化中最重要的任务是,判断页面对于人们实际要搜索的关键词是否是优化的,也就是在针对这些关键词的搜索结果中页面是否会获得高排名。如果没有人搜索您的目标关键词,那么站点在搜索引擎的排名再高也没有意义。这实际上是任何关键词策略的重要部分,但是这个步骤却常常被忽视。

如果已经构建好了页面,那么该怎么办?您可能已经忽视了这个首要步骤,现在面对现有的 Web 页面,您可能会想,“现在选择关键词是不是太晚了”。一点儿也不晚。在页面投入使用前后都可以决定关键词,但建议您预先做好这一工作,这样就不必重写页面上的文本。

如果 Web 页面已经投入使用了,那么已经有了关键词。但是,这些关键词可能并不合适。或者,关键词是合适的,但是没有经过充分优化。在这种情况下,仍然可以进行全面彻底的关键词选择,以确保对正确的关键词进行优化。

另外,可以通过关键词分析工具测试现有页面,以便更好地了解搜索引擎会如何看待这些页面。(页面分析工具的列表见 参考资料。)

如果已经构建好了页面,并认为已经选择了适当的关键词,那么可以跳到 排名检查 以了解页面是否已经充分优化了。

许多专门的 SEO 工具可以帮助您判断可能关键词的流行度和竞争度(更多信息见 SEO 关键词工具)。在创建关键词清单时,要记住的主要概念如下:

  • 流行度(Popularity):人们会使用您的关键词进行搜索吗?
  • 竞争度(Competitiveness):有多少其他页面也针对这些关键词?应该增加更特定的关键词吗?

我们以 developerWorks Web 站点为例来说明关键词选择问题。这个 Web 站点的主页(www.ibm.com/developerworks/)是在 Google 上搜索 “developerWorks” 时排名第一位的结果。这对我们来说是个好消息,但还不足以证明我们的 SEO 努力是成功的。如果用户搜索的是 “developerWorks” 这个单词,就说明他已经知道要去哪里。developerWorks 主页的目标受众是正在寻找 IBM 支持的众多技术和品牌的相关参考资料的开发人员。我们针对的关键词是 “IBM resource developers”,因为我们认为这个有广泛内容的页面与进行较广泛搜索的潜在受众相匹配。

正确的 SEO
在 SERP 中获得第一位并不是 SEO 的目标。SEO 的目标是用合理的内容吸引潜在用户访问站点,这些内容必须与用户
用来搜索的关键词相符。搜索引擎仅仅是用来接触受众的工具;高排名并不是最终目标,而是第一步。

为了接触到正在通过搜索引擎查找信息的受众(见第 1 部分中关于 Jakob Nielson 的介绍),需要判断哪些人并不是在专门找您的页面,但是您的页面对他们是有用的。应该针对这些 “游荡者” 对页面进行优化。

关键词选择的另一个关注点是,判断关键词是否太流行,即竞争度是否太高。如果太多的页面都在争夺搜索这些关键词时的高排名,那么您可能需要选择更特定的关键词。对于有多种含义的关键词,也需要考虑改变关键词。您必须研究用户可能怎样搜索您的页面。页面的内容会回答哪些特定的问题?根据这些问题精炼您的关键词。

如果对于您认为最适合描述自己页面的关键词,SERP 中会出现数以千计的页面,那么需要考虑搜索者会如何处理这种情况。搜索者不会一页接一页地点击 SERP 中的链接;而是很可能输入第二个搜索词,或者干脆换个搜索词。您需要判断页面的哪些特征是与众不同的,而且是可搜索的。如果顶级页面提供了多种类型的内容,那么总是可以从比较一般化的关键词开始,然后在目录中更深、更特定的第二级页面上使用更特定的关键词。

例如,在 Google 中对 “java” 进行搜索,会得到从咖啡到地理位置的各种结果(java 的另一个意思是印度尼西亚的爪哇岛)。但是,搜索 “java technology tutorials” 会返回 developerWorks Java 技术库(www.ibm.com/developerworks/views/java/library.jsp),这里有大量 Java™ 教程的链接。所以,更特定的关键词可以帮助您接触到正在寻找特定页面类型的用户。

关于关键词精炼的更多原则

在精炼关键词时,要记住大部分搜索只搜索三个或两个单词。在搜索答案时,人们常常用问题组织出搜索词。搜索者不会搜索那些描述解决方案的单词。在对页面进行优化时,一定要像搜索者那样思考问题。

还要记住,在对页面进行优化时不要千篇一律。如果您发现自己的每个页面具有相同的关键词,那么可能需要修改 Web 页面,使它们更有针对性。每个页面都需要适应用户收集信息的方式:常常是从一般化信息到更特定的信息。在导航结构中更特定的页面应该具有更特定的关键词。

如果在决定页面关键词时拿不定主意,那么和编写页面内容的人谈谈,从而进一步了解这些页面,帮助您决定合适的关键词。想一下自己的 Web 站点回答了什么问题。如果您不知道非营销领域如何讨论您的 Web 页面所解决的问题,那么可以访问讨论相同主题的论坛或 blog。

任务 2:对关键词进行优化

选择了关键词之后,就该将它们应用在 Web 页面上了。对于搜索引擎来说,页面文本是页面中最重要的部分。搜索引擎会给予页面标题、文本标题或强调的文本较高的权重。这就是前 200 个单词如此重要的原因。这也是 “自左上角向下” 关键词优化策略的基础。除了页面上的前 200 个单词和强调的文本之外,还要确保主体文本包含关键词。

下面是应该进行优化的东西及其原因:

  1. title 标记(<title>):所有 SEO 专家都认为 title 标记是页面上最重要的标记。它是爬行器最早遇到的单词,也是页面在 SERP 中列出时显示的标题。使用这个标记说明页面的特色;也就是,要确保将关键词列在这里。
  2. 页面文本标题和小标题:页面文本标题和小标题是页面上第二重要的内容。页面文本标题和小标题应该以适当的方式描述页面,这对于用户和搜索引擎都很重要。一些站点将图形用于这些重要的标记 —— 但是爬行器无法读取图形,所以如果使用图形替代文本,这些关键标记就浪费了。
  3. 摘要:除了页面标题和文本标题之外,页面还应该有一些描述页面主题的文本。这些文本会被放进 SERP 上对页面的说明中,所以要在其中包含关键词,以便于爬行器和用户了解页面的主题。尽量利用这个区域,使用页面中的前 200 个单词尽可能准确地说明页面的主题。
  4. 主要标题以及粗体和斜体的单词:主要标题标记中的单词以及粗体和斜体的单词也会影响排名。这些标记告诉用户突出显示的单词对页面很重要,而且爬行器会以相同方式看到它们。要确保强调的单词包含关键词。
  5. 文本主体:不要忘记确保在文本中包含关键词。如果在这方面遇到困难,那么可能说明您选错了关键词。
  6. 超链接:如果链接到自己的页面,那么要在链接的可点击部分中使用单词,并用关键词描述链接。不要使用 URL 作为链接的可点击部分。

页面中的前 200 个单词和大多数强调的单词应该是关键词。其次,要确保主体文本包含关键词。

关键词精炼和优化实践

我将以 developerWorks Windows to Linux Roadmap 概述页面(www.ibm.com/developerworks/linux/library/l-roadmap.html)为例。这个路线图用来帮助那些希望从 Windows 迁移到 Linux 的开发人员,概述页面针对开发人员可能搜索的单词做了广泛的优化。我突出显示了在顶部标记和前 200 个单词中出现的关键词。

图 1. 突出显示了关键词的 Linux 路线图

在下面的代码示例中,我提取出 html 中的所有相关代码,包括页面标题、文本标题和小标题后面的前 200 个单词:

01 <title>Windows-to-Linux roadmap: Overview</title>
02 <h1>Windows-to-Linux roadmap: Overview</h1>
03 <em>A roadmap for developers making the transition to Linux</em>
04
05 <p>Level: Introductory</p>
06 <p>Chris Walden (<a href="mailto:dwinfo@us.ibm.com">dwinfo@us.ibm.com</a>),
07 e-business Architect, IBM<br /></p>
08 <p> 11 Nov  2003</p>
09 <blockquote>IBM e-business architect Chris Walden is your guide through
10 a nine-part developerWorks series on moving your operational skills from
11 a Windows® to a Linux® environment. He covers everything
12 from logging to networking, and from the command-line to help systems -- even
13 compiling packages from available source code.</blockquote>
14
15 <p>You're moving from Windows to Linux. You've decided you want the stability,
16 flexibility, and cost savings of Linux, but you have many questions in your head.
17 Isn't Linux like UNIX?  Isn't UNIX hard? Where do you begin to make sense of all
18 of this? Is there a map you can follow?</p>
19
20 <p>This roadmap is designed to help you take the experience and knowledge
21 that you already have in computing and redirect it to working in Linux. It's not
22 the only reference you'll ever need, but it will help you get past some
23 of your first obstacles and adjust to a new and, I think, exciting approach
24 to computing. As you follow this roadmap, you'll discover many new resources
25 to help you learn, troubleshoot, and manage Linux.</p>

注意:在前面的代码示例中,为了便于查看,我们将代码分成了多行。

随着 Linux 路线图变得越来越详细,关键词越来越特定。这个概述页面将得到更广泛的优化,因为它涵盖整个系列。

排名检查

在精炼了关键词并对页面进行优化之后,就该关心所有 SEO 工作的目标了:进行排名检查。在研究了页面之后,检查页面对于它的关键词是否能够获得好排名。

在进行排名检查时,要记录已经搜索的关键词、列出了哪些页面以及在 SERP 中的排名。如果在搜索引擎结果的前三页(即前面的 30 个结果)中没有找到自己站点的页面,那么就可以认为是失败,此时应该集中关注采取哪些措施来改进对这些关键词的排名。

如果页面的排名没有您想象得那么好,那么可能需要精炼关键词,或者研究能够影响在搜索引擎中的排名的其他因素。

搜索引擎排名优化和统计
如果您不想自己进行搜索引擎提名和统计,可以询问站点上负责统计页面访问量和进行搜索引擎排名优化的人。您应该检查
当前的统计数据,从而决定 SEO 努力的方向并建立一个基准来衡量优化工作是否成功。SEO 专家认为大约 30% 的站点
流量应该来自搜索引擎。根据正在优化的 Web 站点类型的不同,这个数字有所不同。

超越关键词:影响排名的其他因素

我承认,良好的利用 “自左上角向下” 方法的关键词优化策略并不完全代表有机 SEO。然而,关键词优化却是十分有效的白帽 SEO 技术,因为判断和关注页面所表达的内容主题会改进用户体验。另外,在对页面进行优化之后,就不需要为对付搜索引擎中的算法修改而重新修改页面 —— 就像使用黑帽 SEO 技术时那样。

下面是几个其他 SEO 问题。对基础设施的 SEO 改进将在本系列的第 3 部分和第 4 部分中详细讨论。

其他 SEO 改进包括:

  • 应用好的链接策略
  • SERP 中的排名受到来自其他站点的链接的影响,这方面的改进要逐页面地进行。但是,链接不一定能给您的页面带来帮助,除非 Google 认为它是个 “好链接”。为了提高 Google 给予特定页面的排名和它在 SERP 中的排名,需要从其他高排名的页面链接您的页面。可以根据页面在目标关键词的 SERP 中的位置来判断 Google 给予哪些页面高排名。一些 SEO 专家使用 Google Toolbar 中的 PageRank 排名来判断页面的 “Google 价值”(更多信息见 PageRank)。

    PageRank 排名
    只能部分信任在 Google Toolbar 中显示的 Google PageRank,因为不守规矩的黑帽 SEO 专家最初使用它作为买卖
    链接的依据。为了对付这种情况,Google 不再频繁更新 PageRank,现在它只能作为一个不精确的指标。在 PageRank 
    方面可能遇到的主要问题是带灰色条的页面链接 —— 这些页面是没有被 Google 编入索引的。可以在 参考资料 中提到
    的任何 SEO 论坛中了解 SEO 专家对 PageRank 的看法。

    实际上,您只能控制自己的出站链接,所以要确保它们是好链接,但是链接的价值由您决定。不建议用垃圾站点(比如明显的链接场)来链接您的页面。

    在链接到自己的页面时,要确保链接的可点击部分是页面优化所针对的单词。例如,“Find tons more developer resources from developerWorks.”

  • 检查无效链接并修正 HTML
  • 如果 Google 的爬行器漫游到您的站点并沿链接前进,但遇到无效链接,它就会停止前进。要确保 HTML 结构良好,所有链接都按照预期工作。站点的用户也会赏识这种做法。

  • 谨慎地进行用户重定向
  • Google 的爬行器喜欢直接访问内容。Google 会把重定向解释为垃圾技术,也有可能会误解成 Doorway Page 或 Cloaking 等垃圾技术。如果搜索引擎的爬行器在您的站点中漫游时由于不适当的或过多的重定向遇到了麻烦,您在搜索引擎中的排名就会受损 —— 所以要避免重定向,除非绝对必需。

    如果无法避免使用重定向,那么尝试使用 301 服务器重定向。服务器重定向向 Google 爬行器表明这个页面永久转移了,应该将 301 另一端的页面作为新 URL 对待。Google 爬行器会由于元刷新重定向而阻塞,而 302 重定向会导致重复内容处罚。第 3 部分和第 4 部分中将更深入地讨论重定向。

  • 避免 URL 参数
  • 对于使用内容管理系统的大型站点,大量的参数是一个很常见的问题。参数的问题在于,爬行器可能受到 URL 字符的阻碍,比如与字符(&)。

    Google 认为您最多只应该使用一两个参数。基本上,URL 越长、越复杂,它对搜索就越不利。也可以把它看作易用性问题:最好的 URL 就是容易记住的 URL。

  • 建立好的导航
  • 导航对于爬行器和通过搜索(而不是通过老式的站点内导航方式)进入站点的用户仍然非常有用。这也称为 “自底向上搜索”。人们进入站点之后,需要用链接和好的导航将他们引导到站点的深处。如果一个页面对搜索友好,但是它没有到 Web 站点其他部分的链接,那么进入这个页面的用户就不容易在站点中走得更远。

  • 尽可能少使用 Flash 和其他图形
  • 如果在站点的重要方面使用 Flash 或图形替代文本,那么会对搜索引擎或潜在用户产生不好的影响。页面阅读器无法读取 Flash 或图形,搜索引擎也不行。

  • 避免任何会阻碍爬行器在站点中漫游的东西
  • 如果使用 Frame、JavaScript 和页面阅读器无法读取的其他技术,也会产生爬行器无法读取(或者会阻碍爬行器)的内容。

  • 不要做得太过火
  • 既然您已经知道了如何吸引搜索引擎的注意,就可能试图在前 200 个单词中塞满关键词,而忽视其他方面。但是,这不是白帽 SEO 方式。不要仅仅为了获得第一名而对站点进行过度优化。您的目标是将用户从搜索引擎吸引过来。但是,受众进入站点之后,您希望他们留下来。应该创建具有良好的用户体验的页面,用户会感谢您,搜索引擎也会因此奖励您。

结束语

SEO 站点提供了在 Google(和其他搜索引擎)中获得高排名的一些策略和猜想。可以参阅 参考资料 中提到的几个站点。但是,编写出色的内容才是在搜索结果中获得高排名和创建有用且可访问的页面的关键。创建合理的关键词策略是最重要的 SEO 任务,这可以满足爬行器和潜在受众的需要。掌握了本系列的 第 1 部分 和第 2 部分中提供的内容后,您应该能够开始进行优化了。

在本系列的最后两部分中,您将学习如何了解搜索引擎是否能够找到您的站点,以及如何了解站点是否受到了搜索引擎的处罚。还会获得对企业 SEO 的建议。

 

IBM 教程:提高站点在搜索引擎中的排名

作为一名 Web 站点开发人员,使您的 Web 站点得到搜索引擎的关注是获得成功的关键因素之一。在这个共分四部分的系列中,您将学习对 Web 站点进行有机优化所需的基础知识。第 1 部分将为您奠定搜索引擎优化的基础,以便对 Web 站点进行有机优化,并创建对搜索引擎有用、可访问和友好的 Web 页面。

您已经创建了一个很棒的站点,接下来该做什么呢?无论这个 Web 站点的目的是销售产品还是提供信息,如果没有人浏览它,您的努力就白费了。让站点受到关注的方法是让它对搜索引擎和实际受众友好。

向搜索引擎 “推销” Web 站点本身已经成了一种业务,许多顾问、工具和搜索引擎优化(SEO)站点都可以帮助您的站点吸引搜索引擎的注意。或许现在的信息和资源已经太多了。但是,如果您建立了一个可访问且有用的站点,就踏上了通往成功的正确道路。如果您负责一个 Web 站点 —— 无论您是寄希望于专业的搜索引擎公司,还是自己去打理它,都需要了解针对搜索引擎而优化站点的基础知识。

这个分四部分的系列将提供开始您的 SEO 战役所需的工具,无论您计划的 SEO 规模有多大,都会对您有所帮助。在第 1 部分和第 2 部分中,您将学习搜索引擎的工作原理,以及如何创建对搜索引擎和用户都有用且可访问的内容。在这个系列的第 3 部分中,Mike Moran 和 Bill Hunt(Search Engine Marketing, Inc. 的作者)将帮助您使页面进入搜索索引。在第 4 部分中,他们将处理大型 Web 站点特有的搜索营销问题(关于 Search Engine Marketing, Inc. 的更多信息,参见 参考资料)。

SEO 术语

在开始学习本系列之前,您需要了解以下术语:

  • 目录(Directory)
  • 目录是由人为编辑的搜索结果。大多数目录依靠的是人为提交而不是爬行器(spider)。

  • 关键字、关键词和关键短语(Keyword、keyterm 和 keyphrase)
  • 关键字、关键词和关键短语是 Web 站点在搜索引擎结果页面(也称为 SERP)上排序所依据的词。根据站点受众的不同,您可以选择一个单词、多个单词的组合或整个短语。为简化起见,本文将使用关键词这个术语表示所有这三种类型。

  • 链接场(Link farm)
  • 在 SEO 术语中,链接场是指一个充满链接的页面,这些链接其实没有实际作用,它们只作为链接存在,而没有任何实际的上下文。那些采用运用黑帽 SEO 方法的人利用链接场,在一个页面中增加大量链接,希望能通过这种方式使 Google™ 误认为这个页面很有链接的价值。

  • 有机列表(Organic listing)
  • 有机列表是 SERP 中的免费列表。有机列表的 SEO 通常涉及改进 Web 站点的实际内容,这往往是在页面或基础架构级别进行的。

  • PageRank
  • PageRank 是迷恋 Google 的人们用来测试其站点在 Google 中的排名的一种度量标准。SEO 和搜索引擎营销(SEM)专家也使用这个术语描述网页在 SERP 中的排名以及 Google 根据排名算法给予站点的分数。无论如何定义,PageRank 都是 SEO 的重要部分。

  • 付费列表(Paid listing)
  • 顾名思义,付费列表就是只有在付费后才能列入搜索引擎的服务。根据搜索引擎的不同,付费列表可能意味着:为包含于索引之中、每次点击(PPC)、赞助商链接(sponsored link)或者在搜索目标关键词和短语时让站点出现在 SERP 中的其他方式而付费。

  • 排名(Ranking)
  • 排名是页面在目标关键词的 SERP 中列出的位置。SEO 的目标是提高 Web 页面针对目标关键词的排名。

  • 排名算法(Ranking algorithm)
  • 排名算法是搜索引擎用来对其索引中的列表进行评估和排名的规则。排名算法决定哪些结果是与特定查询相关的。

  • 搜索引擎营销(Search engine marketing,SEM)
  • SEM 这个术语可以与 SEO 互换使用,但 SEM 常常是指通过付费和广告向搜索引擎推销 Web 站点,同时应用 SEO 技术。

  • 搜索引擎优化(Search engine optimization,SEO)
  • SEO 就是根据对搜索引擎的吸引力和可见性来优化内容,从而使 Web 页面能够被搜索引擎选中。SEO 主要用来提高有机列表的排名。我使用 SEO 这个术语描述我推荐的技术,但是其中许多技术也可以归入 SEM 的范畴。

  • 搜索引擎结果页面(Search engine results page,SERP)
  • SERP 是为特定搜索显示的列表或结果。SERP 有时候定义为搜索引擎结果的安排(placement)。根据本系列的目的,我将其称为页面而不是安排。在 SEO 领域中,在 SERP 中取得良好的表现就是一切。

  • 垃圾技术(Spamming)
    • 黑帽 SEO(Black hat SEO):用垃圾技术欺骗搜索引擎。黑帽 SEO 以伪装、欺诈和窃取的方式骗取在 SERP 中的高排名。
    • 白帽 SEO(White hat SEO):以正当方式优化站点,使它更好地为用户服务并吸引爬行器的注意。在白帽 SEO 中,能够带来好的用户体验的任何东西也都被视为对 SEO 有益。
  • 垃圾技术是一种欺诈性的 SEO 手段,它尝试欺骗爬行器(spider),并利用排名算法中的漏洞来影响针对目标关键词的排名。垃圾技术可以表现为多种形式,但是 “垃圾技术” 最简单的定义是 Web 站点用来伪装自己并影响排名的任何技术。根据是否采用垃圾技术,SEO 方法可分为两大类:

  • 爬行器(Spider)
  • 爬行器在 Web 上漫游,寻找要添加进搜索引擎索引中的列表。爬行器有时也称为 Web 爬行榜(Webcrawler)或机器人。针对有机列表优化页面也就是为了吸引爬行器的注意。

SEO 的重要性

了解了这些定义之后,您可能依然很迷惑:SEO 的目的是什么?SEO 似乎有点儿搞阴谋的味道,不是吗?

  • SEO 创建可访问和有用的 Web 站点
  • 良好的 SEO 实践会使站点更实用,可访问性更强,而且对搜索引擎更友好。但是,不守规矩的 SEO 营销企业会运用黑帽 SEO 技术(垃圾技术),这给 SEO 带来了坏名声。但是,任何种类的营销都是这种情况:推销产品的方法有好也有坏,而且有时候坏方法更有效 —— 但只是在短期内。通过黑帽 SEO 技术欺骗搜索引擎是一条危险的道路,会带来糟糕的用户体验。因此本系列只关注白帽 SEO 技术。利用白帽 SEO 技术,您和您的用户都会获益。这是双赢的做法。

  • SEO 对于商业站点至关重要
  • 如果您的业务是在线式的,那么企业的生存就依赖于 Web 站点受关注的程度。如果人们根本无法找到某个商业站点,又怎么能够从那里买东西呢?而且,问题不仅仅是让潜在顾客找到您的主页并通过站点中的下拉菜单、链接或其他任何东西进行导航。过去,如果您有了一个出色的主索引页,人们就会蜂拥而至,耐心地浏览,直至找到自己所需的信息,但现在已经不再是这种情况了。

  • SEO 是 Web 使用方式演进的一部分
  • 人们使用搜索引擎准确地找到您的站点中他们所需的那个页面。如果您的独立页面没有出现在 SERP 的顶部,潜在受众就可能找不到您的站点。用户更可能通过搜索查询进入您的站点,而不是通过页面层次结构进行导航。对于站点管理员而言,这意味着每个单独的页面都必须足够健壮,可以被单独搜索到。必须使站点适应搜索引擎爬行器,然后让页面对用户有足够的吸引力,让用户愿意停留在这里。白帽 SEO 正是这样一种方法。

Web 的使用方式向以搜索为中心演进
Jakob Nielsen 详尽地阐述了搜索引擎技术中的哪些改进对 Web 的使用方式产生了影响。人们利用搜索寻找答案,因此
站点在搜索引擎中的可见性(以及用户找到它的容易程度)就成了成功的关键(Nielsen 的相关文章列表见 参考资料)。

SEO 实践

为了解释 “让页面足够健壮,可以被单独搜索到” 的含义,我将以 developerWorks Web 站点为例。因为 www.ibm.com/developerworks 的主页是所有 developerWorks 内容的入口,我们针对 “IBM resource [for] developers” 优化主页,使其具有一般化的特点,而且使用这个短语搜索时,在 Google SERP 中这个主页是排在第一位的结果。使用有机优化技术带来了回报。Google 知道这个页面与哪些内容相关,用户点击这个链接后不会失望,他们会进入一个拥有 IBM 提供的开发者资源的丰富页面。

但是,除了主页之外,在 developerWorks Web 站点中还有其他许多东西。一些潜在受众可能会使用我们的导航系统或内部搜索寻找更有针对性的开发者资源,但也有许多其他用户更倾向于使用外部搜索引擎搜索内容,并直接进入相关页面。

例如,如果某位搜索者要查找 “linux developer tutorials”,而 URL 为 www.ibm.com/developerworks/linux 的 developerWorks Linux 页面没有出现在 SERP 的前 10 个结果中,那么在 developerWorks 主页上所做的所有优化对于这位搜索者来说都是没用的。但是,我们在 developerWorks 站点上实践良好的有机 SEO 已经许多年了,developerWorks Linux 页面目前是 “linux developer tutorials” 的 Google SERP 中的第一个结果。良好的 SEO 意味着优化站点上的每个页面,让搜索引擎准确地了解您认为每个页面上最重要的内容。

由于要考虑优化 Web 站点上的每个页面,以提高在搜索引擎结果中的排名,SEO 看似烦琐。您或许想知道是否存在某种诀窍或者更简便的方法。但是,对于提高在搜索引擎结果中的排名来说,不存在诀窍。底线就是创建能让用户赞赏的优秀内容,这样搜索引擎会给予您很好的排名。在这个系列中,您将学习如何实现这个目标。

SEO 和用户

正确地实现了良好的 SEO 也就会创建出对搜索引擎友好、对用户有吸引力的站点。有机 SEO 的收益之一是可访问性非常高的页面。搜索引擎爬行器查看页面的方式与有视力障碍的人所用的页面阅读器相同。可以使用 lynx 浏览器体会一下页面阅读器所看到的站点是什么样的(参见 参考资料 中提供的 lynx 浏览器的链接)。页面阅读器还会展示您的站点在小屏幕上的显示效果,比如手机或其他小型 Web 浏览工具(关于可访问性的更多信息,参见 参考资料)。如果能够使页面具有较好的可访问性,让页面阅读器能够轻松地理解它们,那么页面就是对搜索引擎友好的。

在 SEO 的历史中,大多数臭名昭著的搜索引擎垃圾技术都会创建出对用户不友好或可访问性差的 Web 页面。两种对用户友好性破坏最大的黑帽 SEO 技术是:

  • 元标记垃圾技术
  • 在早期,搜索引擎会读取元关键词、描述和其他标记。搜索引擎根据这些标记的内容判断页面的主题,并确定页面在 SERP 中的排名情况。遗憾的是,某些人利用了这一点,在他们的元标记中重复地加上许多相同的单词,让搜索引擎误认为页面包含某些实际上并不存在的内容。这种做法误导了用户和搜索引擎。

    例如,如果我们希望将 Linux 用户引导到 developerWorks 主页上,但是这里并没有多少 Linux 内容,那么可能会这样做:“<meta name=”keywords” content=”linux, ibm, linux, developer, tutorials, ibm, developer, linux, tutorial, tutorial, tutorials, resources, linux, tutorials, developer” />。当用户点击 SERP 中列出的这个站点时,将显示 developerWorks 主页,他们会很失望,因为这里只有零星的几个 Linux 教程,而不是像 developerWorks Linux 部分那样专门提供 Linux 教程。正因为有许多人采用元标记垃圾技术实现黑帽 SEO,搜索引擎不再使用元标记中的信息来对页面进行排名了。

  • alt 标记欺骗
  • 对 alt 属性的滥用也属于黑帽 SEO ,因为它向用户和搜索引擎提供关于图片的错误信息。例如,developerWorks Linux 页面上某幅图片的 alt 标记可能填充了下面这样的关键字:<img alt=”linux, ibm, linux, developer, tutorials, ibm, developer, linux, tutorial, tutorial, tutorials, resources, linux, tutorials, developer” />。尽管 Linux 页面确实与 Linux 教程有关,但应保证这幅图片本身确实向页面阅读器传递了关于其内容的准确信息。否则就是对 alt 标记的滥用。

最重要的是要记住,合适的文字对于搜索引擎和用户都很重要。文字要向搜索引擎清楚且真实地表明页面的主题,对用户也是如此。

SEO 和搜索引擎

在想到搜索引擎时,大多数人会想到 Google(可在 参考资料 提供的论坛中进一步了解 Google),但是为了公平地对待所有搜索方法和搜索引擎,我将使用搜索引擎 这个术语。第 1 部分和第 2 部分中的信息是以 Google 为中心的,但也适用于其他大多数主流搜索引擎。根据目标受众的不同,您的目标搜索引擎可能有所不同。因为我只描述白帽 SEO 技术,所以这里提供的工具和知识会使您的 Web 站点对美国的所有主流搜索引擎更有吸引力。美国以外地区的搜索引擎流行情况可能有所不同,但是白帽 SEO 能帮助站点在大多数基于英语的搜索引擎和其他基于爬行器的搜索引擎中获得更好的排名。

搜索引擎的类型

目录和真正的搜索引擎之间的差异是,目录是人为编辑出来的,而搜索引擎是由爬行器通过跟踪链接漫游 Web 而建立的。白帽 SEO 的主要关注点在于提高站点在使用爬行器编辑的搜索引擎中的排名。

搜索引擎工作原理 —— 简化版

为了收集数据,搜索引擎让爬行器跟踪链接漫游、组织数据并判断每个页面上的文本与什么内容相关。当搜索者进行搜索时,搜索引擎利用爬行器收集的信息,通过专用排名算法建立与这次查询最相关的站点列表,并显示在 SERP 中。

目录工作原理 —— 简化版

纯粹的目录就像是图书馆中的分类卡,只不过是采用了电子形式。它包含编辑好的已提交到目录中的站点列表。它知道这个列表中有什么,而且知道对于搜索字段中输入的单词应该搜索哪些类别。这是因为最初的提交者常常会选择分类。另外,搜索者可能根据目录的类别进行浏览,寻找带有他所请求的单词的站点。

Google 是真正的搜索引擎。它提供一些来自 Open Directory 或 DMOZ 的目录结果(参见 参考资料),但是大多数结果来自爬行器的漫游和 PageRank 算法(参见 PageRank)。Yahoo!® 是一种目录混合型搜索引擎,它首先搜索自己的目录,然后使用 Yahoo Bot Slurp! 进行搜索引擎搜索。

关于 Google 的更多信息

许多 Web 站点管理员报告说,Google 的搜索索引在他们所有与搜索相关的流量中占主要比例。正因为 Google 如此流行,您很可能希望主要针对 Google 来优化站点(请参见 参考资料 中 Google 自己的统计数据)。

对于 Web 站点管理员来说,幸运的是,Google 之所以成为第一搜索引擎,并不是由于它采用了什么营销手段或者对用户不友好的其他手段,而是因为它是真正的搜索引擎,它的搜索以内容质量和链接质量为依据。Google 一直坚守着 “对用户有益的东西就在 SERP 中具有高排名” 这一原则。

Google 有一个 Add URL 工具,但是站点的排名是由链接分析决定的;如果 Google 没有被其他要编入索引的站点引到您的站点,那么就永远不会给予您较高的排名,无论您是否主动提交了站点。通过 Add URL 进行提交并不意味着页面会被自动列出,但是它能使搜索引擎注意到您的页面。过去,SEO 专家建议使用 Add URL 工具对爬行器不易找到的页面进行 “深度提交”。但是,现在 Google 引入了 Google Sitemaps(Google 站点地图),用这种格式进行提交效果会更好。本系列的第 3 部分将详细介绍 Google Sitemaps。

从长远角度来看,在 SEO 方面的努力最好投入在优化站点以促进 Google 和其他爬行器的深度漫游上。

Google 和所有其他搜索引擎
美国大多数搜索引擎和目录都与 Google 和 Yahoo! 有关。要想进一步了解这些关联,请参见 
参考资料 中 Bruce Clay 的 Search Engine Relationship Chart。

Google 的排名算法是一项顶级机密。关于 Google 的已知情况如下:

  • Google 的主要结果来自在 Web 上漫游的爬行器。
  • Google 的爬行器只查看页面上的可见文本。
  • Google 为以下类型的文件编制索引:html、pdf、ps、wk1、wk2、wk3、wk4、wk5、wki、wks、wku、lwp、mw、xls、ppt、doc、wks、wps、wdb、wri、rtf、swf、ans 和 txt。
  • Google 索引的创建过程主要关注页面内容和链接流行度。决定页面在 Google 列表中的排名的部分因素包括:指向这个站点的链接数量、链接到这个站点的站点的质量、指向这个站点的链接中和链接周围的文本以及页面本身链接到的内容。
  • Google 公布,其结果由超过 100 种因素决定。
  • Google 使用 PageRank 检查 Web 站点的链接结构,从而判断哪些页面是最重要的。
  • Google 还会进行它所说的超文本匹配分析(hypertext-matching analysis) 来判断哪些页面与特定的搜索查询相关。

基本上,Google 使用 PageRank 来评估入站链接(链接到您的站点的站点)和出站链接(您的站点链接到的站点)的质量,它会给出一个值来表示这些链接的数量和质量(流行度)。Google 认为的高质量站点会获得更高的 PageRank。然后,Google 综合使用 PageRank 排名和超文本匹配分析来寻找与搜索相关的页面。

为了防止有人利用垃圾技术欺骗搜索引擎,Google 不断改变它的排名算法并更新它的索引。在搜索引擎中获得高排名的最佳方法是,优化站点,切勿依靠排名算法的漏洞来获得高排名。与现实世界中一样,最诚实的 SEO 就是最好的策略。

Google 和元标记
Google 并没有完全忽视元标记。如果出于某些原因,爬行器未能提取到在 SERP 列表中显示您的站点所需的信息,它就会
提取出元描述标记中的文本。但最佳方案是在可见页面上准备好一份出色的介绍信息。您的实际访问者也会赏识这一点的。

后续内容

在本系列的第 2 部分中,您将了解如何研究关键词并了解 “自左上角向下” 式的关键词优化策略。通过第 3 部分和第 4 部分的学习,您将确定如何运用技术来赢得 SEO 战役,包括如何使您的页面进入搜索索引,并解决大型 Web 站点特有的搜索营销问题。现在,卷起衣袖,动手开始优化吧!

 

内部链接与外部链接

如何增加外链?

外链是什么意思?外链就是指别的网站指向你网站的链接。对方可以是首页或内页,指向你网站的首页或内页。

外链对SEO来说非常重要,合理的增加网站外链,可以提高网站的权重、获得好的排名、带来流量。

如何增加外链是SEO需要掌握的重要技巧,接下来,我们将详细讲解增加外链的方法。

怎么增加外链才符合SEO要求:

  • 每个关键词链接只应该对应一个URL而不是多个,也就是URL标准化,从而把权重集中到同一URL上。
  • 注:多个关键词对应同一个URL是可以的,如:SEONile首页有三个目标关键词,链接时可以分别采用这三个关键词的锚文本指向首页。

  • 外链不仅仅局限于做首页的目标关键词,也可以做栏目或内容页面的比较难的长尾关键词,指向长尾关键词所在页面的标准URL。
  • 外链最好采用锚文本的形式。
  • 外链并不是越多越好,重在质量,避免博客群发。

增加外链的方法:

  • 友情链接。与主题相关型或互补型网站交换友情链接。友链时评估对方网站的顺序为:网站正常收录、网站规范权威性、网站时间和规模、域名PR值。
  • 软文。写一些优质的对人们有帮助的文章,或者分析行业或社会热点,或者制造新闻,发布到各大网站。如果吸引了大量转载,则可以获得很多外链。
  • 自建博客。可以在各个博客网站申请免费博客,也可以注册独立域名的博客做外链资源。要点是注重博客内容质量,经常更新,避免搞垃圾博客。
  • 论坛签名。经常光顾一些行业知名论坛,在论坛的个性签名处加上链接,积极发表一些有价值的帖子,认真回复别人的帖子。
  • 博客留言。去一些与你站主题相关的博客留言,现在的一些博客系统都支持带链接的留言。
  • 问答平台。百度知道、雅虎知识堂、爱问知识人、搜搜问问、奇虎问答、天涯问答,在这些问答平台搜索您网站的关键字,回答相关的问题关留下链接。
  • 技术支持。对一些技术型人才或公司来讲,可以开发系统,或者为开源系统设计公用模板、插件,或者提供专业技术、法律、智力等等支持,并在合适的地方留上自己网站链接。
  • 活动传播。策划活动、名人访谈、新闻炒做等,所引发的广泛网络传播,会带来大量外链。
  • 链接诱饵。如制作对用户有帮助的在线调查,节假日的祝福网页,对社会热点的戏剧性猜测和评论,都吸引很很多外链。

如何优化内部链接?

什么是内部链接?与外部链接相反,内部链接是指同一网站域名下,包括目录、内容页面等所有网站内部之间的互相链接。

我们知道,外部链接在SEO中非常重要,合理的增加外链,可以提高网站的权重、获得好的排名以及带来流量。

对SEO来说,如果外部链接很关键,内部链接就是根本。恰当的部署网站内部链接,将有助于提高用户体验、提高搜索引擎对网站的爬行索引效率、突出重点网页,以及更好的消化外链带来的权重。更重要的是,内部链接优化你可以自己操控,不用四处费力求人。

那么,具体该怎么优化内部链接呢?

  • 建立网站地图
  • 尽可能的给网站建立一个完整的网站地图,并在首页做上网站地图页面的链接。网站地图的主要作用是方便用户清晰的找到相应的目录、内容等,也方便搜索引擎能发现和抓取所有网页。

     

  • 三次点击原则
  • 所谓的“三次点击”原则,是网站内部链接的一个指导原则,让网站“链接结构”扁平化。具体意思是指,从首页开始,网站内的内容经3次点击即可到达任何一个网页。这样不仅仅提高了用户体验,搜索引擎也能够很好的抓取。因此,SEONile建议,特别是对于中小企业网站来讲,要尽可能按照“三次点击原则”来设部署内部链接。

     

  • 尽量使用文字导航
  • 网站导航是用户和搜索引擎首先关注的路径,如果采用用js文件、图片格式或者是Flash格式的导航,都不便于搜索引擎抓取,而是要尽可能的使用文字链接。如果为了美观一定要使用图片,至少在网站底部或者在网站地图中,应该有所有目录的文字链接。

     

  • 锚文本
  • 锚文本是内部链接优化的精髓,它代表其他内部网页的认知,搜索引擎看重的正是这种认知,而不是你这个网页本身的关键词是什么。

    网站上所有链接,要尽可能的采用锚文本的形式。在网页内容中出现其他网页关键词的时候,可以以锚文本指向其他网页。 做好锚文本可以让网站集中突出目标关键词,同时让网站的长尾关键词都凸显出来。

  • 当前位置
  • 每个页面最好都设置当前网页位置,提高用户体验。

     

  • 推荐内容、最新内容及相关内容
  • 好的内容是吸引访客的关键,最新内容也解决了网页更新的问题,新内容页面还能借助老网页的权重,提高搜录。

    相关内容是指访客浏览某一内容页面后,推荐还可以浏览的相关页面。每个内容页面都设置相关内容,能提高网页的粘度,同时增加了网站的专业性与权威性。

  • 网站底部
  • 一个网站的主导航,为了方便用户,往往被“首页”“公司简介”“联系我们”等占着,而不是首页和导航页面的关键词的锚文本,这会影响要做的关键词的锚文本效果。因此,可以在网站底部,添加一行首页和导航页面上的关键词锚文本。

     

  • 网页间的互联
  • 我们知道,搜索引擎喜欢树状结构的网站,因为树状结构符合人们对知识的归类习惯,用户体验更好。不过,这种树型结构,应该把目录之间、每个目录下的内容页面,以锚文本互联起来。使整个网站的结构,形成一个更像蜘蛛网的有机整体,既有由目录组成的主脉,也有内容页面的适当链接。

新站怎么做外链?

我们知道,对一个老站来讲,增加外链是一件比较容易的事情。但对于一个新站,网站的权重、排名以及搜录量都比较低,做外链相对来说比较困难。

新站首先要把重心放在网站本身,做好内部链接优化,创建高质量的网站内容,通过锚文本,让每个内容之间互联形成一个有机整体,持续的更新网站,将逐渐赢得用户和搜索引擎的喜欢。

但外链建设作为SEO的重要补充,也是非常重要的。那么对于新站,怎么做外链?下面是一些自力更生的办法。

  • 自建博客
  • 自建博客是一个自力更生获得外链的好办法,你可以在各个博客网站申请免费博客,也可以注册独立域名的博客。发的内容,要为你网站的目标关键词和长尾关键词做好锚文本(怎么做锚文本?)。注意事项:博客发的内容尽量和网站属于同类,注意内容质量,经常更新,避免搞垃圾博客和博客群发。

  • 软文
  • 写一些优质的对人们有帮助的文章,并在文章里做好锚文本链接,发布到各大网站。如果吸引了大量转载,则可以获得很多外链。 注意:软文的精髓就是转载。因此,软文要讲究一个“软”字,不能有太高广告成分,要写真正对读者有帮助、有价值的内容。

  • 登录分类目录
  • 你可以花点时间登陆分类目录,前提是你的站点看起来应该专业,否者难以被搜录。可以登陆的分类目录包括:大型的分类目录:如Dmoz、Yahoo、hao123等;行业分类目录; 地方政府分类目录;小型个人站点。

  • 先做别人链接
  • 对于同类优质网站,可以先单方面做上链接,这样的导出链接并不是你就亏了,反而多少对你站还是有利的。相关性强的导出链接能告诉搜索引擎,你站是关于什么。

    最重要的是,当对方通过检查日志或者反向链接查询,发现你已经链接到他的站点后,如果观察到你站的质量好,就会有链接到你站的可能。

  • 多认识其他站长
  • 多认识一些同行业内的其他站长朋友,认识的方式很多,BBS、QQ群、聊天室等。开始不一定就以做链接为目的,可以交流一行业心得体会,在他们有问题的时候,主动帮忙解答,时间长了自然成为了朋友,再谈交换链接也就容易了。

什么是导出链接?

导出链接(outbound link)从字面意思上就可以理解,即指从你的网站指向别人网站的链接,是与导入链接或外部链接对立的一个概念。

部分人担心添加导出链接会稀释网站的PR值,但,如果网站中只有导入链接,而完全没有导出链接,将不利于用户体验,对SEO是肯定没有好处的。原因如下:

  • 从用户体验角度,我们知道,用户体验是非常重要的影响网站排名的因素。导出链接可以给用户提供更多相关信息源,自然增加了用户对你网站的忠诚度,也能够获得更多的访问者。
  • 从搜索引擎角度,适当的时候增加导出链接,指向相关的专家站点或者权威站点,能够增强页面的相关性。比如,我们在谈到百度指数工具的时候,就可以创建以“百度指数”为锚文本的导出链接,则说明这篇文章和百度指数有一定关系。

创建导出链接的注意事项:

  • 保持导出链接的相关性。包括同行业的站点,或者目标用户群体的特征比较接近的站点。
  • 控制一个网页里链接的数量。上面讲了,我们增加导出链接是为了用户体验,但如一个网页的大部分内容都是链接,表示这个网页没什么实质内容,也极度不利于用户的体验。
  • 避免链接到低质量网站。若链接到作弊网站或者垃圾网站,可能会对排名带来负面影响。
  • 避免整个网页全是链接。除了链接之外,什么都没有的网页,将有可能被搜索引擎视为作弊网页。
  • 避免死链接。这种刚开始正常,后来失效的链接,如果长期存在,会影响搜索引擎对网站的权威性和友好性的判断,对排名带来负面影响。
  • 链接的锚文本里出现关键词。

 

如何判断网站权重

对于网站的权重判断是分析网站的重要步骤,较高的网站权重配合特定的关键词锚文本才能获取排名。

谷歌对于权重的判断依据有:

  • 网站PR值
  • PR表示网站在搜索引擎中的重要度,是搜索引擎对当前页面的外部链接抓取而得到的量化数值,也是谷歌算法的核心和起始点,网站的PR值是网站权重高低最直观的反映。

  • 收录数量
  • 收录数量是搜索引擎对网站质量的认可,原创性和高质量是保证搜索引擎收录率(收录的页面数量与总的页面数量之比)的前提,收录数量越高,表明网站的页面数量越高,内容越丰富,同时也会增加网站的PV(page view,页面浏览量),从而积累域名信誉度。

  • 收录速度和收录率
  • 利用site命令查看网站新发布页面的收录速度和收录率,收录速度越快,收录的比率越大,网站的权重越高。

  • 首页索引速度
  • 首页一旦出现变化,谷歌马上就对首页进行更新,是网站高权重的表现。

  • 外部导入链接网站权重
  • 主要查看外部导入链接的链接源是否稳定,是否有较好的PR值等。

百度对于权重的判断依据有:

  • 百度首页快照更新速度
  • 权重高的网站快照一般3天内更新,新站、小站、无内容更新的网站一般快照更新较慢,注意的是这里反映权重的是快照的更新速度(一个较长的观察的时间段),而不是具体的更新时间(某一更新时间点)。

  • 百度内容收录速度和收录率
  • 收录数量是对网站内容的认可,同时也是内部链接优化的基础。

  • 长尾关键词排名
  • 大量长尾关键词的排名才是百度高权重的表现,而不是一两个关键词的排名,可通过随意组合标题中的长尾关键词做初步判断。

一些拥有较高权重的站点,修改网站标题,在网站内部合理布置关键词和内部链接就可能获得排名,相反如果网站权重较低,短时间内大量添加外部链接,可能会拔苗助长,导致网站被惩罚或是降权。

 

URL规范化建议

url 网址规范化指的是当出现了有大于一个的链接指向含有相同内容的网页时,通过各种方法让搜索引擎只挑选其中一个最喜欢的的网址,同时告诉搜索引擎不收录和索引其他网址的过程,从搜索引擎的角度上说,url 规范化减少了对一个网站的重复页面的索引。网站重复页面问题也是搜索引擎优化(SEO)中很多人关注的一部分。url网址规范化是一个将url进行标准化的过程,Google中文官方博客建议我们指定url范式。

不规范的url网址

下面我们看看存在 url 网址规范化问题的例子:

  • www开头和不带www的域名不分,如顶级域名www.a.com 和a.com;子域名www.a.b.com和a.b.com;
  • 动态页面网址和静态页面网址:如http://www.nowamagic.net/archives/137.html 和http://www.nowamagic.net/?p=137;
  • 网址含有多余的部分:如含默认端口号:80;含有多余的默认文件名default.php, index.html等;含有多余的”/”;
  • 数据库空查询;无效的查询变量;
  • 使用IP地址代替域名网址;
  • 大小写不分:http://www.abc.cn/ABOUT.php 和 http://www.abc.cn/about.php;

随着Google 搜索引擎智能化的提高,它自动分析多个不同的网址指向相同重复页面情况,通过自然的网址规范化,慢慢选择其中一个google 认为是最好的url进行索引。但是这个过程明显提高了搜索引擎爬行索引页面的难度和时间周期。同时个人采取的内部和外部链接策略也将影响到google 进行智能 url 规范化的行为。多个不同网址指向同一内容页面,虽然非恶意的重复页面不会被搜索引擎惩罚,但至少会分散该页面的权重。因此采取一定的网址规范化方法是必要的。

网址URL规范化方法

  1. 顶级域名网址url, 指定www和不带www 中的一个
  2. 优化网站的内部链接结构,包括在网站架构中统一使用指定的url 格式,在文章中加入超级链接地址时一直使用同一个,搜索引擎看到哪个绝对地址用的最多,自然会对其另外相待。

    针对 Google搜索引擎,我们可以通过google 网站管理员工具设置首选域来指定以哪个域名为准。(具体步骤:登陆google账号->添加网站->验证所有权 ->通过验证->点击网站网址进行管理->网站配置->设置->首选域),(注在验证网站所有权的过程中,要将www.domain.com和domain.com都进行验证,验证的方法有两种:在首页添加元标记,下载它提供的html文件上传到根目录元;)。

    以WordPress博客为例,比如远方博客选择的首选域是nowamagic.net,则同时要在控制板后台将博客地址和安装地址也设置一下,这样首页所有调用显示的地址都是nowamagic.net了:控制板-设置-常规-博客地址和博客安装地址改为nowamagic.net。注:改了WordPress博客地址之后会出现无法登陆后台的情况,这时要到数据库管理中做相应的修改,如果你用的是虚拟主机,一般都可以通过虚拟主机管理后台安装好的phpmyadmin 工具管理数据库。在数据表中找到wp_options,修改博客安装地址siteurl和博客地址home为nowamagic.net。

  3. 给重复页面指定url范式
  4. 使用 rel=”canonical” 标签属性来解决重复页面问题,也是google 引入的引以为豪的功能之一,指定url范式。

  5. 设置robots.txt文件,阻止那些不希望被搜索引擎检索的网址目录,url格式。
  6. 301 重定向
  7. 301重定向是将某一页面永久重定向至另外一页面。301转向也是SEO 广泛使用的一种对搜索引擎最为友好的转向方法之一。搜索引擎将收录永久重定向到的那个页面,自然也解决了 url 网址规范化问题。

    典型的比如在linux系统apache服务器下, 可以通过修改.htaccess文件来实现301重定向。在.htaccess 文件中加入以下代码,该代码要写在url rewrite重写规则的前面。

    1 redirect 301 /old.htm http://www.domain.com/new.htm
    2
    3 redirect permanent /old.htm http://www.domain.com/new.htm

    如果是所有的domain.com 都要301永久重定向到 www.domain.com 则还要进行mod_rewrite。

    1 RewriteEngine on
    2 RewriteCond %{http_host} ^www.dom.com [NC]
    3 RewriteRule ^(.*)$ http://dom.com/$1 [L,R=301]

    其他windows主机等 可以通过php,asp,jsp 动态脚本实现。

 

Web设计师必须知道的一些SEO技巧

现如今 ,大多数网站设计不仅仅要求设计美观,前端代码往往发挥着重要的作用。这意味着很大一部分搜索引擎优化或搜索引擎优化责任应该落在设计师身上。然而,有大量的网页设计师不理解这个问题以及如何在建立一个网站初期就达到是完全的搜寻引擎优化。

本文在这里提供了一些重要的提示,将有助于网页设计师改善其搜索引擎优化技巧。

1. 制作比设计还要漂亮的代码

当建立前端网站时,请务必使用语义代码。通过使用描述标签,结构化你的网页,搜索引擎将能够阅读和更好地了解你的内容。这也使你的网站设计进程更容易和更清洁,对以后的改版也将提供最大的方便。

2. 使用,但不滥用关键字

关键词能说明和强调你网站的内容。但你不应该滥用。其一,你应该让关键词出现在网页中重要的地方: 比如网址,标题标签,标题和主要标记。其二,就是关键词的使用频率,大量相同关键词的使用会让搜索引擎觉得你是在作弊。

3. 避免使用Flash导航

Flash的特效是迷人的,但请不要使用Flash来做你的网站导航。搜索引擎无法读取Flash文件,这意味着链接中使用的导航不能得到索引、抓取和收录。

如果实有想弄个花俏的特效,建议还是使用JavaScript吧。

4. 使用独特的网页标题

每个网页在你的网站上应该有一个标题属性,以及每个标题应是独一无二的。如果你为每个网页使用相同的标题,搜索引擎会认为,每一个网站上的网页是关于同一主题。

5. 不要忘了添加图像替换文本

也就是alt属性,你应该给每张图片一个恰当的描述。如果你坚持这样做,你将能从图片搜索引擎中获取大量的流量。

6. 不要使用无意义的链接文本

搜索引擎高度重视链接。因此,当连接到相关的内容时,请务必使用一个准确描述链接页面内容的单词,至少不要太笼统。

7. 不要使用图片来替换文字

作为设计师,我们总是希望把某个元素弄的看起来尽可能的漂亮。但你不能为了漂亮损失一些更重要的东西,比如我们一些设计者利用图片来代替文字。比如WordPress 有一些插件可以把文章标题转换成图片形式弄成各种花俏的字体。是的,它确实漂亮多了,但它影响了你文章在搜索引擎中的网页排名,你的这份漂亮可能只有少数人能欣赏到它。

8. 有节制地使用AJAX

Ajax是伟大的,它让Web设计师基于现有的技术轻松地增强了用户体验,但是任何事情都不要太Over了。一个好的经验法则是: 如果加载的AJAX内容可以成为一个单独的网页,那就让他成为一个单页。

9. 快速获取索引

为了你的网站能够及时的被搜索引擎索引,你应该提交你的网站到搜索引擎。这些都是基本的常识,就不多介绍了。

不过,对于Google来说,其实只要你多发布一些原创的贴子,它就会马上开始收录你了。

10. 建立外部链接

11. 使用一致的网址

当你建立一个网站,从一开始你就应该决定使用哪一个网址,是否有“www ”前缀. 一旦你决定,你就要坚持下去。

 

如何提高在Google的搜索排名

Google 出类拔萃的地方在于专注开发”完美的搜索引擎”,联合创始人拉里·佩奇将这种搜索引擎定义为可”确解用户之意,切返用户之需”。 为了达成这个目标,Google 孜孜以求,不断创新,并且拒绝接受现有模式的限制。 因此,Google 开发了自有的服务基础结构和突破性的 PageRank™ 技术,改变以往搜索的方式。

从一开始,Google 的开发人员就意识到,提供最快的、最准确的结果需要一种新型的服务器设置。 不过,多数搜索引擎都采用一些大型服务器,当遇到负载高峰时,便会出现速度放慢的现象;Google 则采用了联网的 PC 机来快速查找每个查询的答案。 这项创新加快了响应时间,增加了可伸缩性并且降低了成本。 自此项技术诞生以来,其他公司便开始争相效仿,但是 Google 仍不断优化其后台技术,使其更为有效。

Google 搜索技术背后的软件可以在一转眼的工夫内执行一系列同步计算。 传统的搜索引擎非常依赖字词在网页上出现的频率。 Google 则使用 PageRank™ 检查网络的整个链接结构并确定哪些网页最重要。 然后,会执行超文本匹配分析,以确定与所执行的特定搜索相关的网页。 结合整个重要性和查询特有的相关性后,Google 才会将最相关、最可靠的结果列在最前面。

PageRank 技术

PageRank 会通过解析一个具有 5 亿多个变量和 20 亿个条件的方程,对网页的重要性进行客观的测定。PageRank 会将网页 A 上指向网页 B 的链接解释为由网页 A 对网页 B 所投的一票,而不是计算直接的链接数。这样,PageRank 根据网页收到的投票数来评估其重要性。

PageRank 也会考虑发出投票的每个网页的重要性,也就是某些网页的投票具有的价值较大,为该链接的页面赋予的价值因而也就较大。 重要的网页会得到较高的 PageRank,并出现在搜索结果的顶部。 Google 的技术是利用网络中的综合信息来确定网页的重要性。 因为没有人工干涉,也不对结果进行操纵,所以用户一直信任 Google 是一个不会因付费而影响排名的客观信息来源。

超文本匹配分析

Google 的搜索引擎也会分析网页内容。但是,不只是简单地扫描网页中的文本(网站发布者可通过元标记执行此操作),Google 技术可分析网页的全部内容及字体、分支和每个字词的精确位置等元素。Google 也会分析相邻网页的内容,以确保返回的结果与用户的查询最为相关。

Google 查询的生命周期

Google 查询通常花费不到半秒的时间,但这过程中要执行很多不同的步骤,然后才能将结果呈现给查找信息的人。

Google是如何搜索的

设计与内容指南

  • 网站应具有清晰的层次结构和文本链接。每个网页应至少可以通过一个静态文本链接打开。
  • 为用户提供包含指向网站重要部分的链接的站点地图。如果站点地图中包含的链接数量过多,您应将该站点地图分成多个网页。
  • 将特定网页上的链接限制在合理的数量内。
  • 网站应实用且信息丰富,网页文字应清晰、准确地表述要传达的内容。
  • 要考虑到用户会使用哪些字词来查找您的网页,确保网站上确实包含了这些文字。
  • 尽量使用文字而不是图片来显示重要的名称、内容或链接。Google 抓取工具无法识别图片中所含的文字。如果必须对文字性内容使用图片,请考虑使用”ALT”属性来加入一些描述性的文字。
  • 确保 <title> 元素和 ALT 属性具有描述性且准确无误。
  • 检查链接是否损坏,并确保 HTML 格式正确。
  • 如果要使用动态网页(即网址中包含”?”字符),请注意并非每一个搜索引擎信息采集软件都能抓取动态和静态网页。这有助于缩短参数长度并减少参数数目。

质量指南

这些质量指南涵盖了最常见的作弊形式或操纵行为,对于此处未列出的其他误导行为(例如,通过注册知名网站的错拼形式来欺骗用户),Google 仍可予以拒绝。不要抱有侥幸心理,认为某种欺骗手段未在本页中列出,Google 就会认可该手段。作为网站站长,与其花费大量时间寻找漏洞加以利用,不如尽其所能维护基本原则,以便为用户带来更好的体验,从而使网站获得更高的排名。

基本原则:

  • 设计网页时该考虑的是用户,而不是搜索引擎。不要欺骗用户,或者提交给搜索引擎一种内容而显示给用户另一种,这种做法通常称为”伪装”。
  • 请不要为了提高搜索引擎排名而弄虚作假。一个有效的分辨是非的方法是:您是否可以坦然地跟竞争对手网站解释您对网站所做的事情。另一个有用的测试手段即扪心自问:”这能否给我的用户带来帮助?如果不存在搜索引擎,我是否还会这样做?”
  • 请不要参与旨在提高您的网站排名或 PageRank 的链接方案。尤其要避免链接到违禁的网站或”恶邻”,因为您自身的排名会受到这些链接的负面影响。
  • 请不要使用未经授权的计算机程序来提交网页和检查排名等。

具体指南

  • 请不要使用隐藏文本或隐藏链接。
  • 请不要使用隐藏真实内容或欺骗性的重定向手段。
  • 请不要向 Google 发送自动查询。
  • 请不要加载使用无关关键字的网页。
  • 请不要创建多个包含大量重复内容的网页、子域或域。
  • 请不要制作欺诈性或安装有病毒、特洛伊木马或其他有害软件的网页。
  • 请不要专门针对搜索引擎创建”门页”,或使用其他如联属计划这类原创内容很少或没有原创内容的俗套方法。
  • 如果您的网站参与联属计划,请确保您的网站可为其增添价值。请提供独特且相关的内容,使用户有理由首先访问您的网站。

From: Google 管理员工具,内容为王,外链为皇。

 

从谷歌内部SEO评估报告中获得的若干SEO建议

Google的搜索质量小组在Webmaster Central Blog上发布了一个涉及到Google自身产品网站的内部SEO报告文档(英文PDF文件),通过报告我们可以看出Google本身的不同产品团队对于一些搜索引擎优化和用户体验优化方面的事情其实把握的也不是很好,Google的很多产品网站有很大的SEO提升空间(如果他们需要的话…)。

报告虽然没有明确的提及SEO方面的建议,但是这份报告对于网站主来说价值应该不低于早先的Google SEO指南,我们从文档中可以提取出很不错的干货。

关于提升搜索引擎结果页面显示内容的方面的建议

  1. 网页的title、meta description以及URL结构很重要,对于搜索引擎了解网站的内容有帮助。
  2. Title里描述性的词和短语对于搜索引擎和用户了解网页内容重点有帮助。要使用与页面主体内容相关的,并且与其他页面不重复的页面title。
  3. 大部分主流的搜索引擎会在搜索结果页面展示大概title里的60个字符。而且,搜索引擎对于title里超过一定长度之后的词所给的权重会很少。不要往title里添加不重要的关键词。
  4. 如果网站被DMOZ收录了,Google搜索结果页面会显示DMOZ里的title和描述。这不一定是好事情,很可能网站缺少了自己的title或者meta description。为了避免这个问题,网站可以使用“NOODP”这个标签。
  5. 网页的title设定要考虑好用户的搜索常用词。要了解自己网站目标用户的搜索习惯。
  6. meta description的内容不是Google的排名影响因素(meta keywords也不是),但是在Google搜索结果里显示有实际意义的摘要对于点击率方面会有影响。要设定有趣的、能吸引用户的描述文字,不要简单的复制页面内容。要避免与其他页面的meta description重复。
  7. 尽量在meta description里的文字长度要满足Google搜索结果里面的两行摘要。
  8. 如果网站在搜索结果里面,只有title和url,没有摘要内容显示,需要检查下是否在robots.txt里做了限制或者使用了“nosnippet”标签。
  9. 网站可以通过这几点来提升获得sitelinks的几率
    • 使用清晰的层级URL结构
    • 内部链接使用有效的锚文本
    • 不要使用过深的层级页面
  10. 类似/dir1/dir2/dir3/dir4/dir5/dir6/page.html这样的不要。目录名与所管辖的页面要有一定的从属关系。URL里尽量要有关键词。面包屑导航会有帮助。
  11. 建议使用Google webmaster tools对sitelinks进行控制,排除没有意义的链接和不想要的链接。

关于URL和跳转方面的建议

  1. 如果同样的页面有多个URL可以访问,建议使用301跳转或者rel=”canonical”标记,否则会分散链接权重。canonical页面的URL尽量要好记,容易识别并且符合通用规则。
  2. 对于url中,如果不是以/结尾的,一般会认为这个url是文件,而不是目录。内部链接是要注意保持一致,不要有的有/,有的不带。
  3. 在设定跳转的时候,如果301更为合适,就不要使用302跳转。
  4. 如果存在http和https共存的情况,尽量使用跳转或者canonical标记。

关于页面优化方面的建议

  1. H1、H2、H3这类heading标签对于搜索引擎了解页面内容结构有帮助。Heading标签内容尽量简明扼要的描述词汇。但是不要在页面上滥用。对于使用em或者strong更为合适的地方,使用heading标签也是不推荐的。对于同一个heading标签,字体方面的设定尽量保持一致。heading标签的目的是为了区分页面内容结构,不要为了样式而是用。
  2. H1标签是最重要的heading标签,对于搜索引擎了解页面的内容重要很有帮助。
  3. Logo图片链接对于搜索引擎链接网站的导航结构有用,尽量保证logo链接使用最正确的url。
  4. 图片的alt描述对于搜索引擎尤其是图片搜索引擎有用,alt描述文字一般被搜索引擎认为是图片链接的锚文本。
  5. 链接的锚文本文字要有描述性意义,不适用类似clikck here或者learn more这类词作为锚文本。锚文本应该要简洁、描述性,避免长语句作为锚文本。

 

HTML标签在SEO中权重分析

很多做CSSER的不会去关心SEO,认为这个只是决策者要考虑的问题,不过我觉得优化是要从基础开始做的。无论是整个页面的布局,还是每个标签的使用上,不仅要符合W3C对标签的使用规范,而且要对页面优化,和权重的分布行进把握!下面使一些相关的资料,希望对大家有所用处,还可以留言探讨。

权重分值排列:

 

 

  1. 内部链接文字:10分
  2. 标题title:10分
  3. 域名:7分
  4. H1,H2字号标题:5分
  5. 每段首句:5分
  6. 路径或文件名:4分
  7. 相似度(关键词堆积):4分
  8. 每句开头:1.5分
  9. 加粗或斜体:1分
  10. 文本用法(内容):1分
  11. title属性:1分 (注意不是title>, 是title属性, 比如a href=… title=”)
  12. alt标记:0.5分
  13. Meta描述(Description属性):0.5分
  14. Meta关键词(Keywords属性):0.05分

SEO优化

 

  1. 静态页面——将信息页面和频道、网站首页改为静态页面,有利于搜索引擎更快更好的收录。
  2. 页面标题(Page Title)的关键词优化——必须列出信息的标题、网站的名称以及相关关键字。
  3. Meta标签的优化(过去搜索引擎优化的重要手法,现在已经不是关键因素,但仍不可忽略)——主要包括:Meta description、Meta keywords的设置。关键字密度要适度,通常为2%-8%,也就是说你的关键字必须在页面中出现若干次,或者在搜索引擎允许的范围内,要避免堆砌关键字。
  4. 针对Google制作Sitemaps——Google的sitemaps是对原来robots.txt的扩展,它使用XML格式来记录整个网站的信息并供Google读取,使搜索引擎能更快更全面的收录网站的内容。可以使用Google提供的Sitemap生成器制作(需要技术人员制作):https://www.google.com/webmaster … emap-generator.html也可以由技术部人员制作更全面的Sitemaps。
  5. 图片的关键词优化——图片的替代关键词也不要忽略,其另外一方面的作用是,当图片不能显示的时候,可以给访问者一个替代解释语句。
  6. 避免表格的嵌套——目前本站的表格嵌套太多,搜索引擎通常只读取3个<table>的嵌套,如果太多,会造成部分有用信息没有被检测到。
  7. 采用web标准进行网站重构——尽量使网站的代码符合W3C的HTML 4.0或XHTML 1.0规范。通过XML+CSS技术进行网站重构,减少不表格及冗余代码,提高网站页面的扩展性,兼容性,可以使更多浏览器支持。
  8. 网站结构的扁平化规划——目录和内容结构最好不要超过3层,如果有超过三层的,最好通过子域名来调整和简化结构层数。另外目录命名的规范做法是使用英文而不是拼音字母
  9. 页面容量的合理化——合理的页面容量会提升网页的显示速度,增加对搜索引擎蜘蛛程序的友好度。同时建议js脚本和css脚本尽量用链接文件
  10. 外部文件策略——把javascript文件和css文件分别放在js和css外部文件中。这样做的好处是把重要的页面内容放到页面顶部,同时能缩小文件大小。有利于搜索引擎快速准确地抓取页面重要内容。其他的字体(FONT)和格式化标签也尽量少用,建议采用CSS定义。
  11. 外部链接——尽可能多地让其他跟你主题相关的网站链接本站,同时尽量同PR值更高的网站进行相互链接。如果网站提供与主题相关的导出链接,被搜索引擎认为有丰富的与主题相关的内容,也有利于排名,例如各类招商网站、投融资网站的概念。另外避免链接不顾质量的大面积撒网,对搜索引擎而言宁少要精。
  12. 网站地图——网站自身的网站地图是搜索引擎更全面索引收录你的网站的重要因素。建议制作基于文本的网站地图,内含网站所有栏目、子栏目。网站地图的三大因素:文本、链接、 关键词,都极其有利于搜索引擎抓取主要页面内容。特别是动态生成目录网站尤其需要创建网站地图。
  13. 图像热点——除AltaVista、Google明确支持图像热点链接外,其他引擎暂不支持。当“蜘蛛” 程序遇到这种结构时,就会无法辨别。因此尽量不要设置图像热点(Image Map)链接。
  14. FLASH应用——FLASH由于不含文字信息,应尽量用于功能展示和广告,少用于网站栏目和页面。
  15. JS脚本——在不支持JS脚步的浏览器里 <NOSCRIPT> 标签会起到重要提示作用,对搜索引擎的Spider搜索也会有帮助。
  16. Frame框架——Frame标签会被搜索忽略,尽量少用,如果一定要用,则应正确使用Noframe标签, 在<Noframe></Noframe>区域中包含指向frame页的链接或带有关键词的描述文本,同时在框架以外的区域也出现关键词文本。
  17. 资讯的内部链接——有助提高网站排名和PR值,例如相关资讯、推荐资讯等。

 

55条你会爱上的SEO技巧

每个人都喜欢好用的技巧,对吗?这里有55个用于搜索引擎优化的小技巧,甚至你的老妈用起来都易如反掌。哦,不是我的老妈,但你明白我的意思。这意味着网页设计师和SEO新手中大部分人都能迅速上手,没有任何困难。
1. 如果你必须使用Java script的下拉菜单、图片地图、或者图片链接,那么你一定要放置它们的文本链接在页面的某些地方,以便于搜索引擎的蜘蛛抓取;
2. 内容为王,因此务必将优秀的,更好的和独特的内容集中在你的一线关键字或关键词上面;
3. 如果内容为王,那链接就是王后。使用你的关键字作为链接,建立一个高质量反向链接的网络。记住,如果没有合乎逻辑的理由,有不好的网站链接了你,这种链接也别要;
4. 别痴迷于PageRank,那只是排名算法极小的一部分。一个低PR值的网站等级实际上可以高过一个高PR的网站。
5. 确保你网站上每个页面的title标签,都有一个独特的关键字。还有,如果你必须把公司名称放里面,那就放在标题最后。除非你是一个家喻户晓的知名品牌,您的公司名称可能会获得一些搜索;
6. 新鲜内容能够帮助您改善排名。要定期添加新的,有用的内容到您的网页。新鲜内容的增加会吸引搜索引擎的注意;
7. 请务必使用关键词链接到您的网站。换而言之,如果您的链接目标是“蓝色小工具” ,那么链接文字就写 “蓝色小工具”而不是“单击此处”;
8. 关注搜索词,不只是单个关键字,放置你的地理位置在文本里“如:北京手机批发,而不是手机批发。”[注:为了方便理解,此例为李冰虚构,与原文不符。]会帮助你获得网民对周边区域的搜索。
9. 别不考虑SEO就设计你的网站。请确认网页设计师理解您对自然SEO的期望。让它建立别削减后,在你闪闪发光基于Flash的网站上做一个更新。蜘蛛可以抓取文本,而不是Flash或图像;
10. 适当的在文本链接、图片alt属性,甚至域名里布置关键词和关键字;

11. 检查www和非www域名的规范问题。决定您想使用哪种方式后,使用301重定向一个到另一个上面。换而言之,如果http://www.domain.com是您的选择配置,那么http://domain.com应该重定向到它;
12. 检查整个网站链接到首页的情况。index.html在你主域名下吗?如果是的话,请区分你的链接。如果是外部链接,链接到http://www.domain.com,内部链接则链接到http://www.domain.com/index.html;
13. 框架,Flash和Ajax所有这些都有一个共同的问题-你不能链接到一个单一的网页。它的要么全部要么一无所有。最好的SEO结果总是不用框架、flash,和节制使用AJAX;
14. URL扩展名无关紧要。这对你关注的SEO而言,使用.html,.htm,.asp,.php等等,并没有什么区别;
15. 希望蜘蛛光顾你的新网站?如果通过google的规则提交表单,花费数周时间可以做到。但最快捷的方式是让一个高质量的网站链接它;
16. 如果你的网站内容不常更新,那么您的网站需要一个Blog,因为搜索蜘蛛喜欢新鲜的文本。Blog每周至少更新三次,用良好的,新鲜的内容,喂食那些小小的爬行者;
17. 当建立链接时,考虑质量,而不是数量。一个单一的,良好的,权威的链接,远远好于你做十多个质量低劣的实际上会害了你的链接;
18. 搜索引擎想要自然语言内容。不要尝试用关键字塞满文本。它不会起作用。搜索引擎会查看关键字在内容里的出现频率,如果频率超高,搜索引擎的统计对你来说会适得其反。)
19. 不仅链接要使用关键字锚文本,链接周围的文字也要与关键字相关。换而言之,用描述性文本围绕这些链接。)
20. 如果你使用虚拟主机,做一个黑名单检查,确认你没有和被惩罚或垃圾邮件代理网站在一起。他们负面的恶名可能会影响你自己的排名;

21. 当你注册一个域名,使用了隐藏域名所有者信息功能的话,google或许会把你看成一个潜在的垃圾邮件制造者;[李冰注:2008年5月1日此处有修正]
22. 当优化您的blog文章时,记得提取文章标题来优化title标签;
23. SEO的根本问题就是文本、链接、流行度和声誉;
24 让你的网站易于使用。这会影响你的链接建立和流行度,从而,影响到你的排名;
25. 给出链接开心,得到链接也开心。别舍不得链出,这会鼓励别人也链接你;
26. 搜索引擎喜欢独一无二的内容也喜欢有质量的内容。在二者之间又有所区别。确认你的内容二者兼备;
27. 如果你一定要让主页醒目,整个使用Flash或一个大图片的话,请同时放置文本、和导航链接;
28. 一些最有价值的链接不都会出现在网站,或许出现在诸如时事通信和zines这类Email通信的表单里;
29. 从付费链接中除了几个点击你什么也得不到,除非链接嵌到正文里,并去除显而易见的赞助商链接;
30. 通常来自.edu域名的链接,搜索引擎会给较高评价。搜索一下可能正在寻找赞助商的非赢利.edu网站;

31. 给他们一些值得讨论的东西。链接诱饵就是良好的内容而已;
32. 每个页面重点关注一个关键词组。最好不要尝试为页面优化多个关键词;
33. 如果您仅有一个不充分或根本不存在的行动呼吁,SEO没有用。请确认您的行动呼吁现在就很明确;
34. SEO不是一次性工作。搜索引擎的景观每天都在变化,因此期望您的搜索引擎优化工作每天都在坚持;
35. 迎合有影响力博客和权威网站的人可能会链接到你,以及你的图片,视频,播客等,或要求转载您的内容;
36. 获取网站所有者或CEO的博客。它价值连城!CEO在blog上的影响力难以置信到相当于公司的官方声明。回应网站所有者的读者的评论会使你的信誉迅速升空;
37. 就像你的文章或网页一样,优化你的RSS种子里的文本,使用描述、关键字丰富你在title和description里的文本;
38. 在图片中使用标题说明。比如像一个新闻配图,为它加上带有关键字的标题说明;
39. 要注意图片周围的文本内容。图片的排名基于同一页面在它周围的文本。注意关键词文本,和标题;
40. 你最好打消让爬行者自动发现网站页面的念头,良好的全局导航和链接会为你服务,远胜于仅仅依靠一个XML的网站地图;

41. 有两个方法可以不显示google个性化搜索结果:
退出google登陆;
在搜索条的搜索URL的末尾加个参数&pws=0;
42. 来自(特别是深层链接)高PR网站的链接价比黄金。高PR代表高度信任,所以这种链接会提高网站质量;
43. 使用绝对链接。不仅将使你网站的链接导航少出问题[像来自https的页面链入和链出]而且,如果有人引用了你的内容,你会获得来自外界的backlinks果汁;
44. 当你转移到一个新的域名,看下主机提供商是否提供“粘性的”转发。这可以使原有旧的URL临时转发到新域名下,保证新URL在地址栏中,从而用户能够逐渐使用新URL;
45. 了解社会化营销。它是SEO的一部分。当你了解更多类似Digg,Yelp,Del.icio.us,Facebook网站时,这有益于将来你在搜索中的竞争;
46. 想为你的视频得到被爬行者发现的最佳机会,在你google 网站管理员控制帐户下创建一个列表和一个视频地图
47. 在google的混合搜索结果中不仅只显示来自Youbube的视频,确认提交你的视频到其它高质量的视频网站,像Metacar,AOL,MSN和Yahhoot,这里仅举几例;
48. 在页面上使用包含关键字的文本围绕视频内容。搜索引擎为查询定义视频的用途会分析周边的内容;
49. 使用关键字“图像”或“图片”在照片的alt描述和标题说明里。大量的搜索使用关键字+图片或图像的组合;
50. 在你的google网站管理员控制帐户中打开“加强型图片搜索”。图片是新混合型搜索结果的一大部分,因此允许google发现你的图片将有助于你的SEO工作;

51. 增加病毒式小插件到你的网站或blog-像评价、分享、评级、浏览者注释等等;
52. 扩大您的服务范围,包括视频,播客,新闻,社会内容等等。现在SEO就不单是10多个蓝色链接了
53. 当考虑一个购买或交换的链接时,请检查链接页面在google里的缓存的日期。搜索“cache:URL” ,用实际网址替换URL。较新的缓存日期比较好。如果网页不存在或缓存日期距离现在有一个月多了,该网页没什么价值;
54. 如果你网站有些页面非常相似(也就是你关心的重复内容问题) 而你想要确保正确的一个收录进了搜索引擎,那把您首选网页的URL放进你的sitemaps里。)
55. 检查您的服务器头信息。搜索“检查服务器头”就能找到专用的免费线上工具。您应该确保您的URL报告”200 OK”状态或如果是转向的话应该是”301永久移动”的重定向。如果显示任何其他状态,检查并确认您的URLs设置正确并且整站使用一致。

Richard V. Burckhardt,也称为WEB乐观主义者,是Palm springs的SEO培训师,在加利福尼亚从事搜索引擎优化、WEB开发和市场营销,有着超过十年的经验。

原文链接:《55-quick-seo-tips-even-your-mother-would-love》

后记:文章内容并不复杂,实际应用起来也不需要“高精尖”的技术,如前文所说“连老妈都会喜欢的55个技巧”,希望能给对搜索引擎,搜索引擎优化有兴趣的朋友一点参考。