Posted on 01月 31st, 2008 in SEO | 1 Comment »
收集整理了一些常见的robots.txt 文件编写错误,同时也提供一个专门检查robots.txt文件有效性的小工具。
A. 颠倒了顺序
错误写成:
User-agent: *
Disallow: GoogleBot
正确的应该是:
User-agent: GoogleBot
Disallow: *
B. 把多个禁止命令放在一行中
例如错误写成:
Disallow: /css/ /cgi-bin/ /images/
正确的应该是:
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/
C. 行前有大量空格
例如写成:
Disallow: /cgi-bin/
尽管在标准没有谈到这个,但是这种方式很容易出问题。
D. 404重定向到另外一个页面
当Robot访问很多没有设置robots.txt文件的站点时,会被自动404重定向到另外一个Html页面。这时Robot常常会以处理robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题,但是最好能放一个空白的robots.txt文件在站点根目录下。
E. 采用大写。例如
USER-AGENT: EXCITE
DISALLOW:
虽然标准是没有大小写的,但是目录和文件名应该小写:
user-agent:GoogleBot
disallow:
F. 语法中只有Disallow,没有Allow
错误的写法是:
User-agent: Baiduspider
Disallow: /john/
allow: /jane/
G. 忘记了斜杠/
错误写作:
User-agent: Baiduspider
Disallow: css
正确的应该是:
User-agent: Baiduspider
Disallow: /css/
下面一个小工具专门检查robots.txt文件的有效性:
http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
搜索引擎都有自己的“搜索机器人”(Robots),并通过这些Robots在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。
对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被Robots抓取公开。为了解决这个问题,Robots开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签。
什么是robots.txt文件?
robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。一般来说相应的网站就会拥有一个对应的robots.txt文件,如:http://www.w3.org/
http://www.w3.org/robots.txt
robots.txt的语法
“robots.txt”文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:
“<field>:<optionalspace><value><optionalspace>”。
在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:
User-agent:
该项的值用于描述搜索引擎robot的名字,在”robots.txt”文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在”robots.txt”文件中, “User-agent: *”这样的记录只能有一条。
Disallow:
该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow 开头的URL均不会被robot访问到。例如”Disallow: /help”对/help.html 和/help/index.html都不允许搜索引擎访问,而”Disallow: /help/”则允许robot访问/help.html,而不能访问/help/index.html。
任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在”/robots.txt”文件中,至少要有一条Disallow记录。如果 “/robots.txt”是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。
一些robots.txt基本的用法:
A. 禁止所有搜索引擎访问网站的任何部分:
User-agent: *
Disallow: /
B. 允许所有的robot访问
User-agent: *
Disallow:
或者也可以建一个空文件 “/robots.txt” file
C. 禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
D. 禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBot
Disallow: /
E. 只允许某个搜索引擎的访问(下例中的WebCrawler)
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /
本文为Joel Comm的《Making Money with AdSense》中文翻译系列文章
通过论坛、留言板和讨论组来将你的AdSense收入最大化!在第8章,我们讨论了如何通过博客来创造收入,不过博客当然不是互联网上唯一的内容,也当然不是唯一可以应用AdSense的网站类型。在一个活跃的互联网社区里,大部分内容都是用户自己创造的。你基本上很难控制网页的关键词或者主题,往好的一面说,你的AdSense很可能会给你带来某些惊喜。(准备好候补广告,以防公益性广告的出现)被动的网络冲浪者浏览你的网站寻找有用的信息,与此不同,论坛的成员们则自己提供内容并非常在乎其他成员对这些内容的反应。
很多在社区上放置Adsense广告的人都抱怨说广告的点击率太低,关键字出现得太过离散(内容相关性差),并且单位点击的价格也很低。其实他们并没有意识到,成员们对社区狂热地忠诚,重复不断地访问,独特的内容以及成员对内容的高度关切,这一切注定了互联网社区是一座隐藏的金矿。一些大品牌,象Apple和Harley Davidson,都是建立在如下的基础上:个人对产品的高度关切,与产品须臾不离,主动而积极地口碑传播。你可以通过你的社区网站达到同样的效果。
所有的互联网社区都是不同的,但是他们的魅力却都是相同的。你需要做的是找到新的,合适的办法来通过社区获得收入,就象一些聪明的站长已经在做的那样。
下面你将看到一些新的想法,希望有助于你拓展思路:
1 .论坛的参与者对他们参与的讨论主题往往非常关注。广告不论出现在哪里,网页的顶部、底部或者侧边,都很难取得访问者的注意。
2.吸引眼球的最好办法是:把广告放在每一页的第一帖的下面。越是处于页面上方的帖子越容易吸引注意力,并且对整个讨论的走向影响最大。有很多站长迷信Google的728*90的横幅广告,这样的广告放在页面顶部,对论坛来说并不合适。
3.在论坛里被点击得最多的是什么?当然是论坛的功能按钮!让你的广告离有用的功能按钮近一些,比如站内搜索,创建新帖或者回复的按钮。在没有”要求”用户点击的情况下,这些”当日交易”部分的Google广告成了向用户们推荐”当日最好交易”的实用版块。在广告的周围,是一些令人印象深刻的统计数字,诸如注册会员数,相关帖子数等,这些数字让”当日交易”部分的广告看起来更合理。那些真正的用户在看到这些广告后,会产生一种”危机感”,他们会急于点击这些广告以免让其他垂涎者抢了先手。
4.确保你使用的广告格式与用户发帖子的格式是相近的。第一步是取得用户的注意,这很重要,然后就是以用户们习惯的形式来展示广告信息。
5. 尝试在每一个帖子的底部放置广告。如果论坛用户们灌水严重,或者你的广告点击率直线下降,那么试试轮流地在每个帖子的底部放置广告,秘诀是保持随机放置,跟用户玩捉迷藏。
6.不要在一个帖子的中间插入广告以免破坏帖子内容的完整性。论坛的内容大部分是用户创造的,人们对自己创造的内容总是很敏感,如果你在他们的内容中间插入广告,让这些广告看起来象是他们的个人推荐,他们会觉得受到了侵犯。
7.不要在网页的中间堆放广告。这种做法对”被动的”访问者或许有效,但对论坛成员(积极的访问者)没有任何正面效果,他们只会忽略这些广告而去阅读他们感兴趣的东西。
8. 让用户可以自己通过Google搜索框来寻找感兴趣的广告。有多少次论坛的帖子激发了你自己去Google上搜索一下的兴趣?一次?两次?一直如此?如果你跟我一样,那么Google的搜索框就是一种大部分用户都欢迎的额外便利,它可以让访问者停留在你的网站!如果他们在搜索结果中点击了广告,你就又赚了一笔!
上述的哪种方法对你的论坛有用?只有时间能回答这个问题,但是不要忘了用Google提供的免费工具来追踪广告的效果。有不少人通过互联网社区赚到了钱,这不需要什么高科技,只要一点坚持!
如果你还没有加入Google AdSense的话,这里有注册申请Google AdSense详细教程。
Meta元标签位于网页源代码<head></head>之间,它是用来在HTML文档中模拟HTTP协议的响应头报文。Meta的属性有两种:name和http-equiv。对于搜索引擎优化人员来说,我们只重点关注Meta的name属性。
Meta的name属性主要用于描述网页,对应于网页内容,以便于搜索引擎机器人查找和分类。其中,对于SEO来说最重要的是Description(站点在搜索引擎上的描述)、Keywords(分类关键词)和Robots(机器人对具体页面进行索引的情况),所以应该给每页完善Meta值。2005年之前,Meta部分的内容对搜索引擎优化的最终效果能起到很大作用,很多SEO人员在Meta的Keywords和Description部分泛滥堆积关键词来获得好的关键词排名,造成很多并不能给用户提供有价值信息的网页在搜索结果中排名很靠前,此举已经给用户的搜索体验造成了极大的伤害。后来,这种排名作弊行为被搜索引擎察觉,在其新一轮的算法更新中,搜索引擎淡化了Meta的Keywords和Description部分信息在排名因素中的权重。
虽然Meta部分的信息没有以前那么重要,其对排名效果影响并不那么大,但是搜索引擎仍然会把其作为评定网页质量的一个因素,所以我们应该尽可能完善每个页面的Meta值。接下来我们就介绍以上三个meta值的书写方法:
1、Keywords
Keywords的具体网页源码表现形式为:<meta name=”keywords” content=” “>。Keywords向搜索引擎说明你的网页的关键词。每个页面的源代码Keywords的content部分填写1-3个关键词,关键词之间请以半角逗号分来。Keywords部分的关键词应从当前页面的主要展示内容信息中提炼而来。
2、Description
Description具体网页源码表现形式为:<meta name=”description” content=” “>。Description告诉搜索引擎你的站点上的页面的主要内容。Description的content部分文字内容最好控制在100个字符左右,行文流畅。Description部分的内容应该是具体页面主要展示信息的简洁而强有力的概述。
3、Robots
Robots的具体网页源码表现形式为:<meta name=”robots” content=” “>。
Robots的content部分文字可以填写的内容为:all、none、index、noindex、follow和nofollow。对于Robots的content部分填充内容有如下说明解释:
- 设定为all:文件将被检索,且页面上的链接可以被查询
- 设定为none:文件将不被检索,且页面上的链接不可以被查询
- 设定为index:文件将被检索
- 设定为follow:页面上的链接可以被查询
- 设定为noindex:文件将不被检索,但页面上的链接可以被查询
- 设定为nofollow:文件将不被检索,页面上的链接可以被查询。
一般来说,大部分网站并没有太多的内容禁止搜索引擎机器人索引,Robots的通用写法都是:<meta name=”robots” content=” all”>。如果想对Robots做一些个性化的设置,可以参照上面的相关说明来完善Robots的content部分内容。
以前使用Google AdSense 西联汇款的话,如果要修改拼音姓名,还得到专门的页面提交,非常的麻烦。现在好了,可以直接在账户中修改拼音姓名了。
修改的步骤非常简单:
1 登录您的AdSense账户,点击“我的账户”链接。
2 点击“付款细节”旁边的“修改”链接。
3 选择“设置西联快汇”,然后点击继续。
然后您就会看到修改拼音姓名的页面了:

您只需在相应的格子中填写您的姓名的拼音即可,拼音的大小写没有影响,不过名之间不要加空格。以“李大伟”为例,“收款人名”一栏应填写“dawei”或“Dawei”都可以,但不可以填写“Da wei”。
摇钱树博客在《Google AdSense 推介广告即将在中国取消》一文中曾提到,Google 将会在本月取消中国地区的Google AdSense 推荐广告。过了这么几天,Google 又有新的政策了,一个好消息和一个坏消息。
还是先说说好消息吧。在新的AdSense 推介计划中,推介收入将取决于用户所在的地理位置,而与发布商的地理位置无关。如果您推介的用户在北美洲、拉丁美洲或日本,他们在 180 天内的收入达到 180 美元并且解除了所有付款保留,您就可以获得 100 美元的推介收入。不过您推介的其他地区的用户将不能给您带来推介收入。这些更新会在 1 月的最后两个星期开始生效。
这个所谓的“好消息”似乎对大多数的中国站长没什么用,除非你做的是英文站,否则哪有可能会推荐到国外的用户。
坏消息,中国地区的 Firefox 推介收入在2 月的第三个星期将会调低。这个变化将只针对来自中国地区的用户的转换,同样与发布商的位置无关。现在Firefox 推介也快没的做了,看来又有一大批靠推荐来赚钱的站长们要倒霉了。
还是那句话,光靠Google AdSense就能养活个站的时代已经过去了。站长们应该转变观念,分散风险,因此,多渠道赚钱才是正道。摇钱树博客上介绍了一些Google AdSense之外的赚钱渠道,你不妨试试。

URL 其英文完整拼写是Uniform Resource Locator,中文翻译意思为“统一资源定位系统”,也就是我们经常所说的网站地址。网站的URL可以说是一个网站的门面,URL设计的好坏很大程度上影响着网站的发展。那么如何才能为网站设计出好的URL呢?面向访问用户和搜索引擎友好的URL设计必须要考虑三个方面的要求:便于用户记忆、URL静态化和部署关键词。
便于用户记忆
URL的设计是否对于用户友好,这也是我们必须考虑的。我们会经常看到很多站点内容页面的URL是一长串令人捉摸不透的数字和字母组合,很不便于用户记忆。
我们给出的设计便于记忆的URL的建议是:根据访问用户的语言环境和文化素质情况而灵活采用英文或者汉语拼音,然后再加上有规律的数字组合来设计URL。
URL静态化
搜索引擎对静态的URL索引效率更高,这一点是在其对网站管理员的帮助指南里都有明确指出过。所以,在架构网站的时候采取静态页面架构或者实现动态URL伪静态化无疑是对搜索引擎友好的方法。WordPress用户可以采用URL重写的方式来实现URL伪静态化,具体可以参考《WordPress 永久链接或固定链接设置技巧》这篇文章。
URL的关键词部署
在URL里部署关键词的做法在英文语种的SEO工作中比较重视。比如摇钱树博客就充分采用了在URL部署关键词的策略。
- 最好建议使用关键词或关键词组合构成URL
- URL部分的各个关键词应使用“-”分隔
- 如果有名词的关键词出现,最好使用其的复数形式
本文为博客新手进阶系列文章
如何确保的你的网页存放空间被搜索引擎认为是“安全”的,而不会被其视为有悖相关规则?这里所指出的安全包括两个方面,即是空间运行的稳定性和其所处的环境。
一、安全元素一:稳定性
你必须确保你所购买的主机运行稳定,这样才会确保搜索引擎机器人对你网站进行索引的过程十分顺利。如果,搜索引擎机器人在对一个网站进行爬行的时候,正值该网站空间所在的服务器宕机,那么搜索引擎机器人将不会带回任何关于该网站的最新信息,如果搜索引擎蜘蛛连续好几次都不能获取该网站的信息的话,搜索引擎就视为该网站不可用,就会清除其索引数据。
所以在购买空间的时候一定要选择一个口碑好的服务商,这会为你的网站的稳定运行提供强大的保障。许多企业为了贪图一时的便宜而去使用免费空间,这种做法是不可取的。免费空间提供商不会承诺任何有保证的服务,诸如确保空间的稳定运行、网站数据备份和相关应急响应等,一旦出现事故,将会对网站造成致命的打击。
二、安全元素二:良好的共处环境
一般来说,大部分企业所使用的空间应该称之为虚拟主机,也叫共享主机(关于虚拟主机的知识附录中有说明)。根据共享主机的特点,我们知道,大部分企业的空间是和其他很多网站的空间公用同一个独立IP,那么我们可以形象的称这个IP下所有的网站都处在一个共处环境。
当你的网站准备入驻这个共处环境的时候,你应该有事先对这个环境有一个充分的考虑分析,从而来决定你的网站跟同一个IP下的网站呆在一起是否有风险。
哪我们该如何来评估你将购买的空间是否有风险呢?
首先,请确保你的网站不要和哪些发布有违反基本社会伦理道德信息(诸如反动和色情等)的网站共处。因为搜索引擎已经在其相关条款中明确指出,它们不会对这些类型的网站进行收录,如果同一个IP下存在有大量的这样不受欢迎的站点的话,搜索引擎可能要求搜索引擎机器人不会对该IP下的所有网站进行爬行索引,如果你的网站身处其中的话,结果可想而知。查询同一个IP下的站点工具:http://whois.webhosting.info/hotmail.com
其次,你的网站也不应该选择那些有搜索引擎排名作弊前科或嫌疑的网站为伍。由于一些网站的所有者怀有急功近利的心态,他们往往会采用一些搜索引擎排名作弊手法以期能快速获得排名效果。搜索引擎对这种行为是十分痛恨的,因为这些作弊网站一般都不会向用户提供有价值的信息同时也干扰搜索引擎排名的公平性。搜索引擎一旦发现了这些网站的作弊行为,就会对其处以相应的惩罚,它们或被搜索引擎降权或被删除数据。如果同一个IP下存在大量的有作弊行为的站点的话,该IP可能会被搜索引擎视为不友好,搜索引擎机器人也将不会对该IP下的所有站点进行索引,所以应该注意所启用的主机所属IP下的其他站点是不是有大范围作弊嫌疑。
做第一视频广告联盟已经有段时间了,效果一直都不错。说实话,笔者刚开始做第一视频的时候,也有过担心。那时候笔者发现第一视频的广告方就那么几个,会不会是第一视频自己的广告用来撑门面的呢?但是经过,这段时间的观察,笔者发现,这种担心是多余的。因为,我们可以看到不断有新的广告商加盟第一视频,同时,第一视频也在积极的寻求合作。这次与DoubleClick的合作就很好的说明了这点。
1月18日第一视频宣布,附属公司第一视频信息工程与DoubleClick(北京)订立协议。根据协议,DoubleClick提供专为针对和监测于第一视频及第一视频广告联播网客户的横幅广告的网站曝光率及点击率而设的专业技术服务。DoubleClick为网络媒体及网络广告商提供数码营销服务公司。
第一视频集团主席张力军表示,期望透过是次的策略性合作进一步将加强竞争力。这策略将增加使用第一视频广告联播网的广告客户量,并刺激第一视频广告联播网投放广告网站之人流及网页浏览次数。集团整体收入将随着广告客户及其喜好的准确性及精确度的提升而有所增长。
第一视频集团表示,该协议除进一步提高第一视频信息工程针对广告客户的有效率程度及能力,更以录像剪辑、文本连接、广告横幅、徽章或按钮的形式增加于第一视频广告联播网的广告费用。集团相信,是次合作将为第一视频广告联播网投放广告的客户量带来非常正面的影响。
继续探讨域名,如果一不小心注册了一个被搜索引擎惩罚过了的域名,这会为你的网站登录搜索引擎付出不少时间成本。一般来说,等搜索引擎刷新被惩罚域名所有人的信息后,它把该域名视为一个新域名,并对其站点网页进行重新索引,但是谁也不知道这个过程需要多少时间。那么,我们怎样才知道一个域名是否已经遭受搜索引擎惩罚了呢?
首先,我们可以使用site命令在主流搜索引擎中查询,来获取该域名在搜索引擎中的相关数据。比如,你想注册域名www.abc.com,那么针对该域名的site命令查询形式就为:site:abc.com。如果该域名在搜索引擎尚未存在收录数据,则有两种对该域名进行判断的可能:
- 该域名为一个新域名,未曾被人注册过。
- 该域名已经被人注册过,并被搜索引擎惩罚而删除了该域名所对应的网站收录数据。
到这一步,我们还不能最终决定该域名是不是要注册,因为其是否搜索引擎惩罚过暂时还不得而知。这时,我们可以通过http://www.archive.org/或者http://www.infomall.cn/查询域名历史。那么任何域名的不良记录都会显露无遗了。