wordpress怎么写robots.txt文件以及设置说明

robots.txt文件是搜索引擎抓取某个网站时第一个访问的文件,该文件告诉搜索引擎什么文件可以抓取什么文件不可访问。合理的书写robots.txt文件不仅可以节约带宽等服务器资源而且可以节约蜘蛛资源 ,提高网站对蜘蛛的友好度。比如不同的链接可能会指向相似的网页内容,这不符合SEO上讲的“网页内 容互异性原则”,而采用robots.txt文件可以屏蔽掉次要的或者没用的链接。

robots文件作用图
robots文件作用图

鉴于自由国度采用的是wordpress搭建的,下面就介绍一下wordpress站点是如何书写robots.txt文件的 。

robots常用语句及说明如下:

 User agent: * //这里*号说明了语句对所有搜索引擎有效,如*换成 baidu spider说明只适用于百度蜘蛛
        Disallow: /wp-admin //不让百度蜘蛛抓取后台登陆页面地址,主要是考虑到服务器安全
        Disallow: /wp-login.php //屏蔽后台登陆页面
        Disallow: /wp-content/plugins //禁止百度蜘蛛抓取插件文件
        Disallow: /wp-content/themes //禁止抓取主题文件
        Disallow: /wp-includes //屏蔽掉wordpress的底层程序目录包括js文件等
        Disallow: /?s=* //屏蔽搜索结果路径,主要是避免搜索结果的缓存被搜索引擎收录
        Disallow: /?r=* //屏蔽留言

Disallow: /?p=* //屏蔽掉非固定链接的文章页面路径,因为每个页面中都有一个短连接使用的是?p=的路径。

Disallow: /trackback //屏蔽wordpress的页面回评路径
Disallow: /feed //屏蔽wordpress的内容订阅路径
Disallow: /*?* //屏蔽掉页面中的动态路径
Disallow: /index.php //屏蔽掉首页默认页面的index.php 页面地址
Disallow: /comments/feed //屏幕wordpress评论的订阅路径
Disallow: /date/ //屏蔽按日期分类显示的列表页面
Disallow: /author/ //屏蔽作者文章列表页面
Disallow: /page/1$ //屏蔽翻页路径中的数字路径
Disallow: /*/*/page/ //屏蔽分类目录的翻页路径
Disallow: /*/*/feed //屏蔽wordpress分类目录、文章页面的订阅路径
Disallow: /*/*/trackback //屏蔽wordpress分类目录、文章页面的回评路径
        Sitemap: https://www.xiaoluboke.com/sitemap.xml //用来告诉蜘蛛网站地图的路径

人们对robots.txt的常见误区

1. 不设置robots.txt文件

有些人想当然的认为要想让搜索引擎收录全部链接就可以不设置这个文件了,其实不是这样的,如果没有robots.txt文件,搜索引擎机器人查看没有Robots.txt文件的时候就产生一个404错误日志在服务器上,增加服务器的负担。

2. allow所有页面

有些人会想不设置robots.txt不行那就设置后再allow所有页面把,这样搜索引擎不单单收录了你文章页面,还收录了管理界面,模板链接,CSS、JS链接,虽然说WordPress的管理界面谁都可以猜得到,不怕泄漏出去,但是这样不仅会浪费服务器的资源,而且搜索引擎收录了这些链接是不会增加网站收录数的。

设置robots文件注意事项

首先要注意的是robots.txt这个文件名一定要小写,这里是区分大小写的,另外该文件内的命令语句也是区分大小写的,切记。另外每个语句一行不能隔行或换行。

最后总结

网站一定要有robots.txt文件,而且要把网站地图添加进去。至于allow和disallow的内容除了本文中标红的语句建议一定要有外其他的可以按需添加。

发布者

alien

alien,喜欢网络技术,崇尚自由