主机评测网,专注vps、独立服务器等主机评测
最专业的主机评测网站

WordPress根据实际需求优化robots配置,WordPress网站怎么利用robots.txt文件进行SEO优化

WordPress根据实际需求优化robots配置,WordPress网站怎么利用robots.txt文件进行SEO优化

昨天,WordPress 交流群里有人提到“如何防止搜索引擎索引 WordPress 网站”的必要性。大多数人都希望被搜索引擎收录,而少数人由于特殊需要和特殊原因不希望搜索引擎找到他们。,这个时候我们应该怎么做?在这里,草根吧VPS将根据自己的需要与大家分享如何编写和优化robots.txt文件。

WordPress根据实际需求优化robots配置,WordPress网站怎么利用robots.txt文件进行SEO优化

robots协议配置

首先,我们要使用robots.txt文件,那么什么是robots呢?

机器人是网站和爬虫之间的协议。它以简单直接的txt格式文本的方式告诉对应的爬虫允许的权限。也就是说,robots.txt 是访问网站时在搜索引擎中查看的第一个文件。当搜索蜘蛛访问一个站点时,它会首先检查站点根目录中是否存在 robots.txt。如果存在,搜索机器人会根据文件内容判断访问范围;如果该文件不存在,那么 all 的搜索蜘蛛将能够访问该站点上没有密码保护的所有页面。

在 robots.txt 文件中,Disallow 是禁止的,Allow 是允许的。您可以根据需要增加或减少。

WordPress 默认robots配置,大多数人可以使用以下配置。

// WordPress根据实际需求优化robots配置,WordPress网站怎么利用robots.txt文件进行SEO优化  // https://vps.caogenba.com.com/66379.html  User-agent: *  Disallow:   Disallow: /wp-admin/  Allow: /wp-admin/admin-ajax.php  Sitemap: https://vps.caogenba.com.com/sitemap.xml

这一段的意思是对所有搜索引擎采取一种默认的态度。我不允许或拒绝。我喜欢爬,但是 /wp-admin/ 目录不允许你爬!但是,因为/wp-admin/admin-ajax.php文件经常用于交互,所以单独允许。最后一句告诉搜索引擎,我的站点地图地址,你可以根据我的地图快速爬取。

WordPress禁止国内搜索引擎爬取配置

有些内容是国内人估计找不到的,下面的配置就可以了。

// WordPress根据实际需求优化robots配置,WordPress网站怎么利用robots.txt文件进行SEO优化  // https://vps.caogenba.com.com/66379.html  User-agent: Baiduspider  Disallow: /  User-agent: Sosospider  Disallow: /  User-agent: sogou spider  Disallow: /  User-agent: YodaoBot  Disallow: /  User-agent: *  Disallow: /wp-admin/  Sitemap: https://vps.caogenba.com/sitemap.xml

Disallow是禁止的,也就是说User-agent是百度,搜搜,搜狗,有道都不允许爬我的网站。当然,你可以根据自己的需要加减。毕竟,还有很多普通人不知道的小蜘蛛。是的,所以您需要通过在后台检查 User-agent 请求标头来添加它,并将其设置为 Disallow。此设置不会影响国外搜索引擎的索引。

但是如果搜索引擎不符合,就得用杀手锏了,请查看文末的进阶教程!

不太擅长优化 WordPress 配置

为什么说这里有“优化程度较低的 WordPress 配置”?因为草根吧VPS经常在群里听到“我*,昨天某个蜘蛛又爬了我的服务器……”等等。因此,如果您不愿意或无法优化您的 WordPress 网站,那么您可以使用以下robots配置。

// WordPress根据实际需求优化robots配置,WordPress网站怎么利用robots.txt文件进行SEO优化  // https://vps.caogenba.com.com/66379.html  User-agent: *  Disallow: /wp-admin/  Disallow: /wp-login.php  Disallow: /search/  Disallow: /?s=  Disallow: /readme.html  Disallow: /licence.txt  Disallow: /wp-config-sample.php  Disallow: /feed  Disallow: /*/feed  Disallow: /comments/feed  Disallow: /comments/  Disallow: /attachment/  crawl-delay: 5  Allow: /wp-admin/admin-ajax.php  Sitemap: https://vps.caogenba.com.com/sitemap.xml

这是在默认基础上配置的。crawl-delay 启用了传说中的 5 秒屏蔽,但这是蜘蛛的 5 秒屏蔽,它告诉搜索引擎蜘蛛在每次爬行前等待几秒钟。当然,你甚至可以设置10秒、30秒、9999999秒(最好是屏蔽)。

/search/ 或 /?s= 是为了防止蜘蛛爬行和搜索。很多小伙伴不会优化WordPress。一旦访问者或蜘蛛搜索,CPU 就会被填满。这时候可以通过升级服务器来解决问题,或者尝试对WordPress进行优化(

禁止爬取/readme.html、/licence.txt、/wp-config-sample.php是为了防止他人未经授权查看您使用的WordPress版本等信息,您也可以在此处重定向。

/feed、/*/feed、/comments/feed三兄弟是为了防止爬虫爬取你的rss订阅内容。当然,你也可以直接在 WordPress 后台关闭 rss 订阅。一般来说,rss页面对服务器的要求不是很高,一般不需要设置。

/comments/ 是为了防止蜘蛛爬取你的评论内容。如果你的站点评论很多,并且没有设置内存缓存或者 Nginx 缓存,那么每个评论页面服务器都必须生成一个页面,自然 CPU 负载会很高。

/attachment/ 是防止附件内容,即 WordPress 媒体库内容。

总之,简而言之,大部分人不需要设置以上配置。如果真的需要配置的话,毕竟大部分站长都是要流量的!哦,对了,记得把上面的Sitemap地址改成自己的!

禁止搜索引擎爬虫高级版

添加代码防止百度在你的 header.php 文件中包含快照:

<meta name="Baiduspider" content="noarchive">

不过百度不一定遵守机器人规则,可能还是会被收录,那就用下面的终极方法吧!

如果你使用的是Nginx,草根吧VPS以宝塔为例,在站点配置中插入如下代码:

if ($http_user_agent ~* (baiduspider|googlebot|soso|bing|sogou|yahoo|sohu-search|yodao|YoudaoBot|robozilla|msnbot|MJ12bot|NHN|Twiceler)) {  return 403;  }

长按保存(尝试重启Nginx),如有错误请根据错误修改!这时候去站长工具测试一下效果,看看是否返回403码。

:WordPress根据实际需求优化robots配置,WordPress网站怎么利用robots.txt文件进行SEO优化,https://vps.caogenba.com.com/66379.html

赞(0) 打赏
未经允许不得转载:主机测评 » WordPress根据实际需求优化robots配置,WordPress网站怎么利用robots.txt文件进行SEO优化

评论 抢沙发

登录

找回密码

注册