近期有做外贸独立站的小伙伴咨询谷推科技,问为什么他的外贸独立站提示 robots.txt 无效,Lighthouse 无法下载 robots.txt 文件。这个问题要如何处理?最简单的处理方法就是自己手动重写一个 robots.txt 文件,在写的时候注意让搜索引擎抓取网站的 sitemap 和提醒搜索引擎不要抓取后台。不同的网站内核对应的情况有所不同,单本质是一样的。
是什么原因导致网站提示 robots.txt 无效
情况1:robots.txt 文件中有语法错误:请检查您的 robots.txt 文件是否存在语法错误,特别是在使用自定义规则时容易出现错误。可以使用一些在线工具(例如Google Search Console的robots.txt测试工具)来检查您的 robots.txt 文件是否有问题。
情况2:服务器无法访问 robots.txt 文件:请确保您的 robots.txt 文件位于正确的位置,并且服务器可以正常访问它。如果您的 robots.txt 文件位于根目录下,请使用以下 URL 进行访问:https://yourdomain.com/robots.txt。
情况3:robots.txt 文件中限制了搜索引擎的访问:请检查您的 robots.txt 文件是否限制了搜索引擎的访问。如果您不想限制搜索引擎的访问,可以删除所有相关规则或者使用以下规则:
User-agent: *
Disallow:
这将允许所有搜索引擎访问您的网站。
情况4:网站可能被标记为 SPAM:如果您的网站被搜索引擎标记为 SPAM,那么您的 robots.txt 文件可能无法生效。请检查您的网站是否存在不良行为,例如关键字堆砌、隐藏文本等。
以谷推科技为例,自己写robots.txt文件
当前(2023年4月12日)谷推科技使用的是WordPress的内核,用的是Avada主题,所以谷推科技的robots.txt文件设置如下
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /cgi-bin/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-content/cache/
Disallow: /author/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: /search/
Sitemap: https://www.googletui.com/wp-sitemap.xml
如上图所示,我们告诉了搜索引擎,你不要去抓取我的一些项目,里面的 Disallow: 就是不要抓取,最后把网站的sitemap提供上,告诉搜索引擎赶紧去抓取这个吧。