robots.txt生成器
创建符合SEO规范的robots.txt文件,以控制爬蟲的访问
网站信息
爬蟲控制
选择要配置的爬蟲:
路徑规则
尚未添加任何规则。单击 “添加规则” 开始。
抓取延遲(可选)
设置特定机器人的抓取延遲(请求之间的秒数):
谷歌爬蟲
秒
必应机器人
秒
雅andex
秒
robots.txt预览
重要: 將robots.txt文件放置在域名的根目录下(例如, https://example.com/robots.txt )
什麼是robots.txt文件?
一 机器人协议 該文件是位于您网站根目录下的文本文件,用于告知搜索引擎爬蟲哪些页面或文件可以或不可以從您的网站抓取。
它是……的一部分 机器人排除协议(代表),一组网络标准,规范机器人如何抓取和索引网页。
雖然robots.txt并非一种安全措施(精明的用户仍可访问未獲授权的页面),但它对于以下方面至关重要:
- 防止重复内容问题
- 管理爬网预算
- 保持内部页面私密
- 將爬蟲程序定向到您的网站地图
基本语法
User-agent: * Allow: / Disallow: /admin/ Sitemap: https://example.com/sitemap.xml
robots.txt最佳实踐
✅
做
- 放置在根目录中
- 使用一致的套管
- 引用您的网站地图
- 使用Google Search Console进行测试
❌
不要
- 阻止CSS或JS文件
- 使用noindex作为替代
- 不允許整个站點
- 阻止搜索结果页面
💡
专业技巧
- 支持通配符 ()
- 使用 $ 作为URL的结尾
- 爬行 -- 延遲只是一个建议
- 检查机器人活动的日志