robots.txt生成器
創建符合SEO規範的robots.txt文件,以控制爬蟲的訪問
網站信息
爬蟲控制
選擇要配置的爬蟲:
路徑規則
尚未添加任何規則。單擊 “添加規則” 開始。
抓取延遲(可選)
設置特定機器人的抓取延遲(請求之間的秒數):
谷歌爬蟲
秒
必應機器人
秒
雅andex
秒
robots.txt預覽
重要: 將robots.txt文件放置在域名的根目錄下(例如, https://example.com/robots.txt )
什麼是robots.txt文件?
一 機器人協議 該文件是位於您網站根目錄下的文本文件,用於告知搜索引擎爬蟲哪些頁面或文件可以或不可以從您的網站抓取。
它是……的一部分 機器人排除協議(代表),一組網絡標準,規範機器人如何抓取和索引網頁。
雖然robots.txt並非一種安全措施(精明的用戶仍可訪問未獲授權的頁面),但它對於以下方面至關重要:
- 防止重複內容問題
- 管理爬網預算
- 保持內部頁面私密
- 將爬蟲程序定向到您的網站地圖
基本語法
User-agent: * Allow: / Disallow: /admin/ Sitemap: https://example.com/sitemap.xml
robots.txt最佳實踐
✅
做
- 放置在根目錄中
- 使用一致的套管
- 引用您的網站地圖
- 使用Google Search Console進行測試
❌
不要
- 阻止CSS或JS文件
- 使用noindex作為替代
- 不允許整個站點
- 阻止搜索結果頁面
💡
專業技巧
- 支持通配符 ()
- 使用 $ 作為URL的結尾
- 爬行 -- 延遲只是一個建議
- 檢查機器人活動的日誌