Generatore di Robots.txt
Creare file robots.txt SEO-friendly per controllare l'accesso dei crawler
🌐 Informazioni sul sito web
🤖 Controllo Crawler
Selezionare quali crawler configurare:
🚫 Regole del percorso
⏱ ️ Ritardo di crawl (facoltativo)
Impostare il ritardo di scansione per specifici bot (secondi tra le richieste):
📄 robots.txt Anteprima
⚠ ️ Importante: Inserisci il file robots.txt nella directory radice del tuo dominio (ad esempio, https://example.com/robots.txt )
Che cos'è un file Robots.txt?
A roboti.txt file è un file di testo situato nella directory radice del tuo sito web che dice ai crawler dei motori di ricerca quali pagine o file possono o non possono richiedere dal tuo sito.
Fa parte del Protocollo di esclusione dei robot (REP)Un gruppo di standard web che regolano come i robot scansionano e indicizzano il web.
Mentre robots.txt non è una misura di sicurezza (gli utenti esperti possono ancora accedere a pagine non consentite), è essenziale per:
- Prevenire problemi di contenuti duplicati
- Gestione del budget del crawl
- Mantenere le pagine interne private
- Direzione dei crawler alla tua sitemap
Sintassi di base
User-agent: * Allow: / Disallow: /admin/ Sitemap: https://example.com/sitemap.xml
Robots.txt Migliori pratiche
Fare
- Posizionare nella directory radice
- Utilizzare casing coerenti
- Fai riferimento alla tua sitemap
- Test con Google Search Console
Non fare
- Bloccare file CSS o JS
- Usare noindex come sostituto
- Disattiva l'intero sito
- Blocca le pagine dei risultati della ricerca
Consigli Pro
- * I wildcard () sono supportati
- Usare $ per la fine dell'URL
- Crawl-delay è solo un suggerimento
- Controllare i log per l'attività del bot