File robots.txt e SEO
Ottimizza robots.txt per posizionarti in SERP
Autore: Andrea Pacchiarotti
Ultimo aggiornamento: 06 Maggio 2023
Web Marketing SEO robots.txt
La creazione del file testuale robots.txt ottimizzato è uno dei passaggi importanti per il posizionamento di un sito in SERP, ma bisogna prestare massima attenzione alla sua stesura perché, se mal strutturato, potrebbe essere un fattore SEO estremamente penalizzante. Il file robots.txt è, dunque, un file di testo semplice che viene utilizzato per comunicare ai motori di ricerca e ad altri user agent (come i web crawler) come interagire con il tuo sito web. In ottica SEO, svolge quindi un ruolo importante nella gestione dell'indicizzazione e delle risorse del sito web. Il file robots.txt va posizionato nella directory principale del sito web (ad esempio, https://www.andreapacchiarotti.it/robots.txt) perché i motori di ricerca si aspettano di trovarlo in questa posizione e potrebbero non riconoscerlo se viene spostato altrove. Curioso? Scopri il file robotx.txt per la SEO e il posizionamento in SERP!
Sommario robots.txt
- Cos’è il file robots.txt
- Perché usare il file robots.txt
- Struttura del file robots.txt
- WordPress e file robots.txt
- File robots.txt e Yoast SEO
- Conclusione
Cos’è file robots.txt
I motori di ricerca scansionano i contenuti presenti in Rete attraverso i propri bot.
Gli spider dei motori (Googlebot per Google, Bingbot per Bing, Baiduspider per Baidu e così via per Yandex e gli altri search engine) prima d’ogni altra cosa leggono questo file di testo per capire quali URL di un determinato sito web devono scansionare e quali no.
Si potrebbe allora supporre che, una volta detto ai bot di non andare in una certa pagina o directory, questi non ci vadano, ma non è sempre così perché ciò che si indica nel file robots.txt sono solo delle direttive e non degli obblighi.
Per tale motivo, se si hanno cartelle o file assolutamente da non indicizzare è meglio, a seconda dei casi, proteggerli tramite password (attraverso i file .htpasswd e .htaccess), o inserire noindex nell’head della pagina.
Il file robots.txt è migliore per non consentire l’accesso a tutta una sezione di un sito, mentre il meta tag è più efficiente per negare l’accesso a singoli file.
<head> <meta name="…" content="…"> </head> indica agli spider come comportarsi rispetto ai contenuti della pagina. Gli attributi name e content non fanno distinzione tra maiuscole e minuscole.
Esempi:
<meta name="robots" content="noindex">
comunica a tutti i motori di ricerca di non mostrare la pagina nei risultati. Index è l’opposto ed è il default.
<meta name="googlebot" content="noindex">
indica a Google (ma non agli altri motori di ricerca) di non mostrare la pagina nei propri risultati.
Per specificare più crawler singolarmente, utilizzare più meta tag robots:
<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="…”>
Elenco dei crawler di Google.
I possibili parametri del metatag sono i seguenti:
Follow indica i link in uscita presenti nella pagina. È il default. Nofollow è l’opposto
Posso usare la virgola per impartire più istruzioni:
<meta name="robots" content="noindex,nofollow">
Archive consente di memorizzare una copia cache del documento e mostrarla nei risultati di ricerca. Noarchive è l’opposto.
Noimageindex blocca l'indicizzazione delle immagini della pagina. Se le immagini sono linkate direttamente o sono raggiungibili in altro modo (es. elenco della directory, uso in altri articoli, ecc. ) sono comunque indicizzate dal motore.
Se il file non è presente nella root directory del sito web, i crawler ritengono che in quel sito web ogni pagina va scansionata e indicizzata, e questo, per ragioni di crawl budget, non è il massimo. Infatti nei grandi portali il processo di scansione può risultare pesante e vietando l’accesso a determinate aree, lo si alleggerisce.
Inoltre se il file robots.txt contiene errori è plausibile che anche in questo caso verrà scansionato tutto il sito a meno che si commetta l’errore macroscopico di bloccare l’accesso agli stessi motori di ricerca: ciò renderà le pagine irrintracciabili in SERP.
Perché usare file robots.txt
Un uso comune del file è di bloccare la scansione dei motori di ricerca rispetto a determinate directory o pagine di un sito web, nel seguente esempio si nega l’accesso alla pagina privacy-policy.html. Il file robots.txt sarà qualcosa tipo:
User-agent:*Disallow:privacy-policy.html
Massima attenzione però: si deve bloccare il bot SOLO per le pagine NON importanti lato SEO.
Non vanno bloccati neanche file e cartelle CSS, JS o simili perché i crawler devono vedere il sito come una persona reale.
Struttura file robots.txt
La struttura è banale e funziona con le seguenti etichette:
User-agent: indica a quale crawler vanno indirizzate le direttive, ad esempio il crawler generale di Google è, come detto, Googlebot. Per riferirsi a tutti i crawler, va usato un asterisco (*)
Disallow: dice allo User-agent che NON deve scansionare una certa URL
Allow: è il contrario di Disallow, usata per dare accesso a pagine interne alla directory messa in Disallow. Funziona solo per Google Esempio:
User-agent: Googlebot
Disallow:archivio
Allow:archivio/oggi.html
Crawl-delay: dice ai crawler di aspettare un certo numero di millisecondi prima di scansionare la prossima pagina. Non funziona per Google per il quale va modificata l’impostazione in Google Search Console
Sitemap: specifica al motore di ricerca la Sitemap del sito
Esempi di file robots.txt
User-agent: *Allow:
Sitemap: https://www.miosito.it/sitemap.xml
Dà accesso a tutto il sito web, ma per questioni di crawl budget non è la soluzione ottimale, e segnala la presenza del file sitemap.xml
User-agent: *
Allow:nomecartella/ scansiona tutti i file della directory nomecartella
Allow:paginaweb.html scansiona il file paginaweb.html, possono essere anche pagine con estensione diverse da .html.
Allow: scansiona tutti i file e le directory del sito
User-agent: *
Allow:directory/paginweb.html
Disallow:directory/
scansione paginaweb.html ma nega l’accesso agli altri file presenti in directory
User-agent: *
Disallow:
Intero sito non scansionabile
User-agent: Googlebot-Image
Disallow:
Tutte le immagini dell’intero sito non sono scansionabili per Google Immagini
User-agent: Googlebot-Image
Disallow:immagini/nascondi.png
Un’immagine del sito non è scansionabile per Google Immagini
User-agent: *
Disallow:wp*/
Blocco di una serie di directory il cui nome inizia per…
User-Agent: *
Disallow:
User-Agent: Googlebot
Disallow:cgi-bin/
Blocco totale nei confronti di tutti gli spider, tranne Googlebot:
Disallow non rimuove i contenuti indicizzati su Google, ma non vi fa accedere i motori. Per la rimozione c’è il tool apposito: Strumento per la rimozione degli URL.
È possibile commentare anteponendo # prima di una stringa:
# questo è un commento
oppure nel seguente modo
Disallow:cgi-bin/ # a questa directory non è permesso l’accesso
Nella Google Search Console, il Tester dei file robots.txt (sottovoce di Scansione) controlla se il file robots.txt creato presenta degli errori.
WordPress e file robots.txt
Quanto detto finora vale anche per WordPress, il cui file è una cosa del genere: User-agent: *Disallow:wp-admin/
Allow:wp-admin/admin-ajax.php
Non è modificabile, ne va quindi creato uno che lo sostituirà.
File robots.txt e Yoast SEO
Creare il file robots.txt con Yoast SEO:
- Dalla dashboard di WordPress clicca SEO
- Clicca Strumenti
- Clicca Modifica file
- Usa il pulsante Crea file robots.txt per crearne uno con le impostazioni predefinite di WordPress
Conclusione
Creare un file robots.txt ottimizzato non è difficile, quindi non aspettare e crea il tuo per migliorare il posizionamento di un sito in SERP!
Per capire quali codici usare nel file robots.txt puoi anche visitare il sito ufficiale relativo al Protocollo di Esclusione Robots.
Se il file robotx.txt per la SEO e il posizionamento in SERP ti è piaciuto, condividi l'articolo!
Per saperne di più sul Web Marketing potrebbero interessarti questi libri: