File robots.txt e SEO

Ottimizza robots.txt per posizionarti in SERP

Autore: Andrea Pacchiarotti
Ultimo aggiornamento: 06 Maggio 2023
Web Marketing SEO robots.txt

Robots.txt
Il file robots.txt per la SEO

La creazione del file testuale robots.txt ottimizzato è uno dei passaggi importanti per il posizionamento di un sito in SERP, ma bisogna prestare massima attenzione alla sua stesura perché, se mal strutturato, potrebbe essere un fattore SEO estremamente penalizzante. Il file robots.txt è, dunque, un file di testo semplice che viene utilizzato per comunicare ai motori di ricerca e ad altri user agent (come i web crawler) come interagire con il tuo sito web. In ottica SEO, svolge quindi un ruolo importante nella gestione dell'indicizzazione e delle risorse del sito web. Il file robots.txt va posizionato nella directory principale del sito web (ad esempio, https://www.andreapacchiarotti.it/robots.txt) perché i motori di ricerca si aspettano di trovarlo in questa posizione e potrebbero non riconoscerlo se viene spostato altrove. Curioso? Scopri il file robotx.txt per la SEO e il posizionamento in SERP!

Sommario robots.txt

Cos’è file robots.txt

I motori di ricerca scansionano i contenuti presenti in Rete attraverso i propri bot.
Gli spider dei motori (Googlebot per Google, Bingbot per Bing, Baiduspider per Baidu e così via per Yandex e gli altri search engine) prima d’ogni altra cosa leggono questo file di testo per capire quali URL di un determinato sito web devono scansionare e quali no.
Si potrebbe allora supporre che, una volta detto ai bot di non andare in una certa pagina o directory, questi non ci vadano, ma non è sempre così perché ciò che si indica nel file robots.txt sono solo delle direttive e non degli obblighi.
Per tale motivo, se si hanno cartelle o file assolutamente da non indicizzare è meglio, a seconda dei casi, proteggerli tramite password (attraverso i file .htpasswd e .htaccess), o inserire noindex nell’head della pagina.
Il file robots.txt è migliore per non consentire l’accesso a tutta una sezione di un sito, mentre il meta tag è più efficiente per negare l’accesso a singoli file.
<head> <meta name="…" content="…"> </head> indica agli spider come comportarsi rispetto ai contenuti della pagina. Gli attributi name e content non fanno distinzione tra maiuscole e minuscole.
Esempi:
<meta name="robots" content="noindex">
comunica a tutti i motori di ricerca di non mostrare la pagina nei risultati. Index è l’opposto ed è il default.
<meta name="googlebot" content="noindex">
indica a Google (ma non agli altri motori di ricerca) di non mostrare la pagina nei propri risultati.
Per specificare più crawler singolarmente, utilizzare più meta tag robots:
<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="…”>

Elenco dei crawler di Google.
I possibili parametri del metatag sono i seguenti:
Follow indica i link in uscita presenti nella pagina. È il default. Nofollow è l’opposto
Posso usare la virgola per impartire più istruzioni:
<meta name="robots" content="noindex,nofollow">
Archive consente di memorizzare una copia cache del documento e mostrarla nei risultati di ricerca. Noarchive è l’opposto. 
Noimageindex blocca l'indicizzazione delle immagini della pagina. Se le immagini sono linkate direttamente o sono raggiungibili in altro modo (es. elenco della directory, uso in altri articoli, ecc. ) sono comunque indicizzate dal motore.

Se il file non è presente nella root directory del sito web, i crawler ritengono che in quel sito web ogni pagina va scansionata e indicizzata, e questo, per ragioni di crawl budget, non è il massimo. Infatti nei grandi portali  il processo di scansione può risultare pesante e vietando l’accesso a determinate aree, lo si alleggerisce.

Inoltre se il file robots.txt contiene errori è plausibile che anche in questo caso verrà scansionato tutto il sito a meno che si commetta l’errore macroscopico di bloccare l’accesso agli stessi motori di ricerca: ciò renderà le pagine irrintracciabili in SERP.

Perché usare file robots.txt

Un uso comune del file è di bloccare la scansione dei motori di ricerca rispetto a determinate directory o pagine di un sito web, nel seguente esempio si nega l’accesso alla pagina privacy-policy.html. Il file robots.txt sarà qualcosa tipo:

User-agent:*
Disallow:privacy-policy.html

Massima attenzione però: si deve bloccare il bot SOLO per le pagine NON importanti lato SEO.

Non vanno bloccati neanche file e cartelle CSS, JS o simili perché i crawler devono vedere il sito come una persona reale.

Struttura file robots.txt

La struttura è banale e funziona con le seguenti etichette:
User-agent: indica a quale crawler vanno indirizzate le direttive, ad esempio il crawler generale di Google è, come detto, Googlebot. Per riferirsi a tutti i crawler, va usato un asterisco (*)
Disallow: dice allo User-agent che NON deve scansionare una certa URL
Allow: è il contrario di Disallow, usata per dare accesso a pagine interne alla directory messa in Disallow. Funziona solo per Google Esempio:
User-agent: Googlebot
Disallow:archivio
Allow:archivio/oggi.html

Crawl-delay: dice ai crawler di aspettare un certo numero di millisecondi prima di scansionare la prossima pagina. Non funziona per Google per il quale va modificata l’impostazione in Google Search Console
Sitemap: specifica al motore di ricerca la Sitemap del sito

Esempi di file robots.txt

User-agent: *
Allow:
Sitemap: https://www.miosito.it/sitemap.xml

Dà accesso a tutto il sito web, ma per questioni di crawl budget non è la soluzione ottimale, e segnala la presenza del file sitemap.xml

User-agent: * Allow:nomecartella/ scansiona tutti i file della directory nomecartella
Allow:paginaweb.html scansiona il file paginaweb.html, possono essere anche pagine con estensione diverse da .html.
Allow: scansiona tutti i file e le directory del sito

User-agent: *
Allow:directory/paginweb.html
Disallow:directory/

scansione paginaweb.html ma nega l’accesso agli altri file presenti in directory

User-agent: *
Disallow:

Intero sito non scansionabile

User-agent: Googlebot-Image
Disallow:

Tutte le immagini dell’intero sito non sono scansionabili per Google Immagini

User-agent: Googlebot-Image
Disallow:immagini/nascondi.png

Un’immagine del sito non è scansionabile per Google Immagini User-agent: *
Disallow:wp*/
Blocco di una serie di directory il cui nome inizia per…

User-Agent: *
Disallow:
User-Agent: Googlebot
Disallow:cgi-bin/

Blocco totale nei confronti di tutti gli spider, tranne Googlebot:

Disallow  non rimuove i contenuti indicizzati su Google, ma non vi fa accedere i motori. Per la rimozione c’è il tool apposito: Strumento per la rimozione degli URL.

È possibile commentare anteponendo # prima di una stringa:
# questo è un commento
oppure nel seguente modo
Disallow:cgi-bin/ # a questa directory non è permesso l’accesso

Nella Google Search Console, il Tester dei file robots.txt (sottovoce di Scansione) controlla se il file robots.txt creato presenta degli errori.

WordPress e file robots.txt

Quanto detto finora vale anche per WordPress, il cui file è una cosa del genere:

User-agent: *
Disallow:wp-admin/
Allow:wp-admin/admin-ajax.php

Non è modificabile, ne va quindi creato uno che lo sostituirà.

File robots.txt e Yoast SEO
Creare il file robots.txt con Yoast SEO:

  1. Dalla dashboard di WordPress clicca SEO
  2. Clicca Strumenti
  3. Clicca Modifica file
  4. Usa il pulsante Crea file robots.txt per crearne uno con le impostazioni predefinite di WordPress

Conclusione

Creare un file robots.txt ottimizzato non è difficile, quindi non aspettare e crea il tuo per migliorare il posizionamento di un sito in SERP!
Per capire quali codici usare nel file robots.txt puoi anche visitare il sito ufficiale relativo al Protocollo di Esclusione Robots.

Se il file robotx.txt per la SEO e il posizionamento in SERP ti è piaciuto, condividi l'articolo!


Per saperne di più sul Web Marketing potrebbero interessarti questi libri:

Se vuoi approfondire alcuni dei temi trattati, visita la pagina con le mie pubblicazioni cartacee e online

Segui l'hashtag #AndreaPacchiarotti