Il file #robots.txt per la SEO

Un file robots.txt ottimizzato per il posizionamento in SERP

Autore: Andrea Pacchiarotti
Ultimo aggiornamento: 27 Giugno 2019
Categoria: SEO

Robots.txt
Il file #robots.txt per la SEO

La creazione del file testuale robots.txt (da scrivere in minuscolo) è uno dei passaggi importanti per il posizionamento di un sito in SERP, ma bisogna prestare massima attenzione alla sua stesura perché, se mal strutturato, potrebbe essere un fattore SEO estremamente penalizzante.

Indice robots.txt

Cos’è il file robots.txt?

I motori di ricerca scansionano i contenuti presenti in Rete attraverso i propri bot.
Gli spider dei motori (Googlebot per Google, Bingbot per Bing, Baiduspider per Baidu e così via per Yandex, ecc.) prima d’ogni altra cosa leggono questo file di testo per capire quali URL di un determinato sito web “devono” scansionare e quali no.
Si potrebbe allora supporre che, una volta detto ai bot di non andare in una certa pagina o directory, questi non ci vadano, ma non è sempre così perché ciò che si indica nel file robots.txt sono solo delle direttive e non degli obblighi.
Per tale motivo, se si hanno cartelle o file assolutamente da non indicizzare, è meglio, a seconda dei casi, proteggerli tramite password (attraverso i file .htpasswd e .htaccess), oppure usare il file .htaccess o infine inserire noindex nell’head della pagina.
Il file robots.txt è migliore per non consentire l’accesso a tutta una sezione di un sito, mentre il meta tag è più efficiente per negare l’accesso a singoli file.
<head><meta name="…" content="…" /></head> indica agli spider come comportarsi rispetto ai contenuti della pagina. Gli attributi name e content non fanno distinzione tra maiuscole e minuscole.
Esempi:
<meta name="robots" content="noindex" />
comunica a tutti i motori di ricerca di non mostrare la pagina nei risultati. Index è l’opposto ed è il default.
<meta name="googlebot" content="noindex" />
 indica a Google (ma non agli altri motori di ricerca) di non mostrare la pagina nei propri risultati.
Per specificare più crawler singolarmente, utilizzare più meta tag robots:
<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="…”>
Elenco dei crawler di Google: https://support.google.com/webmasters/answer/1061943?hl=it
I possibili parametri del metatag sono i seguenti:
Follow indica i link in uscita presenti nella pagina. È il default. Nofollow è l’opposto
Posso usare la , per impartire più istruzioni:
<meta name="robots" content="noindex,nofollow" />
Archive consente di memorizzare una copia cache del documento e mostrarla nei risultati di ricerca. Noarchive è l’opposto. 
Noimageindex blocca l'indicizzazione delle immagini della pagina. Se le immagini sono linkate direttamente o sono raggiungibili in altro modo ( es. elenco della directory, uso in altri articoli, ecc. ) sono comunque indicizzate dal motore.

Se il file non è presente nella root directory del sito web, i crawler ritengono che in quel sito web ogni pagina va scansionata e indicizzata, e questo, per ragioni di crawl budget, non è il massimo. Infatti nei grandi portali  il processo di scansione può risultare pesante e vietando l’accesso a determinate aree, lo si alleggerisce.

Inoltre se il file robots.txt contiene errori è plausibile che anche in questo caso verrà scansionato tutto il sito a meno che si commetta l’errore macroscopico di bloccare l’accesso agli stessi motori di ricerca: ciò renderà le pagine irrintracciabili in SERP.

Perché usare il file robots.txt?

Un uso comune del file è di bloccare la scansione dei motori di ricerca rispetto a determinate directory o pagine di un sito web, nel seguente esempio si nega l’accesso alla pagina privacy-policy.html. Il file robots.txt sarà qualcosa tipo:


User-agent:*
Disallow: /privacy-policy.html

Massima attenzione però: si deve bloccare il bot SOLO per le pagine NON importanti lato SEO.

Non vanno bloccati neanche file e cartelle CSS, JS o simili perché i crawler devono vedere il sito come una persona reale.

Struttura del file robots.txt

La struttura è banale e funziona con le seguenti etichette:
User-agent: indica a quale crawler vanno indirizzate le direttive, ad esempio il crawler generale di Google è Googlebot. Per riferirsi a tutti i crawler, va usato un asterisco (*).
Disallow: dice allo User-agent che NON deve scansionare una certa URL.
Allow: è il contrario di Disallow, usata per dare accesso a pagine interne alla directory messa in Disallow. Funziona solo per Google. Esempio:


User-agent: Googlebot
Disallow: /archivio
Allow: /archivio/oggi.html

Crawl-delay: dice ai crawler di aspettare un certo numero di millisecondi prima di scansionare la prossima pagina. Non funziona per Google per il quale va modificata l’impostazione in Google Search Console.
Sitemap: specifica al motore di ricerca la Sitemap del sito.
Esempi di file robots.txt


User-agent: *
Allow: /
Sitemap: https://www.miosito.it/sitemap.xml

Dà accesso a tutto il sito web, ma per questioni di crawl budget non è la soluzione ottimale, e segnala la presenza del file sitemap.xml

User-agent: *
Allow: /nomecartella/ scansiona tutti i file della directory nomecartella
Allow: /paginaweb.html scansiona il file paginaweb.html, possono essere anche pagine con estensione diverse da .html.

Allow: / scansiona tutti i file e le directory del sito

 
User-agent: * 
Allow: /directory/paginweb.html 
Disallow: /directory/ 

scansione paginaweb.html ma nega l’accesso agli altri file presenti in directory

 
User-agent: * 
Disallow: /

Intero sito non scansionabile

User-agent: Googlebot-Image
Disallow: /

Tutte le immagini dell’intero sito non sono scansionabili per Google Immagini

User-agent: Googlebot-Image
Disallow: /immagini/nascondi.png

Un’immagine del sito non è scansionabile per Google Immagini

User-agent: *
Disallow: /wp*/

Blocco di una serie di directory il cui nome inizia per…

User-Agent: *
Disallow: /
User-Agent: Googlebot
Disallow: /cgi-bin/

Blocco totale nei confronti di tutti gli spider, tranne Googlebot:

Disallow  non rimuove i contenuti indicizzati su Google, ma non vi fa accedere i motori. Per la rimozione c’è il tool apposito: Strumento per la rimozione degli URL.

È possibile commentare anteponendo # prima di una stringa:
# questo è un commento
oppure nel seguente modo
Disallow: /cgi-bin/ # a questa directory non è permesso l’accesso

Nella Google Search Console, il Tester dei file robots.txt (sottovoce di Scansione) controlla se il file robots.txt creato presenta degli errori.
Quanto detto finora vale anche per WordPress, il cui file è una cosa del genere:


User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Non è modificabile, ne va quindi creato uno che lo sostituirà.

Conclusione

Creare un file robots.txt ottimizzato non è difficile, quindi non aspettare e crea il tuo per migliorare il posizionamento del tuo sito in SERP!


Se vuoi approfondire alcuni dei temi trattati, visita la pagina con le mie pubblicazioni cartacee e online.

Se vuoi contattarmi chiamami al 347.2291870, scrivimi su pacchiarotti@gmail.com o su WhatsApp oppure compila il form sottostante

Segui l'hashtag #AndreaPacchiarotti

Consento il trattamento dei dati personali. GDPR 2016/679 - Privacy policy