Esempi robots.txt, domande sul file robots.txt

Robots.txt: domande frequenti ed esempi di utilizzo

> Voglio che non venga indicizzata nessuna pagina del mio sito su nessun motore di ricerca.

Utilizzo il file robots.txt contenente queste informazioni:

User-agent: *
Disallow: /


> Non voglio escludere nessuna pagina del mio sito dall'indicizzazione.

Utilizzo questa dicitura nel robots.txt:

User-agent: *
Disallow:


> Voglio che non venga indicizzata nessuna pagina del mio sito su Google ma che gli altri motori indicizzino correttamente il sito.

Nel file robots.txt mi rivolgo solo a googlebot:

User-agent: googlebot
Disallow: /


> Non voglio che i robot indicizzino i file .pdf presenti sul mio sito.

Nel file robots.txt scriverò:

User-agent: *

Disallow: /*.pdf$ # è richiesto il $ per dichiarare la fine del nome del file


> Voglio che le immagini con estensione .gif non vengano memorizzate da Google Images.

Utilizzo queste righe di codice nel robots.txt:

User-agent: googlebot-image
Disallow: /*.gif$


> Voglio bloccare l'indicizzazione dei file .xls presenti all'interno della cartella excel ma voglio indicizzare tutti quelli presenti in altre cartelle del sito.

Utilizzo questa dicitura nel robots.txt:

User-agent: *
Disallow: /excel/*.xls


> Il sito contiene pagine di varie estensioni: .php, .asp, .html. Come faccio a comunicare al bot di Google di indicizzare solo le pagine html?

Esistono 2 modi:

User-agent: googlebot
Allow: *.html$ # indicizzo solo le pagine .html
Disallow: / # e nient'altro


Oppure

User-agent: googlebot
Disallow: *.php$ # non indicizzo le pagine con estensione .php
Disallow: *.asp$ # non indicizzo le pagine con estensione .asp


> Voglio bloccare la cartella images del mio sito a tutti i bot a parte googlebot-image.

User-Agent: *
Disallow: /images/
User-Agent: googlebot-image
Allow: /images/


> A cosa serve il cancelletto # ?

Serve per inserire dei commenti che non vengono considerati dai motori di ricerca ma che possono essere utili per spiegare cosa stiamo dichiarando.

NB: l'utilizzo dell'asterisco (*) nel campo Disallow è riconosciuto da Google, Yahoo e Msn ma non è ritenuto un comando standard riconosciuto da ogni spider.