Robots.txt: domande frequenti ed esempi di utilizzo
> Voglio che non venga indicizzata nessuna pagina del mio sito su nessun motore di ricerca.
Utilizzo il file robots.txt contenente queste informazioni:
User-agent: *
Disallow: /
> Non voglio escludere nessuna pagina del mio sito dall'indicizzazione.
Utilizzo questa dicitura nel robots.txt:
User-agent: *
Disallow:
> Voglio che non venga indicizzata nessuna pagina del mio sito su Google ma che gli altri motori indicizzino correttamente il sito.
Nel file robots.txt mi rivolgo solo a googlebot:
User-agent: googlebot
Disallow: /
> Non voglio che i robot indicizzino i file .pdf presenti sul mio sito.
Nel file robots.txt scriverò:
User-agent: *
| Disallow: /*.pdf$ |
# è richiesto il $ per dichiarare la fine del nome del file |
> Voglio che le immagini con estensione .gif non vengano memorizzate da Google Images.
Utilizzo queste righe di codice nel robots.txt:
User-agent: googlebot-image
Disallow: /*.gif$
> Voglio bloccare l'indicizzazione dei file .xls presenti all'interno della cartella excel ma voglio indicizzare tutti quelli presenti in altre cartelle del sito.
Utilizzo questa dicitura nel robots.txt:
User-agent: *
Disallow: /excel/*.xls
> Il sito contiene pagine di varie estensioni: .php, .asp, .html. Come faccio a comunicare al bot di Google di indicizzare solo le pagine html?
Esistono 2 modi:
User-agent: googlebot
| Allow: *.html$ |
# indicizzo solo le pagine .html |
| Disallow: / |
# e nient'altro |
Oppure
User-agent: googlebot
| Disallow: *.php$ |
# non indicizzo le pagine con estensione .php |
| Disallow: *.asp$ |
# non indicizzo le pagine con estensione .asp |
> Voglio bloccare la cartella images del mio sito a tutti i bot a parte googlebot-image.
User-Agent: *
Disallow: /images/
User-Agent: googlebot-image
Allow: /images/
> A cosa serve il cancelletto # ?
Serve per inserire dei commenti che non vengono considerati dai motori di ricerca ma che possono essere utili per spiegare cosa stiamo dichiarando.
NB: l'utilizzo dell'
asterisco (*) nel campo Disallow è riconosciuto da Google, Yahoo e Msn ma non è ritenuto un comando standard riconosciuto da ogni spider.