Nel file robots.txt è possibile utilizzare i seguenti comandi:
- User-Agent
- Disallow
- Allow
- Robot-version
- Visit-time
- Request-rate
- Comment
User-Agent: comunica a quale bot ci stiamo riferendo
User-agent: <nome spider>
Disallow: comunica agli spider di non indicizzare una pagina o una cartella
Disallow: <general>
Disallow: <explicit>
Disallow: <regex>
Allow: comunica agli spider di indicizzare una pagina o una cartella
Allow: <general>
Allow: <explicit>
Allow: <regex>
Robot-version: comunica a quale versione del bot ci stiamo riferendo
Robot-version: <version>
Visit-time: comunica agli spider l'intervallo di tempo in cui possono indicizzare le pagine
Visit-time: <time> '-' <time>
Esempio:
| Visit-time: 0900-1115 | # Vista le pagine soltanto tra le 09:00 AM e le 11:15 AM UT (GMT) |
| Request-rate: 1/10 | # Comunica agli spider di visitare al massimo una pagina ogni 10 secondi |