I Segreti dei Motori di Ricerca
Capitolo 2: Dettagli tecnici di grande importanza e la scelta dell'hosting
Lezione 1
Il file Robots
Il file Robots.txt (è errato
al singolare Robot.txt) è un file di testo (come è evidente
dalla sua estensione) che è stato pensato proprio per dare
delle indicazioni ai motori di ricerca in fase
di ‘spidering’.
Lo spidering è quell’azione – compiuta appunto da un
motore di ricerca (o spider, crawler, bot), che è finalizzata allo
scaricamento e all’immagazzinamento di pagine web che sono disponibili
pubblicamente in Internet.
Il file Robots.txt è fondamentale per varie ragioni:
In primis, bisogna pensare che non tutti
i siti web che sono pubblicati in rete desiderano essere indicizzati nei
motori di ricerca.
Può sembrare un paradosso, ma molti siti sono pensati per una cerchia
ristretta di utenti e non desiderano ottenere una pubblicità eccessiva
o un pubblico diverso da quello che si è scelto di avere.
Certo, si tratta di casi isolati rispetto alla maggior parte dei siti
web (i cui proprietari gradiscono siano visualizzati sempre il più
possibile, anche con ricerche – query – non perfettamente
attinenti), ma sono casi che esistono.
Lo standard per l'esclusione dei robot (che – come abbiamo detto
– è sinonimo di ‘spider’) si utilizza un normale
file di testo, da creare attraverso un qualunque text editor (bbedit,
textpad, wordpad etc).
Questo file deve essere chiamato "robots.txt" e contiene,
in un particolare formato, delle istruzioni che possono impedire a tutti
o soltanto ad alcuni spider (quindi: motori di ricerca) il prelievo di
alcune o tutte le pagine del sito.
Una volta creato il file robots.txt, questo deve essere pubblicato nella
directory principale del sito web.
Ad esempio, se il sito ha indirizzo http://www.freeonline.it , il file dovrà
essere accessibile all'indirizzo http://www.freeonline.it/robots.txt .
Tutti i motori di ricerca conosciuti aderiscono alla
a questa ‘normativa’ (per quanto non sia stata scritta in
nessuna legge nazionale o internazionale) e quindi sono obbligati
(deontologicamente anche se non tecnicamente) a seguire le indicazioni
del file robots.txt.
Quindi, qualora un motore di ricerca (tipicamente, attraverso un link)
acceda a una qualsiasi delle nostr pagine, la prima cosa che esso andrà
a verificare sarà la possibilità (l’autorizzazione)
a spiderare le pagine di quel sito, ‘informandosi’ su quali
possono essere le sezioni (pagine ) spiderabili (e quindi atte a essere
inserite nell’indice) e quali no (nel caso ci siano delle limitazioni).
In una stessa pagina è possibile indicare quali sono i link che
possono essere ‘seguiti’ e quelli che invece debbono essere
ignorati, in quanto il proprietario del sito (per ragioni che non dobbiamo
stare qui a considerare) non gradisce che vengano inserite nell’indice
del motore di ricerca.
E’ bene ricordare che il file robots.txt serve per ‘dichiarare’
ai motori di ricerca quali sono le pagine web che NON debbono essere spiderate.
In assenza di questo file, i motori di ricerca si sentono nel diritto
di spiderare e di inserire nell’indice tutte le pagine relative
al sito web individuato.
Normalmente non conviene limitare gli spider, ma anche
quando si ritiene che sia utile che il proprio sito venga spiderato per
intero è bene inserire comunque un file robots.txt e questo perché
dà al motore di ricerca l’idea che il sito sia stato costruito
correttamente e seguendo tutte le regole della Setiquette, ovverosia
della netiquette applicata e dedicata ai motori di ricerca. Un
sito che non contenga questo file (nella dirextory principale) può
essere perciò considerato poco professionale (a prescindere dalla
quantità e dalla qualità delle pagine che si consente di
spiderare) e quindi può essere penalizzato in fase di indicizzazione
e soprattutto di posizionamento nelle SERP (Search Engine Page Results).
« Lezione precedente
| Lezione successiva »
|