Eno od orodij za upravljanje indeksiranja spletnih mest s strani iskalnikov je datoteka robots.txt. Uporablja se predvsem za preprečevanje, da bi vsi ali samo nekateri roboti prenašali vsebino določenih skupin strani. To vam omogoča, da se znebite "smeti" v rezultatih iskalnika in v nekaterih primerih znatno izboljšate uvrstitev vira. Za uspešno uporabo je pomembno imeti pravilno datoteko robots.txt.
Potrebno
urejevalnik besedil
Navodila
Korak 1
Naredite seznam robotov, za katere bodo določena posebna pravila o izključitvi ali bodo uporabljene direktive razširjenega standarda robots.txt, pa tudi nestandardne in posebne direktive (razširitve določenega iskalnika). Na ta seznam vnesite vrednosti polj User-Agent v glavah zahtev HTTP, ki jih izbrani roboti pošljejo na strežnik mesta. Imena robotov lahko najdete tudi v referenčnih odsekih spletnih mest iskalnikov.
2. korak
Na seznamu, sestavljenem v prvem koraku, izberite skupine URL-jev virov spletnega mesta, do katerih bi moral biti zavrnjen dostop vsakemu robotu. Izvedite enako operacijo za vse druge robote (nedoločen nabor indeksirnih botov). Z drugimi besedami, rezultat bi moralo biti več seznamov, ki vsebujejo povezave do odsekov spletnega mesta, skupin strani ali virov medijskih vsebin, katerih indeksiranje je prepovedano. Vsak seznam mora ustrezati drugemu robotu. Prav tako bi moral biti seznam prepovedanih URL-jev za vse druge bote. Sezname sestavljajte na podlagi primerjave logične strukture spletnega mesta s fizično lokacijo podatkov na strežniku, pa tudi z razvrščanjem URL-jev strani po njihove funkcionalne značilnosti. Na sezname za zavrnitev lahko na primer vključite vsebino vseh katalogov storitev (razvrščenih po lokaciji) ali vseh strani uporabniškega profila (razvrščenih po namenu).
3. korak
Izberite znake URL-jev za vsak vir na seznamih, sestavljenih v drugem koraku. Pri obdelavi seznamov izključitev za robote, ki uporabljajo samo standardne direktive robots.txt in nedoločene robote, označite edinstvene dele URL-jev največje dolžine. Za preostale nabore naslovov lahko ustvarite predloge v skladu s specifikacijami določenih iskalnikov.
4. korak
Ustvarite datoteko robots.txt. Vanjo dodajte skupine direktiv, od katerih vsaka ustreza naboru pravil prepovedi za določenega robota, katerega seznam je bil sestavljen v prvem koraku. Slednjemu mora slediti skupina smernic za vse druge robote. Ločite skupine pravil z eno prazno vrstico. Vsak nabor pravil se mora začeti z direktivo User-agent, ki identificira robota, čemur sledi direktiva Disallow, ki prepoveduje indeksiranje skupin URL. V tretjem koraku dobite vrstice z vrednostmi direktiv Disallow. Ločite direktive in njihov pomen z dvopičjem. Razmislite o naslednjem primeru: User-agent: YandexDisallow: / temp / data / images / User-agent: * Disallow: / temp / data / Ta sklop direktiv daje navodila glavnemu robotu Iskalnik Yandex ne indeksira URL-ja, ki vsebuje podniz / temp / data / images /. Prav tako vsem ostalim robotom preprečuje indeksiranje URL-jev, ki vsebujejo / temp / data /.
5. korak
Dopolnite datoteko robots.txt z razširjenimi standardnimi smernicami ali posebnimi smernicami iskalnikov. Primeri takih direktiv so: gostitelj, zemljevid spletnega mesta, stopnja zahtev, čas obiska, zakasnitev iskanja.