Kaj je datoteka Robots.txt in kako jo ustvarite? (Vodnik za začetnike)

09-08-202309-08-2023 Patrick Harvey

Kazalo

Ali ste vedeli, da imate popoln nadzor nad tem, kdo prebira in indeksira vaše spletno mesto, vse do posameznih strani?

To storite z datoteko Robots.txt.

Robots.txt je preprosta besedilna datoteka, ki se nahaja v korenskem imeniku vašega spletnega mesta. "Robotom" (kot so pajki iskalnikov) pove, katere strani naj prebirajo na vašem spletnem mestu in katerih strani naj ne upoštevajo.

Datoteka Robots.txt sicer ni nujna, vendar omogoča veliko nadzora nad tem, kako Google in drugi iskalniki vidijo vaše spletno mesto.

Ob pravilni uporabi lahko to izboljša pregledovanje in celo vpliva na SEO.

Kako natančno ustvarite učinkovito datoteko Robots.txt? Kako jo uporabljate, ko jo ustvarite? In katerim napakam se morate pri uporabi izogniti?

V tej objavi bom delil vse, kar morate vedeti o datoteki Robots.txt in kako jo uporabiti na svojem blogu.

Poglejmo naprej:

Kaj je datoteka Robots.txt?

Na začetku interneta so programerji in inženirji ustvarili "robote" ali "pajke", ki so brskali po spletnih straneh in jih indeksirali. Ti roboti so znani tudi kot "agenti za uporabnike".

Včasih ti roboti pridejo na strani, za katere lastniki spletnih mest niso želeli, da se indeksirajo, na primer na spletno mesto v gradnji ali zasebno spletno mesto.

Za rešitev te težave je Martijn Koster, nizozemski inženir, ki je ustvaril prvi iskalnik na svetu (Aliweb), predlagal niz standardov, ki bi jih moral upoštevati vsak robot. Ti standardi so bili prvič predlagani februarja 1994.

30. junija 1994 so številni avtorji robotov in prvi pionirji spleta dosegli soglasje o standardih.

Ti standardi so bili sprejeti kot "protokol o izključitvi robotov" (REP).

Datoteka Robots.txt je implementacija tega protokola.

Če je v Robots.txt robotom naročeno, naj ne indeksirajo spletne strani, mora vsak legitimni robot - od Googlebota do MSNbota - upoštevati ta navodila.

Opomba: Seznam legitimnih pregledovalnikov najdete tukaj.

Ne pozabite, da nekateri nepridipravi - zlonamerna programska oprema, vohunska programska oprema, stroji za zbiranje e-pošte itd. - morda ne bodo upoštevali teh protokolov. Zato se lahko na straneh, ki ste jih blokirali v datoteki Robots.txt, pojavi promet robotov.

Obstajajo tudi roboti, ki ne upoštevajo standardov REP in se ne uporabljajo za nič spornega.

Robots.txt katere koli spletne strani si lahko ogledate na tem naslovu:

//[domena spletne strani]/robots.txt

Na primer, tukaj je datoteka Robots.txt družbe Facebook:

Tukaj je Googlova datoteka Robots.txt:

Uporaba Robots.txt

Robots.txt ni bistven dokument za spletno mesto. Vaše spletno mesto se lahko uvršča in raste brez te datoteke.

Vendar ima uporaba Robots.txt nekaj prednosti:

Preprečite botom, da bi brskali po zasebnih mapah - Čeprav to ni popolno, bo prepoved brskanja po zasebnih mapah precej otežila njihovo indeksiranje - vsaj za legitimne robote (kot so pajki iskalnikov).
Nadzor uporabe virov - Vsakič, ko robot preiskuje vaše spletno mesto, porablja pasovno širino in strežniške vire - vire, ki bi jih bilo bolje porabiti za prave obiskovalce. Pri spletnih mestih z veliko vsebine lahko to poveča stroške in pravim obiskovalcem omogoči slabo izkušnjo. S programom Robots.txt lahko blokirate dostop do skript, nepomembnih slik itd., da prihranite vire.
Prednostno razvrstite pomembne strani - Želite, da pajki iskalnikov preiskujejo pomembne strani na vašem spletnem mestu (na primer strani z vsebino) in ne zapravljajo virov za brskanje po neuporabnih straneh (na primer po rezultatih iskalnih poizvedb). Z blokiranjem takšnih neuporabnih strani lahko določite prednostne strani, na katere se boti osredotočajo.

Kako najti datoteko Robots.txt

Kot pove že ime, je Robots.txt preprosta besedilna datoteka.

Ta datoteka je shranjena v korenskem imeniku vaše spletne strani. Če jo želite najti, odprite orodje FTP in pojdite v imenik svoje spletne strani v razdelku public_html.

To je majhna besedilna datoteka - moja ima nekaj več kot 100 bajtov.

Če ga želite odpreti, uporabite kateri koli urejevalnik besedila, na primer Notepad:

Obstaja možnost, da v korenskem imeniku spletnega mesta ne boste videli datoteke Robots.txt. V tem primeru boste morali datoteko Robots.txt ustvariti sami.

Tukaj je opisano, kako:

Kako ustvariti datoteko Robot.txt

Ker je Robots.txt osnovna besedilna datoteka, je njeno ustvarjanje zelo preprosto - odprite urejevalnik besedila in shranite prazno datoteko kot robots.txt.

Če želite to datoteko prenesti v strežnik, se z najljubšim orodjem FTP (priporočam uporabo WinSCP) prijavite v spletni strežnik. Nato odprite mapo public_html in odprite korenski imenik svojega spletnega mesta.

Korenski imenik vašega spletnega mesta je lahko neposredno v mapi public_html, lahko pa je tudi v drugi mapi znotraj nje, odvisno od tega, kako je konfiguriran vaš spletni gostitelj.

Ko odprete korenski imenik svojega spletnega mesta, vanj povlecite in spustite datoteko Robots.txt.

Datoteko Robots.txt lahko ustvarite tudi neposredno v urejevalniku FTP.

To storite tako, da odprete korenski imenik spletnega mesta in desno kliknete -> Ustvari novo datoteko.

V pogovorno okno vnesite "robots.txt" (brez narekovajev) in pritisnite OK.

V njej morate videti novo datoteko robots.txt:

Nazadnje se prepričajte, da ste za datoteko Robots.txt nastavili pravo dovoljenje. Želite, da lastnik, torej vi sami, lahko bere in piše datoteko, vendar ne drugim ali javnosti.

V datoteki Robots.txt mora biti kot koda dovoljenja navedena "0644".

Če tega ne stori, z desno tipko miške kliknite datoteko Robots.txt in izberite "Dovoljenja za datoteke...".

In je tu - popolnoma funkcionalna datoteka Robots.txt!

Toda kaj lahko dejansko storite s to datoteko?

Poglej tudi: RafflePress Pregled 2023: Ali je to najboljši WordPress Contest Plugin?

V nadaljevanju vam bom predstavil nekaj običajnih navodil, ki jih lahko uporabite za nadzor dostopa do svojega spletnega mesta.

Kako uporabljati Robots.txt

Ne pozabite, da Robots.txt v bistvu nadzoruje, kako roboti sodelujejo z vašim spletnim mestom.

Želite iskalnikom preprečiti dostop do celotnega spletnega mesta? Preprosto spremenite dovoljenja v Robots.txt.

Želite preprečiti, da bi Bing indeksiral vašo stran za stike? Tudi to lahko storite.

Poglej tudi: Primerjava najboljših orodij za pisanje: za Mac & amp; PC

Datoteka Robots.txt sama po sebi ne bo izboljšala vaše SEO, lahko pa jo uporabite za nadzor obnašanja pajkov na vašem spletnem mestu.

Če želite dodati ali spremeniti datoteko, jo preprosto odprite v urejevalniku FTP in neposredno dodajte besedilo. Ko datoteko shranite, se spremembe takoj odrazijo.

Tukaj je nekaj ukazov, ki jih lahko uporabite v datoteki Robots.txt:

1. Blokirajte vse bote na svojem spletnem mestu

Želite blokirati vse robote, ki ne smejo brskati po vašem spletnem mestu?

To kodo dodajte v datoteko Robots.txt:

User-agent: *

Prepovedati: /

Tako je videti v dejanski datoteki:

Preprosto povedano, ta ukaz vsakemu uporabniškemu agentu (*) pove, da ne sme dostopati do nobenih datotek ali map na vašem spletnem mestu.

Tukaj je popolna razlaga, kaj se tu dogaja:

Uporabniški agent:* - Zvezdica (*) je znak "wild-card", ki se uporablja za vsak Če na svojem računalniku poiščete "*.txt", se prikažejo vse datoteke s končnico .txt. Tukaj zvezdica pomeni, da se ukaz nanaša na vsak user-agent.
Prepoved: / - "Disallow" je ukaz robots.txt, ki botom prepoveduje pregledovanje mape. Ena poševnica naprej (/) pomeni, da ta ukaz uporabljate za korenski imenik.

Opomba: To je idealno, če upravljate katero koli zasebno spletno mesto, na primer člansko spletno mesto. Vendar se zavedajte, da to prepreči vsem legitimnim robotom, kot je Google, da bi brskali po vašem spletnem mestu. Uporabljajte previdno.

2. Blokirajte vse bote pri dostopu do določene mape

Kaj pa, če želite botom preprečiti pregledovanje in indeksiranje določene mape?

Na primer mapa /images?

Uporabite ta ukaz:

 Uporabniški agent: *  Prepoved: /[ime mape]/

Če bi želeli botom preprečiti dostop do mape /images, bi bil ukaz videti takole:

Ta ukaz je uporaben, če imate mapo z viri, ki je ne želite preobremeniti z zahtevami robotskih pajkov. To je lahko mapa z nepomembnimi skriptami, zastarelimi slikami itd.

Opomba: Mapa /images je zgolj primer. Ne trdim, da bi morali blokirati brskanje po tej mapi. Odvisno je od tega, kaj želite doseči.

Iskalniki običajno ne odobravajo, če spletni skrbniki svojim robotom preprečijo brskanje po mapah, ki niso slikovne, zato bodite previdni pri uporabi tega ukaza. Spodaj sem navedel nekaj alternativ za Robots.txt, s katerimi lahko iskalnikom preprečite indeksiranje določenih strani.

3. Blokiranje določenih robotov na vašem spletnem mestu

Kaj pa, če želite določenemu robotu, kot je Googlebot, preprečiti dostop do spletnega mesta?

Tukaj je ukaz za to:

 Uporabniški agent: [ime robota]  Prepovedati: /

Če želite na primer blokirati Googlebota na svojem spletnem mestu, uporabite to:

Vsak legitimni robot ali uporabniški agent ima posebno ime. Googlov pajek se na primer imenuje preprosto "Googlebot". Microsoft uporablja "msnbot" in "bingbot". Yahoojev robot se imenuje "Yahoo! Slurp".

Za iskanje natančnih imen različnih uporabniških agentov (kot so Googlebot, bingbot itd.) uporabite to stran.

Opomba: Z zgornjim ukazom bi določen robot blokiral celotno spletno mesto. Googlebot je uporabljen zgolj kot primer. V večini primerov Googlu nikoli ne bi želeli preprečiti brskanja po vašem spletnem mestu. Poseben primer uporabe za blokiranje določenih robotov je, da na vaše spletno mesto prihajajo roboti, ki vam koristijo, medtem ko zaustavite tiste, ki vašemu spletnemu mestu ne koristijo.

4. Blokiranje določene datoteke pred pregledovanjem

Protokol za izključitev robotov omogoča natančen nadzor nad tem, do katerih datotek in map želite preprečiti dostop robotom.

Tukaj je ukaz, s katerim lahko preprečite, da bi kateri koli robot brskal po datoteki:

 Uporabniški agent: *  Prepovedati: /[ime mape]/[ime_datoteke.razširitev]

Če želite blokirati datoteko z imenom "img_0001.png" iz mape "images", uporabite ta ukaz:

5. Blokiranje dostopa do mape, vendar omogočanje indeksiranja datoteke

Ukaz "Disallow" blokira dostop do mape ali datoteke.

Ukaz "Dovoli" naredi nasprotno.

Ukaz "Dovoli" nadomešča ukaz "Prepovej", če je prvi namenjen posamezni datoteki.

To pomeni, da lahko blokirate dostop do mape, vendar uporabniškim agentom še vedno omogočite dostop do posamezne datoteke v mapi.

Uporabite naslednjo obliko:

 Uporabniški agent: *  Prepoved: /[ime mape]/ 
 Dovolite: /[ime mape]/[ime_datoteke.razširitev]/

Če bi na primer želeli preprečiti Googlu, da bi brskal po mapi "images", vendar bi mu kljub temu želeli omogočiti dostop do datoteke "img_0001.png", shranjene v njej, bi uporabili tole obliko:

V zgornjem primeru bi bil videti takole:

S tem bi preprečili indeksiranje vseh strani v imeniku /search/.

Kaj pa, če želite preprečiti indeksiranje vseh strani, ki ustrezajo določeni razširitvi (na primer ".php" ali ".png")?

Uporabite to:

 Uporabniški agent: *  Prepoved: /*.extension$

Znak ($) tukaj pomeni konec URL, tj. končnica je zadnji niz v URL.

Če želite blokirati vse strani s končnico ".js" (za Javascript), uporabite tole:

Ta ukaz je še posebej učinkovit, če želite botom preprečiti, da bi brskali po skriptih.

6. Preprečite, da bi roboti prepogosto brskali po vašem spletnem mestu

V zgornjih primerih ste morda videli ta ukaz:

 Uporabniški agent: *  Zakasnitev pri plazenju: 20

Ta ukaz vsem robotom naroča, naj med posameznimi zahtevami za pregledovanje počakajo najmanj 20 sekund.

Ukaz Crawl-Delay se pogosto uporablja na velikih spletnih mestih s pogosto posodobljeno vsebino (kot je Twitter). S tem ukazom ukazate botom, da med naslednjimi zahtevami počakajo najmanjši čas.

S tem je zagotovljeno, da strežnik ni preobremenjen s prevelikim številom zahtevkov različnih robotov hkrati.

To je na primer datoteka Robots.txt družbe Twitter, ki robotom naroča, naj med posameznimi zahtevami počakajo najmanj 1 sekundo:

Nadzorujete lahko tudi zakasnitev pregledovanja za posamezne robote. To zagotavlja, da preveč robotov ne pregleda vašega spletnega mesta hkrati.

Morda imate na primer nabor ukazov, kot je ta:

Opomba: Tega ukaza vam ne bo treba uporabljati, razen če upravljate obsežno spletno mesto z več tisoč novimi stranmi, ustvarjenimi vsako minuto (kot Twitter).

Najpogostejše napake, ki se jim je treba izogniti pri uporabi Robots.txt

Datoteka Robots.txt je učinkovito orodje za nadzor obnašanja botov na vašem spletnem mestu.

Vendar pa lahko privede tudi do katastrofe SEO, če ga ne uporabljate pravilno. Ne pomaga niti to, da po spletu krožijo številne napačne predstave o Robots.txt.

Tukaj je nekaj napak, ki se jim morate izogniti pri uporabi Robots.txt:

Napaka #1 - Uporaba Robots.txt za preprečevanje indeksiranja vsebine

Če v datoteki Robots.txt prepoveš določeno mapo, je legitimni roboti ne bodo prebrskali.

Vendar to še vedno pomeni dvoje:

Boti bodo pregledali vsebino mape, ki je povezana z zunanjimi viri. Če se drugo spletno mesto poveže z datoteko v blokirani mapi, jo bodo roboti indeksirali.
Navidezni roboti - pošiljatelji neželene pošte, vohunska in zlonamerna programska oprema itd. - običajno ne upoštevajo navodil v Robots.txt in vašo vsebino indeksirajo ne glede na to.

Zaradi tega je Robots.txt slabo orodje za preprečevanje indeksiranja vsebine.

Namesto tega uporabite oznako "meta noindex".

Na straneh, ki jih ne želite indeksirati, dodajte naslednjo oznako:

To je priporočena in SEO prijazna metoda za preprečitev indeksiranja strani (čeprav še vedno ne preprečuje pošiljanja neželene pošte).

Opomba: Če uporabljate vtičnik WordPress, kot je Yoast SEO ali All in One SEO, lahko to storite brez urejanja kode. V vtičniku Yoast SEO lahko na primer dodate oznako noindex na posamezno objavo/stranko, na primer:

Odprite objavo/strani in kliknite na gumb znotraj polja Yoast SEO. Nato kliknite spustno okno poleg "Meta robots index".

Poleg tega bo Google od 1. septembra dalje prenehal podpirati uporabo "noindex" v datotekah robots.txt. V tem članku iz SearchEngineLand najdete več informacij.

Napaka #2 - Uporaba Robots.txt za zaščito zasebne vsebine

Če imate zasebno vsebino - na primer datoteke PDF za e-poštni tečaj - bo blokiranje imenika z datoteko Robots.txt pomagalo, vendar ne bo dovolj.

Zakaj:

Vaša vsebina se lahko še vedno indeksira, če je povezana iz zunanjih virov. Poleg tega jo bodo prevarantski roboti še vedno pregledovali.

Boljša metoda je, da vso zasebno vsebino hranite za prijavo. Tako bo zagotovljeno, da nihče - legitimni ali nepošteni roboti - ne bo imel dostopa do vaše vsebine.

Slaba stran je, da morajo obiskovalci preskočiti še eno dodatno oviro, vendar bo vaša vsebina bolj varna.

Napaka #3 - Uporaba Robots.txt za preprečevanje indeksiranja podvojene vsebine

Duplikatna vsebina je na področju SEO zelo prepovedana.

Vendar uporaba datoteke Robots.txt za preprečitev indeksiranja te vsebine ni prava rešitev. Tudi v tem primeru ni zagotovila, da pajki iskalnikov te vsebine ne bodo našli prek zunanjih virov.

Tukaj so še trije načini za podvajanje vsebine:

Brisanje podvojene vsebine - S tem se boste v celoti znebili vsebine. Vendar to pomeni, da boste iskalnike pripeljali do strani 404, kar ni idealno, brisanje ni priporočljivo. .
Uporabite 301 preusmeritev - S preusmeritvijo 301 iskalnikom (in obiskovalcem) sporočite, da se je stran preselila na novo lokacijo. Preprosto dodajte preusmeritev 301 na podvojeno vsebino, da obiskovalce preusmerite na izvirno vsebino.
Dodajte oznako rel="canonical" - Ta oznaka je meta različica preusmeritve 301. Oznaka "rel=canonical" sporoča Googlu, kateri je prvotni URL za določeno stran:
//example.com/original-page.html " rel="canonical" />
Googlu pove, da je stran - original-page.html - "izvirna" različica podvojene strani. Če uporabljate WordPress, lahko to oznako preprosto dodate z uporabo Yoast SEO ali All in One SEO.

Če želite, da obiskovalci lahko dostopajo do podvojene vsebine, uporabite rel="canonical" oznaka. Če ne želite, da obiskovalci ali roboti dostopajo do vsebine, uporabite preusmeritev 301.

Bodite previdni pri izvajanju obeh, saj bosta vplivala na vašo SEO.

Prepuščam vam.

Datoteka Robots.txt je koristen zaveznik pri oblikovanju načina, na katerega pajki iskalnikov in drugi roboti komunicirajo z vašim spletnim mestom. Ob pravilni uporabi lahko pozitivno vpliva na vaše uvrstitve in olajša pregledovanje spletnega mesta.

V tem vodniku boste razumeli, kako deluje Robots.txt, kako se namesti in kako ga lahko uporabite. Izognite se tudi napakam, ki smo jih opisali zgoraj.

Sorodno branje:

Najboljša orodja za sledenje rangov za blogerje, v primerjavi
Dokončni vodnik za pridobivanje Google Sitelinks
5 zmogljivih orodij za raziskovanje ključnih besed v primerjavi