Zer da Robots.txt fitxategi bat? Eta nola sortzen duzu bat? (Hasiberrientzako Gida)

 Zer da Robots.txt fitxategi bat? Eta nola sortzen duzu bat? (Hasiberrientzako Gida)

Patrick Harvey

Ba al zenekien zure webgunea nork arakatzen eta indexatzen duen kontrolatzen duzula?

Hau egiteko modua Robots.txt izeneko fitxategi baten bidez da.

Robots.txt zure guneko erro-direktorioan kokatzen den testu-fitxategi soil bat da. "Robotei" (adibidez, bilatzaileen armiarmak) esaten die zein orrialde arakatu behar diren zure webgunean, zeintzuk baztertu behar diren.

Ezinbestekoa ez den arren, Robots.txt fitxategiak Google-k eta nola kontrolatzen duen kontrolatzen dizu. beste bilatzaile batzuek zure gunea ikusten dute.

Ondo erabiltzen denean, horrek arakatzea hobetu dezake eta baita SEO eragina ere.

Baina nola sortzen duzu zehazki Robots.txt fitxategi eraginkorra? Behin sortuta, nola erabiltzen duzu? Eta zer akats saihestu beharko zenuke erabiltzen duzun bitartean?

Argitalpen honetan, Robots.txt fitxategiari buruz jakin behar duzun guztia eta nola erabili zure blogean partekatuko dut.

Murgil gaitezen:

Zer da Robots.txt fitxategia?

Interneten lehen garaietan, programatzaile eta ingeniariek "robot" edo "armiarmak" sortu zituzten. sareko orriak arakatzeko eta indexatzeko. Robot hauek "erabiltzaile-agente" gisa ere ezagutzen dira.

Batzuetan, robot horiek guneetako jabeek indexatu nahi ez zituzten orrietara sartzen ziren. Adibidez, eraikitzen ari den gune bat edo webgune pribatu bat.

Arazo hau konpontzeko, Martijn Koster ingeniari holandarrak, munduko lehen bilatzailea (Aliweb) sortu zuenak, robot bakoitzak egingo lukeen estandar multzo bat proposatu zuen.kanpoko iturrietatik estekatuta dagoen karpeta. Esan, beste gune batek blokeatutako karpetako fitxategi batera estekatzen badu, bot-ek indexatze baten bidez jarraituko dute.

  • Rogue bots-ek (spammer-ek, spyware, malware-ek, etab.) normalean Robots.txt-eko argibideak ez ikusi egingo dituzte eta zure indexatuko dute. edukia edozein dela ere.
  • Horrek tresna eskasa bihurtzen du Robots.txt edukia indexatzea saihesteko.

    Hona hemen erabili behar duzuna: erabili 'meta noindex' etiketa.

    Gehitu etiketa hau indexatu nahi ez dituzun orrietan:

    Hau da orrialde bat indexatzeari uzteko gomendatutako metodoa eta SEO egokia (oraindik blokeatzen ez duen arren spammers).

    Oharra: Yoast SEO edo All in One SEO bezalako WordPress plugin bat erabiltzen baduzu; hau egin dezakezu inolako koderik editatu gabe. Adibidez, Yoast SEO pluginean noindex etiketa gehi dezakezu mezu/orri bakoitzeko honela:

    Ireki eta argitaratu/orria eta egin klik Yoast SEO koadroaren barruko engranajean. . Ondoren, egin klik 'Meta robots index' aukeraren ondoko goitibeherako aukera.

    Gainera, Google-k robots.txt fitxategietan "noindex" erabiltzeari utziko dio irailaren 1etik aurrera. SearchEngineLand-eko artikulu honek informazio gehiago du.

    2. akatsa - Robots.txt erabiltzea eduki pribatua babesteko

    Eduki pribatua baduzu, adibidez, posta elektronikoko ikastaro baterako PDFak, direktorioa blokeatzea. Robots.txt fitxategiak lagunduko du, baina ez da nahikoa.

    Hona hemen zergatik:

    Zure edukia agianhala ere, indexatu egiten da kanpoko iturrietatik lotuta badago. Gainera, robot gaiztoek arakatzen jarraituko dute.

    Metodo hobe bat eduki pribatu guztia saioa hasteko atzean mantentzea da. Horrek ziurtatuko du inork ez duela zure edukia atzituko (bot legitimoak edo maltzurrak).

    Arazo txarra da zure bisitariek salto egiteko uztai gehigarri bat dutela esan nahi duela. Baina, zure edukia seguruagoa izango da.

    3. akatsa - Robots.txt erabiltzea eduki bikoiztuak indexatzeari uzteko

    Edukia bikoiztua ez-ezezko handia da SEO-rako orduan.

    Hala ere, eduki hau indexatzeari uzteko Robots.txt erabiltzea ez da irtenbidea. Berriro ere, ez dago bermatzen bilatzaileen armiarmak eduki hau kanpoko iturrien bidez aurkituko ez duenik.

    Hona hemen bikoiztutako edukia emateko beste 3 modu:

    • Ezabatu bikoiztutako edukia - Honek edukia guztiz kenduko du. Hala ere, horrek esan nahi du bilatzaileak 404 orrialdetara eramaten ari zarela - ez da ideala. Hori dela eta, ez da gomendatzen ezabatzea .
    • Erabili 301 birbideratzea – 301 birbideratzeak bilatzaileei (eta bisitariei) orri bat kokapen berri batera eraman duela agintzen die. . Gehitu besterik gabe 301 birbideraketa bat eduki bikoiztuan bisitariak jatorrizko edukira eramateko.
    • Gehitu rel="canonical" etiketa – Etiketa hau 301 birbideratzearen 'meta' bertsioa da. "rel=canonical" etiketak orri zehatz baten jatorrizko URLa zein den esaten dio Googleri. Izan ereAdibidez kode hau:

      //example.com/original-page.html ” rel="canonical" />

      Google-ri esaten dio orria - original-page.html - bikoiztutako orriaren "jatorrizko" bertsioa dela. WordPress erabiltzen baduzu, etiketa hau erraz gehitzen da Yoast SEO edo All in One SEO erabiliz.

    Bisitariek eduki bikoiztua atzitu ahal izatea nahi baduzu, erabili . rel="canonical" etiketa. Ez baduzu nahi bisitariek edo bot-ek edukia atzitzea, erabili 301 birbideraketa.

    Kontuz biak inplementatzen, zure SEO eragina izango dutelako.

    Zure esku

    Robots.txt fitxategia aliatu erabilgarria da bilatzaileen armiarmak eta beste bot-ek zure webgunearekin elkarreragiten duten modua moldatzeko. Ongi erabiltzen direnean, zure sailkapenean eragin positiboa izan dezakete eta zure webgunea errazago arakatzea.

    Erabili gida hau Robots.txt-ek nola funtzionatzen duen, nola instalatzen den eta erabiltzeko modu arrunt batzuk ulertzeko. . Eta saihestu goian aipatu ditugun akatsak.

    Erlazionatutako irakurketa:

    • Blogarien sailkapen-tresnarik onenak, alderatuta
    • Google Sitelinkak lortzeko behin betiko gida
    • Hitz gakoen ikerketarako 5 tresna indartsuak alderatuta
    atxiki behar. Estandar hauek 1994ko otsailean proposatu ziren lehen aldiz.

    1994ko ekainaren 30ean, robot-egile batzuek eta web aitzindariek estandarrei buruzko adostasuna lortu zuten.

    Estandar hauek "Robots Exclusion" gisa onartu ziren. Protocol” (REP).

    Robots.txt fitxategia protokolo honen inplementazio bat da.

    REP-k arakatzaile edo armiarma legitimo bakoitzak jarraitu behar dituen arau-multzo bat definitzen du. Robots.txt-ek robotei web-orririk ez indexatzeko agintzen badie, legezko robot guztiek (Googlebot-etik MSNbot-era) jarraibideak jarraitu beharko dituzte.

    Oharra: Arakatzaile legitimoen zerrendak egin dezake. hemen aurki daiteke.

    Kontuan izan robot maltzur batzuek (malwarea, spywarea, posta elektronikoaren biltzaileak, etab.) agian ez dituztela protokolo hauek betetzen. Horregatik, robots.txt bidez blokeatu dituzun orrietan bot trafikoa ikus dezakezu.

    Badaude REP estandarrak betetzen ez dituzten robotak ere, zalantzazko ezertarako erabiltzen ez direnak.

    Edozein webguneren robots.txt ikus dezakezu URL honetara joanda:

    //[webgune_domeinua]/robots.txt

    Adibidez, hona hemen Facebook-en Robots.txt fitxategia:

    Eta hona hemen Google-ren Robots.txt fitxategia:

    Robots.txt-en erabilera

    Robots.txt ez da webgunerako ezinbesteko dokumentua. Zure webgunea ezin hobeto sailkatu eta haz daiteke fitxategi hau gabe.

    Hala ere, Robots.txt erabiltzeak abantaila batzuk eskaintzen ditu:

    • Ez bota bot-ek karpeta pribatuak arakatzea – Perfektua ez den arren, bot-ak karpeta pribatuak arakatzeari uko egiteak askoz zailagoa izango du indexatzea, gutxienez bot legitimoek (adibidez, bilatzaileen armiarmak).
    • Baliabideen erabilera kontrolatzea - ​​ Bot batek zure webgunea arakatzen duen bakoitzean, zure banda-zabalera eta zerbitzariaren baliabideak agortzen ditu - benetako bisitarietan hobeto gastatuko liratekeen baliabideak. Eduki asko duten guneetarako, horrek kostuak areagotu ditzake eta benetako bisitariei esperientzia txarra eman diezaieke. Robots.txt erabil dezakezu scriptetarako, garrantzirik gabeko irudietarako eta abarretarako sarbidea blokeatzeko, baliabideak kontserbatzeko.
    • Lehenetsi orrialde garrantzitsuak - Bilatzaileen armiarmak zure webguneko orrialde garrantzitsuak arakatzea nahi duzu. (eduki-orriak bezala), ez alferrik gabeko orrialdeetan (adibidez, bilaketa-kontsultetako emaitzak) alferrik galdu baliabideak. Alferrikako orrialde horiek blokeatuz, bot-ek zein orrialdetan zentratzen duten lehentasuna izan dezakezu.

    Nola aurkitu zure Robots.txt fitxategia

    Izenak dioen bezala, Robots.txt erraza da. testu-fitxategia.

    Fitxategi hau zure webguneko erro-direktorioan gordetzen da. Aurkitu ahal izateko, ireki zure FTP tresna eta nabigatu zure webguneko direktoriora public_html azpian.

    Testu fitxategi txiki bat da hau; nirea 100 byte baino gehiagokoa da.

    Irekitzeko , erabili edozein testu-editore, adibidez, Notepad. Baliteke horrelako zerbait ikustea:

    Zure guneko erroko direktorioan Robots.txt fitxategirik ez ikusteko aukera dago. Kasu honetan, bat sortu beharko duzuZuk zeuk Robots.txt fitxategia.

    Hona nola:

    Nola sortu Robot.txt fitxategia

    Robots.txt oinarrizko testu-fitxategia denez, sortzea OSO erraza da – ireki testu-editore bat eta gorde fitxategi huts bat robots.txt gisa.

    Fitxategi hau zure zerbitzarira kargatzeko, erabili zure FTP tresna gogokoena (WinSCP erabiltzea gomendatzen dut) zure web zerbitzarian saioa hasteko. . Ondoren, ireki public_html karpeta eta ireki zure gunearen erro-direktorioa.

    Zure web-ostalariaren konfigurazioaren arabera, zure gunearen erro-direktorioa public_html karpetan egon daiteke zuzenean. Edo, baliteke horren barruan dagoen karpeta bat izatea.

    Zure guneko erro-direktorioa irekita duzunean, arrastatu & jaregin Robots.txt fitxategia bertan.

    Bestela, Robots.txt fitxategia sor dezakezu zuzenean zure FTP editoretik.

    Horretarako, ireki zure gunearen erro direktorioa eta Egin klik eskuineko botoiarekin -> Sortu fitxategi berria.

    Elkarrizketa-koadroan, idatzi “robots.txt” (komarik gabe) eta sakatu Ados.

    Barruan robots.txt fitxategi berri bat ikusi beharko zenuke:

    Azkenik, ziurtatu Robots.txt fitxategirako fitxategi-baimen egokia ezarri duzula. Jabeak, zuk zeuk, fitxategia irakurtzea eta idaztea nahi duzu, baina ez besteentzat edo publikoarentzat.

    Zure Robots.txt fitxategiak "0644" erakutsi beharko luke baimen-kode gisa.

    Bada. ez du egiten, egin klik eskuineko botoiarekin Robots.txt fitxategian eta hautatu "Fitxategien baimenak..."

    Ikusi ere: Nola sortu oso partekagarria den argitalpen bat, adituen aholkuak biltzen dituena

    Hor daukazu: Robots.txt fitxategi guztiz funtzionala!

    Bainazer egin dezakezu benetan fitxategi honekin?

    Ondoren, zure gunerako sarbidea kontrolatzeko erabil ditzakezun argibide arrunt batzuk erakutsiko dizkizut.

    Nola erabili Robots.txt

    Gogoratu Robots.txt-ek funtsean kontrolatzen duela robotek zure webgunearekin nola elkarreragiten duten.

    Bilatzaileei zure gune osora sartzea blokeatu nahi al diezu? Besterik gabe, aldatu baimenak Robots.txt-en.

    Bing-i zure kontaktu orria indexatzea blokeatu nahi al duzu? Hori ere egin dezakezu.

    Beraz, Robots.txt fitxategiak ez du zure SEO hobetuko, baina zure webguneko arakatzailearen portaera kontrolatzeko erabil dezakezu.

    Gehitzeko edo aldatzeko. fitxategia, besterik gabe, ireki zure FTP editorean eta gehitu testua zuzenean. Fitxategia gordetzen duzunean, aldaketak berehala islatuko dira.

    Hona hemen zure Robots.txt fitxategian erabil ditzakezun komando batzuk:

    1. Blokeatu zure guneko bot guztiak

    Blokeatu nahi dituzu robot guztiak zure webgunea arakatzea?

    Gehitu kode hau zure Robots.txt fitxategian:

    User-agent: *

    Disallow: /

    Hau da izango litzatekeena. benetako fitxategiaren itxura:

    Ez esanda, komando honek erabiltzaile-agente guztiei (*) esaten die ez dezala zure guneko fitxategi edo karpetarik atzitu.

    Hona hemen osoa. Hemen gertatzen ari denaren azalpena:

    • Erabiltzaile-agentea:* – Izartxoa (*) "komodin" karaktere bat da, guztietan aplikatzen dena objektua (adibidez, fitxategiaren izena edo kasu honetan, bot). Zure ordenagailuan "*.txt" bilatzen baduzu, fitxategi guztiak agertuko dira.txt luzapena. Hemen, izartxoak esan nahi du zure komandoa erabiltzaile-agente guztiei aplikatzen zaiela.
    • Ez baimendu: / – “Disallow” robots.txt komando bat da bot bati debekatzea. karpeta bat arakatzea. Barra bakarrak (/) esan nahi du komando hau erroko direktorioan aplikatzen ari zarela.

    Oharra: Hau aproposa da edozein motatako webgune pribatu bat exekutatzen baduzu, adibidez. kideentzako gune bat. Baina kontutan izan honek Google bezalako bot legitimo guztiak zure webgunea arakatzeari utziko diola. Erabili kontu handiz.

    2. Blokeatu bot guztiak karpeta jakin batera sar ez daitezen

    Zer gertatzen da bot-ek karpeta zehatz bat arakatzea eta indexatzea eragotzi nahi baduzu?

    Adibidez, /images karpeta?

    Erabili komando hau:

    User-agent: *

    Disallow: /[folder_name]/

    Bot-ei /images karpetara sartzeari utzi nahi bazenuen, hona hemen komandoa nolakoa izango litzatekeen:

    Komando hau erabilgarria da baliabideen karpeta bat baduzu ez duzula robot arakatzaileen eskaerak gainezka egin nahi. Garrantzirik gabeko scriptak, irudi zaharkituak eta abar dituen karpeta izan daiteke.

    Oharra: /images karpeta adibide hutsa da. Ez dut esaten bot-ek karpeta hori arakatzea blokeatu behar zenik. Lortzen saiatzen ari zarenaren araberakoa da.

    Bilaketa-motorrek, normalean, web-arduradunek beren bot-ak irudiak ez diren karpetak arakatzea blokeatzen dutenean, kontuz ibili komando hau erabiltzen duzunean. Robots.txt-en alternatiba batzuk zerrendatu ditut bilatzaileak geldiaraztekobehean orrialde zehatzak indexatzea.

    Ikusi ere: Social Snap Review 2023: sare sozialetako tresna indartsua WordPress-erako

    3. Blokeatu bot espezifikoak zure gunetik

    Zer gertatuko da robot jakin bati (adibidez, Googlebot) zure gunera sartzea blokeatu nahi baduzu?

    Hona hemen komandoa:

    User-agent: [robot name]

    Disallow: /

    Adibidez, Googlebot zure gunetik blokeatu nahi bazenu, hauxe erabiliko zenuke:

    Legezko bot edo erabiltzaile-agente bakoitzak izen zehatz bat du. Google-ren armiarma, adibidez, "Googlebot" deitzen zaio. Microsoft-ek "msnbot" eta "bingbot" exekutatzen ditu. Yahoo-ren bot-ak "Yahoo! Slurp”.

    Erabiltzaile-agente ezberdinen izen zehatzak aurkitzeko (adibidez, Googlebot, bingbot, etab.), erabili orri hau.

    Oharra: Goiko komandoa litzateke. blokeatu bot zehatz bat zure gune osotik. Googlebot adibide gisa soilik erabiltzen da. Kasu gehienetan ez zenuke Google-k zure webgunea arakatzeari utzi nahi. Bot zehatzak blokeatzeko erabilera-kasu zehatz bat zure gunera etortzen zaizkizun bot-ak zure gunera etortzen mantentzea da, zure webguneari mesede egiten ez diotenak geldiaraztea.

    4. Blokeatu fitxategi zehatz bat arakatzea

    Robots baztertzeko protokoloak kontrol zehatza ematen dizu zein fitxategi eta karpetatara blokeatu nahi dituzun roboten sarbidea.

    Hona hemen fitxategi bat geldiarazteko erabil dezakezun komandoa. edozein robotek arakatu ez dezaten:

    User-agent: *

    Disallow: /[folder_name]/[file_name.extension]

    Beraz, “img_0001.png” izeneko fitxategi bat “images” karpetatik blokeatu nahi baduzu, komando hau erabiliko zenuke:

    5. Blokeatu karpeta baterako sarbidea, baina baimendu fitxategi bat egoteaindexed

    «Ez baimendu» komandoak bot-ek karpeta edo fitxategi batera atzitzea blokeatzen du.

    «Baimendu» komandoak alderantziz egiten du.

    «Baimendu» komandoak ordezkatzen du. "Ez baimendu" komandoa lehenak fitxategi indibidual batera bideratzen badu.

    Horrek esan nahi du karpeta baterako sarbidea blokeatu dezakezula baina erabiltzaile-agenteek karpetako fitxategi indibidual batera sartzeko baimena eman diezaiokezula.

    Hona hemen. erabili beharreko formatua:

    User-agent: *

    Disallow: /[folder_name]/

    Allow: /[folder_name]/[file_name.extension]/

    Adibidez, Google-k “irudiak” karpeta arakatzea blokeatu nahi bazenu baina bertan gordetako “img_0001.png” fitxategirako sarbidea eman nahi bazenu, hona hemen zuk formatua. 'd use:

    Goiko adibiderako, itxura hau izango litzateke:

    Honek /bilaketa/ direktorioko orrialde guztiak indexatzea geldituko litzateke.

    Zer gertatuko da luzapen zehatz batekin bat datozen orrialde guztiak (adibidez, “.php” edo “.png”) indexatzea gelditu nahi bazenu?

    Erabili hau:

    User-agent: *

    Disallow: /*.extension$

    ($ ) hemen sinatzeak URLaren amaiera adierazten du, hau da, luzapena URLko azken katea da.

    ".js" luzapenarekin orrialde guztiak blokeatu nahi badituzu (Javascripterako), hona hemen zer egingo zenukeen. erabili:

    Komando hau bereziki eraginkorra da bot-ek script-ak arakatzeari utzi nahi badiozu.

    6. Gelditu bot-ek zure webgunea maizegi arakatzea

    Goiko adibideetan, baliteke komando hau ikustea:

    User-agent: *

    Crawl-Delay: 20

    Komando honek bot guztiei agintzen die arakatze-eskaeren artean gutxienez 20 segundo itxaron behar dutela.

    Arakatze-atzerapenakomandoa maiz erabiltzen da maiz eguneratzen den edukia duten gune handietan (adibidez, Twitter). Komando honek bot-ei esaten die gutxieneko denbora bat itxaron behar dutela ondorengo eskaeren artean.

    Horrek bermatzen du zerbitzaria ez dela gainezka aldi berean bot ezberdinen eskaera gehiegirekin.

    Adibidez. , hau Twitter-en Robots.txt fitxategia da, bot-ei eskaeren artean gutxienez segundo 1 itxaron behar dutela agintzen diena:

    Bot banakako arakatze-atzerapena ere kontrola dezakezu. Horrek bermatzen du bot gehiegik ez dutela zure webgunea aldi berean arakatzen.

    Adibidez, baliteke komando multzo bat izatea honelako komandoak:

    Oharra: Ez duzu komando hau erabili beharko minuturo milaka orrialde berri dituen gune masibo bat exekutatzen ez baduzu (Twitter adibidez).

    Robots.txt erabiltzean saihestu beharreko ohiko akatsak

    Robots.txt fitxategia zure webguneko bot-en portaera kontrolatzeko tresna indartsua da.

    Hala ere, SEO hondamendia ere ekar dezake behar bezala erabiltzen ez bada. Ez du laguntzen Robots.txt sarean mugitzen denaren inguruko hainbat uste oker egoteak.

    Hona hemen Robots.txt erabiltzean saihestu behar dituzun akats batzuk:

    #1 akatsa – Erabili Robots.txt edukia indexatzea saihesteko.

    Robots.txt fitxategiko karpeta bat "Gaietsi" baduzu, legezko botek ez dute arakatuko.

    Baina, honek bi gauza esan nahi ditu. :

    • Bot-ek edukiak arakatuko dituzte

    Patrick Harvey

    Patrick Harvey idazle ondua eta merkaturatzaile digitala da, industrian 10 urte baino gehiagoko esperientzia duena. Hainbat gairi buruzko ezagutza zabala du, hala nola blogak, sare sozialak, merkataritza elektronikoa eta WordPress. Idazteko eta jendeari sarean arrakasta izaten laguntzeko duen grinak bere publikoari balioa ematen dioten mezu argitsu eta erakargarriak sortzera bultzatu du. WordPress erabiltzaile trebea denez, Patrickek ezagutzen ditu webgune arrakastatsuak eraikitzearen nondik norakoak, eta ezagutza hori erabiltzen du enpresei eta pertsonei sareko presentzia ezartzen laguntzeko. Xehetasunerako begi zorrotzarekin eta bikaintasunarekiko konpromiso etengabearekin, Patrick bere irakurleei marketin digitalaren industriako azken joerak eta aholkuak eskaintzera arduratzen da. Blogean ari ez denean, Patrick leku berriak esploratzen, liburuak irakurtzen edo saskibaloian jolasten aurki daiteke.