რა არის Robots.txt ფაილი? და როგორ ქმნით ერთს? (დამწყებთათვის გზამკვლევი)

 რა არის Robots.txt ფაილი? და როგორ ქმნით ერთს? (დამწყებთათვის გზამკვლევი)

Patrick Harvey

Სარჩევი

იცოდით, რომ თქვენ გაქვთ სრული კონტროლი იმაზე, თუ ვინ ათვალიერებს და ახდენს თქვენი საიტის ინდექსირებას ცალკეულ გვერდებამდე?

ეს კეთდება ფაილის მეშვეობით სახელწოდებით Robots.txt.

Robots.txt არის მარტივი ტექსტური ფაილი, რომელიც განთავსებულია თქვენი საიტის ძირეულ დირექტორიაში. ის ეუბნება „რობოტებს“ (როგორიცაა საძიებო სისტემის ობობებს) რომელი გვერდები დაათვალიერონ თქვენს საიტზე, რომელი გვერდები იგნორირება გაუკეთონ.

მიუხედავად იმისა, რომ არ არის აუცილებელი, Robots.txt ფაილი გაძლევთ დიდ კონტროლს, თუ როგორ Google და როგორ. სხვა საძიებო სისტემები ხედავენ თქვენს საიტს.

როდესაც სწორად გამოიყენება, ამან შეიძლება გააუმჯობესოს მცოცავი და გავლენა მოახდინოს SEO-ზე.

მაგრამ როგორ ქმნით ეფექტურ Robots.txt ფაილს? შექმნის შემდეგ როგორ იყენებთ მას? და რა შეცდომებს უნდა მოერიდოთ მისი გამოყენებისას?

ამ პოსტში გაგიზიარებთ ყველაფერს, რაც უნდა იცოდეთ Robots.txt ფაილის შესახებ და როგორ გამოიყენოთ იგი თქვენს ბლოგზე.

მოდით ჩავერთოთ:

რა არის Robots.txt ფაილი?

ინტერნეტის პირველ დღეებში პროგრამისტებმა და ინჟინრებმა შექმნეს „რობოტები“ ან „ობობები“ ვებზე გვერდების გადასინჯვა და ინდექსირება. ეს რობოტები ასევე ცნობილია, როგორც „მომხმარებლის აგენტები“.

ზოგჯერ ეს რობოტები ხვდებიან გვერდებზე, რომლებზეც საიტის მფლობელებს არ სურდათ ინდექსირება. მაგალითად, მშენებარე საიტი ან კერძო ვებსაიტი.

ამ პრობლემის გადასაჭრელად, ჰოლანდიელმა ინჟინერმა მარტინ კოსტერმა, რომელმაც შექმნა მსოფლიოში პირველი საძიებო სისტემა (Aliweb), შემოგვთავაზა სტანდარტების ნაკრები, რომელსაც ყველა რობოტისაქაღალდე, რომელიც დაკავშირებულია გარე წყაროებიდან. ვთქვათ, თუ სხვა საიტი აკავშირებს ფაილს თქვენს დაბლოკილ საქაღალდეში, ბოტები მოჰყვებიან მის ინდექსირებას.

  • თაღლითი ბოტები – სპამერები, ჯაშუშური პროგრამები, მავნე პროგრამები და ა.შ. – ჩვეულებრივ უგულებელყოფენ Robots.txt ინსტრუქციებს და ინდექსირებენ თქვენს კონტენტის მიუხედავად.
  • ეს Robots.txt-ს ხდის ცუდ ინსტრუმენტად კონტენტის ინდექსაციის თავიდან ასაცილებლად.

    აი, რა უნდა გამოიყენოთ ამის ნაცვლად: გამოიყენეთ „meta noindex“ ტეგი.

    დაამატეთ შემდეგი ტეგი გვერდებზე, რომელთა ინდექსირებაც არ გსურთ:

    ეს არის რეკომენდებული, SEO-მეგობრული მეთოდი გვერდის ინდექსირების შესაჩერებლად (თუმცა ის მაინც არ იბლოკება სპამერები).

    შენიშვნა: თუ იყენებთ WordPress დანამატს, როგორიცაა Yoast SEO, ან All in One SEO; ამის გაკეთება შეგიძლიათ ნებისმიერი კოდის რედაქტირების გარეშე. მაგალითად, Yoast SEO დანამატში შეგიძლიათ დაამატოთ noindex ტეგი თითო პოსტზე/გვერდის მიხედვით:

    უბრალოდ გახსენით და გამოაქვეყნეთ/გვერდი და დააწკაპუნეთ ღილაკზე Yoast SEO ყუთში. . შემდეგ დააწკაპუნეთ ჩამოსაშლელ სიაზე „მეტა რობოტების ინდექსის“ გვერდით.

    გარდა ამისა, Google შეწყვეტს „noindex“-ის გამოყენებას robots.txt ფაილებში 1 სექტემბრიდან. SearchEngineLand-ის ამ სტატიას აქვს მეტი ინფორმაცია.

    შეცდომა #2 – Robots.txt-ის გამოყენება პირადი კონტენტის დასაცავად

    თუ თქვენ გაქვთ პირადი კონტენტი – ვთქვათ, PDF-ები ელ.ფოსტის კურსისთვის – დაბლოკავთ დირექტორიას მეშვეობით Robots.txt ფაილი დაგეხმარებათ, მაგრამ ეს არ არის საკმარისი.

    აი, რატომ:

    თქვენი კონტენტი შეიძლებამაინც მიიღება ინდექსირება, თუ ის დაკავშირებულია გარე წყაროებიდან. გარდა ამისა, თაღლითი ბოტები მაინც იკვლევენ მას.

    უკეთესი მეთოდია, რომ შეინახოთ მთელი პირადი კონტენტი შესვლის უკან. ეს უზრუნველყოფს, რომ ვერავინ - ლეგიტიმურ ან თაღლითურ ბოტებს - არ ექნება წვდომა თქვენს კონტენტზე.

    მინუსი არის ის, რომ ეს ნიშნავს, რომ თქვენს ვიზიტორებს აქვთ დამატებითი რგოლი, რომ გადალახონ. მაგრამ, თქვენი კონტენტი უფრო უსაფრთხო იქნება.

    შეცდომა #3 – Robots.txt-ის გამოყენება დუბლიკატი კონტენტის ინდექსაციის შესაჩერებლად

    კონტენტის დუბლიკატი არის დიდი არა, როცა საქმე SEO-ს ეხება.

    თუმცა, Robots.txt-ის გამოყენება ამ კონტენტის ინდექსაციის შესაჩერებლად გამოსავალი არ არის. კიდევ ერთხელ, არ არსებობს გარანტია, რომ საძიებო სისტემის ობობები ვერ იპოვიან ამ კონტენტს გარე წყაროებიდან.

    აქ არის 3 სხვა გზა დუბლიკატი შინაარსის გადასაცემად:

    • წაშლა დუბლიკატი შინაარსი – ეს მთლიანად გაათავისუფლებს კონტენტს. თუმცა, ეს ნიშნავს, რომ თქვენ ხელმძღვანელობთ საძიებო სისტემებს 404 გვერდამდე – იდეალური არ არის. ამის გამო, წაშლა არ არის რეკომენდებული .
    • გამოიყენეთ 301 გადამისამართება – 301 გადამისამართება ავალებს საძიებო სისტემებს (და ვიზიტორებს), რომ გვერდი გადავიდა ახალ მდებარეობაზე . უბრალოდ დაამატეთ 301 გადამისამართება დუბლიკატ კონტენტზე, რათა მნახველები თქვენს თავდაპირველ კონტენტზე წაიყვანოთ.
    • დაამატეთ rel=”canonical” ტეგი – ეს ტეგი არის 301 გადამისამართების “მეტა” ვერსია. „rel=canonical“ ტეგი ეუბნება Google-ს, რომელია კონკრეტული გვერდის ორიგინალური URL. ამისთვისმაგალითად ეს კოდი:

      //example.com/original-page.html ” rel=”canonical” />

      ეუბნება Google-ს, რომ გვერდი – original-page.html – არის დუბლიკატი გვერდის „ორიგინალური“ ვერსია. თუ იყენებთ WordPress-ს, ამ ტეგის დამატება ადვილია Yoast SEO-ს ან All in One SEO-ის გამოყენებით.

    თუ გსურთ, რომ ვიზიტორებს შეეძლოთ წვდომა დუბლიკატ კონტენტზე, გამოიყენეთ rel=”კანონიკური” ტეგი. თუ არ გსურთ ვიზიტორებმა ან ბოტებმა წვდომა მიიღონ კონტენტზე – გამოიყენეთ 301 გადამისამართება.

    ფრთხილად იყავით ორივეს განხორციელებაზე, რადგან ისინი გავლენას მოახდენენ თქვენს SEO-ზე.

    თქვენზეა

    Robots.txt ფაილი არის სასარგებლო მოკავშირე საძიებო სისტემის ობობებისა და სხვა ბოტების ურთიერთქმედების გზაზე თქვენს საიტთან. სწორად გამოყენების შემთხვევაში, მათ შეუძლიათ დადებითი გავლენა მოახდინონ თქვენს რეიტინგზე და გააადვილონ თქვენი საიტის დათვალიერება.

    გამოიყენეთ ეს სახელმძღვანელო იმის გასაგებად, თუ როგორ მუშაობს Robots.txt, როგორ არის დაინსტალირებული და მისი გამოყენების რამდენიმე გავრცელებული გზა. . და თავიდან აიცილეთ ნებისმიერი შეცდომა, რომელიც ზემოთ განვიხილეთ.

    მსგავსი საკითხავი:

    • ბლოგერების საუკეთესო რანგის თვალთვალის ხელსაწყოები, შედარებით
    • Google-ის საიტის ბმულების მიღების საბოლოო გზამკვლევი
    • 5 მძლავრი საკვანძო სიტყვების კვლევის ინსტრუმენტი შედარებით
    უნდა დაიცვან. ეს სტანდარტები პირველად შემოთავაზებული იქნა 1994 წლის თებერვალში.

    1994 წლის 30 ივნისს, რობოტების რამდენიმე ავტორმა და ადრეულმა ვებ პიონერებმა მიაღწიეს კონსენსუსს სტანდარტებზე.

    ეს სტანდარტები მიღებულ იქნა როგორც „რობოტების გამორიცხვა“. პროტოკოლი“ (REP).

    Robots.txt ფაილი არის ამ პროტოკოლის იმპლემენტაცია.

    REP განსაზღვრავს წესების ერთობლიობას, რომელიც უნდა დაიცვას ყველა ლეგიტიმური მცოცავი ან ობობა. თუ Robots.txt ავალებს რობოტებს არ მოახდინოს ვებ გვერდის ინდექსირება, ყველა ლეგიტიმურმა რობოტმა - Googlebot-დან MSNbot-მდე - უნდა დაიცვას ინსტრუქციები.

    შენიშვნა: ლეგიტიმური მცოცავების სიას შეუძლია იპოვეთ აქ.

    გაითვალისწინეთ, რომ ზოგიერთი თაღლითი რობოტი – მავნე პროგრამები, ჯაშუშური პროგრამები, ელფოსტის ამომყვანები და ა.შ. – შესაძლოა არ დაემორჩილონ ამ პროტოკოლებს. სწორედ ამიტომ შეიძლება დაინახოთ ბოტების ტრაფიკი გვერდებზე, რომლებიც დაბლოკეთ Robots.txt-ის მეშვეობით.

    ასევე არის რობოტები, რომლებიც არ იცავენ REP სტანდარტებს, რომლებიც არ გამოიყენება რაიმე საეჭვოდ.

    თქვენ შეგიძლიათ ნახოთ ნებისმიერი ვებსაიტის robots.txt ამ url-ზე გადასვლით:

    //[website_domain]/robots.txt

    მაგალითად, აქ არის Facebook-ის Robots.txt ფაილი:

    და აქ არის Google-ის Robots.txt ფაილი:

    Robots.txt-ის გამოყენება

    Robots.txt არ არის აუცილებელი დოკუმენტი ვებსაიტისთვის. თქვენს საიტს შეუძლია რანჟირება და მშვენივრად გაიზარდოს ამ ფაილის გარეშე.

    თუმცა, Robots.txt-ის გამოყენება გარკვეულ სარგებელს გვთავაზობს:

    • ბოტებს პირადი საქაღალდეების ცოცვისგან ხელის შეშლა – მიუხედავად იმისა, რომ არ არის სრულყოფილი, ბოტებისთვის პირადი საქაღალდეების მცოცავიდან გამორიცხვა გაართულებს მათ ინდექსირებას - ყოველ შემთხვევაში ლეგიტიმური ბოტების მიერ (როგორიცაა საძიებო სისტემების ობობები).
    • რესურსების გამოყენების კონტროლი - ყოველ ჯერზე, როცა ბოტი დაცოცავს თქვენს საიტს, ის აქრობს თქვენს გამტარობას და სერვერის რესურსებს – რესურსებს, რომლებიც უკეთესად დაიხარჯება რეალურ ვიზიტორებზე. ბევრი შინაარსის მქონე საიტებისთვის, ამან შეიძლება გაზარდოს ხარჯები და რეალურ ვიზიტორებს ცუდი გამოცდილება მისცეს. შეგიძლიათ გამოიყენოთ Robots.txt სკრიპტებზე, უმნიშვნელო სურათებზე და ა.შ. წვდომის დასაბლოკად, რესურსების შესანახად.
    • მნიშვნელოვანი გვერდების პრიორიტეტად მინიჭება – გსურთ საძიებო სისტემის ობობებმა დაათვალიერონ თქვენი საიტის მნიშვნელოვანი გვერდები (როგორც შინაარსის გვერდები), არ დახარჯოთ რესურსები უსარგებლო გვერდების თხრიანზე (როგორიცაა საძიებო მოთხოვნების შედეგები). ასეთი უსარგებლო გვერდების დაბლოკვით, შეგიძლიათ პრიორიტეტულად განსაზღვროთ, რომელ გვერდებზეა ფოკუსირებული ბოტები.

    როგორ მოვძებნოთ თქვენი Robots.txt ფაილი

    როგორც სახელიდან ჩანს, Robots.txt მარტივია. ტექსტური ფაილი.

    ეს ფაილი ინახება თქვენი ვებსაიტის ძირეულ დირექტორიაში. მის საპოვნელად, უბრალოდ გახსენით თქვენი FTP ინსტრუმენტი და გადადით თქვენი ვებსაიტის დირექტორიაში public_html ქვეშ.

    ეს არის პატარა ტექსტური ფაილი – ჩემი არის სულ რაღაც 100 ბაიტი.

    მის გასახსნელად. გამოიყენეთ ნებისმიერი ტექსტური რედაქტორი, როგორიცაა Notepad. თქვენ შეიძლება ნახოთ მსგავსი რამ:

    არსებობს შანსი, რომ ვერ იხილოთ Robots.txt ფაილი თქვენი საიტის root დირექტორიაში. ამ შემთხვევაში, თქვენ უნდა შექმნათ აRobots.txt შეიყვანეთ თავად.

    აი როგორ:

    როგორ შევქმნათ Robot.txt ფაილი

    რადგან Robots.txt არის ძირითადი ტექსტური ფაილი, მისი შექმნა ძალიან მარტივია – უბრალოდ გახსენით ტექსტური რედაქტორი და შეინახეთ ცარიელი ფაილი, როგორც robots.txt.

    ამ ფაილის თქვენს სერვერზე ასატვირთად გამოიყენეთ თქვენი საყვარელი FTP ინსტრუმენტი (გირჩევთ WinSCP გამოიყენოთ) თქვენს ვებ სერვერზე შესასვლელად. . შემდეგ გახსენით public_html საქაღალდე და გახსენით თქვენი საიტის root დირექტორია.

    Იხილეთ ასევე: როგორ გაზარდოთ ჩართულობა თქვენს ბლოგზე (ასე რომ არ ჰგავს მოჩვენებათა ქალაქს)

    თქვენი ვებ ჰოსტის კონფიგურაციის მიხედვით, თქვენი საიტის root დირექტორია შეიძლება იყოს პირდაპირ public_html საქაღალდეში. ან, ეს შეიძლება იყოს საქაღალდე მის შიგნით.

    როგორც თქვენ გახსნით თქვენი საიტის root დირექტორიას, უბრალოდ გადაიტანეთ & ჩააგდეთ Robots.txt ფაილი მასში.

    ალტერნატიულად, შეგიძლიათ შექმნათ Robots.txt ფაილი პირდაპირ თქვენი FTP რედაქტორიდან.

    ამისთვის გახსენით თქვენი საიტის root დირექტორია და დააწკაპუნეთ მარჯვენა ღილაკით -> შექმენით ახალი ფაილი.

    დიალოგურ ფანჯარაში აკრიფეთ „robots.txt“ (ბრჭყალების გარეშე) და დააჭირეთ OK.

    თქვენ უნდა ნახოთ ახალი robots.txt ფაილი შიგნით:

    და ბოლოს, დარწმუნდით, რომ დააყენეთ სწორი ფაილის ნებართვა Robots.txt ფაილისთვის. თქვენ გსურთ, რომ მფლობელმა - საკუთარ თავს - წაიკითხოს და დაწეროს ფაილი, მაგრამ არა სხვებისთვის ან საზოგადოებისთვის.

    თქვენს Robots.txt ფაილში უნდა იყოს ნაჩვენები „0644“, როგორც ნებართვის კოდი.

    თუ ასე არ არის, დააწკაპუნეთ მაუსის მარჯვენა ღილაკით თქვენს Robots.txt ფაილზე და აირჩიეთ „ფაილის ნებართვები…“

    აი, თქვენ გაქვთ ეს – სრულად ფუნქციონალური Robots.txt ფაილი!

    მაგრამრეალურად რა შეგიძლიათ გააკეთოთ ამ ფაილთან?

    შემდეგ, მე გაჩვენებთ რამდენიმე ჩვეულებრივ ინსტრუქციას, რომელთა გამოყენება შეგიძლიათ თქვენს საიტზე წვდომის გასაკონტროლებლად.

    როგორ გამოვიყენოთ Robots.txt

    გახსოვდეთ, რომ Robots.txt არსებითად აკონტროლებს, თუ როგორ ურთიერთობენ რობოტები თქვენს საიტთან.

    გსურთ დაბლოკოთ საძიებო სისტემებში წვდომა თქვენს მთელ საიტზე? უბრალოდ შეცვალეთ უფლებები Robots.txt-ში.

    გსურთ დაბლოკოთ Bing-ს თქვენი საკონტაქტო გვერდის ინდექსირება? თქვენც შეგიძლიათ ამის გაკეთება.

    თავისთავად, Robots.txt ფაილი არ გააუმჯობესებს თქვენს SEO-ს, მაგრამ შეგიძლიათ გამოიყენოთ იგი თქვენს საიტზე მცოცავი ქცევის გასაკონტროლებლად.

    დამატება ან შეცვლა ფაილი, უბრალოდ გახსენით იგი თქვენს FTP რედაქტორში და დაამატეთ ტექსტი პირდაპირ. ფაილის შენახვის შემდეგ, ცვლილებები დაუყოვნებლივ აისახება.

    აქ არის რამოდენიმე ბრძანება, რომელიც შეგიძლიათ გამოიყენოთ თქვენს Robots.txt ფაილში:

    1. დაბლოკოთ ყველა ბოტი თქვენი საიტიდან

    გსურთ დაბლოკოთ ყველა რობოტი თქვენს საიტზე?

    დაამატეთ ეს კოდი თქვენს Robots.txt ფაილში:

    User-agent: *

    Disallow: /

    ეს იქნება გამოიყურებოდეს რეალურ ფაილში:

    მარტივად რომ ვთქვათ, ეს ბრძანება ეუბნება ყველა მომხმარებლის აგენტს (*), რომ არ ჰქონდეს წვდომა თქვენს საიტზე არსებულ ფაილებსა და საქაღალდეებში.

    აქ არის სრული ზუსტად იმის ახსნა, თუ რა ხდება აქ:

    • მომხმარებლის აგენტი:* – ვარსკვლავი (*) არის „ველური ბარათის“ სიმბოლო, რომელიც ვრცელდება ყველა ობიექტი (როგორიცაა ფაილის სახელი ან ამ შემთხვევაში ბოტი). თუ თქვენს კომპიუტერში მოძებნით „*.txt“, ის გამოჩნდება ყველა ფაილთან ერთად.txt გაფართოება. აქ ვარსკვლავი ნიშნავს, რომ თქვენი ბრძანება ვრცელდება ყველა მომხმარებლის აგენტზე.
    • აკრძალვა: / – „Disallow“ არის robots.txt ბრძანება, რომელიც კრძალავს ბოტს საქაღალდის ცოცვა. ერთი წინ გადაკვეთა (/) ნიშნავს, რომ თქვენ იყენებთ ამ ბრძანებას root დირექტორიაში.

    შენიშვნა: ეს იდეალურია, თუ თქვენ მართავთ რაიმე სახის კერძო ვებსაიტს, როგორიცაა წევრობის საიტი. მაგრამ გაითვალისწინეთ, რომ ეს შეაჩერებს ყველა ლეგიტიმურ ბოტს, როგორიც არის Google, თქვენს საიტზე დაცოცვას. გამოიყენეთ სიფრთხილით.

    2. დაბლოკოს ყველა ბოტს კონკრეტულ საქაღალდეზე წვდომა

    რა მოხდება, თუ გინდათ, ხელი შეუშალოთ ბოტებს კონკრეტული საქაღალდის ცოცვისა და ინდექსირებისგან?

    მაგალითად, /images საქაღალდე?

    გამოიყენეთ ეს ბრძანება:

    User-agent: *

    Disallow: /[folder_name]/

    Იხილეთ ასევე: სოციალური მედიის მონიტორინგის 12 საუკეთესო ინსტრუმენტი (2023 წლის შედარება)

    თუ გინდოდათ ბოტების შეჩერება /images საქაღალდეზე წვდომის შეჩერება, აი, როგორი იქნება ბრძანება:

    ეს ბრძანება სასარგებლოა, თუ თქვენ გაქვთ რესურსების საქაღალდე რომ არ გსურთ რობოტი მცოცავი თხოვნით გადატვირთოთ. ეს შეიძლება იყოს საქაღალდე უმნიშვნელო სკრიპტებით, მოძველებული სურათებით და ა.შ.

    შენიშვნა: /images საქაღალდე არის მხოლოდ მაგალითი. მე არ ვამბობ, რომ თქვენ უნდა დაბლოკოთ ბოტები ამ საქაღალდის ცოცვისგან. ეს დამოკიდებულია იმაზე, თუ რის მიღწევას ცდილობთ.

    საძიებო სისტემები, როგორც წესი, ეშლებათ ვებმასტერებს, რომლებიც ბლოკავენ მათ ბოტებს სურათების გარეშე საქაღალდეების ცოცვისგან, ამიტომ ფრთხილად იყავით ამ ბრძანების გამოყენებისას. მე ჩამოვთვალე Robots.txt-ის რამდენიმე ალტერნატივა საძიებო სისტემების შესაჩერებლადკონკრეტული გვერდების ინდექსირება ქვემოთ.

    3. დაბლოკეთ კონკრეტული ბოტები თქვენი საიტიდან

    რა მოხდება, თუ გსურთ დაბლოკოთ კონკრეტული რობოტი – როგორიცაა Googlebot – თქვენს საიტზე?

    აქ არის ბრძანება:

    User-agent: [robot name]

    Disallow: /

    მაგალითად, თუ გინდოდათ Googlebot-ის დაბლოკვა თქვენი საიტიდან, აი რას იყენებდით:

    თითოეულ ლეგიტიმურ ბოტს ან მომხმარებლის აგენტს აქვს კონკრეტული სახელი. მაგალითად, Google-ის ობობას უბრალოდ "Googlebot" ჰქვია. Microsoft აწარმოებს როგორც "msnbot" და "bingbot". Yahoo-ს ბოტს ჰქვია „Yahoo! Slurp".

    სხვადასხვა მომხმარებლის აგენტის (როგორიცაა Googlebot, bingbot და ა.შ.) ზუსტი სახელების საპოვნელად გამოიყენეთ ეს გვერდი.

    შენიშვნა: ზემოთ მოცემული ბრძანება დაბლოკეთ კონკრეტული ბოტი თქვენი მთელი საიტიდან. Googlebot გამოიყენება როგორც მაგალითი. უმეტეს შემთხვევაში, თქვენ არასოდეს გსურთ შეაჩეროთ Google-ს თქვენი ვებსაიტის დაცინვა. კონკრეტული ბოტების დაბლოკვის ერთი კონკრეტული შემთხვევა არის ის, რომ შევინარჩუნოთ თქვენთვის სასარგებლო ბოტების თქვენს საიტზე შესვლა, ხოლო იმ ბოტების შეჩერება, რომლებიც თქვენს საიტს არ მოაქვს სარგებელს.

    4. დაბლოკეთ კონკრეტული ფაილის ნახვის საშუალება

    რობოტების გამორიცხვის პროტოკოლი გაძლევთ კარგად კონტროლს, თუ რომელ ფაილებსა და საქაღალდეებზე გსურთ დაბლოკოთ რობოტის წვდომა.

    აქ არის ბრძანება, რომლის გამოყენებაც შეგიძლიათ ფაილის შესაჩერებლად. ნებისმიერი რობოტის მიერ ცოცვისგან:

    User-agent: *

    Disallow: /[folder_name]/[file_name.extension]

    ასე რომ, თუ გსურთ დაბლოკოთ ფაილი სახელად „img_0001.png“ „images“ საქაღალდედან, იყენებდით ამ ბრძანებას:

    5. დაბლოკეთ წვდომა საქაღალდეზე, მაგრამ დაუშვით ფაილიინდექსირებული

    ბრძანება "Disallow" ბლოკავს ბოტებს წვდომას საქაღალდეზე ან ფაილზე.

    ბრძანება "Allow" აკეთებს საპირისპიროს.

    ბრძანება "Allow" ანაცვლებს ბრძანებას. "Disallow" ბრძანება, თუ პირველი მიზნად ისახავს ინდივიდუალურ ფაილს.

    ეს ნიშნავს, რომ თქვენ შეგიძლიათ დაბლოკოთ წვდომა საქაღალდეზე, მაგრამ ნება მიეცით მომხმარებლის აგენტებს, კვლავ ჰქონდეთ წვდომა ცალკეულ ფაილზე საქაღალდეში.

    აქ არის გამოსაყენებელი ფორმატი:

    User-agent: *

    Disallow: /[folder_name]/

    Allow: /[folder_name]/[file_name.extension]/

    მაგალითად, თუ გინდოდათ Google-ის დაბლოკვა „images“ საქაღალდეში ცოცვისგან, მაგრამ მაინც გსურდათ მისცეთ წვდომა მასში შენახულ „img_0001.png“ ფაილზე, აი რა ფორმატი გაქვთ. 'd use:

    ზემოხსენებული მაგალითისთვის, ასე გამოიყურება:

    ეს შეაჩერებს /search/ დირექტორიაში ყველა გვერდის ინდექსირებას.

    რა მოხდება, თუ გინდოდათ შეაჩეროთ ყველა გვერდი, რომელიც ემთხვევა კონკრეტულ გაფართოებას (როგორიცაა „.php“ ან „.png“) ინდექსირება?

    გამოიყენეთ ეს:

    User-agent: *

    Disallow: /*.extension$

    ($ ) აქ ნიშანი ნიშნავს URL-ის დასასრულს, ანუ გაფართოება არის ბოლო სტრიქონი URL-ში.

    თუ გინდოდათ დაბლოკოთ ყველა გვერდი „.js“ გაფართოებით (ჯავასკრიპტისთვის), აი, რას გააკეთებდით. გამოიყენე:

    ეს ბრძანება განსაკუთრებით ეფექტურია, თუ გინდა, რომ ბოტებს შეაჩერონ სკრიპტების ცოცვა.

    6. შეაჩერეთ ბოტები თქვენი საიტის ძალიან ხშირად ცოცვისგან

    ზემოხსენებულ მაგალითებში შეიძლება გენახათ ეს ბრძანება:

    User-agent: *

    Crawl-Delay: 20

    ეს ბრძანება ავალებს ყველა ბოტს დაელოდონ მინიმუმ 20 წამს crawl-ის მოთხოვნებს შორის.

    Crawl-Delayბრძანება ხშირად გამოიყენება დიდ საიტებზე ხშირად განახლებული შინაარსით (როგორიცაა Twitter). ეს ბრძანება ბოტებს ეუბნება, დაელოდონ მინიმალურ დროს მომდევნო მოთხოვნებს შორის.

    ეს უზრუნველყოფს, რომ სერვერი არ იყოს გადატვირთული ერთდროულად ძალიან ბევრი მოთხოვნით სხვადასხვა ბოტისგან.

    მაგალითად. , ეს არის Twitter-ის Robots.txt ფაილი, რომელიც ავალებს ბოტებს, მოიცადონ მინიმუმ 1 წამი მოთხოვნებს შორის:

    შეგიძლიათ აკონტროლოთ სეირნობის შეფერხება ცალკეული ბოტებისთვის. ეს უზრუნველყოფს იმას, რომ ძალიან ბევრი ბოტი არ ათვალიერებს თქვენს საიტს ერთდროულად.

    მაგალითად, შეიძლება გქონდეთ ბრძანებების ნაკრები, როგორიცაა:

    შენიშვნა: თქვენ ნამდვილად არ დაგჭირდებათ ამ ბრძანების გამოყენება, თუ არ აწარმოებთ მასიურ საიტს ათასობით ახალი გვერდით, რომლებიც იქმნება ყოველ წუთში (როგორც Twitter).

    ჩვეულებრივი შეცდომები, რომლებიც თავიდან უნდა იქნას აცილებული Robots.txt-ის გამოყენებისას

    Robots.txt ფაილი არის მძლავრი ინსტრუმენტი თქვენს საიტზე ბოტების ქცევის გასაკონტროლებლად.

    თუმცა, მას ასევე შეუძლია SEO-ს კატასტროფა გამოიწვიოს, თუ სწორად არ გამოიყენება. Robots.txt-ის შესახებ არაერთი მცდარი წარმოდგენა ჩნდება ონლაინ რეჟიმში.

    აქ არის რამოდენიმე შეცდომა, რომელიც თავიდან უნდა აიცილოთ Robots.txt-ის გამოყენებისას:

    შეცდომა #1 – გამოყენება Robots.txt კონტენტის ინდექსაციის თავიდან ასაცილებლად

    თუ თქვენ „აკრძალავთ“ საქაღალდეს Robots.txt ფაილში, ლეგიტიმური ბოტები მას არ დაცოცავენ.

    მაგრამ ეს მაინც ორ რამეს ნიშნავს. :

    • ბოტები იკვლევენ შიგთავსს

    Patrick Harvey

    პატრიკ ჰარვი არის გამოცდილი მწერალი და ციფრული მარკეტინგი, რომელსაც აქვს 10 წელზე მეტი გამოცდილება ინდუსტრიაში. მას აქვს დიდი ცოდნა სხვადასხვა თემებზე, როგორიცაა ბლოგინგი, სოციალური მედია, ელექტრონული კომერცია და WordPress. მისმა გატაცებამ წერით და ხალხს ონლაინ წარმატების მიღწევაში უბიძგა, შექმნას გამჭრიახი და მიმზიდველი პოსტები, რომლებიც მის აუდიტორიას მნიშვნელობას ანიჭებენ. როგორც WordPress-ის გამოცდილი მომხმარებელი, პატრიკი იცნობს წარმატებული ვებსაიტების შექმნის ინსტრუქციებს და ის იყენებს ამ ცოდნას, რათა დაეხმაროს ბიზნესებსა და ინდივიდებს, დაამყარონ თავიანთი ონლაინ ყოფნა. დეტალებისადმი მახვილი თვალით და ბრწყინვალებისადმი ურყევი ერთგულებით, პატრიკი ეძღვნება თავის მკითხველს ციფრული მარკეტინგის ინდუსტრიის უახლესი ტენდენციებისა და რჩევების მიწოდებას. როდესაც ის არ არის ბლოგინგი, პატრიკი შეიძლება აღმოჩნდეს ახალი ადგილების შესწავლისას, წიგნების კითხვაში ან კალათბურთის თამაშისას.