Што е датотека Robots.txt? И како се создава еден? (Водич за почетници)

09-08-202309-08-2023 Patrick Harvey

Содржина

Дали знаевте дека имате целосна контрола врз тоа кој ја индексира и индексира вашата страница, до поединечни страници?

Начинот на кој се прави ова е преку датотека наречена Robots.txt.

Robots.txt е едноставна текстуална датотека што се наоѓа во root директориумот на вашата страница. Тоа им кажува на „роботите“ (како што се пајаците на пребарувачите) кои страници да ги индексираат на вашата страница, кои страници да ги игнорираат.

Иако не е од суштинско значење, датотеката Robots.txt ви дава голема контрола врз тоа како Google и другите пребарувачи ја гледаат вашата страница.

Кога се користи правилно, ова може да го подобри индексирањето, па дури и да влијае на SEO.

Но, како точно креирате ефективна датотека Robots.txt? Откако ќе се создаде, како го користите? И кои грешки треба да ги избегнувате додека го користите?

Во овој пост, ќе споделам се што треба да знаете за датотеката Robots.txt и како да ја користите на вашиот блог.

Ајде да нурнеме во:

Што е датотека Robots.txt?

Во раните денови на интернетот, програмерите и инженерите создадоа „роботи“ или „пајаци“ за индексирање и индексирање страници на интернет. Овие роботи се познати и како „кориснички агенти“.

Понекогаш, овие роботи се пробиваа на страници што сопствениците на сајтовите не сакаа да ги индексираат. На пример, локација во изградба или приватна веб-локација.

За да се реши овој проблем, Мартин Костер, холандски инженер кој го создал првиот пребарувач во светот (Aliweb), предложи сет на стандарди што секој роботпапка поврзана од надворешни извори. Да речеме, ако друга локација се поврзе со датотека во вашата блокирана папка, ботови ќе следат преку индексирање.

Нечесните ботови – спамери, шпионски софтвер, малициозен софтвер, итн. – обично ќе ги игнорираат упатствата на Robots.txt и ќе го индексираат вашиот без разлика на содржината.

Ова го прави Robots.txt лоша алатка за спречување на содржината да се индексира.

Еве што треба да користите наместо тоа: користете ја ознаката „meta noindex“.

Додајте ја следнава ознака на страниците што не сакате да се индексираат:

Ова е препорачан, оптимизиран метод за да спречите индексирање на страницата (иако сè уште не блокира спамери).

Забелешка: Ако користите приклучок за WordPress како што е Yoast SEO, или All in One SEO; можете да го направите ова без да уредувате никаков код. На пример, во додатокот Yoast SEO можете да ја додадете ознаката noindex на основа на објава/страница како вака:

Само отворете и објавете/страница и кликнете на запчаникот во полето Yoast SEO . Потоа кликнете на паѓачкото мени веднаш до „Индекс на мета роботи“.

Дополнително, Google ќе престане да ја поддржува употребата на „noindex“ во датотеките robots.txt од 1 септември. Оваа статија од SearchEngineLand има повеќе информации.

Грешка #2 – Користење на Robots.txt за заштита на приватна содржина

Ако имате приватна содржина – на пример, PDF-датотеки за курс за е-пошта – блокирање на директориумот преку Датотеката Robots.txt ќе помогне, но не е доволна.

Еве зошто:

Исто така види: 28 најдобри Dropshipping производи за продажба во 2023 година

Вашата содржина може дасепак се индексира ако е поврзан од надворешни извори. Плус, непријателските ботови сè уште ќе го ползат.

Подобар метод е да се чува целата приватна содржина зад најавување. Ова ќе осигури дека никој – легитимни или непријателски ботови – нема да добие пристап до вашата содржина.

Недостатокот е што тоа значи дека вашите посетители имаат дополнителен обрач за прескокнување. Но, вашата содржина ќе биде посигурна.

Грешка бр. 3 – Користењето на Robots.txt за да спречите индексирање на дупликатните содржини

Дупликатните содржини е големо „не“ кога станува збор за оптимизација.

Меѓутоа, користењето на Robots.txt за спречување на оваа содржина да се индексира не е решение. Уште еднаш, не постои гаранција дека пајаците на пребарувачот нема да ја најдат оваа содржина преку надворешни извори.

Еве 3 други начини да се предаде дупликат содржина:

Избриши дупликат содржина – Ова целосно ќе се ослободи од содржината. Сепак, ова значи дека ги водите пребарувачите на 404 страници - не е идеално. Поради ова, бришењето не се препорачува .
Користете пренасочување 301 – Пренасочувањето 301 ги упатува пребарувачите (и посетителите) дека страницата е преместена на нова локација . Едноставно додајте пренасочување 301 на дупликат содржина за да ги однесете посетителите до вашата оригинална содржина.
Додадете rel=”canonical” ознака – Оваа ознака е „мета“ верзија на пренасочувањето 301. Ознаката „rel=canonical“ му кажува на Google која е оригиналната URL-адреса за одредена страница. Запример овој код:
//example.com/original-page.html ” rel=”canonical” />

Им кажува на Google дека страницата – original-page.html – е „оригиналната“ верзија на дупликат страницата. Ако користите WordPress, оваа ознака е лесно да се додаде користејќи Yoast SEO или All in One SEO.

Ако сакате посетителите да можат да пристапат до дупликатната содржина, користете го rel=”canonical” ознака. Ако не сакате посетителите или ботовите да пристапуваат до содржината - користете пренасочување 301.

Бидете внимателни при имплементирање бидејќи тие ќе влијаат на вашето оптимизација.

На вас

Датотеката Robots.txt е корисен сојузник во обликувањето на начинот на кој пајаците на пребарувачот и другите ботови комуницираат со вашата страница. Кога се користат правилно, тие можат да имаат позитивен ефект врз вашето рангирање и да го направат вашиот сајт полесен за индексирање.

Користете го ова упатство за да разберете како работи Robots.txt, како е инсталиран и некои вообичаени начини на кои можете да го користите . И избегнувајте која било од грешките што ги разгледавме погоре.

Поврзано читање:

Најдобрите алатки за следење рангирање за блогери, споредени
Дефинитивниот водич за добивање врски за сајтови на Google
5 моќни алатки за истражување на клучни зборови споредени

треба да се придржуваат до. Овие стандарди за прв пат беа предложени во февруари 1994 година.

На 30 јуни 1994 година, голем број автори на роботи и рани веб пионери постигнаа консензус за стандардите.

Овие стандарди беа усвоени како „Исклучување на роботите Протокол“ (REP).

Датотеката Robots.txt е имплементација на овој протокол.

REP дефинира збир на правила што треба да ги следи секој легитимен робот или пајак. Ако Robots.txt им наредува на роботите да не индексираат веб-страница, секој легитимен робот - од Googlebot до MSNbot - мора да ги следи упатствата.

Забелешка: Списокот на легитимни роботи може може да се најде овде.

Имајте на ум дека некои непријателски роботи - малициозен софтвер, шпионски софтвер, жетвари за е-пошта итн. - можеби нема да ги следат овие протоколи. Ова е причината зошто може да видите сообраќај на ботови на страниците што сте ги блокирале преку Robots.txt.

Има роботи кои не ги следат стандардите REP кои не се користат за ништо сомнително.

Можете да ги видите robots.txt на која било веб-локација со одење на оваа URL:

//[website_domain]/robots.txt

На пример, тука е датотеката Robots.txt на Facebook:

И еве ја датотеката Robots.txt на Google:

Употреба на Robots.txt

Robots.txt не е суштински документ за веб-локација. Вашата страница може совршено да се рангира и да расте без оваа датотека.

Сепак, користењето на Robots.txt нуди некои предности:

Облажете ги ботови да ползат приватни папки – Иако не е совршено, не дозволувајќи им на ботови да ползат приватни папки, ќе им биде многу потешко да се индексираат - барем од легитимните ботови (како што се пајаците на пребарувачите).
Контролирајте го користењето на ресурсите - Секој пат кога бот ќе ја индексира вашата страница, тој ја троши вашата пропусност и ресурсите на серверот - ресурси кои подобро би биле потрошени за вистински посетители. За сајтови со многу содржина, ова може да ги зголеми трошоците и да им даде на вистинските посетители лошо искуство. Можете да го користите Robots.txt за да го блокирате пристапот до скрипти, неважни слики итн. за да зачувате ресурси.
Дајте приоритет на важни страници – Сакате пајаците од пребарувачот да ги индексираат важните страници на вашата страница (како страници со содржина), не трошете ресурси копајќи по бескорисни страници (како што се резултатите од барањата за пребарување). Со блокирање на таквите бескорисни страници, можете да дадете приоритет на кои страници се фокусираат ботови.

Како да ја пронајдете вашата датотека Robots.txt

Како што сугерира името, Robots.txt е едноставна текстуална датотека.

Оваа датотека е зачувана во root директориумот на вашата веб-локација. За да го најдете, едноставно отворете ја вашата FTP алатка и одете до директориумот на вашата веб-локација под public_html.

Ова е мала текстуална датотека - мојата е нешто повеќе од 100 бајти.

За да ја отворите , користете кој било уредувач на текст, како што е Notepad. Може да видите нешто како ова:

Постои можност да не видите датотека Robots.txt во root директориумот на вашата страница. Во овој случај, ќе треба да креирате аСамиот датотека Robots.txt.

Еве како:

Како да креирате датотека Robot.txt

Бидејќи Robots.txt е основна текстуална датотека, нејзиното создавање е МНОГУ едноставно – само отворете уредувач на текст и зачувајте празна датотека како robots.txt.

За да ја поставите оваа датотека на вашиот сервер, користете ја вашата омилена алатка FTP (препорачувам користење WinSCP) за да се најавите на вашиот веб-сервер . Потоа отворете ја папката public_html и отворете го root директориумот на вашата страница.

Во зависност од тоа како е конфигуриран вашиот веб-домаќин, root директориумот на вашата локација може да биде директно во папката public_html. Или, можеби е папка во неа.

Откако ќе го отворите root директориумот на вашата страница, само повлечете & засилувач; испуштете ја датотеката Robots.txt во неа.

Алтернативно, можете да ја креирате датотеката Robots.txt директно од вашиот FTP уредник.

За да го направите ова, отворете го root директориумот на вашата страница и Десен клик -> Создадете нова датотека.

Во полето за дијалог, напишете „robots.txt“ (без наводници) и притиснете ОК.

Треба да видите нова датотека robots.txt внатре:

На крај, проверете дали сте ја поставиле вистинската дозвола за датотеката за датотеката Robots.txt. Сакате сопственикот - вие самите - да ја чита и пишува датотеката, но не и на другите или на јавноста.

Вашата датотека Robots.txt треба да прикажува „0644“ како код за дозвола.

Ако не, кликнете со десното копче на вашата датотека Robots.txt и изберете „Дозволи за датотека…“

Еве ја имате – целосно функционална датотека Robots.txt!

Ношто всушност можете да направите со оваа датотека?

Следно, ќе ви покажам неколку вообичаени упатства што можете да ги користите за да го контролирате пристапот до вашата страница.

Како да го користите Robots.txt

Запомнете дека Robots.txt суштински контролира како роботите комуницираат со вашата страница.

Сакате да ги блокирате пребарувачите да пристапат до целата ваша локација? Едноставно променете ги дозволите во Robots.txt.

Сакате да го блокирате Bing да ја индексира вашата страница за контакт? Можете исто така да го направите тоа.

Сама по себе, датотеката Robots.txt нема да го подобри вашето оптимизација, но можете да ја користите за да го контролирате однесувањето на роботот на вашата страница.

Да додадете или менувате датотеката, едноставно отворете ја во вашиот FTP уредник и директно додајте го текстот. Откако ќе ја зачувате датотеката, промените ќе се одразат веднаш.

Еве неколку команди што можете да ги користите во вашата датотека Robots.txt:

1. Блокирајте ги сите ботови од вашата страница

Сакате да ги блокирате сите роботи да не ја индексираат вашата страница?

Додајте го овој код во вашата датотека Robots.txt:

User-agent: *

Disallow: /

Ова е она што би изгледа како во вистинската датотека:

Едноставно кажано, оваа команда му кажува на секој кориснички агент (*) да не пристапува до ниту една датотека или папка на вашата страница.

Еве го целосниот објаснување за тоа што точно се случува овде:

Корисник-агент:* – Ѕвездичката (*) е знак „вајлд-карта“ што се однесува на секое објект (како што е името на датотеката или во овој случај, бот). Ако пребарувате за „*.txt“ на вашиот компјутер, ќе се прикаже секоја датотека сонаставката .txt. Овде, ѕвездичката значи дека вашата команда се однесува на секој кориснички агент.
Не дозволувај: / – „Не дозволувај“ е команда robots.txt која забранува бот да индексирање на папка. Единечната коса црта нанапред (/) значи дека ја применувате оваа команда во root директориумот.

Забелешка: Ова е идеално ако имате било каков вид на приватна веб-локација како на пр. страница за членство. Но, бидете свесни дека ова ќе ги спречи сите легитимни ботови како што е Google да ја индексираат вашата страница. Користете со претпазливост.

2. Блокирајте ги сите ботови да пристапат до одредена папка

Што ако сакате да спречите ботови да ползат и индексираат одредена папка?

На пример, папката /images?

Користете оваа команда:

User-agent: *Disallow: /[folder_name]/

Ако сакате да ги спречите ботови да пристапат до папката /images, еве како би изгледала командата:

Оваа команда е корисна ако имате папка со ресурси што не сакате да ги преоптоварите со барања за роботски роботи. Ова може да биде папка со неважни скрипти, застарени слики итн.

Забелешка: Папката /images е чист пример. Не велам дека треба да ги блокирате ботови да ја ползат таа папка. Зависи од тоа што се обидувате да постигнете.

Пребарувачите обично се намуртени на веб-администраторите што ги блокираат нивните ботови да лазат папки што не се со слики, затоа бидете внимателни кога ја користите оваа команда. Наведов некои алтернативи на Robots.txt за да ги запрете пребарувачитеиндексирање на одредени страници подолу.

3. Блокирајте одредени ботови од вашиот сајт

Што ако сакате да блокирате одреден робот – како што е Googlebot – да пристапи до вашата страница?

Еве ја командата за него:

User-agent: [robot name]Disallow: /
Исто така види: Зошто Блог? 19 придобивки од блогирањето за бизнис

На пример, ако сакате да го блокирате Googlebot од вашата страница, ова е она што би го користеле:

Секој легитимен бот или кориснички агент има специфично име. Пајакот на Google, на пример, едноставно се нарекува „Googlebot“. Мајкрософт работи и „msnbot“ и „bingbot“. Ботот на Јаху се вика „Јаху! Slurp".

За да најдете точни имиња на различни кориснички агенти (како што се Googlebot, bingbot, итн.) користете ја оваа страница.

Забелешка: Горенаведената команда би блокирајте одреден бот од целата ваша страница. Googlebot се користи чисто како пример. Во повеќето случаи, никогаш не би сакале да го спречите Google да ја индексира вашата веб-страница. Еден специфичен случај на употреба за блокирање на одредени ботови е да ги задржите ботовите што ви користат да доаѓаат на вашата страница, додека да ги спречите оние што не се од корист на вашата страница.

4. Блокирајте одредена датотека да не се индексира

Протоколот за исклучување на роботите ви дава одлична контрола врз кои датотеки и папка сакате да го блокирате пристапот на роботот.

Еве ја командата што можете да ја користите за да запрете датотека да не биде индексиран од кој било робот:

User-agent: *Disallow: /[folder_name]/[file_name.extension]

Значи, ако сакате да блокирате датотека со име „img_0001.png“ од папката „images“, би ја користеле оваа команда:

5. Блокирајте го пристапот до папка, но дозволете датотека да бидеиндексирани

Командата „Не дозволувај“ ги блокира ботови да пристапат до папка или датотека.

Командата „Дозволи“ го прави спротивното.

Командата „Дозволи“ ја заменува Командата „Не дозволувај“ ако првата цели на индивидуална датотека.

Ова значи дека можете да го блокирате пристапот до папка, но да дозволите корисничките агенти сè уште да пристапуваат до поединечна датотека во папката.

Еве го ова. форматот што треба да се користи:

User-agent: *Disallow: /[folder_name]/
Allow: /[folder_name]/[file_name.extension]/

На пример, ако сакавте да го блокирате Google да ја индексира папката „слики“, но сепак сакавте да му дадете пристап до датотеката „img_0001.png“ складирана во неа, еве го форматот што 'd use:

За горенаведениот пример, би изгледало вака:

Ова би спречило индексирање на сите страници во директориумот /search/.

Што ако сакате да спречите индексирање на сите страници што одговараат на одредена екстензија (како „.php“ или „.png“)?

Користете го ова:

User-agent: *Disallow: /*.extension$

The ($ ) знакот овде го означува крајот на URL-то, т.е. наставката е последната низа во URL-то.

Ако сакате да ги блокирате сите страници со екстензијата „.js“ (за Javascript), еве што би користете:

Оваа команда е особено ефикасна ако сакате да ги спречите ботови да лазат скрипти.

6. Спречете ги ботови да ја индексираат вашата страница премногу често

Во горните примери, можеби сте ја виделе оваа команда:

User-agent: *Crawl-Delay: 20

Оваа команда им наложува на сите ботови да чекаат минимум 20 секунди помеѓу барањата за индексирање.

Одложување на индексирањекомандата често се користи на големи сајтови со често ажурирана содржина (како што е Твитер). Оваа команда им кажува на ботови да чекаат минимално време помеѓу следните барања.

Ова осигурува дека серверот не е преоптоварен со премногу барања во исто време од различни ботови.

На пример , ова е датотеката Robots.txt на Twitter која им наложува на ботови да чекаат минимум 1 секунда помеѓу барањата:

Можете дури и да го контролирате доцнењето на индексирање за поединечни ботови. Ова осигурува дека премногу ботови не ја пребаруваат вашата страница во исто време.

На пример, може да имате сет на команди како ова:

Забелешка: Нема да ви треба навистина да ја користите оваа команда освен ако водите огромна локација со илјадници нови страници креирани секоја минута (како Твитер).

Вообичаени грешки што треба да се избегнуваат кога користите Robots.txt

Датотеката Robots.txt е моќна алатка за контролирање на однесувањето на ботовите на вашата страница.

Меѓутоа, може да доведе до катастрофа за оптимизација ако не се користи правилно. Не помага тоа што постојат голем број заблуди за Robots.txt кои лебдат наоколу на интернет.

Еве неколку грешки што мора да ги избегнувате кога користите Robots.txt:

Грешка #1 – Користење Robots.txt за да спречите индексирање на содржината

Ако „не дозволите“ папка во датотеката Robots.txt, легитимните ботови нема да ја лазат.

Но, ова сепак значи две работи :

Ботовите ЌЕ ја пребаруваат содржината на