តើឯកសារ Robots.txt ជាអ្វី? ហើយតើអ្នកបង្កើតមួយដោយរបៀបណា? (ការណែនាំសម្រាប់អ្នកចាប់ផ្តើមដំបូង)

 តើឯកសារ Robots.txt ជាអ្វី? ហើយតើអ្នកបង្កើតមួយដោយរបៀបណា? (ការណែនាំសម្រាប់អ្នកចាប់ផ្តើមដំបូង)

Patrick Harvey

តារាង​មាតិកា

តើអ្នកដឹងទេថា អ្នកមានការគ្រប់គ្រងពេញលេញលើអ្នកដែលរុករក និងធ្វើលិបិក្រមគេហទំព័ររបស់អ្នក ចុះទៅទំព័រនីមួយៗ?

វិធីនេះត្រូវបានធ្វើតាមរយៈឯកសារដែលមានឈ្មោះថា Robots.txt។

Robots.txt គឺ​ជា​ឯកសារ​អត្ថបទ​សាមញ្ញ​ដែល​ដាក់​ក្នុង​ថត​ឫស​នៃ​គេហទំព័រ​របស់​អ្នក។ វាប្រាប់ “មនុស្សយន្ត” (ដូចជា ពីងពាងម៉ាស៊ីនស្វែងរក) ទំព័រណាដែលត្រូវរុករកនៅលើគេហទំព័ររបស់អ្នក ទំព័រណាដែលត្រូវមិនអើពើ។

ទោះបីជាមិនសំខាន់ក៏ដោយ ឯកសារ Robots.txt ផ្តល់ឱ្យអ្នកនូវការគ្រប់គ្រងជាច្រើនលើរបៀបដែល Google និង ម៉ាស៊ីនស្វែងរកផ្សេងទៀតមើលឃើញគេហទំព័ររបស់អ្នក។

នៅពេលប្រើត្រូវ វាអាចធ្វើអោយការរុករកកាន់តែប្រសើរឡើង ហើយថែមទាំងប៉ះពាល់ដល់ SEO ទៀតផង។

ប៉ុន្តែតើអ្នកបង្កើតឯកសារ Robots.txt ដ៏មានប្រសិទ្ធភាពយ៉ាងដូចម្តេច? ពេលបង្កើតហើយ តើអ្នកប្រើវាដោយរបៀបណា? ហើយតើអ្នកគួរជៀសវាងកំហុសអ្វីខ្លះពេលកំពុងប្រើវា?

នៅក្នុងការបង្ហោះនេះ ខ្ញុំនឹងចែករំលែកអ្វីគ្រប់យ៉ាងដែលអ្នកត្រូវដឹងអំពីឯកសារ Robots.txt និងរបៀបប្រើវានៅលើប្លក់របស់អ្នក។

តោះចូលមើល៖

តើឯកសារ Robots.txt ជាអ្វី?

ត្រលប់ទៅសម័យដំបូងនៃអ៊ីនធឺណិត អ្នកសរសេរកម្មវិធី និងវិស្វករបានបង្កើត 'មនុស្សយន្ត' ឬ 'ពីងពាង' ដើម្បីរុករក និងធ្វើលិបិក្រមទំព័រនៅលើគេហទំព័រ។ មនុស្សយន្តទាំងនេះត្រូវបានគេស្គាល់ផងដែរថាជា 'ភ្នាក់ងារអ្នកប្រើប្រាស់។ ជាឧទាហរណ៍ គេហទំព័រដែលកំពុងសាងសង់ ឬគេហទំព័រឯកជន។

ដើម្បីដោះស្រាយបញ្ហានេះ Martijn Koster វិស្វករជនជាតិហូឡង់ដែលបង្កើតម៉ាស៊ីនស្វែងរកដំបូងគេរបស់ពិភពលោក (Aliweb) បានស្នើឡើងនូវសំណុំស្តង់ដារដែលមនុស្សយន្តគ្រប់រូបនឹងថតឯកសារភ្ជាប់ពីប្រភពខាងក្រៅ។ និយាយថា ប្រសិនបើគេហទំព័រផ្សេងទៀតភ្ជាប់ទៅឯកសារនៅក្នុងថតដែលបានទប់ស្កាត់របស់អ្នក bots នឹងតាមដានតាមរយៈលិបិក្រមរបស់វា។

  • Rogue bots – spammers, spyware, malware, etc. – ជាធម្មតានឹងមិនអើពើនឹងការណែនាំរបស់ Robots.txt និងដាក់លិបិក្រមរបស់អ្នក មាតិកាដោយមិនគិតពី។
  • វាធ្វើឱ្យ Robots.txt ជាឧបករណ៍មិនល្អ ដើម្បីការពារមាតិកាពីការធ្វើលិបិក្រម។

    នេះជាអ្វីដែលអ្នកគួរប្រើជំនួសវិញ៖ ប្រើស្លាក 'meta noindex'។

    បន្ថែមស្លាកខាងក្រោមនៅក្នុងទំព័រដែលអ្នកមិនចង់ធ្វើលិបិក្រម៖

    នេះគឺជាវិធីសាស្ត្រដែលងាយស្រួលប្រើ SEO ដែលបានណែនាំ ដើម្បីបញ្ឈប់ទំព័រពីការទទួលបានលិបិក្រម (ទោះបីជាវានៅតែមិនរារាំងក៏ដោយ។ spammers)។

    ចំណាំ៖ ប្រសិនបើអ្នកប្រើកម្មវិធីជំនួយ WordPress ដូចជា Yoast SEO ឬ All in One SEO; អ្នកអាចធ្វើវាដោយមិនចាំបាច់កែសម្រួលកូដណាមួយឡើយ។ ឧទាហរណ៍ នៅក្នុងកម្មវិធីជំនួយ Yoast SEO អ្នកអាចបន្ថែមស្លាក noindex នៅលើមូលដ្ឋាននៃការបង្ហោះ/ទំព័រមួយដូចនេះ៖

    គ្រាន់តែបើកឡើង ហើយបង្ហោះ/ទំព័រ ហើយចុចលើ cog នៅខាងក្នុងប្រអប់ Yoast SEO . បន្ទាប់មកចុចលើបញ្ជីទម្លាក់ចុះនៅជាប់នឹង 'Meta robots index' អត្ថបទនេះពី SearchEngineLand មានព័ត៌មានបន្ថែម។

    កំហុស #2 – ការប្រើប្រាស់ Robots.txt ដើម្បីការពារមាតិកាឯកជន

    ប្រសិនបើអ្នកមានមាតិកាឯកជន – និយាយថា PDFs សម្រាប់វគ្គសិក្សាអ៊ីមែល – រារាំងថតតាមរយៈ ឯកសារ robots.txt នឹងជួយ ប៉ុន្តែវាមិនគ្រប់គ្រាន់ទេ។

    នេះជាមូលហេតុ៖

    ខ្លឹមសាររបស់អ្នកអាចនៅតែទទួលបានលិបិក្រមប្រសិនបើវាត្រូវបានភ្ជាប់ពីប្រភពខាងក្រៅ។ លើសពីនេះ bots បញ្ឆោតទាំងឡាយនឹងនៅតែរុករកវាបាន។

    វិធីសាស្ត្រប្រសើរជាងមុនគឺរក្សាមាតិកាឯកជនទាំងអស់នៅពីក្រោយការចូល។ វានឹងធានាថាគ្មាននរណាម្នាក់ – រូបយន្តស្របច្បាប់ ឬបញ្ឆោតទាំងឡាយ – នឹងទទួលបានការចូលប្រើមាតិការបស់អ្នក។

    គុណវិបត្តិគឺថាវាមានន័យថាអ្នកទស្សនារបស់អ្នកមានប្រហោងបន្ថែមដើម្បីលោតចូល។ ប៉ុន្តែ មាតិការបស់អ្នកនឹងមានសុវត្ថិភាពជាងមុន។

    កំហុស #3 – ការប្រើ Robots.txt ដើម្បីបញ្ឈប់មាតិកាស្ទួនពីការទទួលបានលិបិក្រម

    មាតិកាស្ទួនគឺជារឿងមិនសំខាន់នៅពេលនិយាយអំពី SEO ។

    ទោះជាយ៉ាងណាក៏ដោយ ការប្រើ Robots.txt ដើម្បីបញ្ឈប់ខ្លឹមសារនេះពីការទទួលបានលិបិក្រមមិនមែនជាដំណោះស្រាយទេ។ ជាថ្មីម្តងទៀត វាមិនមានការធានាថា ពីងពាងម៉ាស៊ីនស្វែងរកនឹងមិនស្វែងរកខ្លឹមសារនេះតាមរយៈប្រភពខាងក្រៅនោះទេ។

    នេះគឺជាវិធី 3 ផ្សេងទៀតដើម្បីប្រគល់មាតិកាស្ទួន៖

    • លុប មាតិកាស្ទួន - វានឹងកម្ចាត់មាតិកាទាំងស្រុង។ ទោះយ៉ាងណាក៏ដោយ នេះមានន័យថាអ្នកកំពុងនាំមុខគេក្នុងម៉ាស៊ីនស្វែងរកដល់ទៅ 404 ទំព័រ – មិនមែនល្អទេ។ ដោយសារតែនេះ ការលុបមិនត្រូវបានណែនាំទេ
    • ប្រើ 301 ប្តូរទិស – ការបញ្ជូនបន្ត 301 ណែនាំម៉ាស៊ីនស្វែងរក (និងអ្នកទស្សនា) ថាទំព័រមួយបានផ្លាស់ទីទៅទីតាំងថ្មី . គ្រាន់តែបន្ថែមការបញ្ជូនបន្ត 301 លើមាតិកាស្ទួន ដើម្បីនាំអ្នកទស្សនាទៅកាន់មាតិកាដើមរបស់អ្នក។
    • បន្ថែមស្លាក rel=”canonical” – ស្លាកនេះគឺជាកំណែ 'មេតា' នៃការប្តូរទិស 301 ។ ស្លាក “rel=canonical” ប្រាប់ Google ដែលជា URL ដើមសម្រាប់ទំព័រជាក់លាក់មួយ។ សម្រាប់ឧទាហរណ៍កូដនេះ៖

      //example.com/original-page.html ” rel=”canonical” />

      ប្រាប់ Google ថាទំព័រ - original-page.html - គឺជាកំណែ "ដើម" នៃទំព័រស្ទួន។ ប្រសិនបើអ្នកប្រើ WordPress ស្លាកនេះងាយស្រួលបន្ថែមដោយប្រើ Yoast SEO ឬ All in One SEO។

    ប្រសិនបើអ្នកចង់ឱ្យអ្នកទស្សនាអាចចូលប្រើមាតិកាស្ទួន សូមប្រើ rel=”canonical” ស្លាក។ ប្រសិនបើអ្នកមិនចង់ឱ្យអ្នកទស្សនា ឬ bots ចូលប្រើមាតិកា - ប្រើការបញ្ជូនបន្ត 301 ។

    ត្រូវប្រុងប្រយ័ត្នក្នុងការអនុវត្ត ព្រោះវានឹងប៉ះពាល់ដល់ SEO របស់អ្នក។

    ចំពោះអ្នក

    ឯកសារ Robots.txt គឺជាសម្ព័ន្ធមិត្តដ៏មានសារៈប្រយោជន៍ក្នុងការរៀបចំវិធីដែលម៉ាស៊ីនស្វែងរកពីងពាង និងរូបយន្តផ្សេងទៀតធ្វើអន្តរកម្មជាមួយគេហទំព័ររបស់អ្នក។ នៅពេលប្រើត្រូវ ពួកគេអាចមានឥទ្ធិពលវិជ្ជមានលើចំណាត់ថ្នាក់របស់អ្នក និងធ្វើឱ្យគេហទំព័ររបស់អ្នកកាន់តែងាយស្រួលក្នុងការរុករក។

    ប្រើការណែនាំនេះដើម្បីយល់ពីរបៀបដែល Robots.txt ដំណើរការ របៀបដំឡើងវា និងវិធីទូទៅមួយចំនួនដែលអ្នកអាចប្រើវាបាន . ហើយជៀសវាងកំហុសណាមួយដែលយើងបានពិភាក្សាខាងលើ។

    ការអានដែលទាក់ទង៖

    • ឧបករណ៍តាមដានចំណាត់ថ្នាក់ល្អបំផុតសម្រាប់អ្នកសរសេរប្លុក បើប្រៀបធៀប
    • ការណែនាំច្បាស់លាស់ក្នុងការទទួលបាន Google Sitelinks
    • 5 ឧបករណ៍ស្រាវជ្រាវពាក្យគន្លឹះដ៏មានអានុភាពប្រៀបធៀប
    ត្រូវតែប្រកាន់ខ្ជាប់។ ស្តង់ដារទាំងនេះត្រូវបានស្នើឡើងជាលើកដំបូងនៅក្នុងខែកុម្ភៈ ឆ្នាំ 1994។

    នៅថ្ងៃទី 30 ខែមិថុនា ឆ្នាំ 1994 អ្នកនិពន្ធមនុស្សយន្តមួយចំនួន និងអ្នកត្រួសត្រាយគេហទំព័រដំបូងបានឈានដល់ការឯកភាពគ្នាលើស្តង់ដារនេះ។

    ស្តង់ដារទាំងនេះត្រូវបានអនុម័តជា “ការលើកលែងមនុស្សយន្ត Protocol” (REP)។

    ឯកសារ Robots.txt គឺជាការអនុវត្តនៃពិធីការនេះ។

    REP កំណត់សំណុំនៃច្បាប់ដែលគ្រប់ crawler ឬ spider ស្របច្បាប់ត្រូវធ្វើតាម។ ប្រសិនបើ Robots.txt ណែនាំមនុស្សយន្តមិនឱ្យធ្វើលិបិក្រមទំព័របណ្តាញ នោះរាល់មនុស្សយន្តស្របច្បាប់ - ពី Googlebot ទៅ MSNbot - ត្រូវតែធ្វើតាមការណែនាំ។

    ចំណាំ៖ បញ្ជីនៃ crawlers ស្របច្បាប់អាច ត្រូវបានរកឃើញនៅទីនេះ។

    សូមចងចាំថា មនុស្សយន្តបញ្ឆោតទាំងឡាយ - មេរោគ Spyware អ្នកប្រមូលអ៊ីមែល។ល។ - ប្រហែលជាមិនអនុវត្តតាមពិធីការទាំងនេះទេ។ នេះជាមូលហេតុដែលអ្នកប្រហែលជាឃើញចរាចររូបយន្តនៅលើទំព័រដែលអ្នកបានរារាំងតាមរយៈ Robots.txt។

    ក៏មានមនុស្សយន្តដែលមិនអនុវត្តតាមស្តង់ដារ REP ដែលមិនត្រូវបានប្រើសម្រាប់អ្វីដែលគួរឱ្យសង្ស័យ។

    អ្នកអាចមើលគេហទំព័រណាមួយរបស់ robots.txt ដោយចូលទៅកាន់ url នេះ៖

    //[website_domain]/robots.txt

    ឧទាហរណ៍ នេះគឺជាឯកសារ Robots.txt របស់ Facebook៖

    ហើយនេះគឺជាឯកសារ Robots.txt របស់ Google៖

    ការប្រើប្រាស់ Robots.txt

    Robots.txt មិនមែនជាឯកសារសំខាន់សម្រាប់គេហទំព័រទេ។ គេហទំព័ររបស់អ្នកអាចដាក់ចំណាត់ថ្នាក់ និងរីកចម្រើនយ៉ាងល្អឥតខ្ចោះដោយគ្មានឯកសារនេះ។

    ទោះជាយ៉ាងណាក៏ដោយ ការប្រើប្រាស់ Robots.txt ផ្តល់អត្ថប្រយោជន៍មួយចំនួន៖

    • រារាំង bot ពីការរុករកថតឯកសារឯកជន – ទោះបីជាមិនល្អឥតខ្ចោះក៏ដោយ ការមិនអនុញ្ញាត bots ពីថតឯកសារឯកជននឹងធ្វើឱ្យពួកវាកាន់តែពិបាកក្នុងការធ្វើលិបិក្រម – យ៉ាងហោចណាស់ដោយ bots ស្របច្បាប់ (ដូចជា spider ម៉ាស៊ីនស្វែងរក)។
    • គ្រប់គ្រងការប្រើប្រាស់ធនធាន – រាល់ពេលដែល bot រុករកគេហទំព័ររបស់អ្នក វានឹងធ្វើឱ្យបាត់បង់កម្រិតបញ្ជូន និងធនធានម៉ាស៊ីនមេរបស់អ្នក – ធនធានដែលនឹងត្រូវចំណាយកាន់តែប្រសើរលើអ្នកទស្សនាពិតប្រាកដ។ សម្រាប់គេហទំព័រដែលមានខ្លឹមសារច្រើន វាអាចបង្កើនការចំណាយ និងផ្តល់ឱ្យអ្នកទស្សនាពិតប្រាកដនូវបទពិសោធន៍មិនល្អ។ អ្នកអាចប្រើ Robots.txt ដើម្បីទប់ស្កាត់ការចូលប្រើស្គ្រីប រូបភាពមិនសំខាន់។ (ដូចជាទំព័រមាតិកា) មិនខ្ជះខ្ជាយធនធានដែលជីកតាមរយៈទំព័រដែលគ្មានប្រយោជន៍ (ដូចជាលទ្ធផលពីសំណួរស្វែងរក)។ តាមរយៈការទប់ស្កាត់ទំព័រដែលគ្មានប្រយោជន៍បែបនេះ អ្នកអាចកំណត់អាទិភាពទំព័រណាដែល bots ផ្តោតលើ។

    របៀបស្វែងរកឯកសារ Robots.txt របស់អ្នក

    ដូចដែលឈ្មោះបានបង្ហាញ Robots.txt គឺសាមញ្ញ ឯកសារអត្ថបទ។

    ឯកសារនេះត្រូវបានរក្សាទុកក្នុងថតឫសនៃគេហទំព័ររបស់អ្នក។ ដើម្បីស្វែងរកវា គ្រាន់តែបើកឧបករណ៍ FTP របស់អ្នក ហើយរុករកទៅកាន់បញ្ជីគេហទំព័ររបស់អ្នកនៅក្រោម public_html។

    នេះគឺជាឯកសារអត្ថបទដ៏តូច - របស់ខ្ញុំគឺត្រឹមតែជាង 100 បៃប៉ុណ្ណោះ។

    ដើម្បីបើកវា ប្រើកម្មវិធីកែអត្ថបទណាមួយ ដូចជា Notepad ជាដើម។ អ្នកប្រហែលជាឃើញអ្វីមួយដូចនេះ៖

    មានឱកាសដែលអ្នកនឹងមិនឃើញឯកសារ Robots.txt ណាមួយនៅក្នុងថត root នៃគេហទំព័ររបស់អ្នកទេ។ ក្នុងករណីនេះអ្នកនឹងត្រូវបង្កើតឯកសារ Robots.txt ដោយខ្លួនឯង។

    នេះជារបៀប៖

    របៀបបង្កើតឯកសារ Robot.txt

    ដោយសារ Robots.txt គឺជាឯកសារអត្ថបទមូលដ្ឋាន ការបង្កើតវាគឺសាមញ្ញណាស់ – គ្រាន់តែបើកកម្មវិធីនិពន្ធអត្ថបទ ហើយរក្សាទុកឯកសារទទេជា robots.txt។

    ដើម្បីផ្ទុកឯកសារនេះទៅម៉ាស៊ីនមេរបស់អ្នក សូមប្រើឧបករណ៍ FTP ដែលអ្នកចូលចិត្ត (ខ្ញុំសូមណែនាំឱ្យប្រើ WinSCP) ដើម្បីចូលទៅក្នុងម៉ាស៊ីនមេគេហទំព័ររបស់អ្នក។ . បន្ទាប់មកបើកថត public_html ហើយបើកថត root នៃគេហទំព័ររបស់អ្នក។

    អាស្រ័យលើរបៀបដែលម៉ាស៊ីនបណ្តាញរបស់អ្នកត្រូវបានកំណត់រចនាសម្ព័ន្ធ ថត root គេហទំព័ររបស់អ្នកអាចដោយផ្ទាល់នៅក្នុងថត public_html ។ ឬវាអាចជាថតឯកសារនៅក្នុងនោះ។

    នៅពេលដែលអ្នកបានបើកថតឫសនៃគេហទំព័ររបស់អ្នកហើយ គ្រាន់តែអូស & ទម្លាក់ឯកសារ Robots.txt ទៅក្នុងវា។

    ម្យ៉ាងវិញទៀត អ្នកអាចបង្កើតឯកសារ Robots.txt ដោយផ្ទាល់ពីកម្មវិធីនិពន្ធ FTP របស់អ្នក។

    ដើម្បីធ្វើដូច្នេះ សូមបើកថតឫសគេហទំព័ររបស់អ្នក ហើយ ចុចកណ្ដុរស្ដាំ -> បង្កើតឯកសារថ្មី។

    ក្នុងប្រអប់ វាយ “robots.txt” (ដោយគ្មានសញ្ញាសម្រង់) ហើយចុច OK។

    អ្នកគួរតែឃើញឯកសារ robots.txt ថ្មីនៅខាងក្នុង៖

    ជាចុងក្រោយ ត្រូវប្រាកដថាអ្នកបានកំណត់ការអនុញ្ញាតឯកសារត្រឹមត្រូវសម្រាប់ឯកសារ Robots.txt។ អ្នកចង់ឱ្យម្ចាស់ - ខ្លួនអ្នក - អាន និងសរសេរឯកសារ ប៉ុន្តែមិនមែនសម្រាប់អ្នកដទៃ ឬសាធារណៈជនទេ។

    ឯកសារ Robots.txt របស់អ្នកគួរតែបង្ហាញ "0644" ជាលេខកូដអនុញ្ញាត។

    ប្រសិនបើ វាមិនអីទេ ចុចកណ្ដុរស្ដាំលើឯកសារ Robots.txt របស់អ្នក ហើយជ្រើសរើស “ការអនុញ្ញាតឯកសារ…”

    នៅទីនោះ អ្នកមានវា – ឯកសារ Robots.txt ដែលមានមុខងារពេញលេញ!

    ប៉ុន្តែតើអ្នកអាចធ្វើអ្វីបានជាមួយឯកសារនេះ?

    បន្ទាប់ ខ្ញុំនឹងបង្ហាញអ្នកនូវការណែនាំទូទៅមួយចំនួនដែលអ្នកអាចប្រើដើម្បីគ្រប់គ្រងការចូលទៅកាន់គេហទំព័ររបស់អ្នក។

    របៀបប្រើ Robots.txt

    សូមចាំថា Robots.txt គ្រប់គ្រងយ៉ាងសំខាន់ពីរបៀបដែលមនុស្សយន្តធ្វើអន្តរកម្មជាមួយគេហទំព័ររបស់អ្នក។

    ចង់រារាំងម៉ាស៊ីនស្វែងរកពីការចូលប្រើគេហទំព័រទាំងមូលរបស់អ្នកទេ? គ្រាន់តែផ្លាស់ប្តូរការអនុញ្ញាតនៅក្នុង Robots.txt។

    ចង់ទប់ស្កាត់ Bing ពីការបង្កើតលិបិក្រមទំព័រទំនាក់ទំនងរបស់អ្នកទេ? អ្នកក៏អាចធ្វើវាបានដែរ។

    ដោយខ្លួនវាផ្ទាល់ ឯកសារ Robots.txt នឹងមិនធ្វើអោយ SEO របស់អ្នកប្រសើរឡើងទេ ប៉ុន្តែអ្នកអាចប្រើវាដើម្បីគ្រប់គ្រងឥរិយាបថរបស់ crawler នៅលើគេហទំព័ររបស់អ្នក។

    ដើម្បីបន្ថែម ឬកែប្រែ ឯកសារគ្រាន់តែបើកវានៅក្នុងកម្មវិធីនិពន្ធ FTP របស់អ្នក ហើយបន្ថែមអត្ថបទដោយផ្ទាល់។ នៅពេលដែលអ្នករក្សាទុកឯកសារ ការផ្លាស់ប្តូរនឹងត្រូវបានឆ្លុះបញ្ចាំងភ្លាមៗ។

    នេះគឺជាពាក្យបញ្ជាមួយចំនួនដែលអ្នកអាចប្រើនៅក្នុងឯកសារ Robots.txt របស់អ្នក៖

    1. ទប់ស្កាត់រូបយន្តទាំងអស់ពីគេហទំព័ររបស់អ្នក

    ចង់ទប់ស្កាត់មនុស្សយន្តទាំងអស់ពីការរុករកគេហទំព័ររបស់អ្នកទេ?

    បន្ថែមកូដនេះទៅក្នុងឯកសារ Robots.txt របស់អ្នក៖

    User-agent: *

    Disallow: /

    នេះជាអ្វីដែលវានឹង មើល​ទៅ​ដូច​ក្នុង​ឯកសារ​ពិត៖

    ដើម្បី​និយាយ​ឲ្យ​សាមញ្ញ ពាក្យ​បញ្ជា​នេះ​ប្រាប់​ភ្នាក់ងារ​អ្នក​ប្រើ​ទាំងអស់ (*) មិន​ឲ្យ​ចូល​ប្រើ​ឯកសារ ឬ​ថត​ណាមួយ​នៅ​លើ​គេហទំព័រ​របស់​អ្នក​ទេ។

    នេះ​ជា​ឯកសារ​ពេញលេញ ការពន្យល់អំពីអ្វីដែលកំពុងកើតឡើងនៅទីនេះ៖

    • User-agent:* – សញ្ញាផ្កាយ (*) គឺជាតួអក្សរ 'wild-card' ដែលអនុវត្តចំពោះ រាល់ វត្ថុ (ដូចជាឈ្មោះឯកសារ ឬក្នុងករណីនេះ bot) ។ ប្រសិនបើអ្នកស្វែងរក “*.txt” នៅលើកុំព្យូទ័ររបស់អ្នក វានឹងបង្ហាញរាល់ឯកសារដែលមានផ្នែកបន្ថែម .txt ។ នៅទីនេះ សញ្ញាផ្កាយមានន័យថាពាក្យបញ្ជារបស់អ្នកអនុវត្តចំពោះ រាល់ user-agent។
    • Disallow: / – “Disallow” គឺជាពាក្យបញ្ជា robots.txt ដែលហាមឃាត់ bot ពី វារថតឯកសារ។ សញ្ញាកាត់ទៅមុខតែមួយ (/) មានន័យថាអ្នកកំពុងអនុវត្តពាក្យបញ្ជានេះទៅថតឫស។

    ចំណាំ៖ នេះគឺល្អប្រសិនបើអ្នកដំណើរការគេហទំព័រឯកជនណាមួយដូចជា គេហទំព័រសមាជិកភាព។ ប៉ុន្តែត្រូវដឹងថាវានឹងបញ្ឈប់ bots ស្របច្បាប់ទាំងអស់ដូចជា Google ពីការរុករកគេហទំព័ររបស់អ្នក។ ប្រើដោយប្រុងប្រយ័ត្ន។

    2. រារាំង bots ទាំងអស់ពីការចូលទៅកាន់ថតជាក់លាក់

    ចុះយ៉ាងណាបើអ្នកចង់ការពារ bot ពីការរុករក និងធ្វើលិបិក្រមថតជាក់លាក់?

    ឧទាហរណ៍ ថត /images?

    ប្រើ ពាក្យបញ្ជានេះ៖

    User-agent: *

    Disallow: /[folder_name]/

    ប្រសិនបើអ្នកចង់បញ្ឈប់ bots ពីការចូលប្រើថត /images នេះគឺជាអ្វីដែលពាក្យបញ្ជានឹងមើលទៅដូច៖

    ពាក្យបញ្ជានេះមានប្រយោជន៍ប្រសិនបើអ្នកមានថតឯកសារ ដែល​អ្នក​មិន​ចង់​លើស​លប់​នឹង​សំណើ​រុក​រក​មនុស្ស​យន្ត។ នេះអាចជាថតដែលមានស្គ្រីបមិនសំខាន់ រូបភាពហួសសម័យ។ល។

    ចំណាំ៖ ថត /images គឺជាឧទាហរណ៍សុទ្ធសាធ។ ខ្ញុំ​មិន​និយាយ​ថា​អ្នក​គួរ​តែ​រារាំង bots ពី​ការ​រុករក​ថត​នោះ​ទេ។ វាអាស្រ័យលើអ្វីដែលអ្នកកំពុងព្យាយាមសម្រេចបាន។

    ម៉ាស៊ីនស្វែងរកតែងតែងឿងឆ្ងល់ចំពោះអ្នកគ្រប់គ្រងគេហទំព័រដែលរារាំងរូបយន្តរបស់ពួកគេពីការរុករកថតឯកសារដែលមិនមែនជារូបភាព ដូច្នេះត្រូវប្រុងប្រយ័ត្ននៅពេលអ្នកប្រើពាក្យបញ្ជានេះ។ ខ្ញុំបានរាយបញ្ជីជម្រើសមួយចំនួនចំពោះ Robots.txt សម្រាប់បញ្ឈប់ម៉ាស៊ីនស្វែងរកការធ្វើលិបិក្រមទំព័រជាក់លាក់ខាងក្រោម។

    3. ទប់ស្កាត់រូបយន្តជាក់លាក់ពីគេហទំព័ររបស់អ្នក

    ចុះយ៉ាងណាបើអ្នកចង់ទប់ស្កាត់មនុស្សយន្តជាក់លាក់មួយ - ដូចជា Googlebot - ពីការចូលប្រើគេហទំព័ររបស់អ្នក?

    នេះគឺជាពាក្យបញ្ជាសម្រាប់វា៖

    User-agent: [robot name]

    Disallow: /

    ឧទាហរណ៍ ប្រសិនបើអ្នកចង់ទប់ស្កាត់ Googlebot ពីគេហទំព័ររបស់អ្នក នេះជាអ្វីដែលអ្នកចង់ប្រើ៖

    Bot ឬភ្នាក់ងារអ្នកប្រើប្រាស់ស្របច្បាប់នីមួយៗមានឈ្មោះជាក់លាក់។ ឧទាហរណ៍ ពីងពាងរបស់ Google ត្រូវបានគេហៅថា "Googlebot" ។ ក្រុមហ៊ុន Microsoft ដំណើរការទាំង "msnbot" និង "bingbot" ។ bot របស់ Yahoo ត្រូវបានគេហៅថា “Yahoo! Slurp”.

    ដើម្បីស្វែងរកឈ្មោះពិតប្រាកដនៃភ្នាក់ងារអ្នកប្រើប្រាស់ផ្សេងៗគ្នា (ដូចជា Googlebot, bingbot ។ល។) សូមប្រើទំព័រនេះ។

    ចំណាំ៖ ពាក្យបញ្ជាខាងលើនឹង រារាំង bot ជាក់លាក់មួយពីគេហទំព័រទាំងមូលរបស់អ្នក។ Googlebot ត្រូវបានប្រើជាឧទាហរណ៍សុទ្ធសាធ។ ក្នុងករណីភាគច្រើន អ្នកមិនចង់បញ្ឈប់ Google ពីការរុករកគេហទំព័ររបស់អ្នកទេ។ ករណីប្រើប្រាស់ជាក់លាក់មួយសម្រាប់ការទប់ស្កាត់ bots ជាក់លាក់គឺរក្សា bots ដែលផ្តល់អត្ថប្រយោជន៍ដល់អ្នកមកគេហទំព័ររបស់អ្នក ខណៈពេលដែលបញ្ឈប់អ្នកដែលមិនមានអត្ថប្រយោជន៍ដល់គេហទំព័ររបស់អ្នក។

    4. រារាំងឯកសារជាក់លាក់មួយមិនឱ្យវារ

    ពិធីការលើកលែងមនុស្សយន្តផ្តល់ឱ្យអ្នកនូវការគ្រប់គ្រងបានល្អលើឯកសារ និងថតណាមួយដែលអ្នកចង់រារាំងការចូលប្រើរបស់មនុស្សយន្ត។

    នេះគឺជាពាក្យបញ្ជាដែលអ្នកអាចប្រើដើម្បីបញ្ឈប់ឯកសារ។ ពីការវារដោយមនុស្សយន្តណាមួយ៖

    User-agent: *

    Disallow: /[folder_name]/[file_name.extension]

    ដូច្នេះ ប្រសិនបើអ្នកចង់បិទឯកសារដែលមានឈ្មោះ “img_0001.png” ពីថត “images” អ្នកនឹងប្រើពាក្យបញ្ជានេះ៖

    <២១>៥. រារាំងការចូលប្រើថតឯកសារ ប៉ុន្តែអនុញ្ញាតឱ្យមានឯកសារបានធ្វើលិបិក្រម

    ពាក្យបញ្ជា “មិនអនុញ្ញាត” រារាំង bot ពីការចូលប្រើថតឯកសារ ឬឯកសារ។

    ពាក្យបញ្ជា “អនុញ្ញាត” ធ្វើផ្ទុយពីនេះ។

    ពាក្យបញ្ជា “អនុញ្ញាត” ជំនួស ពាក្យបញ្ជា “មិនអនុញ្ញាត” ប្រសិនបើអតីតកំណត់គោលដៅទៅឯកសារនីមួយៗ។

    នេះមានន័យថាអ្នកអាចទប់ស្កាត់ការចូលប្រើថតឯកសារ ប៉ុន្តែអនុញ្ញាតឱ្យភ្នាក់ងារអ្នកប្រើប្រាស់នៅតែចូលប្រើឯកសារនីមួយៗនៅក្នុងថតឯកសារ។

    នេះគឺជា ទម្រង់ដែលត្រូវប្រើ៖

    User-agent: *

    Disallow: /[folder_name]/

    Allow: /[folder_name]/[file_name.extension]/

    ឧទាហរណ៍ ប្រសិនបើអ្នកចង់រារាំង Google ពីការរុករកថត "រូបភាព" ប៉ុន្តែនៅតែចង់ផ្តល់ឱ្យវានូវការចូលប្រើឯកសារ "img_0001.png" ដែលផ្ទុកនៅក្នុងវា នេះជាទម្រង់ដែលអ្នក 'd use:

    សម្រាប់ឧទាហរណ៍ខាងលើ វានឹងមើលទៅដូចនេះ៖

    វានឹងបញ្ឈប់ទំព័រទាំងអស់ក្នុង /search/ directory ពីការធ្វើលិបិក្រម។

    ចុះបើអ្នកចង់បញ្ឈប់ទំព័រទាំងអស់ដែលត្រូវនឹងផ្នែកបន្ថែមជាក់លាក់មួយ (ដូចជា “.php” ឬ “.png”) ពីការទទួលបានលិបិក្រម?

    ប្រើវា៖

    User-agent: *

    Disallow: /*.extension$

    The ($ ) ចុះហត្ថលេខានៅទីនេះបង្ហាញពីចុងបញ្ចប់នៃ URL ពោលគឺផ្នែកបន្ថែមគឺជាខ្សែអក្សរចុងក្រោយនៅក្នុង URL។

    ប្រសិនបើអ្នកចង់បិទទំព័រទាំងអស់ដោយប្រើផ្នែកបន្ថែម “.js” (សម្រាប់ Javascript) នេះជាអ្វីដែលអ្នកចង់បាន ប្រើ៖

    សូម​មើល​ផង​ដែរ: 7 ជម្រើស OptinMonster ល្អបំផុតសម្រាប់ឆ្នាំ 2023

    ពាក្យបញ្ជានេះមានប្រសិទ្ធភាពជាពិសេសប្រសិនបើអ្នកចង់បញ្ឈប់បូតពីការរុករកស្គ្រីប។

    6. បញ្ឈប់ bots ពីការរុករកគេហទំព័ររបស់អ្នកញឹកញាប់ពេក

    នៅក្នុងឧទាហរណ៍ខាងលើ អ្នកប្រហែលជាបានឃើញពាក្យបញ្ជានេះ៖

    User-agent: *

    Crawl-Delay: 20

    ពាក្យបញ្ជានេះណែនាំ bots ទាំងអស់ឱ្យរង់ចាំយ៉ាងហោចណាស់ 20 វិនាទីរវាងសំណើររុករក។

    ការពន្យាពេលវារពាក្យ​បញ្ជា​ត្រូវ​បាន​ប្រើ​ជា​ញឹក​ញាប់​នៅ​លើ​គេហទំព័រ​ធំៗ​ដែល​មាន​មាតិកា​ធ្វើ​បច្ចុប្បន្នភាព​ញឹកញាប់ (ដូចជា Twitter)។ ពាក្យបញ្ជានេះប្រាប់ bots ឱ្យរង់ចាំរយៈពេលអប្បបរមារវាងសំណើជាបន្តបន្ទាប់។

    វាធានាថាម៉ាស៊ីនមេមិនជាប់គាំងជាមួយនឹងសំណើច្រើនពេកក្នុងពេលតែមួយពី bots ផ្សេងៗ។

    ឧទាហរណ៍ នេះគឺជាឯកសារ Robots.txt របស់ Twitter ដែលណែនាំ bots ឱ្យរង់ចាំយ៉ាងហោចណាស់ 1 វិនាទីរវាងសំណើ៖

    អ្នកថែមទាំងអាចគ្រប់គ្រងការពន្យាពេលនៃការរុករកសម្រាប់ bots នីមួយៗផងដែរ។ វាធានាថា bots ច្រើនពេកមិនរុករកគេហទំព័ររបស់អ្នកក្នុងពេលតែមួយ។

    ឧទាហរណ៍ អ្នកអាចមានសំណុំនៃពាក្យបញ្ជាដូចនេះ៖

    សូម​មើល​ផង​ដែរ: Visme Review 2023៖ បង្កើតរូបភាពដ៏អស្ចារ្យដោយគ្មានបទពិសោធន៍រចនា

    ចំណាំ៖ អ្នកពិតជាមិនចាំបាច់ប្រើពាក្យបញ្ជានេះទេ លុះត្រាតែអ្នកកំពុងដំណើរការគេហទំព័រដ៏ធំដែលមានទំព័រថ្មីរាប់ពាន់ត្រូវបានបង្កើតឡើងរៀងរាល់នាទី (ដូចជា Twitter)។

    កំហុសទូទៅដែលត្រូវជៀសវាងនៅពេលប្រើ Robots.txt

    ឯកសារ Robots.txt គឺជាឧបករណ៍ដ៏មានអានុភាពសម្រាប់គ្រប់គ្រងឥរិយាបទ bot នៅលើគេហទំព័ររបស់អ្នក។

    ទោះជាយ៉ាងណាក៏ដោយ វាក៏អាចនាំទៅរកគ្រោះមហន្តរាយ SEO ប្រសិនបើមិនបានប្រើត្រឹមត្រូវ។ វាមិនអាចជួយឱ្យមានការយល់ខុសមួយចំនួនអំពី Robots.txt អណ្តែតលើអ៊ីនធឺណិតទេ។

    នេះគឺជាកំហុសមួយចំនួនដែលអ្នកត្រូវជៀសវាងនៅពេលប្រើ Robots.txt:

    កំហុស #1 – ការប្រើប្រាស់ Robots.txt ដើម្បីការពារមាតិកាពីការធ្វើលិបិក្រម

    ប្រសិនបើអ្នក “មិនអនុញ្ញាត” ថតនៅក្នុងឯកសារ Robots.txt នោះ bots ស្របច្បាប់នឹងមិនរុករកវាទេ។

    ប៉ុន្តែ វានៅតែមានន័យពីរយ៉ាង :

    • Bots នឹងរុករកមាតិការបស់

    Patrick Harvey

    Patrick Harvey គឺជាអ្នកនិពន្ធ និងជាអ្នកទីផ្សារឌីជីថលដែលមានបទពិសោធន៍ជាង 10 ឆ្នាំនៅក្នុងឧស្សាហកម្មនេះ។ គាត់មានចំណេះដឹងច្រើនអំពីប្រធានបទផ្សេងៗដូចជា ការសរសេរប្លុក ប្រព័ន្ធផ្សព្វផ្សាយសង្គម ecommerce និង WordPress ។ ចំណង់ចំណូលចិត្តរបស់គាត់សម្រាប់ការសរសេរ និងការជួយមនុស្សឱ្យទទួលបានជោគជ័យតាមអ៊ីនធឺណិត បានជំរុញឱ្យគាត់បង្កើតការបង្ហោះដែលយល់ឃើញ និងទាក់ទាញដែលផ្តល់តម្លៃដល់ទស្សនិកជនរបស់គាត់។ ក្នុងនាមជាអ្នកប្រើប្រាស់ WordPress ដ៏ស្ទាត់ជំនាញ លោក Patrick ស្គាល់ពីខាងក្នុង និងក្រៅនៃការកសាងគេហទំព័រជោគជ័យ ហើយគាត់ប្រើចំណេះដឹងនេះ ដើម្បីជួយអាជីវកម្ម និងបុគ្គលម្នាក់ៗបង្កើតវត្តមានលើអ៊ីនធឺណិតរបស់ពួកគេ។ ដោយមានភ្នែកមុតស្រួចសម្រាប់ព័ត៌មានលម្អិត និងការប្តេជ្ញាចិត្តមិនផ្លាស់ប្តូរចំពោះឧត្តមភាព លោក Patrick ប្តេជ្ញាផ្តល់ជូនអ្នកអាននូវនិន្នាការ និងដំបូន្មានចុងក្រោយបំផុតនៅក្នុងឧស្សាហកម្មទីផ្សារឌីជីថល។ នៅពេលដែលគាត់មិនសរសេរប្លុក លោក Patrick អាចត្រូវបានគេរកឃើញថាកំពុងស្វែងរកកន្លែងថ្មី អានសៀវភៅ ឬលេងបាល់បោះ។