Правильний robots.txt

Файл robots.txt — це основний файл, що описує правила обробки сторінок пошукових роботів. Даний файл потрібен для вказівки основного імені сайту, карти сайту (sitemap.xml), відкритих і закритих розділів сайту.
Файл robots.txt включає наступні директиви:

  • User-agent — директива вказує для якого робота нижченаведені правила
    • * - усі роботи
    • Yandex — основний робот Яндекс
    • Googlebot — основний робот Google
    • StackRambler — пошуковий робот Рамблер
    • Aport — пошуковий робот Апорт
    • Slurp — робот Yahoo
    • MSNBot — робот MSN
  • Disallow — директива заборони частини сайту
  • Allow — директива дозволу частини сайту
  • Host — директива вказівки основного імені сайту
  • Sitemap— директива вказівки карти сайту (sitemap.xml)
  • Crawl-delay — директива вказує скільки секунд робот може чекати відповіді від сайту (необхідна на сильно завантажених ресурсах, щоб робот не порахував сайт недоступним)
  • Clean-param — директива описує динамічні параметри не впливають на вміст сайту

Помимо директив в robots.txt используются спец символы:

  • * - любай (в тому числі і порожня) послідовність символів
  • $ — є обмеженням правила

Для складання robots.txt використовуються перераховані вище директиви і заспівати символи за наступним принципом:

  • Вказується ім'я робота для якого пишеться список правил
    (User-agent: * - правило для всіх роботів)
  • Пишеться перелік заборонених розділів сайту для зазначеного робота
    ( Disallow: / - заборона індексації всього сайту)
  • Пишеться перелік дозволених розділів сайту
    (Allow: /home/ — дозволений розділ home)
  • Вказується ім'я сайту
    (Host: crazysquirrel.ru — основне ім'я сайту crazysquirrel.ru)
  • Вказується повний шлях до файлу sitemap.xml
    (Sitemap: https:// crazysquirrel.ru/sitemap.xml)

Якщо на сайті немає заборонених розділів, то robots.txt повинен складатися мінімум з 4 рядків:

User-Agent: *
Allow: /
Host: crazysquirrel.ru
Sitemap: https://crazysquirrel.ru/sitemap.xml

Перевірити robots.txt і те, як він впливає на індексацію сайту можна за допомогою інструментів Яндекса

Подивитися й залишити коментарі