Файл robots.txt — це основний файл, що описує правила обробки сторінок пошукових роботів. Даний файл потрібен для вказівки основного імені сайту, карти сайту (sitemap.xml), відкритих і закритих розділів сайту.
Файл robots.txt включає наступні директиви:
- User-agent — директива вказує для якого робота нижченаведені правила
- * - усі роботи
- Yandex — основний робот Яндекс
- Googlebot — основний робот Google
- StackRambler — пошуковий робот Рамблер
- Aport — пошуковий робот Апорт
- Slurp — робот Yahoo
- MSNBot — робот MSN
- Disallow — директива заборони частини сайту
- Allow — директива дозволу частини сайту
- Host — директива вказівки основного імені сайту
- Sitemap— директива вказівки карти сайту (sitemap.xml)
- Crawl-delay — директива вказує скільки секунд робот може чекати відповіді від сайту (необхідна на сильно завантажених ресурсах, щоб робот не порахував сайт недоступним)
- Clean-param — директива описує динамічні параметри не впливають на вміст сайту
Помимо директив в robots.txt используются спец символы:
- * - любай (в тому числі і порожня) послідовність символів
- $ — є обмеженням правила
Для складання robots.txt використовуються перераховані вище директиви і заспівати символи за наступним принципом:
- Вказується ім'я робота для якого пишеться список правил
(User-agent: * - правило для всіх роботів) - Пишеться перелік заборонених розділів сайту для зазначеного робота
( Disallow: / - заборона індексації всього сайту) - Пишеться перелік дозволених розділів сайту
(Allow: /home/ — дозволений розділ home) - Вказується ім'я сайту
(Host: crazysquirrel.ru — основне ім'я сайту crazysquirrel.ru) - Вказується повний шлях до файлу sitemap.xml
(Sitemap: https:// crazysquirrel.ru/sitemap.xml)
Якщо на сайті немає заборонених розділів, то robots.txt повинен складатися мінімум з 4 рядків:
User-Agent: *
Allow: /
Host: crazysquirrel.ru
Sitemap: https://crazysquirrel.ru/sitemap.xml
Перевірити robots.txt і те, як він впливає на індексацію сайту можна за допомогою інструментів Яндекса