В файле robots.txt представлена информация о детальной настройке методов индексации сайта специализированными ботами поисковых систем Google и Яндекс. Итак, что же такое robots.txt? Это текстовый файл, который расположен в корневой директории сайта. В случае верного размещения файла, ссылка на него будет выглядеть следующим образом: site.ru/robots.txt
Управление индексацией – важно ли это?
Да, это действительно необходимо, поскольку в индекс поисковых систем, если не уделить особое внимание данному вопросу, попадают страница, не несущие никакой пользы пользователям. Вроде бы, что тут такого криминального? Дело в том, что к таким ресурсам снижается доверие поисковых систем, а значит и выдача будет не такая, какую бы хотелось видеть.
Какие страницы необходимо закрывать в robots.txt?
1 Корзину магазина и страницы оформления заказов
2 Страницы сравнения и сортировки товаров
3 Страницы регистрации пользователей и их авторизации
4 Фильтры, языковые версии и теги, если они не оптимизированы и модерированы
5 Личный кабинет и профили пользователей
6 Лэндинги акций и распродаж
7 Системные файлы и каталоги
8 Версии для печати и пустые страницы сайта
9 Прочие страницы, которые не полезны, не готовы и не проработаны
Влияние файла robots.txt на «Яндекс» и «Google»
Поисковая система «Яндекс» описанные в файле правила считает приоритетными и пока не индексирует страницы, указанные в нем. А вот поисковая система «Google» решает самостоятельно какие же страницы индексировать, но стоит учесть, что используя robots.txt снижается вероятность попадания в Google ненужных страниц.
В связи с особенностями работы Google предлагаем воспользоваться мета-тег robots:
« <html>
<head>
<meta name=“robots” content=“noindex,nofollow”>
<meta name=“description” content=“ страница ….”>
<title>…</title>
</head>
<body> »
Не стоит использовать онлайн-генераторы, поскольку выхлопа от их работы совершенно нет.
Как правильно настроить robots.txt?
По своей структуре файл robots.txt содержит несколько пронумерованных указаний робота, в которых прописываются директивы для выполнения и дополнительные опции. В зависимости от вида директивы прописывается различная система работы.
Итак, директива User-agent: в ней необходимо указать наиболее актуальные правила.
Наиболее часто встречаются записи:
- User-agent: * (для всех роботов);
- User-agent: Yandex (для всех роботов Яндекса).
Советуем использовать в работе обе записи как для роботов Яндекса, так и для все остальных.
Для Яндекса лучше использовать следующие юзер-агенты:
- YandexBot (основной робот для индексации)
- YandexMetrika (робот Яндекс.Метрики)
- YandexDirect и YaDirectFetcher (роботы по подбору релевантной рекламы)
- YandexMarket (робот Яндекс.Маркета)
- YandexNews (робот Яндекс.Новостей)
- YandexImages (робот Яндекс.Картинок)
- YandexDirectDyn (робот динамических баннеров)
- YandexBlogs (робот постов и комментариев)
- YandexCalendar (робот Яндекс.Календаря)
- YandexMedia (робот мультимедийных данных).
Для поисковой системы Google используются иные юзер-агенты:
Для поисковой системы Google используются иные юзер-агенты:
- Googlebot (анализатор контента сайта)
- AdsBot-Google (робот для веб-страниц на компьютерах)
- Googlebot-Mobile (робот для индексации работы сайта на мобильных устройствах)
- Mediapartners-Google (робот AdSense)
- AdsBot-Google-Mobile (робот для определения качества рекламы, демонстрируемой на Android и IOS)
- Googlebot-Image (робот изображений и картинок)
- Googlebot-News (робот Google новостей)
- Googlebot-Video (робот Google видео).
Директива Disallow наиболее часто используется в robots.txt, поскольку именно она позволяет качественно закрыть ненужные для индексации страницы.
Директива Host указывается в конце файла robots.txt. Наиболее часто встречаются записи:
User-agent: Yandex
Disallow: /cgi-bin
Host: site.ru
Директива Sitemap прописывается в корне сайта. Важным фактором является то, что необходимо указывать абсолютный путь в виде: https://site.ru/site_structure/my_sitemaps1.xml
Директива Clean-param применяется в случаях, когда на сайте есть динамические параметры, не влияющие на содержимое страницы.