Хотите оставить заявку? Появились вопросы? Наша служба поддержки всегда на связи.
Контакты
Телефоны:
+7 499 404 22 63
+7 812 602 74 94
Email: info@itviz.biz

Блог

Главная  /  SEO   /  Правильная настройка robots.txt: все секреты в одном месте

Правильная настройка robots.txt: все секреты в одном месте

robots.txt

Robots.txt, или как его еще называют индексный файл, является обычным текстовым документом, закодированным в UTF-8. Универсальность такой кодировки обеспечивает действенность сразу для всех популярных протоколов: FTP, https и, конечно же, http. Документ robots.txt содержит инструкции для поисковых роботов, которыми они руководствуются в первую очередь при индексации содержимого сайта. Правильно составленные директивы могут ограничивать доступ поисковиков к определенным страницам, файлам, папкам, а также содержать указания относительно скорости сканирования ресурса, расположения главного зеркала и карты сайта.

Базовые правила использования индексного файла

Сразу хочется отметить, что отсутствие набора инструкций в текстовом формате не является ошибкой. В таком случае обход ресурса производится без ограничений. К слову, robots.txt чаще всего применяют как фильтр, блокирующий доступ извне к:

  • страницам с конфиденциальной информацией пользователей;
  • сайтам-зеркалам;
  • формам передачи информации;
  • страницам, содержащим результаты поиска, пагинацию, результаты фильтрации и сортировки.

Здесь стоит сразу пояснить, что настройка фильтрации не гарантирует 100% защиты от сканирования, если ссылка на закрытую c помощью директивы страницу имеется на самом сайте или ведет из внешних источников.   

Где и как создать файл?

Для создания индексной инструкции достаточно воспользоваться блокнотом, Sublime или Notepad, но название и расширение файла всегда должно оставаться едиными — robots.txt. Малейшая ошибка в написании имени — и сайт просто выпадет из индекса.

Можно выделить несколько ключевых правил для составления файла:

  • разрешение и имя пишутся только в нижнем буквенном регистре;
  • для размещения выбирается корневая директория сайта (там же, где располагается index.php);
  • для корректного обхода сайта роботом Яндекса необходимо внести отдельные директивы.  

Многие поступают проще, одной записью открывая доступ всем поисковым ботам к содержимому ресурса.

Основные директивы

Обращение ко всем поисковым роботам происходит посредством инструкции  User-agent, после чего ставится двоеточие, звездочка, и с новой строки прописывается нужная команда (директива):
User-Agent: *

Вот несколько базовых команд:

  • Disallow. Запрещает индексировать определённый контент. Запись«Disallow:/» закрывает для обхода весь ресурс, что может пригодиться в процессе доработки содержимого сайта. Если нужно запретить доступ к конкретной папке в строку вносится такая команда  «Disallow: /название папки/». Аналогичная схема используется и при запрете на проверку конкретного файла, страницы.
  • Allow – команда, направляющая роботов. С её помощью получится настроить просмотр нужных страниц. К примеру, вы хотите открыть к индексации только страницы каталога интернет-магазина, начинающиеся на «/catalog», запретив доступ к остальным директориям. Делаете запись: «Allow:/ catalog», и с чувством выполненного долга переходите к другим задачам.
  • Host – одна из ключевых команд для роботов Яндекса, сообщающая информацию о  приоритете использования зеркала сайта при сканировании. Зеркало – это копия ресурса, размещенная под разными адресами. Так бот сможет определить главные и второстепенные адреса. Команда указывается без приставки «http://», однако если ресурс функционирует на протоколе  https, это нужно обозначить. Вот как будет выглядеть команда: «Host: название сайта.ru».
  • Sitemap – сообщает боту о необходимости сканирования всех URL ресурса: Sitemap: http://название сайта.ru/sitemap.xml.
  • Crawl-delay – параметр, позволяющий выбрать период для загрузки страниц. Обычно эту директиву используют в том случае, если сайт размещен на медленном сервере. Период загрузки определяется в секундном значении: Crawl-delay: 2.
  • Команда Clean-param направлена на борьбу с дублями контента, доступного по динамическим адресам.

Если сомневаетесь в правильности составления robots.txt, проверьте его с помощью инструментов для вебмастеров, предоставленных Google и Яндекс.

Комментариев нет
Оставьте комментарий

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.