Создание robots.txt
Когда вы создаете какой-либо сервис, который подразумевает хранение личных данных пользователей, логично озаботиться защитой этих данных. Или же на вашем сайте есть страницы, которые не несут особой ценности, и вы не хотите, чтобы они занимали место в поисковой выдаче. Решить эти проблемы поможет файл robots.txt.
В этой статье вы узнаете о том, что это такое, как его составить и чем он может быть полезен.
Что это такое и зачем это нужно
Файл robots.txt. — документ, который состоит из одного или нескольких правил, каждое из которых блокирует или разрешает поисковому роботу доступ к определенным разделам на сайте.
По умолчанию данный файл не содержится на сайте. Фактически, это означает разрешение для поисковиков на индексацию всего сайта. Такое разрешение может привести к попаданию в индекс поисковиков важных технических страниц сайта, которых там быть не должно.
Для чего нужен:
- Запрет на индексирование определенных страниц, разделов, каталогов сайта.
- Исключение страниц не содержащих полезного контента.
- Исключение дублей страниц и прочее.
Самостоятельное создание файла
Для самостоятельной работы с данным файлом вы можете или прибегнуть к генерации через онлайн-сервисы, или воспользоваться обыкновенным текстовым редактором (блокнотом, к примеру).
Генерация Robots.txt с помощью онлайн-сервисов
Метод простой и быстрый, но следует учитывать несколько нюансов перед тем, как приступать к работе:
- Заранее определите к чему вы будете разрешать доступ, а к чему запрещать.
- Обязательно проверяйте файл перед загрузкой на сайт (попросить сведущего в этих делах знакомого или обратитесь к фрилансеру).
- Будьте внимательны при составлении файла, ведь в случае ошибки в поисковую выдачу попадут страницы, которых там быть не должно, вместе с их содержимым.
Для автоматического создания файлов воспользуйтесь следующими сервисами:
- https://htmlweb.ru/analiz/robots.php
- http://sitespy.ru/sozdati-robots-txt
- https://mediasova.com/robots/
Ручное создание и редактирование
Даже единожды избежав работы с данным файлом вы все равно столкнетесь с ним при дальнейшем редактировании.
При написании инструкций следует учитывать некоторые правила и синтаксис. Ниже приводим список правил:
- Одна строка должна содержать не более одной директивы.
- Каждое правило начинается с новой строки.
- Пробелы в начале строки исключены.
- Пустой robots или его отсутствие означает разрешение на полную индексацию сайта.
- Файл должен быть доступен всегда.
- Пустая строка после указанных правил, указывает на полное окончание правил директивы User-agent.
- Прописывать правила для каждой из поисковых систем рекомендуется по отдельности.
- Не допускается наличие кавычек в правилах или строке.
- Создавайте минималистичный документ четко отражающий структуру сайта и не более того.
- В директивах Allow и Disallow допустимо только одно правило. Пустое значение после Allow: и Disallow: равносильны полному разрешению на индексацию.
Кроме правил необходимо понимать функции основных команд:
- User-Agent: — данная команда говорит о том, какой поисковой системе предназначены указания. Значение “*” применяет правила ко всем поисковикам.
- Disallow: — полный запрет индексации.
- Аllow: — полное разрешение индексации.
- Clean-param: — исключает динамические страницы.
- Crawl-delay: — отвечает за интервал выгрузки документов поисковым роботам. Позволяет снизить нагрузку на сервер.
- Sitemap: https://ваш_сайт.ru/sitemap.xml — адрес карты сайта.
- # — дает возможность оставлять комментарии.
Итог
Теперь вы имеете представление о создании файла robots.txt и для чего он нужен. Вы научились базовым приемам работы с ним и теперь сможете самостоятельно улучшать ваш ресурс.