Что такое robots.txt: зачем нужен и как правильно настроить индексный файл
Обычно за создание файла robots.txt отвечает вебмастер, однако каждый SEO-специалист обязан понимать схему его работы. Этот простой текстовый файл, который можно создать в обычном блокноте, определяет видимость страниц вашего сайта поисковыми системами. Неправильно заполнив robots.txt можно закрыть сайт от индексации, и тогда о выходе в ТОП можно забыть. Используя соответствующие директивы, можно давать поисковым роботам команды, которым они будут следовать. Безусловно, поисковики при обходе могут и проигнорировать рекомендации этого файла, однако при его наличии процесс индексации легче контролировать и направлять. В этой статье расскажем, как запретить индексирование в robots.txt, где находится файл, и какие команды можно отдать поисковикам при помощи разных директив.
Зачем нужен и где находится robots.txt
Файл robots.txt располагается в корневой папке и представляет собой своеобразную карту для поисковиков. Только в отличие от карты сайта он подсказывает, куда им можно заходить, а куда — нет.
Для чего нужен robots.txt:
- Закрыть от индексирования админку сайта, личные кабинеты пользователей и другие директории и файлы, не предназначенные для поисковиков;
- Скрыть служебные страницы, а также 404, редиректы, скрипты;
- Закрыть для индексации страницы регистрации и авторизации на сайте;
- Скрыть дубли страниц, а также текстовые файлы или документы, которые не должны попасть в выдачу.
Иными словами, именно этот файл позволяет сформировать положительный образ сайта для поисковиков, так как благодаря ему вы можете скрыть все, что им видеть не следует. Если же настройка robots.txt не была произведена, у поискового робота может сложиться впечатление, что на вашем сайте слишком много мусора и нерелевантных страниц. Чем это вам грозит? Снижением общего уровня релевантности ресурса, выпадением отдельных страниц из поиска, наложением санкций и фильтров. Настроить такой файл при должном умении можно и самостоятельно, но для грамотного SEO-продвижения лучше всего доверить эту задачу профессионалам.
Требования к robots.txt
Файл должен соответствовать определенным параметрам, иначе поисковики не смогут его прочитать.
- Файл должен быть сохранен в кодировке UTF-8;
- Его расположение — исключительно корневая директория (public.html);
- Каждую директиву необходимо прописывать с новой строчки;
- Параметр должен умещаться в одну строку, в каждой строке может быть только одна директива;
- Нельзя начинать строку с пробела;
- Не допускается закрывать директиву точкой или точкой с запятой;
- Название файла может быть прописано исключительно в нижнем регистре;
- Размер robots.txt не может превышать 500 КБ;
- Язык файла — английский.
Если хотя бы одно требование не будет выполнено, весь ресурс будет полностью открыт для индексирования, включая страницы, которые поисковым роботам показывать нельзя, что может негативно сказаться на продвижении сайта. Поэтому в случае, если вы замечаете странности в индексации, проверка robots.txt — первое, что необходимо сделать. Сделать это можно в специальных сервисах от Яндекс и Google.
- В Яндекс.Вебмастере через «Инструменты» можно провести анализ файла. Если сервис обнаружит ошибку, она будет выделена и дополнена комментарием о возможной проблеме.
- Проверить файл в GSC можно только в том случае, если вы подтвердили свои права на ресурс. Алгоритм проверки аналогичен Вебмастеру: у Google есть такая же категория, в которой размещен механизм для проверки этого файла.
Иногда ошибка кроется в синтаксисе. Так, директива clean param в robots.txt при обходе Google может восприниматься как ошибка. Для того чтобы правильно настроить файл, важно понимать, как именно прописывать команды для поисковиков.
Директивы robots.txt
Все директивы начинаются с новой строки и с заглавной буквы. Параметр задается через двоеточие.
Есть три основные директивы:
- User-agent: для робота конкретной системы. Эта директива определяет правила для определенного поисковика. Именно этой директивой прописываются правила robots.txt для Яндекса (User-agent: Yandex) и для Google. В одном файле допускается несколько таких директив, их необходимо разделить пустой строкой.
- Disallow: запрет на индексирование.
- Allow: разрешение на индексирование.
Это команды, без которых не обходится ни один файл robots.txt. Но есть и дополнительные, которые прописываются в индивидуальном порядке:
- Clean-Param: директива, которая работает только для Яндекса в соответствующем User-agent. В параметре может быть указан целый перечень страниц, запрещенных для индексации. Обычно используется для исключения дублей.
- Crawl-delay: устанавливает время задержки между обходом страниц. Директива актуальна для сайтов, расположенных на слабых серверах, чтобы снизить нагрузку и избежать «вылета».
- Sitemap: путь к карте сайта.
- Host: определяет предпочтительное зеркало ресурса. С 2018 года эта директива больше не является обязательной, и вместо нее Яндекс рекомендует настройку 301 редиректа.
Правильно заполнить файл может только квалифицированный специалист. Это связано с тем, что для разных CMS способы оформления и требования к синтаксису будут разными. Без опыта легко совершить ошибку, которая приведет к тому, что роботы просто не увидят этот файл и не примут ваши команды.
Как создать и настроить robots.txt
Есть два основных способа создания этого файла: вручную и при помощи специальных сервисов.
- Написать роботс.тхт для WordPress или любой CMS можно при помощи текстового редактора: блокнота, TextEdit и других. Важно помнить, что сервисы Office не подходят, так как при сохранении возникают дополнительные символы, а формат может оказаться неподходящим.
- Также на WordPress robots.txt можно сформировать при помощи плагина: в этом случае файл сразу автоматически установится в нужную папку.
- Можно сгенерировать файл на специализированном ресурсе: PR-CY, IKSWEB. Все параметры настраиваемые, а интерфейс интуитивно понятен.
Примеры robots.txt для разных CMS различаются синтаксисом. Устанавливается запрет для для категорий, которые имеют разные названия в разных панелях управления. Без должного опыта сформировать файл, который будет правильно воспринят поисковиками, невозможно.
Специалисты компании Я-Топ проведут полноценный аудит ресурса и определят, соответствует ли robots.txt актуальным требованиям поисковых систем. Пропишем директивы так, чтобы поисковики видели только то, что вы им разрешите. Повысим релевантность сайта и поможем ему выйти в ТОП. Заполняйте форму обратной связи, и мы разработаем индивидуальное предложение по эффективному продвижению.