Как настроить robots.txt правильно: директивы и ошибки

Анатолий Кузнецов

SEO-оптимизатор с 20-летним стажем. Автор блога hozyindachi.ru о продвижении и доработке сайтов.

Файл robots.txt — это первое, что читает поисковый робот, заходя на сайт. Маленький текстовый файл в корне домена определяет, какие разделы можно обходить и индексировать, а какие нет. Ошибка в нём способна закрыть от поиска весь сайт или, наоборот, выпустить в индекс мусорные страницы и съесть краулинговый бюджет на ерунде. При этом многие настраивают robots.txt по чужим шаблонам, не понимая логики, и потом удивляются проблемам с индексацией. В этой статье я разберу, как настроить robots.txt правильно, какие директивы за что отвечают и каких ошибок избегать, чтобы файл помогал продвижению, а не вредил ему.

Сразу важная оговорка: robots.txt — это рекомендация, а не строгий запрет. Добросовестные роботы Яндекса и Google его соблюдают, но он не защищает страницы от посторонних глаз и не гарантирует на сто процентов, что закрытое не попадёт в индекс другими путями — например, по внешним ссылкам. Для надёжного закрытия от индексации есть отдельные инструменты, и robots.txt их не заменяет. Понимая это, перейдём к структуре файла и его директивам, а затем к типичным ошибкам.

Содержание статьи

1 Что такое robots.txt и зачем он нужен

2 Основные директивы и как они работают

3 Типичные ошибки настройки

4 Спецсимволы и тонкая настройка путей

5 Связка с картой сайта и индексацией

6 Robots.txt в эпоху нейросетей

7 Не хватает целевого трафика? Давайте исправим это

8 Увеличьте позиции и продажи вашего сайта

9 Остались вопросы по продвижению?

Что такое robots.txt и зачем он нужен

Robots.txt управляет обходом сайта роботами. Он экономит краулинговый бюджет — то есть лимит страниц, которые робот готов обойти за визит, — направляя его на важное и уводя от служебного. Это особенно ценно для крупных сайтов, где роботу легко увязнуть в бесконечных технических разделах и не дойти до новых товаров или статей. Если интересно, как часто робот вообще заходит на сайт и от чего это зависит, почитайте про то, как часто Яндекс индексирует сайты: правильный robots.txt помогает расходовать эти визиты с максимальной пользой.

Закрывать в robots.txt стоит технические и дублирующие разделы: корзину, личный кабинет, страницы фильтров и сортировок, результаты внутреннего поиска, служебные каталоги движка, страницы оформления заказа. Это снижает риск попадания в индекс лишнего и помогает избежать проблем с дублями, которые размывают релевантность. Раздувание индекса слабыми и техническими страницами вредит — об этом материал о том, как количество страниц влияет на позиции сайта. Чистый, осмысленный индекс почти всегда лучше большого и замусоренного.

Основные директивы и как они работают

Структура файла строится из нескольких директив. User-agent указывает, к какому роботу относятся правила: звёздочка означает всех роботов, можно прописать и конкретного бота отдельным блоком. Disallow закрывает путь от обхода, Allow — открывает, причём при пересечении правил приоритет обычно у более длинного и точного пути. Sitemap указывает на карту сайта, чтобы робот быстрее нашёл все нужные страницы. Каждая директива пишется с новой строки, путь начинается со слэша, а пустой Disallow означает, что обходить можно всё.

Распространённая ошибка — закрыть через Disallow слишком много или, наоборот, открыть техническое. Например, нельзя случайно закрывать каталоги со стилями и скриптами: робот не отрисует страницу корректно и хуже её оценит, ведь он смотрит на сайт почти как пользователь. Будьте аккуратны и с понятием канонической страницы — robots.txt не заменяет канонизацию и не склеивает дубли. Если запутались, что считать основной версией страницы, поможет статья про неканоническую страницу: закрывать дубли стоит правильными инструментами, а не одним лишь грубым Disallow, который просто прячет страницу от обхода.

Типичные ошибки настройки

Самая опасная ошибка — оставить после разработки строку, закрывающую весь сайт от индексации. Сайт переезжает с тестового сервера на боевой, а запрет Disallow слэш остаётся, и страницы массово выпадают из поиска, обнуляя месяцы работы. Это частый и очень обидный случай в общем списке ошибок, которые мешают продвигать сайт. Возьмите за правило проверять robots.txt сразу после публикации сайта и после любого крупного обновления движка — пять минут проверки экономят недели восстановления.

Вторая ошибка — путать robots.txt с настройкой редиректов и протокола. Файл не решает вопросы перенаправлений; некорректные редиректы вредят отдельно, и как 301 редирект убивает SEO, я разбирал в отдельном материале. И помните про протокол: после перехода с http на https адрес карты сайта внутри robots.txt должен быть указан именно по защищённому протоколу, иначе робот запутается в версиях. Третья частая ошибка — забыть указать sitemap вовсе, из-за чего новые страницы находятся медленнее, чем могли бы.

Спецсимволы и тонкая настройка путей

Когда базовая логика ясна, стоит освоить тонкую настройку через спецсимволы. Звёздочка заменяет любую последовательность символов, и с её помощью удобно закрывать целые типы адресов — например, все страницы с параметрами сортировки или результаты внутреннего поиска по маске. Знак доллара обозначает конец адреса и нужен, когда важно закрыть строго определённую страницу, а не всё, что начинается с этого пути. Без понимания этих символов легко закрыть лишнее: написали правило для одной служебной папки, а под него случайно попали и нужные разделы каталога.

Особая осторожность нужна с параметрами в адресах. Динамические параметры вроде меток рекламных кампаний, идентификаторов сессий и фильтров плодят бесконечные варианты одной и той же страницы, и поиск может счесть это дублями. Аккуратно закрытые через маску параметры экономят краулинговый бюджет и держат индекс чистым. Но не рубите сплеча: иногда параметр меняет содержимое страницы по существу, и закрывать его нельзя, иначе вы потеряете полезные посадочные. Всегда проверяйте на конкретных примерах, что именно скрывает ваше правило, прежде чем выкатывать его на боевой сайт.

Помните и о том, что разные поисковые системы трактуют некоторые директивы по-своему. Часть правил, привычных для одного робота, другой может игнорировать или понимать иначе, поэтому слепо копировать чужой файл опасно. Лучше держать общие правила в блоке для всех роботов, а специфику выносить в отдельные блоки под конкретного бота. И обязательно сверяйтесь с актуальной документацией поисковиков: рекомендации со временем меняются, и то, что считалось правильным несколько лет назад, сегодня может работать иначе или вовсе не поддерживаться.

Связка с картой сайта и индексацией

Robots.txt и sitemap.xml работают в паре: первый говорит, куда не ходить, второй — куда идти в первую очередь и что обновилось. Указание карты сайта в robots.txt ускоряет обнаружение новых страниц и помогает роботу понять структуру. Это особенно важно, если вы регулярно публикуете материалы и хотите быстрой индексации свежего контента. Чем понятнее роботу структура, тем меньше шанс, что важная страница останется незамеченной или попадёт в категорию нулевых заходов в Яндекс.Метрике просто потому, что её вовремя не нашли и не проиндексировали.

После настройки обязательно проверьте файл в инструментах вебмастера: они покажут, какие страницы закрыты, какие открыты, и подсветят синтаксические ошибки до того, как они навредят. Не оставляйте файл без присмотра — при каждом крупном изменении структуры сайта, добавлении новых разделов или смене движка пересматривайте правила. Robots.txt живёт вместе с сайтом, а не пишется один раз навсегда: то, что было верно год назад, после переделки каталога может превратиться в дыру или, наоборот, в лишний запрет.

Robots.txt в эпоху нейросетей

Появился новый пласт задач: управление доступом для ботов нейросетей. Всё больше площадок решают, пускать ли краулеры искусственного интеллекта, которые собирают данные для обучения моделей и для формирования AI-ответов. Это часть большой темы подготовки сайта к новой выдаче — подробнее в материале про техническое GEO. Решение здесь зависит от стратегии: хотите ли вы, чтобы вас цитировали нейросети и приводили к вам трафик, или предпочитаете закрыться от сбора данных полностью.

Подведём итог. Robots.txt — простой по виду, но ответственный файл, цена ошибки в котором высока. Закрывайте служебное и дублирующее, открывайте важное, никогда не блокируйте стили и скрипты, указывайте карту сайта и всегда проверяйте файл после изменений. Понимая логику директив, вы превратите его из источника внезапных проблем в точный инструмент управления индексацией. А если не уверены в настройке технической части или боитесь закрыть лишнее, я помогу провести аудит и привести сайт в порядок без риска потерять позиции.

Давайте соберём короткий чек-лист, по которому удобно проверять готовый файл. Во-первых, robots.txt лежит строго в корне домена и открывается по прямому адресу — если его там нет или он отдаёт ошибку, робот действует так, будто разрешено всё. Во-вторых, директива, закрывающая весь сайт, отсутствует, если только сайт не на стадии разработки. В-третьих, каталоги со стилями, скриптами и изображениями открыты для обхода. В-четвёртых, закрыты технические и дублирующие разделы: корзина, личный кабинет, оформление заказа, результаты внутреннего поиска. В-пятых, указан актуальный адрес карты сайта по защищённому протоколу. Пройдитесь по этим пяти пунктам после каждого изменения структуры — и большинство проблем с индексацией вы предотвратите ещё до их появления.

И последнее важное замечание: robots.txt не работает в вакууме, он лишь часть системы управления индексацией. Рядом с ним стоят карта сайта, метатеги, заголовки ответа сервера и настройка канонических адресов. Только когда все эти инструменты согласованы между собой, поиск видит чёткую и непротиворечивую картину вашего сайта. Противоречия же сбивают робота с толку: например, страница открыта в robots.txt, но запрещена к индексации метатегом, или закрыта от обхода, но указана в карте сайта как приоритетная. Такие конфликты приводят к непредсказуемому поведению и трудноуловимым проблемам. Поэтому относитесь к robots.txt не как к отдельной галочке, а как к одному из винтиков общего технического механизма, который должен работать слаженно. Тогда индексация будет управляемой, а сайт — предсказуемо видимым в поиске.

Не хватает целевого трафика? Давайте исправим это

Правильный robots.txt — лишь одна деталь технического здоровья сайта, а заявки приходят, когда в порядке вся система целиком. Я провожу полный аудит, нахожу, что тормозит продвижение, и беру сайт в работу под ключ: техническая оптимизация, семантика, контент и перелинковка — всё ради стабильного потока целевых посетителей из поиска.

SEO-продвижение сайтов в Яндексе — вывожу коммерческие и информационные запросы в ТОП-10 и привожу трафик, который превращается в заявки: вы видите план, отчёты и реальные позиции в Топвизоре. GEO-продвижение — готовлю сайт к выдаче нейросетей и AI-поиска, чтобы вас рекомендовали Алиса, ChatGPT и Нейро, пока конкуренты об этом ещё не задумались.

👉 Запишитесь на бесплатную SEO-консультацию — разберу ваш сайт и честно скажу, что даст результат в вашей нише.

Увеличьте позиции и продажи вашего сайта

Профессиональное SEO-продвижение с гарантией результата. Выберите подходящую услугу:

01 SEO-аудит сайта 02 SEO-продвижение 03 Создание сайтов 04 SEO-статьи для сайта

Получить консультацию

Остались вопросы по продвижению?

Меня зовут Анатолий Кузнецов, я SEO-оптимизатор с 20-летним стажем. Разберу ваш сайт, отвечу на вопросы и подскажу, что улучшить для роста позиций в Яндексе и Google.

Связаться со мной →

Регина

03.05.2018 в 05:42

Забрала правила: не закрывать CSS и JS, указывать Sitemap, использовать Clean-param для параметров, для надёжного исключения — noindex, а не robots, и всегда проверять в валидаторе. Спасибо за конкретику.

Ответить

Геннадий

02.05.2018 в 03:42

Именно в Вебмастере: отчёт по страницам, исключённым из-за robots, плюс инструмент проверки конкретного URL — доступен он роботу или закрыт. Так видно и лишние запреты, и случайно закрытое нужное.

Милана

01.05.2018 в 01:42

А как понять, что robots настроен правильно, кроме валидатора? Смотреть в Вебмастере, какие страницы исключены из-за запрета в robots? Или есть ещё способы проверить?

Admin
01.05.2018 в 16:42

Милана, в Вебмастере есть отчёт по страницам, исключённым из-за запрета в robots, плюс инструмент проверки конкретного URL — доступен он роботу или закрыт. Так видно и лишние запреты, и случайно закрытое нужное. Плюс валидатор robots. Этих инструментов достаточно, чтобы убедиться, что файл настроен верно.

Ответить

Валерий

29.04.2018 в 23:42

Совет: держите robots минималистичным и осмысленным. Закрывайте только служебное — админку, корзину, внутренний поиск, технические дубли. Не превращайте файл в свалку правил, в которой сами потом не разберётесь.

Инна

28.04.2018 в 21:42

Спасибо, robots всегда казался мелочью, а тут оказывается — один символ и полсайта из индекса. Пойду проверю свой в Вебмастере и уберу лишние Disallow, накопившиеся за годы.

Семён

27.04.2018 в 19:42

А боты нейросетей и AI-краулеры — их пускать или блокировать в robots? Сейчас это отдельная дилемма: и в AI-выдаче хочется быть, и контент отдавать не всем.

Галина

26.04.2018 в 16:42

Проверяю robots после каждого переезда и обновления CMS. Однажды после смены хостинга подтянулся дефолтный robots, закрывавший весь сайт. Хорошо, заметили по падению индексации через Вебмастер.

Антон

25.04.2018 в 14:42

Отдельная секция User-agent: Yandex имеет смысл, если для Яндекса и Google нужны разные правила. Но чаще хватает общей секции. Не усложняйте без необходимости, чем проще robots, тем меньше шансов ошибиться.

Марина

24.04.2018 в 12:42

У нас в robots были правила ещё от старого движка, закрывавшие нужные разделы. Никто годами не смотрел. Почистили — часть страниц вернулась в индекс. Проверьте свой файл, вдруг там наследие.

Фёдор

23.04.2018 в 10:42

Clean-param — мощная штука именно для Яндекса, отсекает параметры вроде utm и сессий, экономит краулинговый бюджет. Канониклы и Clean-param не взаимоисключают, а дополняют друг друга. Я использую оба.

Ксения

22.04.2018 в 08:42

А директива Clean-param для Яндекса реально помогает с дублями от utm и фильтров? Или проще канониклами разруливать? Запуталась, когда что применять.

Admin
22.04.2018 в 18:42

Ксения, Clean-param — мощная штука именно для Яндекса, отсекает параметры вроде utm и сессий и экономит краулинговый бюджет. Она не взаимоисключает с канониклами, а дополняет: канониклы разруливают дубли для индекса, Clean-param — для обхода. Я использую оба, каждый на своём месте.

Ответить

Роман

21.04.2018 в 06:42

Обязательно указывайте директиву Sitemap в robots — путь к карте сайта. Мелочь, а помогает роботу быстрее находить страницы. Многие забывают эту строку, а она бесплатно ускоряет индексацию.

Жанна

20.04.2018 в 05:42

Частая ошибка — закрыть в robots папку со скриптами и стилями. Тогда робот не может отрендерить страницу и оценивает её как кривую. CSS и JS закрывать нельзя, это бьёт по ранжированию.

Олег

19.04.2018 в 05:42

Ключевой нюанс: robots запрещает обход, но не гарантирует отсутствие в индексе. Если на страницу есть ссылки, она может попасть в поиск даже под Disallow. Для надёжного исключения — meta noindex, а не только robots.

Алина

18.04.2018 в 02:42

А что вообще нужно закрывать в robots? Админку, корзину, поиск по сайту? И правда ли, что закрывать через robots от индексации ненадёжно и лучше noindex?

Admin
18.04.2018 в 08:42

Алина, закрывайте служебное: админку, корзину, внутренний поиск, технические дубли с параметрами. И да, robots запрещает обход, но не гарантирует отсутствие в индексе — если на страницу есть ссылки, она может попасть в поиск. Для надёжного исключения используйте meta noindex, а не только robots.

Ответить

Виктор

17.04.2018 в 11:42

robots.txt — файл, где легко наломать дров одной строкой. Видел, как случайный Disallow: / закрывал весь сайт от индексации и трафик обнулялся. Первое правило: после любой правки проверять файл в валидаторе Вебмастера.

Как настроить robots.txt