Индексация сайта от А до Я: robots.txt, sitemap, краулинговый бюджет

Анатолий Кузнецов
Анатолий Кузнецов
SEO-оптимизатор с 20-летним стажем. Автор блога hozyindachi.ru о продвижении и доработке сайтов.

Меня зовут Анатолий Кузнецов, я занимаюсь поисковым продвижением больше двадцати лет. И за это время убедился в одной простой вещи: можно написать гениальный контент, вылизать структуру, собрать идеальное семантическое ядро — и всё это будет лежать мёртвым грузом, если поисковый робот толком не понимает, что и как у вас на сайте индексировать.

Индексация — это фундамент. Не самая модная тема, о которой все хотят говорить, но именно та, на которой всё держится. Сегодня разберу её предельно подробно: от базовых директив robots.txt до тонкой работы с краулинговым бюджетом, которую обычно упускают даже опытные оптимизаторы.

Поехали.

Индексация сайта от А до Я: robots.txt, sitemap, краулинговый бюджет

Что такое индексация и почему без неё ничего не работает

Если совсем по-простому: индексация — это процесс, в ходе которого поисковая система находит страницу вашего сайта, считывает её содержимое и заносит в свою базу данных. Только после этого страница может появиться в результатах поиска.

Процесс состоит из двух последовательных этапов, которые часто путают. Сначала идёт краулинг (или сканирование) — робот обходит сайт по ссылкам и скачивает содержимое страниц. Затем — собственно индексация, когда поисковая система анализирует скачанное и решает, добавлять страницу в индекс или нет.

И вот ключевой момент, который я повторяю клиентам постоянно: краулинг не равно индексация. Робот может прийти на страницу, просканировать её и не добавить в индекс. Причин масса — низкое качество контента, дубли, технический мусор, запрет в мета-тегах. Поэтому задача оптимизатора не просто «пустить робота на сайт», а сделать так, чтобы он пришёл именно туда, куда нужно, и понял ровно то, что мы хотим ему сообщить.

Чем отличается индексация в Яндексе и Google

Работаю преимущественно с Яндексом, поскольку основная аудитория моих клиентов в Рунете, но различия знать обязательно.

Google индексирует быстрее и охотнее — новая страница может попасть в выдачу за несколько часов. Яндекс традиционно медленнее, его обновления индекса (так называемые апдейты) происходят циклично, и страница может ждать своей очереди несколько дней, а то и недель. При этом Яндекс более придирчив к качеству и охотнее выкидывает из индекса то, что счёл малополезным.

Управляющие инструменты при этом общие: robots.txt, sitemap.xml, мета-теги. Различается нюансировка, и именно её мы дальше разберём.

robots.txt: первый файл, который видит робот

robots.txt — это текстовый файл в корне сайта (доступен по адресу site.ru/robots.txt), который сообщает поисковым роботам, какие разделы можно обходить, а какие не нужно. Это первое, что робот запрашивает, заходя на ваш сайт.

Сразу важная оговорка, на которой спотыкаются почти все новички. robots.txt — это рекомендация, а не жёсткий запрет. Он управляет краулингом (сканированием), но не гарантирует исключение из индекса. Страница, закрытая в robots.txt, всё равно может попасть в выдачу, если на неё ведут внешние ссылки — просто без описания, с пометкой о недоступности содержимого. Чтобы гарантированно убрать страницу из индекса, нужен мета-тег noindex, но о нём чуть ниже.

Базовый синтаксис директив

Структура файла строится на нескольких основных директивах:

User-agent — указывает, для какого робота предназначены инструкции. Звёздочка означает «для всех».

Disallow — запрещает обход указанного раздела или страницы.

Allow — разрешает обход (используется, чтобы открыть что-то внутри закрытого раздела).

Sitemap — указывает путь к карте сайта.

Минимальный рабочий пример выглядит так:

 
 
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /*?
Disallow: /cart/
Disallow: /search/

Sitemap: https://site.ru/sitemap.xml

Здесь мы закрыли админку, технические URL с параметрами, корзину и страницу поиска — то есть всё, что не должно засорять индекс, — но оставили открытым admin-ajax.php, который нужен для корректной работы скриптов.

Типичные ошибки, которые я вижу постоянно

Первая и самая болезненная — случайное закрытие всего сайта. Строка Disallow: / без ничего закрывает вообще всё. Я неоднократно сталкивался с ситуацией, когда после переноса с тестового домена забывали убрать эту директиву, и сайт месяцами вылетал из индекса. Если у вас внезапно обвалился трафик — первым делом проверьте robots.txt.

Вторая ошибка — попытка закрыть в robots.txt то, что уже проиндексировано. Это не работает в обратную сторону: если страница в индексе, закрытие в robots.txt не выкинет её оттуда, а наоборот — лишит робота возможности увидеть мета-тег noindex и удалить страницу корректно.

Третья — закрытие CSS и JS файлов. Раньше так делали ради экономии, но сейчас и Яндекс, и Google рендерят страницы целиком, и без стилей со скриптами робот видит сломанную страницу. Эти ресурсы открывать обязательно.

Если вы не уверены, что у вас с техническим состоянием сайта, имеет смысл начать с диагностики — я провожу бесплатный аудит сайта, в рамках которого как раз проверяю и robots.txt, и состояние индекса, и базовую техничку.

Sitemap.xml: карта, которая ведёт робота за руку

Если robots.txt говорит роботу, куда не ходить, то sitemap.xml — это, наоборот, перечень страниц, которые вы хотите видеть в индексе. Это XML-файл со списком всех значимых URL сайта плюс служебная информация о каждом.

Карта сайта особенно важна для крупных проектов, сайтов со сложной структурой, новых ресурсов с малым количеством внешних ссылок и страниц, до которых сложно добраться по внутренней перелинковке. По сути, это способ сказать поисковику: «Вот полный список того, что у меня есть, не пропусти ничего важного».

Что должно и не должно быть в карте сайта

Главное правило: в sitemap попадают только те страницы, которые вы реально хотите видеть в выдаче. Канонические, отдающие код 200, открытые для индексации.

Частая ошибка — пихать в карту вообще все URL подряд. В итоге туда попадают редиректы, страницы с noindex, дубли, закрытые в robots.txt разделы. Это создаёт противоречивые сигналы: вы одновременно говорите «индексируй» через sitemap и «не индексируй» через мета-тег. Робот в замешательстве, а вы теряете доверие поисковика к карте.

Карта должна быть актуальной и автоматически обновляться при добавлении или удалении страниц. На WordPress это решается плагинами, на самописных движках — настраивается генерация на стороне сервера. После настройки карту нужно отправить в Яндекс.Вебмастер и Google Search Console — это ускоряет обнаружение новых страниц.

Атрибуты lastmod и приоритеты

В карте сайта для каждого URL можно указывать дату последнего изменения (lastmod), частоту обновления (changefreq) и приоритет (priority). На практике Яндекс и Google по-разному относятся к этим данным.

Атрибут lastmod реально полезен — он подсказывает роботу, что страница обновилась, и стимулирует переобход. А вот changefreq и priority поисковики в значительной степени игнорируют, считая их декларативными. Так что не тратьте время на тонкую настройку приоритетов — лучше следите за корректностью lastmod.

Краулинговый бюджет: ресурс, который нельзя транжирить

А теперь о теме, которую большинство владельцев сайтов вообще не учитывают, — о краулинговом бюджете.

Краулинговый бюджет — это количество страниц, которое поисковый робот готов просканировать на вашем сайте за определённый период. Ресурс не бесконечный: у поисковика миллионы сайтов, и на каждый он выделяет ограниченную «квоту» внимания, исходя из авторитетности ресурса, скорости сервера и частоты обновлений.

Для небольшого сайта на пару сотен страниц это не проблема — бюджета хватает с запасом. Но как только у вас тысячи и десятки тысяч URL (интернет-магазины, агрегаторы, крупные контентные проекты), вопрос становится критичным. Если робот тратит бюджет на мусорные страницы, до действительно важных он может просто не дойти.

Что съедает краулинговый бюджет

По моему опыту, основные пожиратели бюджета такие.

Дубли страниц — пожалуй, главный враг. Один и тот же контент, доступный по нескольким URL (с параметрами, с www и без, со слешем и без), заставляет робота сканировать одно и то же по многу раз. О том, как системно бороться с дублями и почему они так вредят продвижению, я подробно писал в статьях блога — рекомендую посмотреть отдельный материал на эту тему.

Бесконечные URL с параметрами — фильтры, сортировки, метки сессий в интернет-магазинах могут порождать миллионы комбинаций адресов. Их нужно закрывать в robots.txt и приводить в порядок через канонические теги.

Цепочки редиректов — когда страница А ведёт на Б, та на В, а та на Г. Робот идёт по всей цепочке, тратя бюджет. Редиректы должны быть прямыми, в один шаг.

Битые ссылки и страницы 404 — робот ходит по ссылкам, упирается в ошибки и впустую расходует ресурс. Кстати, аккуратная внутренняя перелинковка без битых ссылок — это вообще базовая гигиена, на которую я обращаю отдельное внимание при работе с любым проектом.

Медленный сервер — чем дольше грузится страница, тем меньше успеет обойти робот за отведённое время. Скорость загрузки влияет на краулинг напрямую.

Как оптимизировать краулинговый бюджет

Стратегия сводится к простому принципу: концентрировать внимание робота на ценных страницах и убирать с его пути всё лишнее.

Закройте от сканирования технический мусор — корзину, личный кабинет, страницы поиска, фильтры. Настройте корректные канонические теги, чтобы из группы дублей робот понимал главную страницу. Уберите цепочки редиректов и битые ссылки. Ускорьте сервер. Выстройте логичную внутреннюю перелинковку, чтобы до важных страниц робот добирался в два-три клика от главной.

И обязательно следите за отчётами в Яндекс.Вебмастере — там видно, какие страницы робот обходит, как часто и не уходит ли бюджет в никуда. Это бесценный источник данных для оптимизации.

Мета-теги управления индексацией

Помимо robots.txt и sitemap, на уровне отдельной страницы индексацией управляют мета-теги robots. Это самый надёжный инструмент, потому что он работает на этапе индексации, а не только краулинга.

Основные значения: noindex запрещает добавлять страницу в индекс, nofollow запрещает передавать вес по ссылкам со страницы. Их можно комбинировать.

Прописывается это в секции head:

 
 
html
<meta name="robots" content="noindex, follow">

Ключевой нюанс, который связывает воедино всё, о чём мы говорили: чтобы робот увидел мета-тег noindex, страница НЕ должна быть закрыта в robots.txt. Если вы закроете её в robots.txt, робот туда просто не зайдёт и мета-тег не прочитает. Это та самая логическая ловушка, в которую попадают многие.

Поэтому правильная последовательность удаления страницы из индекса такая: открываем страницу в robots.txt, ставим мета-тег noindex, дожидаемся переобхода и удаления из индекса, и только потом, если нужно, закрываем в robots.txt.

Как ускорить индексацию новых страниц

Создали страницу — что делать, чтобы она быстрее попала в выдачу? Вот рабочий набор приёмов.

Используйте инструмент переобхода в Яндекс.Вебмастере и запрос индексирования в Google Search Console — это прямой сигнал поисковику. Поставьте на новую страницу внутренние ссылки с уже проиндексированных и авторитетных разделов сайта. Обновите sitemap.xml с актуальным lastmod. Поделитесь ссылкой во внешних источниках — соцсетях, тематических площадках, чтобы робот пришёл по внешним переходам.

И главное, фоновое условие — общий авторитет и техническое здоровье сайта. Чем выше доверие поисковика к ресурсу в целом, тем охотнее и быстрее он индексирует новые материалы. А это уже результат планомерного SEO-продвижения, а не точечных действий.

Что в итоге

Индексация — это не разовая настройка, а постоянный процесс контроля. robots.txt управляет тем, куда ходит робот. sitemap.xml показывает, что важно. Мета-теги решают, что попадёт в индекс. А краулинговый бюджет определяет, хватит ли роботу внимания на всё ценное.

Эти инструменты работают только в связке. Ошибка в одном месте — например, конфликт robots.txt и noindex — обнуляет усилия в остальных. Поэтому подходить к индексации нужно системно, с пониманием логики работы поисковика.


Не хватает целевого трафика, хотя контент вроде бы хороший?

Очень часто проблема именно в том, о чём шла речь выше: сайт технически не готов к нормальной индексации, краулинговый бюджет утекает в мусор, а ценные страницы поисковик просто не видит. Снаружи кажется, что «SEO не работает», а на деле робот до половины контента не доходит.

Я помогаю это исправить системно. В рамках SEO-продвижения и раскрутки сайта я полностью настраиваю индексацию, привожу в порядок техничку, выстраиваю перелинковку и вывожу страницы в топ Яндекса по целевым запросам — с прозрачной отчётностью и понятным планом работ. А если хотите быть уверены в результате до старта — закажите бесплатный аудит сайта, и я покажу конкретные точки роста именно вашего проекта.

Отдельно отмечу новое и крайне перспективное направление — GEO-продвижение (Generative Engine Optimization), то есть оптимизацию под нейросетевые ответы Яндекса, ChatGPT и других генеративных систем. Поведение пользователей меняется: всё больше людей получают ответы прямо из ИИ, минуя классическую выдачу. Я помогаю сделать так, чтобы рекомендовали именно ваш бизнес. Если хотите разобраться, как это применимо к вашей нише, — приходите на SEO-консультацию, обсудим стратегию под ваши задачи.

Напишите мне через форму обратной связи — разберём вашу ситуацию и найдём решение.

Увеличьте позиции и продажи вашего сайта

Профессиональное SEO-продвижение с гарантией результата. Выберите подходящую услугу:

Анатолий Кузнецов — SEO-оптимизатор

Остались вопросы по продвижению?

Меня зовут Анатолий Кузнецов, я SEO-оптимизатор с 20-летним стажем. Разберу ваш сайт, отвечу на вопросы и подскажу, что улучшить для роста позиций в Яндексе и Google.

Связаться со мной →

Оставьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

 Нажимая «оставить комментарий» вы принимаетеправила конфиденциальности 

Прокрутить вверх