Инвертированный индекс и шардирование: что происходит со страницей после краула

Анатолий Кузнецов

SEO-оптимизатор с 20-летним стажем. Автор блога hozyindachi.ru о продвижении и доработке сайтов.

За двадцать лет работы я слышал фразу «отправил страницу на переиндексацию» примерно столько же раз, сколько видел рассветов над Финским заливом. И почти каждый раз за ней стоит одно и то же заблуждение: будто поисковик берёт вашу страницу, стирает старую версию и кладёт на её место новую — целиком, мгновенно, как файл на флешке. Так это не работает. Совсем не так. И пока вы держите в голове неправильную модель того, что происходит внутри поисковой машины, вы будете принимать неправильные решения: бить тревогу там, где всё нормально, и спокойно ждать там, где надо действовать.

Эта статья — про внутреннюю кухню. Про то, что физически случается с вашим HTML после того, как робот его скачал. Я намеренно не буду упрощать до уровня «робот пришёл, посмотрел, запомнил». Если вы владелец бизнеса или вебмастер, который хочет понимать, почему изменения на сайте всплывают в выдаче через две недели, а не завтра, — вам нужна честная модель. Поехали по слоям, от скачивания до ранжирования.

Содержание статьи

1 Краул — это не индексация. Это всего лишь скачивание

2 Токенизация и лемматизация: как Яндекс разбирает русский текст на молекулы

3 Инвертированный индекс: сердце поиска, о котором не пишут в блогах

4 Шардирование: почему ваша страница живёт на тысячах машин одновременно

5 Сегменты и слияние: главный секрет, который меняет всё понимание индексации

6 Почему «переиндексация» — это миф (или о чём вы на самом деле просите)

7 Что реально ускоряет попадание изменений в индекс

8 GEO: у генеративного поиска свой, отдельный индекс

9 Страницы в индексе, а целевого трафика нет? Давайте это исправим

10 Увеличьте позиции и продажи вашего сайта

11 Остались вопросы по продвижению?

Краул — это не индексация. Это всего лишь скачивание

Первое, что нужно развести в голове: краулинг и индексация — два разных процесса, разнесённых во времени и выполняемых разными подсистемами. Когда робот Яндекса или Google заходит на ваш URL, он делает ровно одну вещь — забирает HTML-документ (а иногда и связанные ресурсы — CSS, JS, картинки) и кладёт сырой ответ в так называемое хранилище документов. На этом этапе поисковик ещё ничего не «понял» про вашу страницу. Он просто скачал байты, как браузер. Записал HTTP-код ответа, заголовки, тело документа, время визита — и пошёл дальше по очереди.

Дальше документ попадает в очередь на обработку. И вот тут важный момент, который ломает интуицию большинства: между «робот скачал страницу» и «страница попала в индекс и может ранжироваться» может пройти от нескольких минут до нескольких недель. Это не баг и не наказание. Это архитектура. Скачивание дешёвое и быстрое, а обработка и встраивание в индекс — дорогие операции, которые выполняются пакетами, по своему расписанию, на отдельных кластерах машин. Если вы хотите разобраться, как при этом распределяется внимание робота к вашему сайту, почитайте про краулинговый бюджет и логику обхода в моём блоге со статьями по SEO — там я разбираю это на живых примерах.

Токенизация и лемматизация: как Яндекс разбирает русский текст на молекулы

Скачанный HTML — это для машины бессмысленная простыня символов. Прежде чем что-то с ней делать, парсер вычищает разметку, скрипты, навигацию и выделяет собственно текст: заголовки, абзацы, атрибуты alt, мета-описания. Затем начинается то, ради чего всё и затевалось, — текст разбивается на токены. Грубо говоря, на отдельные слова и значимые единицы.

И вот здесь русский язык подкидывает поисковику задачу на порядок сложнее, чем английский. Слово «продвижение» в тексте может встретиться как «продвижения», «продвижению», «продвижением», «о продвижении». Для человека это одно и то же слово. Для машины, которая сравнивает строки побуквенно, — четыре разных набора символов. Поэтому Яндекс прогоняет каждый токен через морфологический анализатор и приводит его к начальной форме — лемме. Этот процесс называется лемматизацией, и Яндекс в нём силён исторически: морфология русского языка была его коньком ещё с нулевых. Параллельно выбрасываются стоп-слова — предлоги, союзы, частицы, которые встречаются почти везде и для поиска бесполезны.

На выходе ваша страница превращается не в текст, а в нормализованный набор лемм с привязкой к позициям: какое слово на каком месте стояло, в каком теге, с каким весом. Заголовок H1 весит больше, чем слово в подвале. Слово в начале абзаца — больше, чем в конце. Именно поэтому грамотная структура текста и заголовков — это не «для красоты», а прямой сигнал для индексатора. Когда я делаю техническую доработку сайта, половина работы — именно про то, чтобы машина правильно считала и взвесила эти леммы.

Инвертированный индекс: сердце поиска, о котором не пишут в блогах

Теперь — самое главное. Куда деваются эти леммы? Они отправляются в структуру данных, которая и есть настоящий поиск, — в инвертированный индекс. И название тут говорящее.

Представьте обычную книгу: вы открываете страницу 134 и читаете, какие слова на ней есть. Это прямой индекс — «документ → список слов». Поисковику он почти бесполезен. Потому что пользователь приходит не с документом, а со словом. Он вводит «купить SEO статьи» и хочет получить документы, где эти слова есть. Если бы поиск работал на прямом индексе, ему пришлось бы при каждом запросе перебирать все миллиарды страниц и проверять каждую — есть ли там нужное слово. Это заняло бы часы.

Поэтому индекс переворачивают, инвертируют. Вместо «документ → слова» строят «слово → список документов». Для каждой леммы хранится так называемый постинг-лист (posting list) — список идентификаторов всех документов, где это слово встречается, вместе с дополнительными данными: сколько раз встретилось, на каких позициях, в каких тегах. Когда приходит запрос, движок не перебирает страницы. Он берёт постинг-листы для каждого слова запроса и пересекает их — находит документы, которые есть во всех списках одновременно. Эта операция выполняется за миллисекунды, потому что списки заранее отсортированы, а для ускорения пересечения используются вспомогательные структуры вроде skip-листов.

Вот почему ваша страница после индексации существует в поисковике не как цельный документ, а как множество записей, разбросанных по тысячам постинг-листов. Слово «дача» из вашего текста живёт в одном списке, слово «участок» — в другом, «строительство» — в третьем. Страница как единое целое нигде не лежит. Она размазана по всему индексу. Запомните этот образ — он понадобится, когда мы дойдём до «переиндексации».

Шардирование: почему ваша страница живёт на тысячах машин одновременно

Инвертированный индекс всего рунета — это десятки, если не сотни терабайт данных. Ни одна машина в мире не способна держать его целиком в оперативной памяти и отвечать на сотни тысяч запросов в секунду. Поэтому индекс физически разрезают на куски и раскладывают по огромному парку серверов. Этот процесс называется шардированием (sharding), а каждый кусок — шардом.

Чаще всего индекс шардируют по документам: весь корпус страниц делят на группы, и каждый шард хранит полный инвертированный индекс только для своей группы документов. Когда приходит запрос, он рассылается на все шарды одновременно. Каждый шард ищет у себя лучшие совпадения, отдаёт свой топ, а специальный узел-агрегатор собирает результаты со всех шардов и формирует итоговую выдачу. Это и есть та самая распределённая архитектура, благодаря которой Яндекс отвечает вам быстрее, чем вы успеваете моргнуть, хотя обыскивает при этом весь интернет.

Для вас как владельца сайта здесь важен один вывод. Ваша страница после индексации не лежит «в Яндексе» в каком-то одном месте, которое можно открыть и обновить. Её следы распределены по постинг-листам, которые, в свою очередь, разложены по шардам на разных физических машинах в разных дата-центрах. Идея «давайте просто перезапишем мою страницу в индексе» при таком устройстве выглядит примерно как «давайте перепишем одно предложение во всех экземплярах книги во всех библиотеках мира одновременно». Технически — возможно. Мгновенно и по щелчку — нет.

Сегменты и слияние: главный секрет, который меняет всё понимание индексации

А теперь — деталь, без которой невозможно понять, почему индекс ведёт себя именно так. Инвертированный индекс почти всегда строится из неизменяемых сегментов. Это фундаментальное архитектурное решение, лежащее в основе Lucene, на принципах которого построено большинство современных поисковых систем.

Что такое сегмент? Это самостоятельный, законченный мини-индекс, который после создания уже никогда не меняется. Когда в систему приходят новые документы, поисковик не лезет в существующие сегменты, чтобы дописать туда новые записи. Он копит новые документы в буфере и периодически сбрасывает их на диск в виде нового сегмента. То есть индекс растёт не за счёт правки старых данных, а за счёт добавления новых неизменяемых кусков рядом со старыми.

«А что происходит, когда я меняю страницу, которая уже в индексе?» — спросите вы. Вот тут начинается самое интересное. Старая версия вашего документа физически остаётся в своём старом сегменте. Её нельзя стереть — сегмент неизменяем. Поэтому поисковик делает хитрость: он помечает старый документ как удалённый специальной меткой — тумбстоуном (tombstone). Документ всё ещё лежит в индексе, но при выдаче результатов система видит метку и просто пропускает его. А новая версия вашей страницы записывается как свежий документ в новый сегмент. На этот момент в индексе одновременно существуют две версии вашей страницы: старая с меткой «не показывать» и новая.

Физическое удаление старой версии происходит позже — во время слияния сегментов (merge). Периодически фоновый процесс берёт несколько мелких сегментов, выкидывает из них все документы, помеченные тумбстоунами, а живые объединяет в один новый, более крупный и оптимизированный сегмент. Только в этот момент старая версия вашей страницы реально исчезает с диска. И запускается слияние не тогда, когда вам захотелось, а тогда, когда так решит планировщик системы исходя из своей внутренней логики и нагрузки.

Почему «переиндексация» — это миф (или о чём вы на самом деле просите)

Теперь сложим всё вместе. Когда вы говорите «хочу переиндексировать страницу», в вашей голове, скорее всего, картинка: есть слот с вашей страницей, поисковик его перезаписывает, и через секунду в выдаче всё обновилось. Реальность же выглядит как цепочка независимых асинхронных событий.

Сначала робот должен заново скачать вашу изменённую страницу — а это зависит от краулингового бюджета и от того, как часто он к вам ходит. Потом скачанный документ встаёт в очередь на обработку — и ждёт там вместе с миллионами других. Потом он проходит токенизацию и лемматизацию заново. Потом для него создаются новые записи в постинг-листах и пишется новый сегмент, а старая версия получает тумбстоун. Потом — когда-нибудь — происходит слияние, и старые данные физически уходят. И только после того, как новые записи распространятся по всем нужным шардам, обновлённая версия начнёт стабильно участвовать в ранжировании.

И это ещё не конец. Потому что попадание в индекс и хорошая позиция — тоже разные вещи. Сигналы ранжирования — поведенческие факторы, ссылочный профиль, коммерческие факторы, оценки качества — хранятся в отдельных хранилищах и пересчитываются по своему собственному расписанию, часто гораздо более редкому, чем обновление текстового индекса. Можно за сутки попасть в индекс с новым текстом и при этом неделями ждать, пока пересчитаются поведенческие сигналы и позиция сдвинется. Поэтому когда клиент пишет мне «я переписал страницу, прошло три дня, почему позиция не выросла», я объясняю: текст в индексе уже новый, а вот накопление сигналов под этот текст — отдельный, более медленный процесс. Если хочется разобраться, какие именно сигналы тормозят вашу страницу, это ровно та задача, которую решает профессиональный SEO-аудит сайта.

Вывод простой и отрезвляющий: «переиндексации» как мгновенной операции не существует. Есть конвейер из нескольких независимых пайплайнов, каждый со своей задержкой. Вы не нажимаете кнопку «обновить» — вы запускаете цепочку, которая прокатится по системе за своё время. И понимание этого избавляет от половины бессмысленной паники в чатах вебмастеров.

Что реально ускоряет попадание изменений в индекс

Раз уж кнопки мгновенного обновления нет, что вообще в наших силах? На самом деле немало — просто действовать нужно на тех рычагах, которые реально влияют на конвейер, а не на воображаемые.

Первое — сообщить поисковику об изменении максимально быстро. Для этого есть протокол IndexNow, поддерживаемый Яндексом: вы пингуете поисковик о том, что URL изменился, и робот приходит скачивать его, не дожидаясь планового обхода. Сюда же — корректный sitemap.xml с честным значением lastmod и переобход URL вручную через панель Вебмастера. Это не ускоряет обработку внутри индекса, но сокращает первый и самый управляемый этап — этап скачивания.

Второе — работать над краулинговым бюджетом. Если робот ходит к вам редко, потому что сервер тормозит, в структуре куча мусорных и дублирующих URL, а карта сайта врёт про даты, — никакой пинг не поможет, потому что вы тратите внимание робота впустую. Чистая структура, быстрый ответ сервера, отсутствие дублей и каноникал на месте — всё это напрямую увеличивает частоту и глубину обхода. Именно поэтому я всегда начинаю работу с сайтом с бесплатного экспресс-аудита: сначала смотрим, не упирается ли индексация в банальные технические ошибки.

Третье — регулярность и свежесть. Поисковик отслеживает частоту обновлений сайта. Если вы публикуете осмысленный контент стабильно, робот учится приходить к вам чаще и обрабатывать вас приоритетнее. Сайт, который обновляется раз в год, и сайт, который живёт каждый день, поисковая система обходит с принципиально разной частотой. Системная работа над контентом — например, регулярный поток экспертных материалов через подготовку SEO-статей — это не только про ключевые слова, но и про то, чтобы приучить робота ходить к вам как к живому, активному ресурсу.

GEO: у генеративного поиска свой, отдельный индекс

И ещё один пласт, который в 2026 году игнорировать уже нельзя. Всё, что я описал выше, — это классический текстовый поиск на инвертированном индексе. Но рядом вырос второй мир: генеративные системы — YandexGPT, GigaChat, ChatGPT, Perplexity, — которые отвечают пользователю не списком ссылок, а готовым текстом. И у них устроено хранение знаний принципиально иначе.

Эти системы строят не инвертированный индекс из лемм, а векторный индекс из эмбеддингов. Ваш контент разбивается на смысловые фрагменты, каждый фрагмент превращается в многомерный вектор — числовое представление смысла, а не букв. Когда пользователь задаёт вопрос, его вопрос тоже превращается в вектор, и система ищет фрагменты, ближайшие по смыслу, а не по совпадению слов. Это совершенно другой механизм извлечения, со своими правилами попадания и своими задержками обновления. Ваша страница может прекрасно сидеть в классическом индексе Яндекса и при этом быть абсолютно невидимой для генеративных ответов — потому что это два разных, параллельных индекса.

Именно поэтому я последние годы выделяю оптимизацию под генеративный поиск (GEO, Generative Engine Optimization) в отдельное направление. Контент, который хорошо ранжируется в классике, и контент, который нейросеть охотно цитирует в своём ответе, — это пересекающиеся, но не одинаковые вещи. И тот, кто заходит в эту тему сейчас, получает то же преимущество первопроходца, какое в нулевых имели те, кто первыми разобрался в обычном SEO.

Страницы в индексе, а целевого трафика нет? Давайте это исправим

Если вы дочитали до сюда, вы уже понимаете больше, чем 90% владельцев сайтов: что краул — не индексация, что ваша страница размазана по постинг-листам и шардам, что «переиндексация» — это конвейер, а не кнопка, и что у генеративного поиска вообще свой индекс. Но знание архитектуры — это половина дела. Вторая половина — заставить эту архитектуру работать на ваш бизнес.

Я частный SEO-специалист с опытом с 2005 года: более 300 сайтов в ТОП-3 Яндекса, ноль фильтров за двадцать лет работы и принцип «один проект на нишу» — то есть на вашего прямого конкурента я уже не возьмусь. Работаю напрямую, без менеджеров и посредников, и берусь только за те проекты, где уверен в результате. Предлагаю два направления, которые сегодня дают максимальную отдачу:

SEO-продвижение под классический поиск. Полный цикл: технический аудит и устранение того, что тормозит индексацию, сбор семантики, проработка структуры и контента, наращивание сигналов ранжирования и вывод в ТОП-3 Яндекса с еженедельной отчётностью. У моих клиентов средний рост заявок — в 3–4 раза за первые полгода. Узнать условия и тарифы можно на странице SEO-продвижения сайтов.

GEO-продвижение под генеративный поиск. Делаю ваш бизнес видимым и цитируемым в ответах YandexGPT, GigaChat, ChatGPT и Perplexity, пока ваши конкуренты об этом даже не задумались. Это окно возможностей, которое закроется через год-два, когда GEO станет таким же стандартом, как сейчас SEO.

Начнём с малого и без обязательств: оставьте заявку на бесплатный аудит сайта — за 24 часа я покажу, что именно мешает вашим страницам собирать трафик, и где точки роста. Если хотите обсудить стратегию голосом и по делу — напишите мне напрямую через форму обратной связи. Беру один проект на нишу, и место в вашей может занять конкурент. Не откладывайте.

Увеличьте позиции и продажи вашего сайта

Профессиональное SEO-продвижение с гарантией результата. Выберите подходящую услугу:

01 SEO-аудит сайта 02 SEO-продвижение 03 Создание сайтов 04 SEO-статьи для сайта

Получить консультацию

Остались вопросы по продвижению?

Меня зовут Анатолий Кузнецов, я SEO-оптимизатор с 20-летним стажем. Разберу ваш сайт, отвечу на вопросы и подскажу, что улучшить для роста позиций в Яндексе и Google.

Связаться со мной →

Инвертированный индекс и шардирование: что физически происходит с вашей страницей после краула, и почему «переиндексация» — это не то, что вы думаете