Логи сервера в SEO: что в них видит робот и чего не видите вы

Анатолий Кузнецов
Анатолий Кузнецов
SEO-оптимизатор с 20-летним стажем. Автор блога hozyindachi.ru о продвижении и доработке сайтов.

Расскажу историю. Года три назад привели мне сайт — интернет-магазин, ниша средней конкуренции, владелец в панике. Полгода «продвигали», бюджет улетел, позиций нет. Открываю Метрику — трафик есть, отказы в норме. Открываю Вебмастер — индексация вроде идёт. По всем приборам сайт «здоров». А роста нет.

Тогда я попросил у хостера access-логи за месяц. И за двадцать минут увидел то, чего не показала ни одна аналитическая система: робот Яндекса 70% своих визитов тратил на страницы фильтра с GET-параметрами — тысячи однотипных URL вида ?color=red&sort=price, которые вообще не должны были индексироваться. До товарных карточек и категорий, ради которых сайт и делался, краулер просто не доходил. Бюджет на обход был, но он сгорал в мусоре.

Метрика этого не покажет никогда. Вебмастер — только частично и с большим запозданием. А логи показывают это сразу, потому что лог — это не аналитика про людей. Это стенограмма поведения робота, записанная самим сервером, без посредников и без интерпретаций.

Логи сервера в SEO: что в них видит робот и чего не видите вы

Почему вебмастер смотрит в Метрику, а робот живёт в логах

Большинство специалистов выстраивают всю работу вокруг двух источников: Яндекс Метрика и Яндекс Вебмастер. Это хорошие инструменты, я сам ими пользуюсь каждый день. Но у них есть фундаментальное ограничение — они показывают вам обработанную, усреднённую и уже причёсанную картину.

Метрика вообще про людей. Она ставит JavaScript-счётчик, и робот, который этот счётчик не исполняет, для неё практически невидим. Вебмастер показывает агрегаты: сколько страниц в поиске, сколько исключено, общую статистику обхода. Но он не покажет вам по шагам, в каком порядке робот ходил по сайту вчера в три часа ночи, сколько раз он стукнулся в страницу, отдавшую 500-ю ошибку, и почему конкретная важная категория не обновлялась в индексе три недели.

Сервер же записывает всё. Каждый запрос — человека, робота, сканера, парсера — попадает в access-лог в момент обращения. Это первичка. Это то, что произошло на самом деле, до того как данные попали в любую систему аналитики. Если вы хотите понять, как поисковик на самом деле взаимодействует с сайтом, единственный честный источник — это логи. Всё остальное — пересказ.

Как выглядит строка лога и что из неё вытащить

Возьмём типичную строку из access-лога Nginx в стандартном формате combined:

5.255.253.10 - - [18/Jun/2026:03:14:22 +0300] "GET /catalog/dachnye-doma/ HTTP/1.1" 200 48213 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"

Кажется набором символов, но на самом деле здесь шесть критичных для SEO полей. IP-адрес — кто пришёл (5.255.253.10 — это диапазон Яндекса). Дата и время с точностью до секунды — когда именно. Метод и URL — что именно он запросил (GET-запрос к странице каталога). Код ответа — 200, страница отдалась успешно. Размер ответа в байтах — 48213, то есть сервер реально отдал контент, а не пустышку. И User-agent — кто представился, в данном случае YandexBot.

Когда таких строк миллионы, из них складывается полная карта поведения робота. Куда он ходит чаще всего. Что игнорирует месяцами. На каких URL спотыкается. В какое время суток самый активный обход. Всё это — голые факты, которые невозможно подделать или интерпретировать криво, потому что их записал сам сервер.

Главное, чего вы не видите: робот ходит не туда, куда вы думаете

Вот ключевая мысль, ради которой стоит вообще лезть в логи. У вас в голове есть модель сайта: вот главная, вот важные категории, вот карточки товаров, которые приносят деньги. Вы наивно полагаете, что робот ходит примерно так же — по логике и по важности.

Робот так не думает. Он идёт по ссылкам, по карте сайта, по тому, что нашёл в индексе раньше, и тратит ограниченный ресурс — краулинговый бюджет — равномерно размазывая его по всему, что обнаружил. И если на сайте сгенерировались тысячи технических URL (параметры сортировки, фильтры, пагинация, UTM-метки, дубли с www и без, версии для печати), робот будет добросовестно их обходить. Каждый такой заход — это визит, который не достался вашей важной странице.

В логах это видно мгновенно. Я обычно выгружаю топ-100 самых посещаемых роботом URL и почти всегда нахожу в верхушке списка то, чего там быть не должно. Однажды у клиента 40% всего обхода съедала страница поиска по сайту с пустыми запросами — она плодила бесконечные URL, а в robots.txt была открыта. Закрыли её и пару фильтров от индексации, перенастроили директивы — через три недели робот переключился на категории, и они полезли вверх. Сам контент не трогали вообще: просто перенаправили внимание робота туда, где деньги. Если у вас на сайте та же история с техническим мусором, это как раз тот случай, когда грамотная техническая доработка сайта даёт прирост быстрее, чем любые новые тексты.

Поддельные боты: половина «Яндекса» в логах — это не Яндекс

А вот ловушка, в которую попадают почти все, кто открывает логи впервые. Вы видите в User-agent строку «YandexBot» и думаете: ага, это Яндекс пришёл. Так вот — далеко не факт. User-agent подделывается одной строчкой кода. Любой парсер, скликиватель, конкурент, собирающий вашу структуру, или сканер уязвимостей может представиться кем угодно — хоть Яндексом, хоть Гуглом, хоть архивным ботом.

По моему опыту, на коммерческих сайтах от 30 до 60% запросов с User-agent «YandexBot» к настоящему Яндексу отношения не имеют. Это создаёт двойную проблему. Во-первых, вы делаете неверные выводы об обходе — думаете, что робот активен, а это шумят фейки. Во-вторых, эти фейковые боты реально нагружают сервер, замедляют отдачу страниц, и уже настоящий робот получает медленные ответы и снижает частоту обхода.

Проверка простая и обязательная — обратный DNS-запрос (reverse DNS). У настоящего робота Яндекса IP при обратном разрешении даёт хост в зонах yandex.ru, yandex.net или yandex.com, и прямой запрос по этому хосту снова возвращает тот же IP. У Google — googlebot.com или google.com. В Linux это одна команда host 5.255.253.10. Если обратное имя не из официальных зон поисковика — перед вами самозванец, и все его «визиты» надо вычищать из анализа, иначе вся картина обхода будет враньём. Это базовая гигиена анализа логов, без которой дальше можно не начинать.

Краулинговый бюджет утекает в коды ответа, которых вы не видели

Каждая строка лога несёт код ответа сервера, и для робота это, без преувеличения, язык, на котором с ним разговаривает сайт. Проблема в том, что владелец видит сайт глазами — открыл в браузере, всё работает. А робот за то же время натыкается на коды, которых человек просто не замечает.

Что я обычно ищу в первую очередь. Массовые 404 — робот ходит по битым ссылкам, которых вы давно не видите, потому что сами по ним не кликаете; каждый такой заход — выброшенный краулинговый бюджет. Цепочки и петли 301 — когда редирект ведёт на редирект, который ведёт ещё на один; робот теряет на этом вес и время. Внезапные всплески 5xx — сервер периодически отдаёт пятисотую ошибку под нагрузкой, и именно в этот момент робот мог прийти за важной страницей и уйти ни с чем. И коварные «мягкие 404» — когда страница отдаёт код 200, но контента на ней нет; для робота она формально жива, и он продолжает тратить на неё бюджет.

Ни Метрика, ни беглый осмотр сайта это не выловят. А в логах за пару команд видно: вот двести URL, регулярно отдающих 404 роботу, вот десяток страниц с тройными редиректами, вот ночные всплески 503. Дальше — чистая инженерия: чинить, склеивать, отдавать корректные коды. Я разбирал конкретные сценарии с редиректами и кодами ответа в других материалах блога — там по шагам, что с каждым типом ошибки делать.

Частота обхода: как понять, что робот «остыл» к сайту

Логи отвечают на вопрос, который мучает любого вебмастера: почему мои новые страницы и обновления так долго попадают в индекс? Ответ — в частоте и распределении обхода во времени.

Когда я анализирую логи, я строю простую картину: сколько раз в сутки робот заходит на сайт в целом и как часто он навещает конкретные ключевые страницы. У здорового, активно растущего сайта главная и важные категории обходятся ежедневно, иногда по несколько раз. У сайта, к которому поисковик «охладел» — раз в неделю, а то и реже. И это прямой сигнал: либо упало качество в глазах поисковика, либо вы технически мешаете роботу работать (медленный сервер, мусорные URL, ошибки), либо контент давно не обновлялся и робот решил не тратить ресурс.

Особенно важна реакция на свежесть. Опубликовали новую статью или товар — и смотрите по логам, через сколько робот пришёл её забрать. Если через час — отлично, сайт в тонусе. Если через неделю — у вас проблема с тем, как поисковик расставляет приоритеты, и её надо чинить на уровне структуры, перелинковки и карты сайта. Кстати, именно поэтому я всегда настаиваю на регулярной публикации: робот, привыкший находить на сайте свежак, начинает ходить чаще. Если своими руками тексты писать некогда, проще заказать готовые SEO-статьи и держать ритм обновлений — для частоты обхода это работает напрямую.

Чем читать логи: от одной команды до Screaming Frog

Теперь про практику, потому что «откройте логи» — совет бесполезный, если непонятно, чем их открывать. Скажу честно: миллионы строк в блокноте не открыть, и Excel на больших логах ляжет.

Самый быстрый способ для первого взгляда — командная строка на сервере. Связка grep, awk и sort решает 80% задач. Буквально одной строкой можно отфильтровать только запросы Яндекса, посчитать топ запрашиваемых URL, отсортировать коды ответа по частоте. Например, выбрать все обращения с YandexBot и сгруппировать по URL — это пара секунд и одна команда, а на выходе уже готовая картина, куда робот сливает бюджет. Минус один: нужно дружить с консолью.

Для системного анализа я использую специализированные инструменты — прежде всего Screaming Frog Log File Analyser. Туда загружаешь сырой лог, он сам разбирает строки, верифицирует ботов по reverse DNS, строит наглядные отчёты по частоте обхода, кодам ответа, распределению бюджета по разделам. Из бесплатного и наглядного есть GoAccess — он рисует дашборд прямо в браузере. Какой бы инструмент вы ни выбрали, логика одна: верифицировать ботов, отсечь фейки, посмотреть распределение визитов по URL и по кодам ответа, найти аномалии. Если разбираться в этом самому некогда, а понять, где утекает бюджет, нужно — это ровно та задача, которую я закрываю на SEO-консультации: садимся, открываем ваши логи и за час находим, что именно тормозит сайт.

Новое в логах 2026: боты нейросетей и почему это уже вопрос GEO

А вот то, чего два года назад в логах почти не было, а сейчас есть на каждом сайте. Кроме классических YandexBot и Googlebot в access-логах теперь регулярно появляются боты нейросетей и AI-поисковиков: GPTBot и OAI-SearchBot от OpenAI, PerplexityBot, ClaudeBot, боты, собирающие данные для генеративных ответов Яндекса и других систем.

Это меняет правила. Раньше единственным вопросом было «как робот видит сайт для обычной выдачи». Теперь добавился второй: «как сайт читают нейросети, которые формируют ответы в YandexGPT, Алисе, ChatGPT и Perplexity». И логи — единственное место, где видно, ходят ли эти боты к вам вообще, на какие страницы, как часто и не отдаёт ли им сервер ошибки. Если AI-боты к вам не заходят или натыкаются на блокировки — вас просто нет в генеративных ответах, и весь этот растущий поток трафика идёт мимо.

Именно поэтому я свожу анализ логов с GEO-продвижением — оптимизацией под ответы нейросетей. По логам мы видим, какие AI-краулеры активны, и дальше выстраиваем сайт так, чтобы они корректно его читали и цитировали в ответах. Это не теория: спрос постепенно перетекает из синих ссылок в готовые ответы ИИ, и сайты, которые попали в эти ответы первыми, забирают аудиторию у тех, кто про логи и GEO ещё не думает.

Заберите трафик, который прямо сейчас утекает в ваших логах

Подведу черту. Метрика показывает людей, которые уже пришли. Логи показывают робота — то есть причину, по которой одни люди к вам приходят, а другие нет. Пока вы смотрите только в аналитику постфактум, робот может месяцами сливать бюджет на мусор, спотыкаться о коды ответа и обходить ваши деньги стороной. И вы об этом даже не узнаете.

Я — Анатолий Кузнецов, занимаюсь SEO с 2005 года, работаю напрямую, без агентских прослоек, беру по одному клиенту в нишу. За плечами 300+ проектов и ноль фильтров Яндекса за накрутку — только белые методы. Если вы устали смотреть на графики, которые не растут, давайте я возьму ваши логи, разберу реальное поведение робота и наведу порядок в обходе — а дальше выстрою системное SEO-продвижение сайта, при котором краулинговый бюджет идёт в дело, а позиции и трафик растут предсказуемо.

Отдельно предлагаю GEO-продвижение — вывод вашего сайта в ответы нейросетей (YandexGPT, Алиса, ChatGPT, Perplexity). Пока конкуренты осваивают только классическую выдачу, вы заходите туда, куда уже перетекает спрос, и забираете трафик, которого они даже не видят. Первый шаг бесплатный: напишите мне — я посмотрю ваши логи и навигацию робота и честно скажу, где вы теряете целевой трафик и сколько его реально можно вернуть. Без воды и без обещаний «ТОП-1 за неделю» — только то, что подтверждается фактами из ваших же серверных логов.

Увеличьте позиции и продажи вашего сайта

Профессиональное SEO-продвижение с гарантией результата. Выберите подходящую услугу:

Анатолий Кузнецов — SEO-оптимизатор

Остались вопросы по продвижению?

Меня зовут Анатолий Кузнецов, я SEO-оптимизатор с 20-летним стажем. Разберу ваш сайт, отвечу на вопросы и подскажу, что улучшить для роста позиций в Яндексе и Google.

Связаться со мной →

Оставьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

 Нажимая «оставить комментарий» вы принимаетеправила конфиденциальности 

Прокрутить вверх