Как улучшить индексацию сайта

Чтобы страницы вашего сайта попали в поиск и были отранжированы поисковая система должна их проиндексировать и занести в свою базу. Процесс индексирования, является одним из самых важных процессов для SEO и если научиться им управлять, то можно значительно улучшить видимость, трафик и позиции своего сайта в интернете.

Содержание статьи

1 Что влияет на индексацию сайта

2 Статические URL адреса

3 Динамические URL адреса

4 Расширение HTML файла в URL адресе

5 Дата изменения страниц на сайте

6 Дубли страниц на сайте

7 Запрет индексации ненужных страниц на сайте

8 Вместо заключения

Что влияет на индексацию сайта

За процесс индексации (поиска новой информации) отвечают поисковые роботы (скроллер-паук). Именно они выполняют обход страниц сайта и при обнаружении новой информации заносят их в свой поисковый индекс. После попадания страницы в этот индекс начинается процесс ранжирования на основании внутренних алгоритмов Яндекс и Google.

Как вы понимаете, самой главной задачей является сделать так, чтобы поисковые роботы как можно раньше узнали о вашем сайте и проиндексировали его и всю новую информацию, которая будет на нем появляться.

Есть несколько ключевых факторов, существенно влияющих на ускорение индексации страниц сайта с последующим ранжированием в естественной выдаче SERP. Давайте более подробно их рассмотрим.

Статические URL адреса

Если сайт состоит всего из нескольких страниц, то как правило URL адрес этих страниц имеет такой вид: www.site.ru/primer.html. Данная страница представляет собой самый простой HTML-файл, который находиться на WEB-сервере и его содержимое идентично для каждого посетителя сайта.

URL-адреса таких страниц имеют название — статические. Это самый простой вид адресов, который поисковые боты очень хорошо и быстро индексируют.

Динамические URL адреса

Со временем сайты сильно разрастаются и на них появляется огромное количество страниц и информации, которую все труднее находить поисковым роботам. А если речь идет о крупном интернет-магазине с функцией регистрации посетителей для доступа в закрытые разделы со встроенным поиском и фильтрацией по товарам, то реализовать WEB-сайт только на статических страницах будет очень проблематично.

Для таких задач применяются специальные серверные скрипты, написанные на языках программирования — PHP, ASP, Perl, JSP, отрабатываемые самим сервером, на котором находится ваш сайт. В результате выходит, что готовых страниц сайта не существует и они создаются автоматически серверными скриптами и только после этого показываются пользователям. Такие страницы носят название — динамические.

Отличаются динамические страницы от статических специальным программным расширением в имени файла (.jsp, .php, .cgi, .pl), а также наличием символов (?, &, =).

Как правило, поисковому роботу достаточно сложно обрабатывать динамические адреса, затрачивая при этом серьезный краулинговый бюджет. И чем проще сайт будет разделен на структурные компоненты, тем эффективнее и быстрее будет проходить процесс индексации.

Для этого нужно указать роботу иерархию страниц сайта начиная с первого уровня и ниже. Контент на URL страницах верхнего уровня обновляется чаще, чем на нижних. В результате, вы придаете этим страницам псевдостатический вид и помогаете роботу-скроллеру лучше индексировать ваш сайт.

Расширение HTML файла в URL адресе

При переводе из статического в псевдостатический вид страницы возникает вопрос: какой URL индексируется лучше с html в конце или со слэшем «/».

Пример 1 — www.site.ru/primer.html

Пример 2 — www.site/primer/

Во втором случае возникает один нюанс. Все дело в том, символ слэш «/» в конце строки по-разному воспринимается поисковыми браузерами. К примеру, популярный браузер Internet Explorer автоматически исключает слэш в конце страницы.

Если вы хотите участвовать в выдаче этого браузера, то придется соответствующим образом через файл .htaccess настраивать страницу для её нормального отображения.

Если сайт малостраничный, то это реализуется довольно легко. Но если страниц очень много — десятки тысяч, то во избежание проблем лучше заранее определиться с правильностью отображения страниц сайта во избежание дополнительных серверных нагрузок.

Дата изменения страниц на сайте

Чем чаще на сайте изменяется информация (контент), тем чаще поисковые роботы будут его посещать и индексировать. В этом процессе самое важное — скармливать ботам именно те страницы, на которых меняется информация.

Но роботы в отличии от владельца сайта не знают на каких страницах были внесены последние изменения и скачивают к себе в базу все, а затем сравнивают уже с имеющимися в индексе. В итоге получается, что робот тратит время на скачивание старых страниц, а на новые у него просто не хватает времени.

Кроме этого, объемные сайты могут столкнуться с проблемой оказания повышенной нагрузки на сервер индексирующими роботами при скачивании «ненужных» страниц к себе в базу. Для избежания таких проблем необходимо настроить обработку даты создания и изменения информации на страницах сайта.

Не изменившиеся страницы с прошлого перехода поисковый робот не будет скачивать и тратить на это свой крауленговый бюджет и в тоже время занесет в индекс все обновленные страницы.

Дубли страниц на сайте

Еще одной существенной проблемой ухудшающей процесс индексации и ранжирования являются дубли страниц на сайте. Такая ситуация возникает при смене адресации страниц, но в конечном итоге все ссылки продолжают вести на одну и туже страницу.

Пример 1 — www.site.ru/script.php?page=primer&mode=show;

Пример 2 — www.site.ru/primer/;

Пример 3 — www.site.ru/primer.html;

Пример 4 — www.site.ru/primer.htm.

Если на сайте будет 100 таких страниц, то поисковая система получит 400 синонимичных страниц. В конечном итоге у поисковых алгоритмов возникнут трудности с определением самой релевантной из них. Из практики встречаясь с такого рода ситуацией поисковая система либо полностью исключает эти страницы из индекса, либо сильно занижает их в ранжировании.

Чтобы не было таких форс мажоров, нужно исключить попадание в индекс одинаковых страниц с разными URL адресами, которые роботы приравнивают к малоценным и маловостребованным.

Предоставить четкое техническое решение по исключению такой проблемы достаточно сложно, так как каждый сайт реализован на своей системе управления (CMS сайта), а то и вовсе собран на чистом html коде. У каждой реализации свои языки взаимодействия скриптов.

Если WEB разработчик заранее не побеспокоится об этом, то поисковые роботы будут тратить время на скачивание дублированных страниц, а до новых так и не доходить. Это самая распространенная проблема всех крупных интернет-магазинов, владельцы которых в итоге не могут понять, почему их сайты не продвигаются в поиске Яндекс.

Запрет индексации ненужных страниц на сайте

Чтобы упростить работу поисковым роботам нужно все мусорные и технические страницы на сайте закрыть от индексации. Выполняется это командой в файле Robots.txt. Именно к этому файлу в первую очередь обращаются роботы и определяют для себя, что нужно индексировать, а что нет.

Файл Robots.txt распологается в корне сайта. Если такой файл роботами не обнаруживается, то им приходится индексировать весь WEB ресурс. Что из этого получается я описал выше.

Вместо заключения

Хотите выйти в ТОП10 Яндекс и долго там оставаться? Продвигайте свои сайты и интернет-магазины исключительно белыми SEO методами! Не умеете? Могу научить! Тем, кто хочет разобраться во всех премудростях SEO, предлагаю посетить мои курсы по SEO обучению, которые я провожу индивидуально, в режиме онлайн по скайпу.

Записаться на SEO обучение

Увеличьте позиции и продажи вашего сайта

Профессиональное SEO-продвижение с гарантией результата. Выберите подходящую услугу: