Решил сегодня обсудить вопрос о том, как поисковики индексируют сайты. Это достаточно важная тема и если в ней разобраться, то станет понятен главный принцип ранжирования, с помощью которого можно стать первым в Яндексе и Google и оставить всех своих конкурентов далеко позади себя.
Как поисковики Яндекс и Google индексируют сайты
В одной из своих статей я подробно разобрал, что такое индекс поисковых систем и как часто Яндекс индексирует сайты. Чтобы закрепить изложенное в умах начинающих SEO оптимизаторов, в этой статье я подробно разжую то, как устроен индекс самой поисковой машины.
Конверсия исходного текста в чистый текст
Когда поисковый робот приходит на ваш сайт, он видит его немного иначе, чем человеческий глаз. Помимо графики, на что обращает внимание пользователь, роботы проводят анализ страницы по 1000 различным факторам и только после этого начинают раздавать сайтам призовые места.
Но сначала, перед анализом текста, все индексируемые страницы поисковики очищают от элементов, которые не имеют ничего общего с самими текстами. К ним относятся:
- Элементы графики
- HTML разметка
- Картинки и прочий «мусор».
В результате такой фильтрации получается «ЧИСТЫЙ ТЕКСТ», который в дальнейшем анализируется уже по следующим параметрам описанным ниже.
Выборка слов из чистого текста
На этом этапе выполняется выборка всех слов находящихся в исходном тексте и формируется расположение всех этих слов в алфавитном порядке. Причем все пробелы, дефисы и цифровые символы поисковой системой также учитываются. У Google и Яндекса на этот счёт есть свои представления, что именно считать «СЛОВОМ», а что нет, и все эти слова формируются в определённые списки.
Лингвистическая обработка текста
Все выбранные слова поступают в «цех» лингвистической обработки текста, в котором весь контент перерабатывается в простые и начальные формы слов (в основном в именительных падежах). Этот процесс даже получил своё название — машинная морфология. За счёт такой детальной морфологической обработки экономится место в индексе и более точно формируется поисковая выдача.
Затем все сведения в алфавитном порядке сводятся в своеобразный машинный словарь, это и есть тот самый ИНДЕКС. Сформированная «основа слов» имеет свои геопозиции, с какой страницы она взята и в каком месте она на этой странице стояла. Эти моменты роботы тоже четко отслеживают. Вот какая структура в итоге получается:
ОСНОВА / номер страницы + номер вхождения / номер страницы + номер вхождения / ….. и так далее
На самом деле это упрощенная структура, в реальности она выглядит значительно сложнее. Вместо основ в поисковый индекс записываются их порядковые номера, это значительно экономит место и сокращает длину. Сами же основы слов хранятся отдельно.
Так формируется поисковый индекс, который в свою очередь еще раз сжимается для экономии места и снова индексируется для ускорения доступа в выдаче.
Координатный индекс
На заре развития интернета вплоть до середины 90-х годов, поисковые системы не учитывали и не формировали слова с учётом их местоположения на странице. Главной целью этому было упрощение структуры и экономия места.
Но со временем, когда количество многословных запросов стало стремительно расти, такое упрощённое индексирование перестало справляться со своими задачами. Оно не могло четко определить релевантность страницы.
Старый алгоритм не мог различить вхождения одних и тех же фраз на одной и той же странице, находящихся к примеру в начале и конце. Поисковик Рамблер работал с таким устаревшим индексом вплоть до 1999 года.
С внедрением координатного индексирования улучшилось определение релевантности страницы и появилась возможность определять наиболее важную мысль в тексте анализируемой страницы.
Как я думаю уже все поняли, индекс представляет собой перевернутую с ног на голову копию всех Интернет страниц. Взгляд обычного человека идет от страницы к словам, в то время как поисковая машина анализирует все наоборот, от слов к страницам. Поэтому поисковый индекс и носит название — ИНВЕТИРОВАННОГО или ИНВЕРСИИВНОГО, что в переводе с русского на понятный означает как перевёрнутый.
Прямой индекс
Для того чтобы показывать пользователям четкие цитаты слов и подсвечивать их, поисковики хранят весь контент у себя в памяти в виде проиндексированных текстов. По сути, в памяти того же Яндекса и Google храниться копия всей информации которая имеется в Интернете.
Для того чтобы хранить такое количество информации инвертированный индекс не подойдёт. Слишком долго придется восстанавливать словесный порядок в текстах, отображая искомые цитаты. Для этого и был создан второй индекс, который носит неофициальное название прямого.
В его базе все тексты очищены от не-текстовых элементов, упакованы, сжаты и являются полной копией Интернета. Все до чего смог добраться поисковый паук скроллер и проиндексировать, все находиться в памяти Google и Яндекс.
Какие слова не индексируют поисковики
Поисковые роботы не индексируют служебные символы (пробелы, знаки препинания, мета теги и различные HTML конструкции). Это очень сильно утяжеляет поиск и ведёт к повышенным нагрузкам на серверные мощности.
Индексируются ли ссылки поисковыми машинами
Да, ссылки индексируются и происходит это по нескольким причинам:
- Во первых для пополнения списка индексируемых страниц.
- Во вторых для поиска определенного сайта. Все современные поисковые системы с помощью ссылки определяют конкретный сайт в поиске, также как и по обычным словам.
- В третьих за счёт ссылок выполняется своеобразный расчёт авторитетности сайта, в Google он имеет даже своё название — Page Rang. От количества входящих ссылок на страницу (как внешних, так и внутренних) определяется её авторитетность — ссылочный ранг страницы. В Яндесе в 2014 году официально было объявлено об отмене ссылочного ранжирования и даже о применении штрафных санкций за продажу и покупку ссылок (фильтр Минусинск).
- В четвертых для получения текста ссылки. За счёт ссылочного текста можно классифицировать любую страницу по тематике.
Заключение
На сегодняшний день поисковики стали очень умными и ежедневно совершенствуются за счёт самостоятельного машинного обучения (Matrixnet в Яндексе). Ранжирование сайта происходит по неимоверно большому количеству параметров, которые даже сами работники Яндекса и Google не знают.
Весь процесс автоматизирован и все попытки обмануть поиск и стать первым сведены к нулю. Для того чтобы увидеть свой сайт на первых местах поисковой выдачи нужны знания в сфере SEO продвижения и усердная работа. Секретов здесь нет ни каких, есть чёткие методики, которые нужно выполнять и тогда ваш интернет проект поднимется в ТОП 10 выдачи.
Вместо заключения
Хотите выйти в ТОП10 Яндекс и долго там оставаться? Продвигайте свои сайты и интернет-магазины исключительно белыми SEO методами! Не умеете? Могу научить! Тем, кто хочет разобраться во всех премудростях SEO, предлагаю посетить мои курсы по SEO обучению, которые я провожу индивидуально, в режиме онлайн по скайпу.
Для тех, у кого нет времени проходить обучение и самостоятельно заниматься продвижением своих интернет-магазинов, предлагаю и в этом вопросе помощь. Я могу взять ваш сайт на SEO продвижение и за несколько месяцев вывести его в ТОП10 Яндекс. Для того чтобы убедиться в моей экспертности, предлагаю ознакомиться с моими последними SEO кейсами и только после этого заказать у меня SEO продвижение. Ниже на видео один из примеров успешного продвижения строительного сайта в Санкт-Петербурге.