Сайт о телевидении

Сайт о телевидении

» » История алгоритмов яндекса. Что влияет на поисковый алгоритм? Люди учат машины

История алгоритмов яндекса. Что влияет на поисковый алгоритм? Люди учат машины

«Королев» — это не Минусинск, не Баден-Баден. Это не карательный фильтр. Он, кстати, не является надстройкой — является частью основного алгоритма Яндекса.

«Королев» работает на основе самообучаемой нейронной сети и затрагивает довольно редкие многословные запросы, в первую очередь информационные, которые направлены на уточнение смысла — низкочастотные (НЧ) и микроНЧ, в том числе голосовой поиск, разные естественные варианты запросов, типа «фильм, где мужик в разных ботинках».

Создан этот алгоритм был с целью улучшить качество выдачи по таким запросам, по аналогу с RankBrain Гугла, который давно с такой задачей хорошо справляется, да и сейчас, по первым замерам, работает по таким запросам лучше Яндекса.

До этого был и есть алгоритм «Палех», который уже начал искать по смыслу, но делал это в реальном времени и сопоставлял только смысл запроса и заголовка — Title страницы.

«Королев» анализирует не только Title, но и всю страницу в целом, показывает в выдачу даже те страницы, где нет упоминания слов из запроса, но по смыслу страница подходит. При этом он определяет суть страницы заранее, на этапе индексирования — в результате скорость и количество обрабатываемых страниц мощно увеличились.

Про «треть» тут может быть преувеличено — реальной доли запросов, которые затронет «Королев», пока еще никто не измерял.

Другие статьи про «Королев»:

Я много моментов тут еще не расписывала, про них стоит почитать в других статьях. Я выбрала тут только самые лучшие, действительно стоящие:

Мнения разных экспертов:

Дополнительные официальные источники:

Некоторые отрывки из мнений по ссылкам выше:

Дмитрий Шахов

«Королев» пройдет мимо поисковой оптимизации. По крайней мере, на данном этапе. Перед поиском стоит задача дать ответы по запросам, по которым нет документов с вхождениями. Поиск эту задачу решает. Hummingbird в Google, «Палех» и «Королев» в Яндексе. Запросы, по которым нет документов, не входят в зону интереса поисковой оптимизации. Именно поэтому там и нет документов.

Артур Латыпов

Многие ждали, что вскоре после «Палеха» появится алгоритм, который будет работать аналогично, но не по заголовкам, а по контенту. Пока не заметили скачков трафика на наблюдаемых сайтах, будем наблюдать внимательней и смотреть на развитие алгоритма в будущем. Интересно, раньше для улучшения ранжирования по большому количеству запросов, в том числе смежных, готовили SEO-тексты, они были у кого-то лучше, у кого-то хуже, кто-то их называл по-другому, но смысл от этого не менялся. Теперь за SEO тексты наказывают, а поиск будет ранжировать документы по смыслу.
Ожидаем, что в работе оптимизаторы будут больше использовать LSI при подготовке текстовой оптимизации.

Соответственно, будут развиваться SEO-сервисы. Напомню, что подготовка списка SEO-слов, терминов в тематике, смежных запросов для подготовки контента и оптимизации, используется специалистами уже несколько лет. Поэтому серьезных изменений в механике не произойдет, по крайней мере пока.

В итоге, больше внимания уделяем:

Качеству контента;
интенту запроса;
мониторингу выдачи.

И, конечно, всегда интересно после запуска нового алгоритма от Яндекса анализировать, что изменилось, и наблюдать, что будет дальше.

Дмитрий Севальнев

Фактически, с внедрением ряда новых факторов, которые учитывают:

смысловое соответствия пары запрос-документ (по всему тексту документа, а не только по Title, как ранее в алгоритме «Палех»),
качество ответа документа на схожие по смыслу поисковые запросы, –

не будет глобальных изменений для SEO-индустрии. Наиболее значимые изменения коснутся «длинного хвоста» запросов, под которые целенаправленно SEO-специалисты мало работают. Их много, они редкие и часто обеспечивают единичные заходы на сайт.

Может быть увеличена значимость ряда факторов, которые и так прорабатываются специалистами, с того момента как LSI стал «модной темой».

Олег Шестаков, CTO & Founder в Rush Analytics Russia

Анонс алгоритма «Королев» был, наверное, самым масштабным за все время с точки зрения шоу. С точки зрения технологий нельзя сказать, что это какой-то новый технологический прорыв. В чем смысл инновации: теперь нейронные сети Яндекса оценивают соответствие запрос-документ не просто с точки зрения вхождения запроса и его вариаций (леммы, частей запроса и т.д.) в текст документа, но и с точки зрения смысла запроса. Нейронная сеть, обученная на больших данных, теперь умеет определять релевантность документа запросу, даже если в документе нет вхождения слов запроса. На самом деле – это не новая технология – она же использовалась в алгоритме «Палех», правда он учитывал лишь заголовки документов. Т.е. настоящая инновация здесь в том, что инженеры Яндекса сумели масштабировать очень ресурсоемкий алгоритм на несколько порядков – теперь алгоритм может оценивать сотни тысяч документов, а не 150 строк текста как раньше.

Как алгоритм повлияет на рынок SEO?

— Глобально – никак. Это всего лишь часть алгоритма, а большинство других факторов как работали, так и будут работать. Данный алгоритм сильнее всего должен затронуть НЧ-запросы и часть СЧ-запросов.

— Придется уделять больше внимания качеству текстов. Теперь, чтобы вывести страницу в ТОП, текст страницы должен содержать как можно больше слов-синонимов и связанных с запросом слов, чтобы пройти по факторам нового алгоритма, т.к. он теперь учитывает именно такие слова, а не просто «прямые вхождения». Здесь нет никакой магии – нейросеть обучается учителями-асессорами и все равно работает с текстами реальных сайтов, находя связанные по смыслу слова. Значит можно провести похожий анализ и сделать экстракцию этих слова их документов ТОПа. Грамотные SEO-специалисты начали это делать уже несколько лет назад. Если простыми словами – тот же LSI, только в профиль.

— Рынок дешевого копирайтинга начнет схлопываться, и это очень хорошо. Задание на написание текста в формате «3 прямых вхождения, 4 разбавленных и длина 2500 символов» будет порождать тексты, которые будут слабо ранжироваться.

Теперь нужны тексты-истории. Мы как SEO-специалисты должны рассказать историю про продукт клиента во всех подробностях, описав продукт со всех сторон – при таком подходе будет физически сложно упустить важные тематичные запросу слова. Заметьте, что вебмастера, зарабатывающие на статейных сайтах, уже очень давно пишут тексты-истории даже о юристах по алиментам, с отличной версткой, раскрытием темы и points of interest. Что в результате? У них куча трафика и ТОПы, плюс тотальная победа над сухими сайтами юридических фирм.

Производство контента станет несколько дороже и профессиональнее. SEO-компании либо перестанут писать SEO-бред и построят взрослые контент-редакции внутри, или их клиенты потеряют позиции в поиске. Яндекса вчера толсто на это намекнул.

Александр Алаев

«Королев» со всем не про SEO. Цель SEO – работа с запросами, которые спрашивают много раз и смысл их понятен, а релевантных ответов тысячи. Задача поисковика в коммерческом сегменте – найти лучших кандидатов по коммерческим критериям, а не искать смыслы. Именно поэтому коммерческая выдача не изменится, по крайней мере сколько-либо заметно.

А вот владельцам информационных ресурсов еще раз стоит обратить внимание на качество контента, ориентировать свои публикации не под поисковые запросы, а под интересы пользователей, писать человеческим простым языком.

Все мои проекты, кроме этого SEO-блога:

ТОП База - качественная база для полуавтоматической регистрации с Allsubmitter или для полностью ручного размещения - для самостоятельного бесплатного продвижения любого сайта, привлечения целевых посетителей на сайт, поднятия продаж, естественного разбавления ссылочного профиля. Базу собираю и обновляю 10 лет. Есть все виды сайтов, все тематики и регионы.

SEO-Topshop - SEO-софт со СКИДКАМИ, по выгодным условиям, новости SEO-сервисов, баз, руководств. Включая Xrumer по самым выгодным условиям и с бесплатным обучением, Zennoposter, Zebroid и разные другие.

Мои бесплатные комплексные курсы по SEO - 20 подробных уроков в формате PDF.
- каталоги сайтов, статей, пресс-релизовые сайты, доски объявлений, каталоги фирм, форумы, соцсети, блоговые системы и прочее.

"Приближаясь.." - мой блог на тему саморазвития, психологии, отношений, личной эффективности

Сегодня мы анонсировали новый поисковый алгоритм «Палех». Он включает в себя все те улучшения, над которыми мы работали последнее время.

Например, поиск теперь впервые использует нейронные сети для того, чтобы находить документы не по словам, которые используются в запросе и в самом документе, а по смыслу запроса и заголовка.

Уже много десятилетий исследователи бьются над проблемой семантического поиска, в котором документы ранжируются, исходя из смыслового соответствия запросу. И теперь это становится реальностью.

В этом посте я постараюсь немного рассказать о том, как у нас это получилось и почему это не просто ещё один алгоритм машинного обучения, а важный шаг в будущее.

Искусственный интеллект или машинное обучение?

Почти все знают, что современные поисковые системы работают с помощью машинного обучения. Почему об использовании нейронных сетей для его задач надо говорить отдельно? И почему только сейчас, ведь хайп вокруг этой темы не стихает уже несколько лет? Попробую рассказать об истории вопроса.

Поиск в интернете - сложная система, которая появилась очень давно. Сначала это был просто поиск страничек, потом он превратился в решателя задач, и сейчас становится полноценным помощником. Чем больше интернет, и чем больше в нём людей, тем выше их требования, тем сложнее приходится становиться поиску.

Эпоха наивного поиска

Сначала был просто поиск слов - инвертированный индекс. Потом страниц стало слишком много, их стало нужно ранжировать. Начали учитываться разные усложнения - частота слов, tf-idf .

Эпоха ссылок

Потом страниц стало слишком много на любую тему, произошёл важный прорыв - начали учитывать ссылки, появился PageRank .

Эпоха машинного обучения

Интернет стал коммерчески важным, и появилось много жуликов, пытающихся обмануть простые алгоритмы, существовавшие в то время. Произошёл второй важный прорыв - поисковики начали использовать свои знания о поведении пользователей, чтобы понимать, какие страницы хорошие, а какие - нет.

Где-то на этом этапе человеческого разума перестало хватать на то, чтобы придумывать, как ранжировать документы. Произошёл следующий переход - поисковики стали активно использовать машинное обучение.

Один из лучших алгоритмов машинного обучения изобрели в Яндексе - Матрикснет. Можно сказать, что ранжированию помогает коллективный разум пользователей и «мудрость толпы ». Информация о сайтах и поведении людей преобразуется во множество факторов, каждый из которых используется Матрикснетом для построения формулы ранжирования. Фактически, формулу ранжирования пишет машина (получалось около 300 мегабайт).

Но у «классического» машинного обучения есть предел: оно работает только там, где очень много данных. Небольшой пример. Миллионы пользователей вводят запрос [вконтакте], чтобы найти один и тот же сайт. В данном случае их поведение является настолько сильным сигналом, что поиск не заставляет людей смотреть на выдачу, а подсказывает адрес сразу при вводе запроса.

Но люди сложнее, и хотят от поиска всё больше. Сейчас уже до 40% всех запросов уникальны, то есть не повторяются хотя бы дважды в течение всего периода наблюдений. Это значит, что у поиска нет данных о поведении пользователей в достаточном количестве, и Матрикснет лишается ценных факторов. Такие запросы в Яндексе называют «длинным хвостом », поскольку все вместе они составляют существенную долю обращений к нашему поиску.

Эпоха искусственного интеллекта

И тут время рассказать о последнем прорыве: несколько лет назад компьютеры становятся достаточно быстрыми, а данных становится достаточно много, чтобы использовать нейронные сети. Основанные на них технологии ещё называют машинным интеллектом или искусственным интеллектом - потому что нейронные сети построены по образу нейронов в нашем мозге и пытаются эмулировать работу некоторых его частей.

Машинный интеллект гораздо лучше старых методов справляется с задачами, которые могут делать люди: например, распознаванием речи или образов на изображениях. Но как это поможет поиску?

Как правило, низкочастотные и уникальные запросы довольно сложны для поиска – найти хороший ответ по ним заметно труднее. Как это сделать? У нас нет подсказок от пользователей (какой документ лучше, а какой - хуже), поэтому для решения поисковой задачи нужно научиться лучше понимать смысловое соответствие между двумя текстами: запросом и документом.

Легко сказать

Строго говоря, искусственные нейросети – это один из методов машинного обучения. Совсем недавно им была посвящена . Нейронные сети показывают впечатляющие результаты в области анализа естественной информации - звука и образов. Это происходит уже несколько лет. Но почему их до сих пор не так активно применяли в поиске?

Простой ответ - потому что говорить о смысле намного сложнее, чем об образе на картинке, или о том, как превратить звуки в расшифрованные слова. Тем не менее, в поиске смыслов искусственный интеллект действительно стал приходить из той области, где он уже давно король, - поиска по картинкам.

Несколько слов о том, как это работает в поиске по картинкам. Вы берёте изображение и с помощью нейронных сетей преобразуете его в вектор в N-мерном пространстве. Берете запрос (который может быть как в текстовом виде, так и в виде другой картинки) и делаете с ним то же самое. А потом сравниваете эти вектора. Чем ближе они друг к другу, тем больше картинка соответствует запросу.

Ок, если это работает в картинках, почему бы не применить эту же логику в web-поиске?

Дьявол в технологиях

Сформулируем задачу следующим образом. У нас на входе есть запрос пользователя и заголовок страницы. Нужно понять, насколько они соответствует друг другу по смыслу. Для этого необходимо представить текст запроса и текст заголовка в виде таких векторов, скалярное умножение которых было бы тем больше, чем релевантнее запросу документ с данным заголовком. Иначе говоря, мы хотим обучить нейронную сеть таким образом, чтобы для близких по смыслу текстов она генерировала похожие векторы, а для семантически несвязанных запросов и заголовков вектора должны различаться.

Сложность этой задачи заключается в подборе правильной архитектуры и метода обучения нейронной сети. Из научных публикаций известно довольно много подходов к решению проблемы. Вероятно, самым простым методом здесь является представление текстов в виде векторов с помощью алгоритма word2vec (к сожалению, практический опыт говорит о том, что для рассматриваемой задачи это довольно неудачное решение).

DSSM

В 2013 году исследователи из Microsoft Research описали свой подход, который получил название Deep Structured Semantic Model .

На вход модели подаются тексты запросов и заголовков. Для уменьшения размеров модели, над ними производится операция, которую авторы называют word hashing. К тексту добавляются маркеры начала и конца, после чего он разбивается на буквенные триграммы. Например, для запроса [палех] мы получим триграммы [па, але, лех, ех]. Поскольку количество разных триграмм ограничено, то мы можем представить текст запроса в виде вектора размером в несколько десятков тысяч элементов (размер нашего алфавита в 3 степени). Соответствующие триграммам запроса элементы вектора будут равны 1, остальные - 0. По сути, мы отмечаем таким образом вхождение триграмм из текста в словарь, состоящий из всех известных триграмм. Если сравнить такие вектора, то можно узнать только о наличии одинаковых триграмм в запросе и заголовке, что не представляет особого интереса. Поэтому теперь их надо преобразовать в другие вектора, которые уже будут иметь нужные нам свойства семантической близости.

После входного слоя, как и полагается в глубоких архитектурах, расположено несколько скрытых слоёв как для запроса, так и для заголовка. Последний слой размером в 128 элементов и служит вектором, который используется для сравнения. Выходом модели является результат скалярного умножения последних векторов заголовка и запроса (если быть совсем точным, то вычисляется косинус угла между векторами). Модель обучается таким образом, чтобы для положительны обучающих примеров выходное значение было большим, а для отрицательных - маленьким. Иначе говоря, сравнивая векторы последнего слоя, мы можем вычислить ошибку предсказания и модифицировать модель таким образом, чтобы ошибка уменьшилась.

Мы в Яндексе также активно исследуем модели на основе искусственных нейронных сетей, поэтому заинтересовались моделью DSSM. Дальше мы расскажем о своих экспериментах в этой области.

Теория и практика

Характерное свойство алгоритмов, описываемых в научной литературе, состоит в том, что они не всегда работают «из коробки». Дело в том, что «академический» исследователь и исследователь из индустрии находятся в существенно разных условиях. В качестве отправной точки (baseline), с которой автор научной публикации сравнивает своё решение, должен выступать какой-то общеизвестный алгоритм - так обеспечивается воспроизводимость результатов. Исследователи берут результаты ранее опубликованного подхода, и показывают, как их можно превзойти. Например, авторы оригинального DSSM сравнивают свою модель по метрике NDCG с алгоритмами BM25 и LSA . В случае же с прикладным исследователем, который занимается качеством поиска в реальной поисковой машине, отправной точкой служит не один конкретный алгоритм, а всё ранжирование в целом. Цель разработчика Яндекса состоит не в том, чтобы обогнать BM25, а в том, чтобы добиться улучшения на фоне всего множества ранее внедренных факторов и моделей. Таким образом, baseline для исследователя в Яндексе чрезвычайно высок, и многие алгоритмы, обладающие научной новизной и показывающие хорошие результаты при «академическом» подходе, оказываются бесполезны на практике, поскольку не позволяют реально улучшить качество поиска.

В случае с DSSM мы столкнулись с этой же проблемой. Как это часто бывает, в «боевых» условиях точная реализация модели из статьи показала довольно скромные результаты. Потребовался ряд существенных «доработок напильником», прежде чем мы смогли получить результаты, интересные с практической точки зрения. Здесь мы расскажем об основных модификациях оригинальной модели, которые позволили нам сделать её более мощной.

Большой входной слой

В оригинальной модели DSSM входной слой представляет собой множество буквенных триграмм. Его размер равен 30 000. У подхода на основе триграмм есть несколько преимуществ. Во-первых, их относительно мало, поэтому работа с ними не требует больших ресурсов. Во-вторых, их применение упрощает выявление опечаток и ошибок в словах. Однако, наши эксперименты показали, что представление текстов в виде «мешка» триграмм заметно снижает выразительную силу сети. Поэтому мы радикально увеличили размер входного слоя, включив в него, помимо буквенных триграмм, ещё около 2 миллионов слов и словосочетаний. Таким образом, мы представляем тексты запроса и заголовка в виде совместного «мешка» слов, словесных биграмм и буквенных триграмм.

Использование большого входного слоя приводит к увеличению размеров модели, длительности обучения и требует существенно больших вычислительных ресурсов.

Тяжело в обучении: как нейронная сеть боролась сама с собой и научилась на своих ошибках

Обучение исходного DSSM состоит в демонстрации сети большого количества положительных и отрицательных примеров. Эти примеры берутся из поисковой выдачи (судя по всему, для этого использовался поисковик Bing). Положительными примерами служат заголовки кликнутых документов выдачи, отрицательными - заголовки документов, по которым не было клика. У этого подхода есть определённые недостатки. Дело в том, что отсутствие клика далеко не всегда свидетельствует о том, что документ нерелевантен. Справедливо и обратное утверждение - наличие клика не гарантирует релевантности документа. По сути, обучаясь описанным в исходной статье образом, мы стремимся предсказывать аттрактивность заголовков при условии того, что они будут присутствовать в выдаче. Это, конечно, тоже неплохо, но имеет достаточно косвенное отношение к нашей главной цели - научиться понимать семантическую близость.

Во время своих экспериментов мы обнаружили, что результат можно заметно улучшить, если использовать другую стратегию выбора отрицательных примеров. Для достижения нашей цели хорошими отрицательными примерами являются такие документы, которые гарантированно нерелевантны запросу, но при этом помогают нейронной сети лучше понимать смыслы слов. Откуда их взять?

Первая попытка

Сначала в качестве отрицательного примера просто возьмём заголовок случайного документа. Например, для запроса [палехская роспись] случайным заголовком может быть «Правила дорожного движения 2016 РФ». Разумеется, полностью исключить то, что случайно выбранный из миллиардов документ будет релевантен запросу, нельзя, но вероятность этого настолько мала, что ей можно пренебречь. Таким образом мы можем очень легко получать большое количество отрицательных примеров. Казалось бы, теперь мы можем научить нашу сеть именно тому, чему хочется - отличать хорошие документы, которые интересуют пользователей, от документов, не имеющих к запросу никакого отношения. К сожалению, обученная на таких примерах модель оказалась довольно слабой. Нейронная сеть – штука умная, и всегда найдет способ упростить себе работу. В данном случае, она просто начала выискивать одинаковые слова в запросах и заголовках: есть - хорошая пара, нет - плохая. Но это мы и сами умеем делать. Для нас важно, чтобы сеть научилась различать неочевидные закономерности.

Ещё одна попытка

Следующий эксперимент состоял в том, чтобы добавлять в заголовки отрицательных примеров слова из запроса. Например, для запроса [палехская роспись] случайный заголовок выглядел как [Правила дорожного движения 2016 РФ роспись]. Нейронной сети пришлось чуть сложнее, но, тем не менее, она довольно быстро научилась хорошо отличать естественные пары от составленных вручную. Стало понятно, что такими методами мы успеха не добьемся.

Успех

Многие очевидные решения становятся очевидны только после их обнаружения. Так получилось и на этот раз: спустя некоторое время обнаружилось, что лучший способ генерации отрицательных примеров - это заставить сеть «воевать» против самой себя, учиться на собственных ошибках. Среди сотен случайных заголовков мы выбирали такой, который текущая нейросеть считала наилучшим. Но, так как этот заголовок всё равно случайный, с высокой вероятностью он не соответствует запросу. И именно такие заголовки мы стали использовать в качестве отрицательных примеров. Другими словами, можно показать сети лучшие из случайных заголовков, обучить её, найти новые лучшие случайные заголовки, снова показать сети и так далее. Раз за разом повторяя данную процедуру, мы видели, как заметно улучшается качество модели, и всё чаще лучшие из случайных пар становились похожи на настоящие положительные примеры. Проблема была решена.

Подобная схема обучения в научной литературе обычно называется hard negative mining. Также нельзя не отметить, что схожие по идее решения получили широкое распространение в научном сообществе для генерации реалистично выглядящих изображений, подобный класс моделей получил название Generative Adversarial Networks.

Разные цели

В качестве положительных примеров исследователи из Microsoft Research использовались клики по документам. Однако, как уже было сказано, это достаточно ненадежный сигнал о смысловом соответствии заголовка запросу. В конце концов, наша задача состоит не в том, чтобы поднять в поисковой выдаче самые посещаемые сайты, а в том, чтобы найти действительно полезную информацию. Поэтому мы пробовали в качестве цели обучения использовать другие характеристики поведения пользователя. Например, одна из моделей предсказывала, останется ли пользователь на сайте или уйдет. Другая – насколько долго он задержится на сайте. Как оказалось, можно заметно улучшить результаты, если оптимизировать такую целевую метрику, которая свидетельствует о том, что пользователь нашёл то, что ему было нужно.

Профит

Ок, что это нам дает на практике? Давайте сравним поведение нашей нейронной модели и простого текстового фактора, основанного на соответствии слов запроса и текста - BM25. Он пришёл к нам из тех времён, когда ранжирование было простым, и сейчас его удобно использовать за базовый уровень.

В качестве примера возьмем запрос [келлская книга] и посмотрим, какое значение принимают факторы на разных заголовках. Для контроля добавим в список заголовков явно нерелевантный результат.

Все факторы в Яндексе нормируются в интервал . Вполне ожидаемо, что BM25 имеет высокие значения для заголовков, которые содержат слова запроса. И вполне предсказуемо, что этот фактор получает нулевое значение на заголовках, не имеющих общих слов с запросом. Теперь обратите внимание на то, как ведет себя нейронная модель. Она одинаково хорошо распознаёт связь запроса как с русскоязычным заголовком релевантной страницы из Википедии, так и с заголовком статьи на английском языке! Кроме того, кажется, что модель «увидела» связь запроса с заголовком, в котором не упоминается келлская книга, но есть близкое по смыслу словосочетание («ирландские евангелия»). Значение же модели для нерелевантного заголовка существенно ниже.

Теперь давайте посмотрим, как будут себя вести наши факторы, если мы переформулируем запрос, не меняя его смысла: [евангелие из келлса].

Для BM25 переформулировка запроса превратилась в настоящую катастрофу - фактор стал нулевым на релевантных заголовках. А наша модель демонстрирует отличную устойчивость к переформулировке: релевантные заголовки по-прежнему имеют высокое значение фактора, а нерелевантный заголовок - низкое. Кажется, что именно такое поведение мы и ожидали от штуки, которая претендует на способность «понимать» семантику текста.

Ещё пример. Запрос [рассказ в котором раздавили бабочку].

Как видим, нейронная модель оказалась способна высоко оценить заголовок с правильным ответом, несмотря на полное отсутствие общих слов с запросом. Более того, хорошо видно, что заголовки, не отвечающие на запрос, но всё же связанные с ним по смыслу, получают достаточно высокое значение фактора. Как будто наша модель «прочитала» рассказ Брэдбери и «знает», что это именно о нём идёт речь в запросе!

А что дальше?

Мы находимся в самом начале большого и очень интересного пути. Судя по всему, нейронные сети имеют отличный потенциал для улучшения ранжирования. Уже понятны основные направления, которые нуждаются в активном развитии.

Например, очевидно, что заголовок содержит неполную информацию о документе, и хорошо бы научиться строить модель по полному тексту (как оказалось, это не совсем тривиальная задача). Далее, можно представить себе модели, имеющие существенно более сложную архитектуру, нежели DSSM - есть основания предполагать, что таким образом мы сможем лучше обрабатывать некоторые конструкции естественных языков. Свою долгосрочную цель мы видим в создании моделей, способных «понимать» семантическое соответствие запросов и документов на уровне, сравнимом с уровнем человека. На пути к этой цели будет много сложностей - тем интереснее будет его пройти. Мы обещаем рассказывать о своей работе в этой области. Cледите за следующими публикациями.

Яндекс запустил новый алгоритм ранжирования - «Королев». Теперь поисковая система сопоставляет смыслы поискового запроса и страницы. Это очень удобно для пользователей. Однако что новый алгоритм означает для оптимизаторов и владельцев сайтов, как изменится продвижение и стоит ли ждать изменения трафика.

Как никогда весь «сеошный» мир ждал запуска нового алгоритма ранжирования, анонсированного на 22 августа 2017 года. Ещё бы, подобные анонсы – вещь для Яндекса абсолютно нетипичная, обычно они предпочитают не распространяться о своих планах, и сообщают об очередном релизе алгоритма ранжирования постфактум.

22 августа 2017 года Яндекс запустил новую версию поиска. В её основе лежит поисковый алгоритм «Королёв» (с 2008-го года новые алгоритмы ранжирования в Яндексе называют в честь городов). Алгоритм с помощью нейронной сети сопоставляет смысл запросов и веб-страниц - это позволяет Яндексу точнее отвечать на сложные запросы. Для обучения новой версии поиска используются поисковая статистика и оценки миллионов людей. Таким образом, вклад в развитие поиска вносят не только разработчики, но и все пользователи Яндекса.

Область применения нового алгоритма практически не затрагивает традиционные сеошные сферы интересов, в первую очередь к которым можно отнести коммерческую выдачу. «Королёв» оказался логическим продолжением алгоритма «Палех» и призван обслуживать длинный хвост микрочастотных запросов, как правило, задаваемых на естественном языке. Особенностью таких запросов является то, что релевантные им документы могут не содержать многих из слов, входящих в запрос. Это ставит в тупик традиционные алгоритмы ранжирования, основанные на текстовой релевантности.

Решение найдено в виде использования нейросетей, которые обучаются в том числе и на поведении пользователей. Поэтому новый алгоритм Яндекса работает на основе нейронной сети. Он обучается на примерах запросов пользователей, и подбирает ответы исходя из смысла текста на странице. Это означает, в частности, что он будет гораздо эффективнее работать с нестандартными запросами, когда пользователи сами не уверены, как называется то, что они хотят найти. Здесь многое упирается в вычислительные мощности.

Вообще подобный подход к решению задачи ранжирования длинного микрочастотного хвоста запросов не нов. Еще в 2015-м году стало известно о технологии, применяемой поисковой системой Google для поиска ответов на многословные запросы, заданные на естественном языке – RankBrain. Эта технология, так же основанная на машинном обучении, позволяет распознавать наиболее значимые слова в запросах, и анализировать контекст, в котором осуществляется поиск. Что позволяет находить релевантные документы, которые не содержат всех слов запроса.

Кроме того, алгоритм работает и с картинками. Он анализирует содержание изображения и подбирает необходимый вариант, исходя из него, а не только из описания в тегах или окружающего его текста.

Впрочем, длинный хвост микрочастотных многословных запросов на естественном языке вполне может быть интересен «выжигателям» информационной семантики – создателям так называемых инфосайтов «на все случаи жизни». В общем-то, они и так стараются под как можно большее количество известных им запросов, которые удается заполучить с помощью различных методов сбора семантики, организовать точное вхождение в свои тексты. Там же, где точных вхождений не будет, т.е. для запросов, которые не всосал «семантический пылесос» создателей инфосайтов или для которых им не удалось обеспечить точных вхождений в контент, и начинается вотчина «Королёва», который призван искать соответствия между запросами и ответами в том случае, когда между ними мало пересечений по ключевым словам. В таких случаях «Королёв» несомненно повысит требования к качеству контента, и реально интересные читабельные статьи будут еще больше выигрывать у сборников вхождений ключевых фраз, разбавленных водой, т.к. именно в таких статьях могут содержаться полезные для нового алгоритма сигналы. Ну, а всем остальным сеошникам действительно можно расслабиться – очередная порка откладывается. Жертв и разрушений нет.

Запуская «Палех», Яндекс научил нейронную сеть преобразовывать поисковые запросы и заголовки веб-страниц в группы чисел - семантические векторы.

Важное свойство таких векторов состоит в том, что их можно сравнивать друг с другом: чем сильнее будет сходство, тем ближе друг к другу по смыслу запрос и заголовок.

Чем он отличается от «Палеха»?

Основным отличием нового алгоритма, помимо улучшения технической реализации, является возможность распознавать схожие «смыслы» по всему документу, а не только по заголовку (Title), который появляется в окне браузера.

Как работает алгоритм «Королёв»

Поисковый алгоритм «Королёв» сравнивает семантические векторы поисковых запросов и веб-страниц целиком - а не только их заголовки. Это позволяет выйти на новый уровень понимания смысла.

Как и в случае с «Палехом», тексты веб-страниц в семантические векторы преобразует нейросеть. Эта операция требует много вычислительных ресурсов. Поэтому «Королёв» высчитывает векторы страниц не в режиме реального времени, а заранее, на этапе индексирования.

Когда человек задаёт запрос, алгоритм сравнивает вектор запроса с уже известными ему векторами страниц.

Эффект «Королёва»

Умение понимать смысл особенно полезно при обработке редких и необычных запросов - когда люди пытаются описать своими словами свойства того или иного объекта и ожидают, что поиск подскажет его название.


Такая схема позволяет начать подбор веб-страниц, соответствующих запросу по смыслу, на ранних стадиях ранжирования. В «Палехе» смысловой анализ - один из завершающих этапов: через него проходят всего 150 документов. В «Королёве» он производится для 200 000 документов.

Кроме того, новый алгоритм не только сравнивает текст веб-страницы с поисковым запросом, но и обращает внимание на другие запросы, по которым люди приходят на эту страницу.

Так можно установить дополнительные смысловые связи.

Люди учат машины

Использование машинного обучения, а особенно нейросетей, рано или поздно позволит научить поиск оперировать смыслами на уровне человека. Чтобы машина поняла, как решать ту или иную задачу, необходимо показать ей огромное количество примеров: положительных и отрицательных. Такие примеры дают пользователи Яндекса.

Нейронная сеть, которую использует алгоритм «Королёв», обучается на обезличенной поисковой статистике. Системы сбора статистики учитывают, на какие страницы пользователи переходят по тем или иным запросам и сколько времени они там проводят.

Если человек открыл веб-страницу и «завис» там надолго, вероятно, он нашёл то, что искал, - то есть страница хорошо отвечает на его запрос. Это положительный пример.

Подобрать отрицательные примеры гораздо легче: достаточно взять запрос и любую случайную веб-страницу.Статистика, которая используется для обучения алгоритма, обезличена

В помощи людей нуждается и Матрикснет, который строит формулу ранжирования.

Толока

Чтобы поиск развивался, люди должны постоянно давать оценку его работе. Когда-то выставлением оценок занимались только сотрудники Яндекса - так называемые асессоры. Но чем больше оценок, тем лучше - поэтому Яндекс привлек к этому всех желающих и запустили сервис Яндекс.Толока . Сейчас там зарегистрировано более миллиона пользователей: они анализируют качество поиска и участвуют в улучшении других сервисов Яндекса. Задания на Толоке оплачиваются - сумма, которую можно заработать, указана рядом с заданием. За два с лишним года существования сервиса толокеры дали около двух миллиардов оценок.

В основе современного поиска лежат сложные алгоритмы. Алгоритмы придумывают разработчики, а учат - миллионы пользователей Яндекса. Любой запрос - это анонимный сигнал, который помогает машине всё лучше понимать людей. Новый поиск - это поиск, который мы делаем вместе.

Для поискового маркетинга 2017 год был довольно насыщенным. Яндекс запустил новый поисковый алгоритм Баден-Баден, появились новые форматы страниц сайтов для ускоренной загрузки контента, возросла доля мобильного поиска. Как компании справились с этими вызовами и что еще придется учесть при оптимизации сайтов в следующем году, рассказали в диджитал-агентствах.

2017-2018

Для поискового маркетинга (нашего ключевого направления) самое яркое событие, пожалуй, запуск Баден-Бадена. Это новый алгоритм Яндекса,который наказывает сайты за некачественные переоптимизированные тексты.

Наша лаборатория поисковой аналитики создала облачный текстовый редактор«Тургенев», который оценивает тексты на угрозу «Баден-Бадена» и дает конкретные рекомендации по улучшению. Сервис доступен бесплатно для всех желающих на сайте «Ашманов и партнеры».

Из трендов стоит отметить рост доли мобильного поиска. C точки зрения факторов ранжирования и пользовательского опыта мобильный поиск отличаетсяот десктопного. Нам всем предстоит освоить новые форматы страниц (например, Турбо-страницы Яндекса и AMP от Google) и новые методы работы сорганическим поисковым трафиком, который по-прежнему стабильно демонстрирует высокий показатель ROI.

Из других рекламных форматов я бы отметил нативную и видеорекламу, которые стремительно набирают популярность на фоне снижения доверия пользователей к привычным баннерам и объявлениям. Думаю, в 2018 году спрос на эти форматы будет расти быстрее всего.

Анатолий Блонский, руководитель группы поисковой оптимизации и продвижения сайтов iProspect Russia

2017-2018

1. Акцент на аналитике SEO. Google анонсировал расширение периода хранения данных в Search Console. На текущий момент возможно получить аналитику за период свыше 12 месяцев только в бета-версии сервиса (вместо 3 месяцев, как было раньше). Планируется, что в 2018 году это возможность будет реализована уже не в бета-версии, а в основной.

2. Google и Яндекс будут активно развивать возможности голосового поиска. Сегодня наблюдается стремительный рост голосового и диалогового поиска. Это, несомненно, влечёт за собой увеличение спроса на новые типы ключевых слов и работу с новыми видами результатов поиска.

Google уже несколько лет активно использует и развивает возможности мобильного голосового поиска, который доступен на iOS- и Android-устройствах. В 2017 году Google добавил новые подсказки в топ результатов выдачи на мобильных устройствах, в которых предлагается совершить голосовой поиск по необходимому запросу.

Яндекс запустил Алису — первого в мире голосового помощника, который умеет импровизировать в разговоре, не ограничиваясь набором заранее заданных реплик. Пока сложно с уверенностью сказать, что насколько серьезно этот тренд изменит подход к SEO. В 2018 году маловероятно, что случится бум оптимизации в этом направлении, но количество голосовых поисков точно серьезно увеличится. Уже можно предположить, что Google первым начнет разделять в статистике запросы на вводимые с клавиатуры и голосовые.

3. Расширенная выдача релевантного контента при введении запросов в поисковых системах. Поисковые системы делают шаги к расширению различных форматов выдачи контента по поисковым запросам. Так, в 2017 г. Google объявил о запуске трех обновлений, связанных с расширенными ответами, панелями знаний и рекомендациями по похожим темам. Это реализовано в блоках с ответами (featured snippets), на панелях знаний и в топе поисковой выдачи. Теперь пользователи смогут видеть больше изображений и дополнительной информации по интересующим их темам.

Аналогично Яндекс при выведении результатов запросов предлагает пользователям ссылки на свои релевантные сервисы. На этот тренд важно обратить внимание при формировании контента сайтов.

4. AMP и аналогичные технологии приобретут еще большее распространение на рынке. В конце 2017 года Яндекс запустил свой аналог AMP (Accelerated Mobile Pages) от Google — технологию Турбо. Задача как АМP, так и Турбо-страниц — ускорение загрузки контента на мобильных устройствах и уменьшение потребления мобильных данных.

В 2018 году появится еще больше ресурсов, использующих обе технологии, а также кейсов по их внедрению и использованию. Интернет становится все более мобильным, а пользователи - более требовательными к скорости и удобству взаимодействия с контентом.

В 2017 году Google уже увеличил долю AMP-контента в мобильной выдаче, результаты чего наблюдаются уже не только в США, но и ряде других стран - Австралии, Великобритании, Франции, Испании, Японии и Сингапуре. Из предыдущего тренда органично вытекает следующий: в 2018 году Googlе активно займется запуском mobile-first индекса для сайтов. В настоящее время на новый тип индексации переведено лишь небольшое количество сайтов.

В 2017 году Яндексом был запущен алгоритм Баден-Баден, который находит сайты с сомнительными текстами, которые мало-полезны для посетителей сайта и никак не помогают им выбрать товар и совершить покупку. Такие сайты он занижает в поиске до тех пор, пока причина не будет устранена.

В связи с этим многим приходилось убирать почти все тексты с сайта, чтобы вывести его из под данного фильтра. Наш руководитель SEO-отдела Максим Акулов выступил с подробнейшим докладом о фильтре Баден-Баден на конференции в Казани.

В 2017 году Яндекс стал более дружелюбным к SEO-сообществу. Они стали развивать свой сервис Яндекс Вебмастер и теперь дают больше информации владельцу сайта (а в нашем случае SEO-специалисту) для аналитики и дают подсказки что на сайте не так, над чем нужно работать, какие страницы по их мнению являются мало-качественными.

Также был отмечен массовый переход многих сайтов на https:// в 2017 году из за того, что Google стал помечать сайты без https, как небезопасные. В связи с ужесточением законодательства в сфере хранения и обработки персональных данных поголовно все сайты стали размещать у себя политику обработки персональных данных.

Некоторые компании на этом неплохо успели заработать, организовав массовые рассылки всем, у кого не было этих данных на сайте. Соответственно, за определенную сумму они делали на сайте все необходимые изменения, чтобы соответствовать требованиям законодательства. Мы в СЕО-Импульс всем своим клиентам данную доработку делаем в виде подарка, также как и адаптивную версию сайта, а также переход на https.

Каждый год мы делаем прогнозы, в этот раз, как и в предыдущий, мы в СЕО-Импульс считаем, что трендами будут:

1. постоянное развитие функционала сайта. Если раньше нужно было копировать лучшие решения у конкурентов и внедрять себе, то сейчас многие сайты стали похожи друг на друга, лучшие решения уже скопированы и внедрены. Теперь приходится придумывать новый удобный для клиентов сайта функционал и постоянно думать о том, чтобы упростить клиенту подбор товара на сайте.

2. разносторонняя работа над бизнесом клиента в Интернете. На одном seo далеко не уедешь, его нужно дополнять другими смежными и сопутствующими работами. Мы к примеру уже сейчас предлагаем своим клиентам полный комплекс: seo, smm, работу с репутацией, контекстную рекламу и постоянные доработки сайта. В комплексе это уже даёт весомый результат.

3. грамотная работа над контентом. Это является трендом уже 2-3 года, но не теряет своей актуальности и по сей день. Лучший вариант для развития сайта в какой либо отрасли является работа над тем, чтобы сделать его экспертом. То есть SEO-компания должна выстроить грамотную контент-стратегию и регулярно публиковать на сайте интересные обзоры по теме, а также обучающие материалы.

4. позиции многих сайтов сейчас прыгают каждый день: и выдача у всех разная, и отслеживать нахождение сайта в ТОП-10 становится все сложнее и сложнее. Часто позиции прыгают без видимых причин и на следующее утро возвращаются на свои прежние места. В связи с этим идёт постепенный отказ seo-компаний от работы с оплатой за позиции. Мы к примеру единственные на данный момент, кто финансово отвечает по Договору и за позиции и за трафик, тем самым подстраховывая заказчика.

5. Всё больше клиентов к нам обращаются с просьбой увеличить продажи, хотят данные KPI зафиксировать в договоре. Это очередной тренд, с каждым годом таких Заказчиков всё больше и больше. Я думаю это связано с тем, что многие уже успели поработать с разными SEO-компаниями и по каким то причинам остались недовольны результатами. Мы идём навстречу таким Заказчикам и совместно продумываем KPI, но это делаем только в случае, если сайт уже грамотно сделан и мы успели поработать несколько месяцев и понять специфику бизнеса Заказчика.

Мы каждый год проводим исследование рынка seo-рекламы. До сих пор ни одна компания не готова работать ни за лиды, ни за % от продаж с первого месяца работы. Некоторые предлагают данную услугу, но с 5-6 месяца, и по нашим подсчетам данная работа всё равно выходит дороже для Заказчика, чем оплачивать позиции и трафик.

Новость, которую нельзя было просто так взять и перестать обсуждать - алгоритм Яндекса Баден-Баден. Он предполагает понижение позиций за переоптимизированные или бесполезные тексты на сайте. Те, кто попал под действие алгоритма, убрали такой контент вовсе или попытались снизить процент вхождений ключевых фраз. В сети уже есть подробные исследования и руководства, как выйти из-под санкций. К счастью, ни один из наших проектов не пострадал.

Чуть менее громкая тема - турбостраницы в поиске Яндекса. Теперь любой сайт, даже без мобильной версии или адаптивной верстки, сможет адекватно выглядеть и быстрее загружаться на мобильных устройствах - и это можно реализовать с минимальными затратами на разработку. Это важно, учитывая, что почти половина пользователей ищет что-либо с мобильных устройств, а не с десктопа. Трафик на турбостраницы будет учитываться как обычный поисковый, возможности для размещения рекламы тоже есть. Надо тестировать.

Еще один фактор в пользу мобильного поиска - анонс mobile-first Google. Теперь в первую очередь будет оцениваться релевантность мобильной версии страницы, а если ее нет - десктопной. Обещают, что алгоритм будет разворачиваться очень медленно, на себе его действие мы пока не ощутили.

Поисковые системы улучшают качество результатов поиска в 2 направлениях - ужесточают антиспам-фильтры и учатся оценивать качество текста через его смысл, а не просто учет количества слов и вхождений запросов. Как следствие, нас ждет еще больший упор на качественные тексты и то, что принято в SEO-сообществе называть LSI-текстами, полезность контента для пользователей. Прежде чем создавать контент, нужно будет анализировать, необходим ли он вообще на конкретной странице, если да, то в каком формате, какую задачу пользователя он должен решить.

Меньше трафика получат сайты с относительно долгой загрузкой страниц, без адаптивной верстки либо мобильной версии. Вырастет доля AMP и турбостраниц, в том числе в коммерческом сегменте.

Поисковые системы продолжат развивать свои сервисы для вебмастеров. Яндекс периодически выпускает обновления, Google планирует запуск новой версии Search Console в следующем году — будет больше возможностей для аналитики поисковой выдачи.

Последние годы все активнее развиваются инструменты для автоматизации процессов и работы с большими данными. На стыке SEO и машинного обучения, надеюсь, появится сервис для кластеризации, позволяющий группировать ключевые запросы не по топу, а по семантической близости слов.

2017-2018

С каждым годом digital-каналы все больше интегрируются, появляются сводные KPI и системы отчетности. SEO — это уже не отдельное направление, обособленное от остального инструментария интернет-маркетинга, как это было раньше. Сегодня seo — это часть комплексного онлайн-маркетинга. Такая синергия позволяет наиболее плодотворно и эффективно работать над задачами клиентов.

Мы можем миксовать направления в зависимости от бизнес-потребностей заказчика и выбирать оптимальные SEO-инструменты. Выбрать важный пул этих самых инструментов и не ошибиться - важнейшая задача специалистов по поисковому продвижению.Из основных трендов уходящего и наступающего годов — конечно, развитие мобайла. Количество мобильных пользователей уже превысило количество декстопных. А значит, стоит поторопиться с адаптацией тем, кто это по каким-то причинам еще не сделал, иначе высок риск остаться в числе аутсайдеров.

Помимо увеличения самих мобильных пользователей, увеличивается и количество поисковых запросов. Вероятно, эта тенденция станет переломной в ближайшем будущем для всего интернет-маркетинга. Поэтому стоит задуматься и над тем, как выстроить стратегию продвижения сайта с учетом этих реалий.

Стремительно развивается и CRM-маркетинг. Синхронизация CRM с digital-инструментами в целом, и seo в частности - это новый виток развития интернет-маркетинга, который будет продолжать прогрессировать. В отрыве от детализированной информации о целевой аудитории и ее поведенческих характеристиках продумать эффективную стратегию просто невозможно. Поэтому еще одной важной задачей становится накопление/расширение/детализация клиентских баз, их грамотное использование, интегрирование CRM с системами аналитики.

Развивается seo и как консалтинг. Я думаю, что приоритетом номер один для рынка поискового продвижения станет расширение команд по продвижению и деление специалистов на специализации. Это позволит глубже и тщательнее работать над задачами клиентов и повышать их результативность.

Я бы разделил события и тренды на краткосрочные и долгоиграющие. Среди краткосрочных событий, достаточно серьезно повлиявших на рынок, отмечу новые фильтры поисковой системы Яндекс, направленные на борьбу с некачественным контентом. Это здорово, что поисковая система борется за качество и понижает в выдаче документы и сайты, содержание которых бессмысленно для пользователей.

Также к краткосрочным событиям, которые переросли в большой тренд, отнесу преобразования в коммерческой выдаче Яндекса. Первое — это введение 4-го спецразмещения, которое достаточно существенно уменьшило CTR поисковой выдачи. Второе — история с тестированием дополнительного блока Директа, который интегрируется в середину поисковой выдачи. Данный тренд точно продолжится, и это лишний раз напоминает нам о том, что не стоит заниматься только одним видом интернет-рекламы, а рассматривать исключительно комплексный подход к добыче трафика.

Среди долгоиграющий трендов отмечу:

Борьба со спамом со стороны поисковых систем. Это вечный тренд, и я уверен, что в 2018 году мы увидим появление новых фильтров и развитие существующих.Более плотное применение машинного обучения и нейросетей во всех частях алгоритмов.

Мобилизация, появление новых колдунщиков в мобильном поиске для еще большего удобства пользователей. Развитие темы с микроразметкой для сайтов, их мобильных версий.

Развитие голосового поиска, электронных помощников, увеличение длины запросов. Очевидно, что Яндекс и Google смотрят в будущее, а молодое поколение, в особенности дети, достаточно активно используют этот функционал.

Продолжение перехода на модель комплексного интернет-маркетинга для крупных агентств, работа по моделям достижения трафика из поисковых систем, CPA и оптимизация рекламы по показателям ROI.

Мы выпустили новую книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

Подписаться

Писал недавно аналогичную статью про и решил, что осветить прошлое отечественного поисковика тоже необходимо для полноты картины. Рамблер не предлагать:)

Изначально с 1990 года по 1996 компания под необычным названием «Аркадия» занималась разработкой программных продуктов, тесно связанных с поиском по словам. Первым шагом на пути к созданию поисковой системы, такой, какой мы её знаем сейчас, было создание автоматического классификатора изобретений, весом 10 мб. Благодаря полученным в Аркадии наработкам – старт Яндекса был впечатляющим.

Далекое прошлое: все алгоритмы Яндекса с 1997 года

  • 23 сентября 1997 год – Официальный день рождения компании «Яндекс». Со старта поисковик уже мог учитывать морфологию, расстояние между словами и оценивать релевантность документа к введенному запросу.
  • Ноябрь 1997 года – Пользователи могут получать релевантные ответы на естественно-языковые запросы. Типа «где купить», «куда сходить» и так далее.
  • 1998 год – Яндекс добавил возможность «найти похожий документ» по времени изменения и в диапазоне дат.
  • 1999 год – Становится возможен поиск по разным категориям: зоны текста, категории, изображения. В этот же год добавили понятие «индекс цитирования». В поиске появляется фильтр, нацеленный на избежание порнографии и мата.
  • 2000 год – Яндекс охватывает новые области. В частности «Яндекс.Новости». Теперь тексты ранжируются по степени важности.
  • 2001 год – Объем данных в индексе поисковика превысил 1 терабайт.
  • 2002 год – SEO начинает активно возвышать сайты в поиске. Два основных способа: обмен ссылками и размещение ссылок в каталогах.
  • 2003 год – Популярность обмена ссылками зашкаливает. Появляются автоматические сервисы для обмена бэками. Тенденция сохраняется весь 2004 год.
  • Начало 2005 года – Продвижение с помощью линкаторов (сервисов для автоматической накрутки ссылок) переступает все пределы. В топе результатов поиска появляются абсолютно не релевантные страницы.

    Продвинуть можно было любой сайт по любому запросу без особых трудностей – начали появляться различные приколы. В то время по запросу «враг народа» можно была найти сайт президента РФ Владимира Владимировича. А запрос геморрой показывал русскоязычную версию сайта Microsoft.

  • Конец 2005 года – Логично предположить, «Яндекс» начал истреблять линкаторы. Так называемый «Непот-фильтр» аннулировал вес ссылок с сайтов, занимающихся линко-торговлей.
  • 2006 год – На смену обмену ссылками пришли биржи, на которых можно было приобрести бэклинк с разных площадок (типа досок объявлений).
  • 2007 год – Ссылки стали товаром. И было предсказуемо создание крупной биржи для покупки/продажи ссылок в различных режимах, на разных ресурсах и тд. В те годы, подобный бизнес мог приносить очень неплохой ежемесячный доход. А значит, и заниматься этим стали все подряд. Основной работой в SEO стала покупка бэклинков. В этот же год вышла новая формула ранжирования, по которой по высокочастотным, однословным запросам в ТОП выходили в основном главные страницы сайтов.

Время перемен в Яндекс: история обновлений с 2007 по 2009

  • 20 декабря 2007 года – Обновление алгоритма ранжирования. Первые попытки борьбы со спамом. Из результатов поиска исключаются ресурсы, которые сильно злоупотребляли наращиванием ссылочного профиля.
  • 17 января 2008 года – «8 SP1». Первый алгоритм «Яндекса», который удостоился собственного имени, хоть и не очень понятного. С этого момента верхушку поиска занимают старые, авторитетные сайты. Появляется понятие «трастранк», степень доверия к сайту. Кстати, теперь «Яндекс» обещает называть все свои алгоритмы названием городов.
  • 19 марта 2008 года – Фильтрация, нацеленная на борьбу с покупными ссылками, ужесточается. Большинство сайтов, которые покупали бэклинки, проседают в позициях. Но, ко всеобщему удивлению, от принятых мер поисковая выдача стала только хуже, поэтому все вернулось на свои места.
  • 16 мая 2008 года – «Магадан». Поисковик научился читать транслитерацию, переводы и аббревиатуры. Стал доступен поиск по зарубежным сайтам. Смягчилась фильтрация отбора документов. Вдвое увеличилось количество факторов ранжирования. Почти сразу вышел «Магадан 2.0». Добавлены новые факторы, которые учли уникальность контента и стали классифицировать запросы на коммерческие/некоммерческие и геозависимые/геоНЕзависимые.
  • 12 сентября 2008 года – «Находка». Повысился вес внутренних страниц. Теперь по среднечастотным и по некоторым высокочастотным запросам можно встретить в поиске не только главные страницы. Усиливается борьба с клоакингами (сайты, созданные для манипулирования трафиком. Черный SEO метод). Расширен словарь связей.
  • 10 апреля 2009 года – «Арзамас». Улучшается распознавание опечаток в запросах. Выдача становится . Теперь поисковик учитывает регион пользователя. Появился термин «региональное продвижение». Выявлено 19 основных регионов.
  • 28 сентября 2009 года. Фильтр 17. По словам Яндекса, фильтр работает с 2006 года. Но ранее его присутствие было не столь ярко выражено. Фильтр нацелен на борьбу с некачественными сайтами, например, созданными и заполненными автоматически.
  • 10 ноября 2009 года –«Снежинск». Теперь по высокочастотным однословным запросам лидерами поиска стали информационные сайты, вытеснив коммерческие. Официальное рождение «Матрикснет», нового метода машинного обучения. Теперь все запросы, характеризующие сайты, стали связаны между собой. Первые слухи о поведенческих факторах.

    SEO становится все сложнее.

  • 18 декабря 2009 года – АГС 30. Теперь фильтр стал умнее. Он начал исключать из индекса не только неуникальные сайты, но и ресурсы, не несущие никакой пользы.
  • 22 декабря 2009 года – «Конаково». В поддержку Арзамасу число регионов увеличилось с 19 до 1250.

Изменение алгоритмов Яндекса: наши дни

  • 20 января 2010 года – Анти-портянки. Яндекс ввел фильтр за огромные тексты, перенасыщенные ключевыми словами.
  • 6 августа 2010 года – «Обнинск». Была расширена формула ранжирования, что в первую очередь повлияло на геонезависимые запросы. Алгоритм также негативно повлиял на продвижение некачественными ссылками. Еще в 2010 году подтвердились слухи о поведенческих факторах.
  • 15 декабря 2010 года – «Краснодар». Два крупных нововведения. Первым стала технология «Спектр», которая отвечала на неоднозначные запросы пользователя, разбавляя выдачу разными ответами. Классический пример неоднозначного запроса “Наполеон” – что хотел пользователь? Торт? Полководец? Музыкальная группа? Так вот спектр был создан, чтобы удовлетворить все возможные потребности по неоднозначным запросам. Вторым нововведением стала индексация соц. сети “ВКонтакте”. Теперь можно через поисковую строку можно найти профили пользователей из соцсети.
  • Май 2011 года – Многие сайты потеряли позиции из-за волны ручной пессимизации за накрутку поведенческих факторов.
  • 17 августа 2011 года – «Рейкьявик». Усовершенствование персонализации. Добавление « », теперь, вводя в поисковую строку какую-либо формулу, пользователь сразу получал ответ.
  • 13 сентября 2011 года – «Ты спамный». Фильтр за переспамленный текст. Понижались тексты, которые имели низкий показатель поведенческих факторов.
  • 12 декабря 2012 год –«Калининград». Главная идея сделать полностью персональный поиск. Теперь пользователю предлагались подсказки, основанные на его предыдущей истории. Помимо Калининграда в течение года улучшился поиск по контенту в соцсетях. По неоднозначным запросам появились подсказки, чтобы уточнить, чего хотел пользователь. Немного позже подсказки стали учитывать предыдущие запросы пользователя. В сниппеты стали добавлять профили в социальных сетях. Яндекс начал сотрудничать с Твиттером. После того как открыл Яндексу свою базу данных, скорость индексации сайта с регулярными твиттами заметно улучшилась. Еще понизились сайты с pop-up элементами, которые маскировались под системные сообщения и сигналы социальных сетей.
  • Февраль 2013 года – Яндекс начал отмечать сайты, зараженные вирусами или содержащие вредоносный код.
  • 13 мая 2013 года – К адресу в сниппете сайтов добавили ближайшую станцию метро и время работы организации.
  • 16 мая 2013 года – Платформа «Острова». Принципиальное изменение формата поисковика. Яндекс планировал сделать так, чтобы пользователь мог решать свои проблемы не заходя на конкретный сайт, а сразу в поисковике. Например, заказать/купить/вызвать и так далее. Почему-то дата релиза все время откладывалась.
  • 6 ноября 2013 года – АГС 40. Очередное ужесточение АГС фильтра. Отныне фильтр полностью автоматический.
  • 2014 год. Отныне АГС фильтр не выкидывал страницы из индекса, а обнулял тИЦ. Активная борьба со ссылками. Анонс безссылочной формулы ранжирования для ряда коммерческих тематик в Москве. Очередная волна пессимизации за накрутку ПФ. Волна пессимизации за агрессивную рекламу.
  • 15 апреля 2015 года – Анонс «Минусинск». На «Неделе байнета» Яндекс анонсировал новый алгоритм, направленный на борьбу со ссылочным спамом. На удивление, перед тем как применить санкции к сайтам, Яндекс разослал предупреждения, что весьма несвойственно поисковику.
  • 15 мая – 23 июня 2015 года. За этот короткий промежуток времени прошло три волны, понижающих сайты за ссылочный спам.

Новые алгоритмы поиска Яндекса

2 февраля 2016 года – «Владивосток». Яндекс запустил новый алгоритм, оценивающий «мобилопригодность». Теперь в мобильной выдаче одним из значимых факторов ранжирования является адаптированность сайта под мобильные устройства.

Продолжение следует

Как бы ни усложняли жизнь SEO специалистам, все мы пользуемся поиском. И за последние годы поисковая выдача сильно преобразилась. Причем в лучшую сторону. Надеюсь, Яндекс и дальше будет выдумывать оригинальные способы, ограничивающие возможности воздействовать на результаты поиска. Так работать только интересней.