Как Яндекс и Baidu продвигают поиск с помощью машинного обучения
Google – не единственная поисковая система, которая добивается успехов в машинном обучении. Посмотрите, как Яндекс и Baidu делают расширенный поиск с помощью YATI и ERNIE.
Когда дело доходит до машинного обучения и SEO , ряд достижений за последнее десятилетие обеспечили Google широкую огласку и высокую оценку таких проектов, как RankBrain , BERT и SMITH .
С учетом сказанного, Google – не единственная поисковая система, добившаяся больших успехов в развитии машинного обучения (ML).
За аналогичный период времени с Google Яндекс включил аналогичные проекты в свои рейтинговые процессы, такие как MatrixNet, Palekh, его вторая (более усовершенствованная) итерация Korolyov, а совсем недавно – YATI.
Baidu также участвовал в разработке технологий машинного обучения для поиска, среди которых наиболее известной моделью машинного обучения является ERNIE.
Поскольку я собираюсь использовать слово «трансформер» несколько раз, важно иметь базовое представление о том, что такое трансформер и как такие модели, как BERT и SMITH, связаны с YATI и ERNIE.
Начнем с этого.
Что такое трансформаторы?
Проще говоря, преобразователь – это модель глубокого обучения, используемая в рекуррентных нейронных сетях (RNN) для обработки задач, связанных с последовательными данными и естественным языком.
Трансформаторы способствуют так называемому распараллеливанию.
Это означает, что входные данные не нужно обрабатывать по порядку, что позволяет обрабатывать и упрощать гораздо более крупные и масштабные наборы данных.
Благодаря этому мы получили в SEO предварительно обученные системы, такие как BERT, GPT и SMITH .
Что такое ЯТИ (Яндекс)?
С 2017 года в плане новой технологии машинного обучения от Яндекс.
Однако в конце 2020 года Яндекс запустил новый алгоритм ранжирования на основе трансформирующих нейронных сетей под названием YATI: еще один преобразователь с улучшениями.
Возможно, это не поэтично, но YATI был провозглашен самым значительным и действенным изменением, которое Яндекс внес в свои поисковые алгоритмы ранжирования с момента появления MatrixNet в 2009 году.
Как и в случае со всеми новыми достижениями поисковых систем, машинное обучение не заменяет переменные и параметры, с которыми мы работали раньше, но делает их лучше.
Как и Google, Яндекс использовал ряд алгоритмов для улучшения результатов поиска для пользователей.
Но с 2016 года и внедрения нейронных сетей в свой алгоритм Яндекс выстраивает свой собственный гораздо более сильный алгоритм.
Как YATI повлияет на оптимизацию Яндекса
Судя по информации и заявлениям Яндекса о раскрытии YATI на YaC2020, на новый компонент алгоритма машинного обучения будет приходиться более 50% окончательного веса.
Это означает, что благодаря лучшему пониманию веб-документов и текстов внесение небольших изменений на страницы, таких как изменение тегов заголовков, добавление большего количества ключевых слов и даже доменов с точным соответствием, больше не будет иметь такого влияния (в зависимости от конкуренции и ниши).
Как упоминалось ранее, это не означает, что больше не нужны сильные технические, внутренние и внешние ресурсы.
Это только усложняет управление системой в будущем.
Можете ли вы оптимизировать для YATI?
Поскольку YATI – это эволюция алгоритмов Яндекса, а не революция, по большей части общие принципы оптимизации Яндекса остаются.
Во всяком случае, передовой опыт только усилился.
Заполнить пробелы в тематике контента
Не ограничиваясь ключевыми словами и темами, вы должны убедиться, что ваш контент так же богат ими, как и контент ваших конкурентов.
Например, если вы пытаетесь привлечь пользователей, желающих купить протеиновые порошки и коктейли-заменители еды, но вы не говорите об их ингредиентах, в том числе о пищевом составе, или не предоставляете информацию о том, как они производятся, а ваши конкуренты – это вы в наборе данных самый необычный.
Структурируйте длинный текст лучше
Разделение фрагментов текста на подзаголовки может помочь пользователям бегло просматривать и находить соответствующие части текста, которые они хотят прочитать, а также добавить структуру для поисковых систем.
Основываясь на документации по YATI, в российском поисковом сообществе широко распространено мнение, что разделение текста, состоящего из 250–300 слов, с помощью подзаголовка может принести пользу.
Что такое ЭРНИ (Байду)?
Переходя от достижений Яндекса к ML, давайте посмотрим на ERNIE .
У Baidu, как и у Google и Яндекс, есть история с искусственным интеллектом и машинным обучением.
В 2016 году Baidu представила платформу PaddlePaddle с открытым исходным кодом, которая в течение нескольких лет использовалась внутри компании для разработки:
- Алгоритмы и технологии для улучшения своего поискового продукта.
- Масштабируемая классификация изображений.
- Машинный перевод текстов.
- И рекламная платформа Baidu.
ERNIE (версия 1.0) была представлена в PaddlePaddle и более широкой экосфере Baidu в начале 2019 года, а обновленная версия (2.0) выйдет примерно в июле того же года.
ERNIE превзошла BERT и XLNet на момент внедрения по 16 задачам НЛП и возглавила общедоступную таблицу лидеров GLUE .
XLNet, совместное предприятие Google и Университета Карнеги-Меллона, в то время превосходило BERT .
Помимо помощи в развитии технологий и продуктов для поиска, еще одним замечательным результатом ERNIE является система DuTongChuan, которая является первой в истории контекстно-зависимой моделью синхронного перевода.
Влияние ERNIE на поиск
ERNIE является активной частью более широкого поискового алгоритма Baidu и используется как для обслуживания общих результатов поиска, так и для улучшения диверсификации в новостных лентах путем удаления повторяющихся историй (несмотря на разные заголовки).
ЭРНИ также играет активную роль в помощнике Baidu по ИИ, Сяо Ду.
Используя модели реального времени (аналогичные DuTongChuan), Сяо Ду использует ERNIE, чтобы лучше понимать и точнее отвечать на голосовые запросы.
Большая часть литературы по ERNIE посвящена тому, как она работает и обрабатывает данные.
Фактическое влияние, которое он оказал на поиск Baidu в целом, неизвестно, однако мы также должны помнить, что результаты выдачи Baidu выдаются совсем другим способом, чем Google и Яндекс в настоящее время.
Baidu извлекает ряд расширенных фрагментов из других своих продуктов, таких как Baike, Zhidao и Tieba. Это означает, что обычные запросы могут давать только один или два результата на первой странице.
Можете ли вы оптимизировать для ERNIE?
Подобно другим алгоритмам машинного обучения, используемым в поиске, ERNIE является развитием существующих принципов.
Основные алгоритмы Baidu (Money Plant, Pomegranate, Ice Bucket) на протяжении многих лет побуждали веб-мастеров создавать лучшие веб-возможности для пользователей.
Сегодня ERNIE укрепляет эти принципы и вознаграждает веб-сайты, которые вкладывают средства в удобство поиска, а не пытаются играть в него.