22 августа в помещении московского планетария был торжественно запущен новый алгоритм поиска Яндекса «Королёв». Изменения пользователи сразу же увидели на сайте. Об особенностях нового алгоритма и машинного обучения руководители Яндекс.Поиска рассказали корреспонденту «Новосибирских новостей» сразу после презентации.
От слов к смыслу
Для обучения новой версии поиска использовалась не только статистика, но и оценки миллионов людей. Таким образом, вклад в развитие поиска вносят обычные пользователи, отправляющие в Яндекс самые разные запросы.
Первый шаг к поиску по смыслу, а не просто по словам, Яндекс сделал в прошлом году, когда внедрил алгоритм «Палех». Он в реальном времени сопоставляет смысл запроса и заголовка веб-страницы. В основе «Палеха», а теперь и «Королёва», лежит нейронная сеть.
«Запуская „Палех“, мы научили нейронную сеть преобразовывать поисковые запросы и заголовки веб-страниц в группы чисел — „семантические векторы“. Важное свойство таких векторов состоит в том, что их можно сравнивать друг с другом. И чем сильнее будет сходство, тем ближе друг к другу по смыслу находятся поисковый запрос и заголовок веб-страницы», — говорит руководитель службы релевантности Яндекс.Поиска Александр Сафронов.
От асессоров к толокерам
Новый поисковый алгоритм «Королёв» сопоставляет смысл запроса пользователя и всю веб-страницу, а не только её заголовок, как было в «Палехе». Это сложная вычислительная задача, поэтому Яндекс определяет суть страницы заранее, на этапе её индексирования. В «Королёве» количество страниц, которые поиск сравнивает со смыслом запроса, выросло со 150 документов до 200 тысяч. То есть в тысячу с лишним раз больше, чем в «Палехе».
Другая особенность «Королёва» в том, что помимо сопоставления смысла запроса и страницы, он учитывает ещё и смысл других запросов, по которым люди на неё переходят. Чтобы нейросеть могла оценить смысловую близость запроса и документа, ей нужно огромное количество примеров. Такие примеры даёт поисковая статистика — на какие сайты люди переходят по запросам и сколько времени там проводят. Если человек открыл веб-страницу и «завис» там надолго, вероятно, он нашёл то, что искал. Значит, страница хорошо отвечает на его запрос — для машины это положительный пример.
«Для машинного обучения поисковой системы нужны также оценки качества ответов. И чем сложнее система, тем больше оценок требуется. Раньше Яндекс оценивал качество поиска с помощью своих специалистов — асессоров. Теперь учитываются также оценки, которые выставляют пользователи Яндекс.Толоки. Это краудсорсинговая платформа, где любой желающий может выполнять задания и получать за них вознаграждение. Сейчас в Яндекс.Толоке зарегистрировано более миллиона пользователей, которые выставили уже более двух миллиардов оценок», — говорит руководитель отдела обработки данных Яндекс.Поиска Ольга Мегорская.
Длиннохвостые запросы
Нагляднее всего особенности нового алгоритма поиска демонстрируют примеры обработки сложных запросов.
Или другой пример с множеством вариантов ответа: «Американка Космонавт Певица». Автор этого запроса мог иметь ввиду: концерт певицы Сюзанны Вега в клубе «Космонавт»; подготовку британской певицы Сары Брайтман к полёту в космос; суд космонавта с певицей Dido из-за использования его фотографии на обложке альбома.
«Главной метрикой качества поиска является вероятность нахождения ответа на странице результатов выдачи по конкретному запросу. И эта метрика постоянно растёт. С запуском „Королёва“ в продакшн пользователи будут быстрее находить ответы на сложные запросы. На этих примерах проще всего заметить нововведения, потому что именно здесь важно понимать смысл запроса и сопоставлять его со смыслом документа. Сложных запросов у нас много — более трети от всего объёма. Обычно пользователи ищут такую информацию только один раз, так как не знают, что именно они ищут, и вбивают в строку поиска длинное описание объекта. Такие запросы мы называем длиннохвостыми», — говорит руководитель Яндекс.Поиска Андрей Стыскин.
На презентации нового поиска руководители Яндекса рассказали и показали, что происходит «по ту сторону экрана», а также позвонили на МКС по видеосвязи. «Новосибирские новости» публикуют запись онлайн-трансляции презентации «Королёва» в московском планетарии.