Городская волна
Настрой город для себя

Милый город

Город Локтя

Город в лицах

Городская история

Сделано в Новосибирске

Полезный город

Городской треш

Сбросить
Новосибирские
новости
Настрой город для себя

Милый город

Город Локтя

Город в лицах

Городская история

Сделано в Новосибирске

Полезный город

Городской треш

Сбросить
Городская волна
Все материалы
Подписывайтесь:

Новый поиск Яндекса: да помогут нам асессоры и толокеры

22 августа в помещении московского планетария был торжественно запущен новый алгоритм поиска Яндекса «Королёв». Изменения пользователи сразу же увидели на сайте. Об особенностях нового алгоритма и машинного обучения руководители Яндекс.Поиска рассказали корреспонденту «Новосибирских новостей» сразу после презентации.

Новосибирские новости
Новосибирские новости
14:27, 24 августа 2017

От слов к смыслу

Для обучения новой версии поиска использовалась не только статистика, но и оценки миллионов людей. Таким образом, вклад в развитие поиска вносят обычные пользователи, отправляющие в Яндекс самые разные запросы.

Первый шаг к поиску по смыслу, а не просто по словам, Яндекс сделал в прошлом году, когда внедрил алгоритм «Палех». Он в реальном времени сопоставляет смысл запроса и заголовка веб-страницы. В основе «Палеха», а теперь и «Королёва», лежит нейронная сеть.

В последнее время нейросети показывают хорошие результаты в задачах, с которыми раньше люди справлялись лучше машин: например, распознавание речи (голосовой поиск) или изображений (поиск по картинкам). 

Александр Сафронов.jpg
Александр Сафронов. Фото: пресс-служба Яндекса

«Запуская „Палех“, мы научили нейронную сеть преобразовывать поисковые запросы и заголовки веб-страниц в группы чисел — „семантические векторы“. Важное свойство таких векторов состоит в том, что их можно сравнивать друг с другом. И чем сильнее будет сходство, тем ближе друг к другу по смыслу находятся поисковый запрос и заголовок веб-страницы», — говорит руководитель службы релевантности Яндекс.Поиска Александр Сафронов.

 

От асессоров к толокерам

Новый поисковый алгоритм «Королёв» сопоставляет смысл запроса пользователя и всю веб-страницу, а не только её заголовок, как было в «Палехе». Это сложная вычислительная задача, поэтому Яндекс определяет суть страницы заранее, на этапе её индексирования. В «Королёве» количество страниц, которые поиск сравнивает со смыслом запроса, выросло со 150 документов до 200 тысяч. То есть в тысячу с лишним раз больше, чем в «Палехе».

Другая особенность «Королёва» в том, что помимо сопоставления смысла запроса и страницы, он учитывает ещё и смысл других запросов, по которым люди на неё переходят. Чтобы нейросеть могла оценить смысловую близость запроса и документа, ей нужно огромное количество примеров. Такие примеры даёт поисковая статистика — на какие сайты люди переходят по запросам и сколько времени там проводят. Если человек открыл веб-страницу и «завис» там надолго, вероятно, он нашёл то, что искал. Значит, страница хорошо отвечает на его запрос — для машины это положительный пример.

Используя поисковую статистику миллионов людей, Яндекс учится понимать смысловые связи запросов и веб-страниц.

Ольга Мегорская.jpg
Ольга Мегорская. Фото: пресс-служба Яндекса 

«Для машинного обучения поисковой системы нужны также оценки качества ответов. И чем сложнее система, тем больше оценок требуется. Раньше Яндекс оценивал качество поиска с помощью своих специалистов — асессоров. Теперь учитываются также оценки, которые выставляют пользователи Яндекс.Толоки. Это краудсорсинговая платформа, где любой желающий может выполнять задания и получать за них вознаграждение. Сейчас в Яндекс.Толоке зарегистрировано более миллиона пользователей, которые выставили уже более двух миллиардов оценок», — говорит руководитель отдела обработки данных Яндекс.Поиска Ольга Мегорская.

 

Длиннохвостые запросы

Нагляднее всего особенности нового алгоритма поиска демонстрируют примеры обработки сложных запросов.

Например, поисковая машина должна угадать название фильма по описанию сюжета: «кино про космос, где отец общался с дочерью через секундные стрелки». 

Или другой пример с множеством вариантов ответа: «Американка Космонавт Певица». Автор этого запроса мог иметь ввиду: концерт певицы Сюзанны Вега в клубе «Космонавт»; подготовку британской певицы Сары Брайтман к полёту в космос; суд космонавта с певицей Dido из-за использования его фотографии на обложке альбома.

Андрей Стыскин.jpg
Андрей Стыскин. Фото: пресс-служба Яндекса 

«Главной метрикой качества поиска является вероятность нахождения ответа на странице результатов выдачи по конкретному запросу. И эта метрика постоянно растёт. С запуском „Королёва“ в продакшн пользователи будут быстрее находить ответы на сложные запросы. На этих примерах проще всего заметить нововведения, потому что именно здесь важно понимать смысл запроса и сопоставлять его со смыслом документа. Сложных запросов у нас много — более трети от всего объёма. Обычно пользователи ищут такую информацию только один раз, так как не знают, что именно они ищут, и вбивают в строку поиска длинное описание объекта. Такие запросы мы называем длиннохвостыми», — говорит руководитель Яндекс.Поиска Андрей Стыскин.

На презентации нового поиска руководители Яндекса рассказали и показали, что происходит «по ту сторону экрана», а также позвонили на МКС по видеосвязи. «Новосибирские новости» публикуют запись онлайн-трансляции презентации «Королёва» в московском планетарии.

Видео: Яндекс
https://youtu.be/nJn3IF8Mgnw

Что происходит

38 яблонь высадят в Новосибирске за счёт продажи пакетов в магазинах

1600 лунок для «Сада памяти» подготовили на бульваре Победы

Задайте вопрос и. о. мэра: прямой эфир с Олегом Клемешовым на Горволне

«Квартал Победы» развернут во всех районах Новосибирска

Возле Новомарусино и Дивногорского построят новый большой микрорайон

Генеральная уборка в Новосибирске: навести чистоту за месяц

Доцента НГУ арестовали за получение взятки от студента

Один из подрядчиков Октябрьского моста полностью закончил демонтаж

Историческая мечеть «Ихлас» в Новосибирске: фоторепортаж

Сибирь вошла в тройку главных мишеней для хакерских атак

Киберучения в НГТУ: кто быстрее разгадает хакерские ребусы

Показать ещё