Алгоритм для поиска негатива в интернете создали на кафедре математического моделирования механико-математического факультета НГУ. Работу провели вместе с коллегами из Казахстана, сообщил ТАСС профессор Владимир Барахнин.
Слова казахского языка проанализировали на основе особенностей его морфологии. Базой для исследования стали новости в республиканском сегменте интернета, в том числе на русском языке.
«Алгоритм позволяет понять по слову, либо какова его начальная форма, либо, наоборот, по начальной форме сгенерировать другие формы слова. Это важно для смыслового анализа больших массивов текста, для интернет-поиска», — пояснил учёный.
В выборку включили больше 2 млн текстов российских СМИ для сравнения публикационной активности стран. Для нейросети выставили критерии: отсутствие проверяемых фактов, политизация, призыв к действию, негативная тональность, манипулятивность.
«Для английского языка анализ слов достаточно прост, потому что в нём нет изменений по падежам. (...) Казахский язык в этом смысле ближе к русскому, поскольку в нём также есть изменяющиеся окончания, категории падежа, числа и так далее, но в отличие от русского там за каждую грамматическую категорию отвечает отдельное окончание», — объяснил исследователь.
Сейчас учёные НГУ вместе с сотрудниками Казахского национального технического университета имени К. И. Сатпаева разрабатывают онтологию обработки на трёх языках.
В октябре в НГУ запустили первую очередь суперкомпьютера «Лаврентьев», предназначенного для работы с большими языковыми моделями и генеративным искусственным интеллектом.