Ученые Института информационных технологий и интеллектуальных систем и Химического института им. А.М.Бутлерова Казанского федерального университета совместно с исследователями из США и Франции стали организаторами Симпозиума по интеллектуальному анализу текстов из социальных сетей для целей здравоохранения (Social Media Mining for Health Applications (#SMM4H) Shared Task 2020), проходившего в онлайн-формате.
Ежегодное мероприятие объединяет ученых из разных стран и призвано облегчить и ускорить разработку автоматических методов сбора и анализа данных социальных сетей на тему здоровья.
Клинические испытания какого-либо лекарственного препарата не позволяют обнаружить все его побочные эффекты, поскольку зачастую те появляются после длительного приема лекарства или оказывают эффект только на определенную группу пациентов, не участвовавшую в клинических испытаниях. Интеллектуальный анализ отзывов пользователей о лечении позволит найти решение этой проблемы, считают организаторы симпозиума.
В рамках мероприятия ежегодно проходят международные соревнования, цель которых – создать эффективные методы и программные средства, с помощью которых можно было бы выявлять и анализировать сообщения в социальной сети «Твиттер» о побочных эффектах, возникающих в результате приема каких-либо лекарственных препаратов.
«Для трека SMM4H было отобрано 9,5 тысяч корпусов пользовательских текстов медицинской направленности на русском языке, содержащихся в «Твиттере». По условиям конкурса, мы должны были подготовить выборку твитов, в ней есть упоминание о 70 лекарственных средствах - антидепрессантах, противовирусных, бронхорасширяющих и противодиарейных препаратах. То же самое делали наши коллеги из США (Пенсильванский университет) и из Франции (Университет Орлеана), но их задача была подготовить корпуса текстов на английском и французском языках. Участники соревнований должны были, используя этот материал, создать математические модели анализа информации о неблагоприятных лекарственных эффектах препаратов», - рассказала старший научный сотрудник НИЛ Хемоинформатика и молекулярное моделирование Химического института им. А.М.Бутлерова КФУ Елена Тутубалина.
В соревнованиях 2020 года приняли участие команды из семи стран: России (команды Высшей школы экономики и лаборатории Сбербанка по искусственному интеллекту), Финляндии, США, Хорватии и Великобритании. Коллекция русскоязычных твитов для участников соревнований была создана в рамках проекта «Математические модели и инструментарий для анализа социально значимой информации в русскоязычном сегменте Интернета», поддержанного РНФ, которым руководит Е.Тутубалина.
«Работа над проектом завершается в 2020 году, - говорит Елена Викторовна. - Учеными трех институтов КФУ (Химического института, Института филологии и межкультурной коммуникации и Института информационных технологий и интеллектуальных систем) совместно с исследователями из Санкт-Петербургского отделения Математического института имени В А.Стеклова РАН за три года была собрана база данных, включающая 1,5 миллиона отзывов пользователей о лекарственных средствах, биологически активных добавках и лечении в медицинских учреждениях. Для их анализа были построены математические модели на основе нейронных сетей».
Организаторы трека SMM4H, по словам Елены, в ближайшее время планируют изучить твиты о лекарствах, применяемых при лечении коронавирусной инфекции. Возможно, именно эта тема будет предложена участникам соревнований SMM4H в 2021 году, регистрация на которые уже открыта.