Ученые Казанского федерального университета изучают влияние размытости изображения на распознавание высококонтрастных объектов на нем. Их исследование было проведено на средства, выделенные вузу для выполнения государственного задания в сфере научной деятельности в рамках проекта № FZSM – 2023 – 0017 «Экономика импортозамещения региона в условиях трансформации логистических цепочек и деглобализации».
Итоги работы были представлены на III Международной конференции по оптике, компьютерным приложениям и материаловедению (CMSD-III 2023) в г. Душанбе (Таджикистан) в онлайн-формате.
Авторы исследования – заместитель директора по научной деятельности Института вычислительной математики и информационных технологий, заведующий кафедрой прикладной математики и искусственного интеллекта Дмитрий Тумаков, заведующий кафедрой территориальной экономики Института управления, экономики и финансов Леонид Ельшин, студентка 4 курса ИВМиИТ, стипендиатка Правительства РФ Дина Тулябаева.
Вопрос распознавания объектов на изображении, по мнению исследователей, интересен с точки зрения частотных искажений, возникающих из-за движения объекта или камеры, недостаточной четкости фокусировки, наличия «шума» или других помех. В работе рассмотрено влияние наиболее распространенного искажения – размытия по Гауссу, на распознавание высококонтрастных объектов (например, изображения букв и цифр) с помощью сверточных нейронных сетей.
Процесс размытия изображения заключается в следующем: есть матрица свертки 3×3, которая «скользит» по исходному изображению в 2D, выполняя поэлементное умножение той части данных, которую она охватывает в данный момент. Результаты суммируются в один выходной пиксель, соответствующий центру матрицы свертки, и так для каждой части изображения. Таким образом, двумерная матрица исходного изображения преобразуется в двумерную матрицу размытого изображения, сообщают ученые КФУ.
Они пришли к выводу, что на качество распознавания высококонтрастных объектов напрямую влияет степень размытости изображения – увеличение размытости не так сильно ухудшает точность, как ее уменьшение.
«Если нейросеть обучена на размытых изображениях, то для нее такие изображения являются естественными, и она распознает их лучше, чем неразмытые изображения. Степень размытия может быть разной, как совсем небольшой, так и очень сильной. Рассмотрим случай, когда мы распознаем на среднеразмытых изображениях, тогда как увеличение, так же как и уменьшение размытия изображений приводит к снижению точности распознавания. Можно сделать вывод, что у нейронной сети, как и у человека, происходит адаптация к размытому изображению, и уже именно такое изображение считается "правильным". Любое отклонение от него в менее размытое или в более размытое изображение воспринимается нейронной сетью как ухудшение картинки. Однако уменьшение размытия приводит к худшей точности, чем увеличение размытия», – пояснил Д. Тумаков.
Результаты исследования могут найти свое применение в различных сферах. Полученные знания полезны для оптики – при распознавании символов, которые используются в почтовых сортировочных центрах, банковских системах, приложениях распознавания текста. Через систему видеонаблюдения лица, номерные знаки и другие важные детали будут идентифицироваться быстрее и качественнее, что поспособствует повышению безопасности в городской среде и общественных местах, на промышленных предприятиях.
В медицине распознавание «смазанных» образов может играть критическую роль, подчеркнул Тумаков.
«Например, при анализе медицинских изображений – снимков с рентгеновскими лучами или снимков мозга, результаты исследования могут улучшить точность диагностики и обнаружения патологий. Помимо этого, знания применимы в области дорожной безопасности – при разработке систем распознавания дорожных знаков, пешеходов, других транспортных средств и препятствий на дороге, а также для систем автопилотирования», – говорит заведующий кафедрой прикладной математики и искусственного интеллекта КФУ.
Уникальность научной работы состоит в том, что ранее рассматривалось лишь увеличение размытия. Исследователи КФУ учитывают и влияние его уменьшения, что позволяет получить более полное представление об эффекте, отмечает математик.
Интересно и то, что анализируется влияние начальных весов на точность распознавания. По словам Дмитрия Тумакова, это может быть важным фактором при обучении нейронных сетей, поскольку начальные значения могут оказывать значительное влияние на конечные результаты обучения.