Магистрантка 2 года обучения Института информационных технологий и интеллектуальных систем Казанского федерального университета Ксения Васильева занимается исследованием в области проектирования и разработки инструментария для реализации голосового управления в VR-приложениях аэрокосмического назначения. Система уже прошла испытания и показала отличные результаты.
Виртуальная реальность (VR) активно используется в аэрокосмической отрасли для обучения персонала, моделирования операций с системами и проведения виртуальных испытаний. Чтобы эти решения работали эффективно, требуется совершенствование средств человеко-машинного взаимодействия. Внедрение голосового управления, по словам магистранта, ИТИС повышает уровень иммерсивности и становится универсальным инструментом в сценариях, где применение традиционных контроллеров недоступно.
«В современных VR-проектах применяются системы автоматического распознавания речи (ASR) в качестве основного инструмента управления. Но такие реализации нацелены на решение конкретных прикладных задач и используют специализированные архитектуры взаимодействия с автоматическим распознаванием речи, что не позволяет рассматривать их как универсальные решения и затрудняет адаптацию подобных модулей для иных сценариев и предметных областей», – объясняет Ксения Васильева.
Иными словами, чтобы разработчики VR-тренажеров и VR-симуляторов могли создавать голосовые модули без написания шаблонного кода, необходимо реализовать специальный инструментарий для создания и интеграции голосовых интерфейсов с поддержкой параметризованных команд. У существующих плагинов, по мнению Васильевой, есть ряд ограничений: отсутствие интерфейса для декларативного сопоставления команд с логикой приложения, нет возможности отладки в редакторе Unity и обработки семантически схожих фраз, есть зависимость от конкретной ASR и доступности сети.
«Недостатки этих решений позволили сформулировать требования к разрабатываемому плагину: возможность конфигурации ASR и голосовых команд в редакторе Unity, поддержка переключения между облачным и локальным сервисами ASR, наличие функционала для генерации формулировок команд, поддержка русского языка, простота интеграции в другие модули приложения», – ввела в курс дела она.
Был создан комплекс визуальных редакторов в среде Unity для конфигурации голосовых команд и соответствующих им методов. Разработан сервис генерации набора семантически схожих голосовых команд. Параметризованные методы игровой логики вызываются при обнаружении системой ASR команды, соответствующей одному из заданных вариантов. Для обеспечения сопоставления голосовых команд с полученным в результате ASR текстом создан специальный модуль поиска, использующий библиотеку FuzzySharp для нечеткого сравнения строк. Это позволяет системе корректно интерпретировать команды при разном порядке слов в фразе и ошибках распознавания. Также имеется возможность автоматического переключения с облачного сервиса ASR на локальный при потере сетевого подключения.
Созданный прототип голосового управления виртуальной приборной панелью в Unity успешно прошел испытания и показал корректное распознавание команд и их сопоставление с методами приложения, включая обработку частичных совпадений. Сейчас магистрантка планирует продолжать улучшение алгоритмов обработки естественного языка и расширение набора поддерживаемых типов параметров для VR-приложений аэрокосмической направленности.
При частичной или полной перепечатке материала, а также цитировании необходимо ссылаться на пресс-службу КФУ.
Присоединяйтесь к каналу КФУ в MAX.
35