Компания Mozilla запустила в интернете открытую платформу Common Voice, которая с помощью сообщества заинтересованных пользователей осуществляет сбор базы данных голосовых сэмплов (сэмпл - оцифрованный звуковой фрагмент). База голосовых данных послужит ценным материалом для совершенствования знаний изучающих татарский язык. Подробнее о проекте Единому информационно-издательскому центру Казанского федерального университета рассказали его участники.
По словам старшего научного сотрудника Института языка, литературы и искусства АН РТ, выпускника Казанского университета Мансура Сайхунова, группа авторов Письменного корпуса татарского языка: инженер кафедры образовательных технологий и информационных систем ИФМК имени Льва Толстого, доцент КФУ Тавзих Ибрагимов, инженер GDC Рустем Хусаинов - давно занимается вопросами синтеза и анализа речи.
«В прошлые годы, например, мы участвовали в проекте Республиканской специальной библиотеки для слепых и слабовидящих по созданию открытого и полностью бесплатного синтезатора татарской речи «Талгат». Поэтому, когда мы услышали от выпускника КФУ Ильнара Салимзянова о проекте Common Voice, решили, что это прекрасная возможность в Год добровольца внести свой посильный вклад в это общее дело», - поделился Мансур Сайхунов.
Первоначальная работа, по его словам, заключалась в переводе ресурсов на татарский язык и других подготовительных работах. Сейчас основная деятельность заключается в записи речевого материала.
«Тут ничего сложного нет. Регистрация не обязательна, при желании можно указать свой пол и возраст. Любой человек может зайти на сайт и прочитать вслух отображаемые предложения. Когда проект заработал, число участников начало постепенно увеличиваться. Часть из них позвали мы, агитируя среди знакомых, остальные же узнали о проекте из других источников», - рассказал собеседник.
В работе активное участие принимают сотрудники Института филологии и межкультурной коммуникации им.Льва Толстого КФУ, Института языка, литературы и искусства Академии наук РТ. В целом здесь объединились совершенно разные люди из всех уголков Татарстана, возможно, и России.
«На сегодняшний день свой вклад в проект внесли более 60 человек. Выражаем огромную благодарность за их бескорыстный труд, - сказал Сайхунов. - Мы все волонтеры, энтузиасты, никто нам за это денег не платит. Поэтому получается, что мы поддерживаем друг друга. Ведь приятно осознавать, что ты трудишься не один. За пару месяцев нам удалось собрать около трех часов непрерывной татарской речи, что немало».
Сама программная часть распознавателя речи разрабатывается ведущими учеными из разных стран мира. Собеседник сделал акцент на том, что платформа открытая, весь код и речевые базы системы распространяются под открытыми лицензиями наподобие GNU General Public License и Creative Commons.
«Это дает гарантию, что любой человек и любая организация смогут бесплатно воспользоваться наработками Common Voice. Совместно с Тавзихом Ибрагимовичем мы много лет занимаемся экспериментально-фонетическими исследованиями в области татарского языка. Нам всегда приходилось искать людей и записывать их голос в лаборатории, чтобы можно было производить их изучение в акустическом аспекте, - поделился он. - Теперь эта проблема отпадает, и все мы безвозмездно получаем огромный простор для работы. Не стоит забывать, что именно в Казанском университете В.А.Богородицким была открыта одна из первых в России лабораторий экспериментальной фонетики».
Тавзих Ибрагимов сообщил, что работа над данным проектом ведется на протяжении полугода. По его словам, хорошим результатом деятельности станет 100 часов речевого текста. «Чем больше языкового материала, тем лучше», - резюмировал доцент КФУ.
Свой вклад в Common Voice внесла и доцент кафедры татарского языкознания Высшей школы татаристики и тюркологии им. Габдуллы Тукая Халиса Кузьмина.
«Моя роль в проекте не столь велика, как хотелось бы. Во-первых, я сама лично приняла участие в озвучивании татарской речи и предложила это своим коллегам. Во-вторых как специалист по истории языков я знаю, как важно зафиксировать языковое состояние, - поделилась она. - Я стараюсь рекламировать проект Common voice на просторах интернета, чтобы о нем узнали как можно больше носителей языка, приняли участие в создании озвученной, зафиксированной базы татарской речи. Разработчики этого проекта делают огромную работу по сохранению родных языков, за что им спасибо».
Работа над данным проектом продолжается.