Казанский федеральный университет при поддержке Комиссии при Раисе Республики Татарстан по вопросам сохранения, развития татарского языка и родных языков представителей народов, проживающих в РТ, разработал авторскую программу поиска заимствований в тексте на татарском языке.
Как рассказал директор Института филологии и межкультурной коммуникации КФУ Радиф Замалетдинов, очень актуальной на сегодняшний день является проблема автоматического выявления заимствований в текстах, написанных на языках народов Российской Федерации, в частности на татарском языке.
«Разработка программы поиска заимствований на языках народов России, в том числе на татарском языке, – это непростая задача, поскольку существуют серьезные отличия в структурах, к примеру, русского и татарского языка, отсутствуют систематизированные базы данных научной информации, написанной на языках народов России. Тем не менее эта задача очень важная, так как данная программа, по нашему глубокому убеждению, поможет оценить реальный научный вклад каждого татарского ученого, будет стимулировать самостоятельность в научной деятельности и т.п.», – сообщил Р. Замалетдинов.
По словам ученого, идея создания программы поиска заимствований на татарском языке у него и его коллег возникла несколько лет назад. Решить ее совместно с лингвистами ИФМК взялись представители Института информационных технологий и интеллектуальных систем КФУ, директором которого является Михаил Абрамский.
Сотрудниками НОЦ стратегических исследований в области родных языков и культур ИФМК КФУ проделана огромная работа. Было начато формирование единой татароязычной научной цифровой библиотеки – корпуса текстов для разработки модели татароязычных заимствований. Осуществлено первичное проектирование модели заимствования для татароязычных научных текстов на основе анализа частот слов и поиска омоглифии. Начата разработка модели поиска кросс-языковых заимствований с публикаций на других языках и ее интеграции в систему поиска заимствований. Разработана тестовая версия программы на основе формируемого корпуса текстов, проект запущен в пилотном режиме. В настоящее время идет оптимизация времени работы алгоритмов поиска, работа над повышением их качества и дальнейшим расширением корпуса и т.п.
«Мы сконцентрировались в первую очередь на веб-сервисе. Кроме этого, мы совместными усилиями написали парсеры текстов на татарском языке, поскольку нужно было формировать первичный корпус текстов, а также провели тестирование распространенных алгоритмов поиска заимствований. На втором этапе работа уже была сосредоточена на более серьезных методах NLP, а также на особенностях татарского языка. Важно было определить, какие могут быть заимствования, каким образом можно расширить корпус татарских текстов и многое другое. Фактически этот проект – прекрасный пример синергетического эффекта междисциплинарного взаимодействия специалистов в области татарского языка и разработки программного обеспечения», – рассказал М. Абрамский.
Научная группа КФУ по разработке программы для поиска заимствований на татарском языке – «татарского антиплагиата», сейчас занимается доработкой перспективного и актуального проекта, который позволит не только улучшить качество образовательного процесса в вузах и ссузах на татарском языке, но и проверить любую научную работу, написанную на татарском языке, сравнить ее с трудами других ученых и определить ее оригинальность.
Недавно Казанский федеральный университет получил авторское свидетельство на программу ЭВМ для поиска заимствований в тексте на татарском языке. Она пока работает в тестовом режиме: с помощью нее выборочно проверяются работы студентов и сотрудников вуза.