В реализации междисциплинарного проекта «Дистрибутивно-квантитативный анализ семантических изменений на основе больших диахронических корпусов», поддержанного грантом Российского научного фонда, будут участвовать сотрудники трех подразделений Казанского федерального университета - Института филологии и межкультурной коммуникации, Высшей школы информационных технологий и интеллектуальных систем, Института физики, а также лингвист из Ижевского государственного технического университета и лингвист из Университета Осло.
Впервые ученые объективными методами опишут, как в период с ХVI века и до настоящего времени менялись значения сотен тысяч слов русского и английского языков. На основе созданных ими математических моделей изменения значений слов будет разработана общая теория эволюции лексикона языка.
«Смысл слов со временем меняется. Такие изменения не всегда бросаются в глаза, – рассказывает доктор физико-математических наук, главный научный сотрудник Института филологии и межкультурной коммуникации КФУ, профессор Высшей школы информационных технологий и интеллектуальных систем КФУ Валерий Соловьев. - Простой пример. Сто лет назад слово "спутник" имело значение «попутчик». В середине XX века это слово стало употребляться в контексте «искусственный спутник Земли», а еще через некоторое время - в значении «спутник связи». Сто лет назад это словосочетание выглядело бы просто абсурдным».
Еще совсем недавно, по словам Валерия Дмитриевича, лингвисты описывали значения слов и то, как эти значения меняются, полагаясь на собственную интуицию и ограниченное число примеров употребления слов, которые смогли найти.
«Сейчас в распоряжении исследователей гигантские коллекции текстов. Например, созданная Google коллекция Google Books содержит тексты общим объемом более 67 миллиардов слов только на русском языке, а на английском - более 500 миллиардов. Для каждого интересующего нас слова можно почти мгновенно найти все его употребления – тысячи и миллионы примеров. Эта возможность и будет использована в нашем исследовании. Впервые нами будет выявлена и описана объективными методами эволюция большого числа слов русского языка. Исследование касается как отдельных слов, так и всего лексикона языка в целом. Многие интересные вопросы до сих остаются неисследованными. С течением времени смысл слов меняется быстрее или медленнее? Синонимы сближаются или расходятся по смыслу? В рамках проекта мы рассчитываем получить ответы на эти и многие другие вопросы, построить общую теорию эволюции лексикона языка, приближающуюся по уровню строгости к естественнонаучным теориям», - сообщил ученый, который имеет большой опыт работы в области математической и компьютерной лингвистики.
Руководитель проекта, доктор филологических наук, профессор Института филологии и межкультурной коммуникации КФУ Олег Жолобов подчеркнул, что изменения в значениях слов являются весьма трудоемкой областью исследований, менее изученной, чем фонетические и грамматические изменения.
«Новые возможности изучения семантических изменений появились в последние годы благодаря созданию больших и сверхбольших диахронических корпусов, охватывающих тексты на временных интервалах 100 и более лет, а также все возрастающим объемам текстов в социальных сетях. Применение компьютерных методов (в том числе методов искусственного интеллекта) позволяет не только выявлять изменения значений конкретных слов, но и количественно исследовать динамику семантических изменений и открывать их новые закономерности», - сказал он.
Как отметил Олег Феофанович, в последнее время процессы лексических изменений ускорились благодаря интенсивному общению в соцсетях. Новые значения слов, которые выявят исследователи, могут пополнить лексикографические ресурсы, такие как тезаурусы WordNet, RuWordNet и словари нового поколения, использоваться в разнообразных NLP-приложениях, повышая качество поиска, понимания вопросов в системах рекомендаций.
«Исследования мы будем проводить главным образом по материалам русского и английского языков на базе основных доступных больших диахронических корпусов: Google Books Ngram, Национального корпуса русского языка, корпуса древнейших и средневековых славянских и русских текстов "Манускрипт", Казанской электронной коллекции памятников письменности XII–XIV вв., Генерального интернет-корпуса русского языка, включающего данные "ВКонтакте" и других соцсетей, Корпуса исторического американского языка», - сообщил в заключение ученый.