Первая в России база данных «Учебный корпус русского языка», созданная сотрудниками научно-исследовательской лаборатории «Интеллектуальные технологии управления текстами» Казанского федерального университета, получила свидетельство о государственной регистрации.
Она включает более 150 учебников, входящих в перечень ФГОС РФ по 10 предметам, а также контрольно-измерительные материалы, используемые при тестировании носителей русского языка (ОГЭ, ЕГЭ) и изучающих русский язык как иностранный. Объем корпуса – более 6 миллионов слов.
Информационно-справочная система, которая будет постоянно пополняться, поможет ученым исследовать проблемы сложности текста и соответствия его когнитивным лингвистическим способностям читателя.
«Мы пытаемся определить, насколько текст того или иного учебника соответствует когнитивным способностям школьника, понимают ли они его и могут ли воспроизвести, – рассказывает профессор кафедры теории и практики преподавания иностранных языков Института филологии и межкультурной коммуникации КФУ Марина Солнышкина. – Для этого мы проводим два блока исследований. Научные изыскания первого блока нацелены на то, чтобы определить, какой объем текста школьник может воспроизвести, а исследования второго блока – на то, чтобы выяснить, соответствует ли текст образовательным стандартам. В лингвистике разработан спектр параметров, при помощи которых оценивается сложность текста. В числе этих параметров, например, такие: длина предложения, длина слова, количество абстрактных слов, лексическое многообразие. Для того чтобы установить "золотые стандарты" соответствия учебных текстов, мы и создали "Учебный корпус русского языка"».
По словам лингвиста, кроме текстов на русском языке, в корпус входят тексты учебников английского языка, которые используются в России. Кроме того, с 2021 года в базу данных стали включаться учебные тексты по дисциплинам, преподаваемым в высших учебных заведениях.
«В перспективе корпус будет включать тексты художественных произведений, которые читаются школьниками определенного возраста, а также расширится спектр дисциплин, входящих в учебный корпус, – говорит Марина Ивановна. – В будущем мы планируем создать цифровую платформу, на которой будут представлены данные по всем учебникам. Допустим, учитель выбирает линейку из федерального перечня учебников для определенной целевой аудитории. Посетив нашу платформу, он сможет ознакомиться с метаданными описания учебников (с указанием их сложности, читабельности). В зависимости от целевой аудитории, педагог сможет выбрать наиболее подходящий вариант».
Марина Солнышкина особо отметила, что ученым будет предоставлен полный доступ ко всем текстовым файлам, размещенным на цифровой платформе, а остальные смогут пользоваться метаданными – для них сайт будет работать в режиме каталога.