В НИУ ВШЭ создали инструмент для оценки сложности текстов на малоресурсных языках
,_interior_77.jpg)
Исследователи Центра языка и мозга НИУ ВШЭ разработали инструмент, позволяющий определить сложность текстов на малоресурсных языках. В первой версии поддерживаются несколько малых языков России: адыгейский, башкирский, бурятский, татарский, осетинский и удмуртский. Это первая подобная разработка, адаптированная специально для этих языков и учитывающая их морфологические и лексические особенности.
По данным Института языкознания РАН, в России насчитывается 155 языков. Среди них есть малочисленные: например, на адыгейском говорят около 80 тысяч человек, на бурятском, осетинском и удмуртском — от 250 до 350 тысяч человек. Есть и языки с более чем миллионом носителей, например башкирский и татарский. Все эти языки имеют статус государственных в республиках России, поэтому важно не только сохранить их, но и создавать условия для их развития, а также возможности для обучения и реального использования, в том числе в образовании и науке.
В 2025 году был принят Указ Президента РФ «Об утверждении Основ государственной языковой политики Российской Федерации». Он поддерживает языковое многообразие и задает курс на развитие и практическое использование языков народов России. Один из способов достичь этих целей — создать цифровые инструменты, которые сделают работу с малоресурсными языками проще и доступнее.
Команда ученых из Центра языка и мозга НИУ ВШЭ разработала онлайн-инструмент — калькулятор сложности текстов, который помогает быстро и легко оценить сложность текста на нескольких малых языках с учетом их лингвистических особенностей. Калькулятор создавался с опорой на опыт Антонины Лапошиной и Марии Лебедевой, разработавших инструмент для оценки сложности русскоязычных текстов («Текстометр»).
Калькулятор, созданный психолингвистами НИУ ВШЭ, оценивает тексты по нескольким параметрам: во-первых, длина и частотность слов — они анализируются на основе данных из больших языковых корпусов, во-вторых, процент лексики из частотного списка, то есть учитывается доля слов, входящих в список 5000 наиболее употребляемых слов каждого языка, и, в-третьих, соотношение частей речи — анализируется распределение различных частей речи в тексте. Кроме того, калькулятор учитывает такие характеристики, как лексическая плотность, лексическое разнообразие, динамичность и описательность текста.
Ключевая инновация — использование формулы удобочитаемости Флеша, адаптированной для каждого языка отдельно. Это позволяет точнее оценивать сложность и удобство восприятия текста.
Индекс Флеша основан на количестве слов, предложений и слогов, но исходные коэффициенты были подобраны для английского языка и плохо работают для языков с иной структурой — например, для полисинтетического адыгейского, где средняя длина слова значительно больше. В исследовании 2025 года Ульяны Петруниной и Нины Здоровой коэффициенты в формуле были пересчитаны для адыгейского языка отдельно, что значительно повысило точность оценки.
Ульяна Петрунина
«Параметры нашего калькулятора адаптированы под структурные особенности каждого из шести малоресурсных языков России — на основе корпусов текстов, частотного и морфологического анализа. Аналогичным образом мы скорректировали и классический индекс удобочитаемости Флеша. Благодаря этому алгоритм можно легко перенастраивать на другие малоресурсные языки, независимо от их типологических характеристик», — поясняет один из разработчиков инструмента, научный сотрудник Центра языка и мозга НИУ ВШЭ Ульяна Петрунина.
Инструмент поможет создавать сопоставимые стимульные материалы в научных экспериментах и обеспечит преподавателей ресурсом для подбора качественного учебного материала по уровням сложности. Такая разработка — важный вклад в сохранение и развитие малых языков России, поддержку языкового многообразия страны.
Нина Здорова
«Наш инструмент позволяет исследователям и педагогам подбирать материалы с учетом их лингвистической сложности, что особенно важно для исследований и преподавания с ограниченным количеством ресурсов на данных языках», — отмечает Нина Здорова, один из авторов инструмента.
В следующих версиях планируется добавление других малоресурсных и мало представленных в лингвистике языков — не только на территории России.
Здорова Нина Станиславовна
Вам также может быть интересно:
ВШЭ и БГУ запускают совместную ИТ-программу при поддержке Правительства Бурятии
Высшая школа экономики подписала соглашения о сотрудничестве в сфере подготовки кадров в области искусственного интеллекта и информационных технологий с Правительством республики Бурятия и Бурятским государственным университетом имени Доржи Банзарова. Оба документа закладывают основу для реализации совместной образовательной программы по направлению «Прикладная математика и информатика», а также для системного развития сквозных цифровых компетенций студентов и преподавателей вузов республики (программирование, анализ данных, методы искусственного интеллекта).
Вышка провела экзамены, квизы и отборы для школьников в Ташкенте и Бишкеке
Более 3 тысяч иностранных школьников приняли участие в Международной олимпиаде молодежи НИУ ВШЭ, церемонии награждения которой прошли в Ташкенте и Бишкеке в марте. Выездные мероприятия университета также включали выпускные экзамены, презентации образовательных программ и очные отборочные испытания для поступающих. В Узбекистане и Кыргызстане дипломы победителей и призеров получили почти 200 участников. Лучшие из них смогут претендовать на обучение в НИУ ВШЭ на бюджетной основе.
«Планируем работать в русле Программы развития университета»
25 марта на заседании Ученого совета НИУ ВШЭ был рассмотрен отчет о реализации программы развития университета в 2025 году, представлена стратегия Высшей школы бизнеса НИУ ВШЭ на 2026-2030 годы, обсуждены возможности участия пермского кампуса в создании регионального кластера креативных индустрий.
Как исследовать ландшафты в эпоху больших данных
Международная лаборатория ландшафтной экологии НИУ ВШЭ изучает явления, определяющие функционирование окружающей среды. Эти исследования важны для прогнозирования динамики окружающей среды в разных регионах России, реализации природно-климатических проектов, охраны редких видов животных и растений, развития лесного и сельского хозяйства. О работе лаборатории «Вышке.Главное» рассказали ее руководитель Роберт Сандлерский и декан факультета географии и геоинформационных технологий НИУ ВШЭ Николай Куричев.
От спинов и двумерных материалов до цунами и торнадо: что изучают физики Вышки
Международная лаборатория физики конденсированного состояния изучает сложнейшие процессы взаимодействия молекул и атомов твердых и жидких веществ, квантовую механику этих процессов и тончайшие двумерные материалы. Физики Вышки совместно с коллегами из ведущих академических институтов исследуют свойства сверхпроводников и топологических материалов, явления при сверхнизких температурах, проблемы турбулентности и гидродинамики.
Как правильно монетизировать научные разработки
Грамотная коммерциализация научных исследований, предполагающая их трансформацию в реальные разработки и новые продукты и получение дохода от интеллектуальной собственности, способствует трансферу передовых технологий в экономику и государственное управление, стимулирует творческую энергию ученых и укрепляет материальную базу научных лабораторий и университетов. Коммерциализация не ограничивается инженерными и ИТ-направлениями, она может быть результативной для исследований в разных науках, в том числе социальных и гуманитарных. Важно, чтобы университет сохранил роль одного из лидеров в коммерческом использовании научных результатов.
В Выcшей школе экономики запускается проектный майнор по робототехническим системам
Институт робототехнических систем НИУ ВШЭ совместно со стратегическим партнером — компанией ЭФКО — открывает новый майнор «Проектная мастерская робототехнических систем». Программа рассчитана на студентов всех образовательных направлений НИУ ВШЭ в Москве и предлагает уникальный практико-ориентированный подход к изучению направления робототехники и киберфизических систем путем последовательного создания аппаратно-программных продуктов.
В Дели прошла Международная школа БРИКС
Молодежь становится ключевым участником глобального диалога. Это подтвердили итоги «Международной школы БРИКС: Новое поколение», которая прошла в Дели. Мероприятие объединило 200 молодых лидеров из ведущих университетов и экспертных центров Индии. Программа была организована Экспертным советом БРИКС — Россия, который действует на базе НИУ ВШЭ, совместно с Русским домом в Нью-Дели при поддержке МИД РФ.
Четвертый фестиваль робототехники состоится в НИУ ВШЭ
С 1 по 3 апреля в кампусе НИУ ВШЭ на Покровке пройдет IV Фестиваль робототехники — одно из ключевых событий факультета компьютерных наук Вышки для всех, кто увлечен робототехникой, программированием и инженерным творчеством. Фестиваль объединит соревнования по робототехнике, дискуссии, образовательные форматы и демонстрацию разработок.
Новая разработка ученых ВШЭ поможет быстрее и дешевле спроектировать надежную электронику
Российские ученые из МИЭМ ВШЭ разработали новый подход к моделированию электротепловых процессов в мощных электронных схемах на печатных платах. Они научились быстро и точно рассчитывать, как нагреваются электронные компоненты во время работы, чтобы заранее предотвращать их перегрев и поломку. Результаты работы опубликованы в журнале Russian Microelectronics.


