https://1prime.ru/20251126/yazyk-864949495.html

Ученые обучили ИИ сложным правилам русского языка

Ученые обучили ИИ сложным правилам русского языка - 26.11.2025, ПРАЙМ

Ученые обучили ИИ сложным правилам русского языка

Исследователи МГУ и "Яндекса" нашли способ обучить искусственный интеллект сложным правилам русского языка, для этого они создали набор данных с примерами... | 26.11.2025, ПРАЙМ

2025-11-26T09:30+0300

2025-11-26T09:31+0300

технологии

яндекс

мгу

русский язык

россия

общество

https://cdnn.1prime.ru/img/07e9/09/0a/862059285_0:156:3001:1844_1920x0_80_0_0_b5ad4cc25bf427e997b265ddcc7effc5.jpg

МОСКВА, 26 ноя - ПРАЙМ. Исследователи МГУ и "Яндекса" нашли способ обучить искусственный интеллект сложным правилам русского языка, для этого они создали набор данных с примерами реальных ошибок, характерных даже для носителей языка - это, например, пунктуация в сложноподчиненных предложениях, слитное и раздельное написание, редкие синтаксические конструкции, рассказали РИА Новости в компании. "Стандартное обучение, когда модели показывают несколько случайных пар "ошибка - исправление", плохо справляется со сложными правилами русского языка. Для системного решения этой проблемы исследователи Института ИИ МГУ и "Яндекса" создали первый открытый датасет LORuGEC с примерами сложных ошибок русского языка... LORuGEC включает примеры реальных ошибок, трудных даже для носителей языка: пунктуация в сложноподчиненных предложениях, слитное и раздельное написание, редкие синтаксические конструкции", - сказали в компании. Созданный датасет охватывает 48 правил русского языка, в том числе те, которые проверяются на Едином государственном экзамене и олимпиадах. Также там есть почти 1000 предложений, каждое из которых связано с конкретной нормой языка. Ученые придумали новый метод, который позволяет исправлять сложные ошибки без сложного переобучения на созданном датасете - он основан на поиске релевантных примеров в датасете. Так, вспомогательным поисковиком выступает еще одна ИИ-модель Gector: она находит в датасете предложения с тем же типом ошибок и подсказывает их большой языковой модели. Например, если пропущена запятая перед "что", то модель получает пример именно с таким же нарушением, а не любую пунктуационную ошибку. "Мы использовали справочную литературу, а также привлекли студентов-лингвистов в качестве экспертов и составили датасет из 1000 примеров, в которых не только исправлены ошибки, но и указаны соответствующие правила русского языка. Следующей задачей было научить модели исправлять эти ошибки без долгого переобучения... Этот проект - пример успешной коллаборации между наукой и технологическими компаниями", - прокомментировал на полях Конгресса молодых ученых старший научный сотрудник Института ИИ МГУ, разработчик в отделе "Поиска Яндекса" Алексей Сорокин. Исследователи протестировали новый метод на собственных моделях "Яндекса", а также на зарубежной Qwen2.5. Точность ответов YandexGPT 5 Pro достигла 83%, YandexGPT 5 Lite - поднялась до 71% с 66%, а Qwen2.5-7B - до 56% с 42%.

ПРАЙМ

4.7

internet-group@rian.ru

7 495 645-6601

ФГУП МИА «Россия сегодня»

https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/

192

2025

ПРАЙМ

4.7

internet-group@rian.ru

7 495 645-6601

ФГУП МИА «Россия сегодня»

https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/

192

Новости

ru-RU

https://1prime.ru/docs/about/copyright.html

ПРАЙМ

4.7

internet-group@rian.ru

7 495 645-6601

ФГУП МИА «Россия сегодня»

https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/

192

1920

1080

true

1920

1440

true

https://cdnn.1prime.ru/img/07e9/09/0a/862059285_166:0:2833:2000_1920x0_80_0_0_fcfecdce6e2dc75ef257b86717c626b9.jpg

1920

true

ПРАЙМ

4.7

internet-group@rian.ru

7 495 645-6601

ФГУП МИА «Россия сегодня»

https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/

192

ПРАЙМ

4.7

internet-group@rian.ru

7 495 645-6601

ФГУП МИА «Россия сегодня»

https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/

192

технологии, яндекс, мгу, русский язык, россия, общество

Технологии, Яндекс, МГУ, русский язык, РОССИЯ, Общество

09:30 26.11.2025 (обновлено: 09:31 26.11.2025)

Ученые обучили ИИ сложным правилам русского языка

Ученые МГУ и "Яндекса" нашли способ обучить ИИ сложным правилам русского языка

Урок русского языка в школе - ПРАЙМ, 1920, 26.11.2025

Урок русского языка в школе. Архивное фото

Перейти в медиабанк

Читать Прайм в

Макс Дзен Telegram

МОСКВА, 26 ноя - ПРАЙМ. Исследователи МГУ и "Яндекса" нашли способ обучить искусственный интеллект сложным правилам русского языка, для этого они создали набор данных с примерами реальных ошибок, характерных даже для носителей языка - это, например, пунктуация в сложноподчиненных предложениях, слитное и раздельное написание, редкие синтаксические конструкции, рассказали РИА Новости в компании.

"Стандартное обучение, когда модели показывают несколько случайных пар "ошибка - исправление", плохо справляется со сложными правилами русского языка. Для системного решения этой проблемы исследователи Института ИИ МГУ и "Яндекса" создали первый открытый датасет LORuGEC с примерами сложных ошибок русского языка... LORuGEC включает примеры реальных ошибок, трудных даже для носителей языка: пунктуация в сложноподчиненных предложениях, слитное и раздельное написание, редкие синтаксические конструкции", - сказали в компании.

Созданный датасет охватывает 48 правил русского языка, в том числе те, которые проверяются на Едином государственном экзамене и олимпиадах. Также там есть почти 1000 предложений, каждое из которых связано с конкретной нормой языка.

Ученые придумали новый метод, который позволяет исправлять сложные ошибки без сложного переобучения на созданном датасете - он основан на поиске релевантных примеров в датасете. Так, вспомогательным поисковиком выступает еще одна ИИ-модель Gector: она находит в датасете предложения с тем же типом ошибок и подсказывает их большой языковой модели. Например, если пропущена запятая перед "что", то модель получает пример именно с таким же нарушением, а не любую пунктуационную ошибку.

"Мы использовали справочную литературу, а также привлекли студентов-лингвистов в качестве экспертов и составили датасет из 1000 примеров, в которых не только исправлены ошибки, но и указаны соответствующие правила русского языка. Следующей задачей было научить модели исправлять эти ошибки без долгого переобучения... Этот проект - пример успешной коллаборации между наукой и технологическими компаниями", - прокомментировал на полях Конгресса молодых ученых старший научный сотрудник Института ИИ МГУ, разработчик в отделе "Поиска Яндекса" Алексей Сорокин.

Исследователи протестировали новый метод на собственных моделях "Яндекса", а также на зарубежной Qwen2.5. Точность ответов YandexGPT 5 Pro достигла 83%, YandexGPT 5 Lite - поднялась до 71% с 66%, а Qwen2.5-7B - до 56% с 42%.

Технологии Яндекс МГУ русский язык РОССИЯ Общество