Russian Corpus of Linguistic Acceptability

Данные и бейзлайн Статья Результаты

Корпус RuCoLA — это набор предложений на русском языке, которые размечены по бинарной шкале лингвистической приемлемости. RuCoLA включает в себя предложения, написанные экспертами в области лингвистики и сгенерированные языковыми моделями.

Ошибки, которые представлены в предложениях, покрывают широкий ряд языковых феноменов: от синтаксиса и семантики до галлюцинаций генеративных моделей. Корпус RuCoLA создан для улучшения методов обнаружения ошибок в естественном языке. Кроме того, мы организуем открытое соревнование, которое позволит следить за прогрессом в развитии этих методов.

О проекте

Предыстория
Современные методы обработки текстов позволяют достичь высоких показателей качества в разных задачах, в том числе тех, которые требуют знаний об окружающем мире или здравого смысла. Это стало возможным благодаря появлению парадигмы обучения больших языковых моделей на неразмеченных данных, в рамках которой появились такие широко используемые модели, как BERT или GPT-3. Эти модели работают лучше людей в ряде задач понимания языка и умеют генерировать тексты, неотличимые от написанных человеком.
Проблемы языковых моделей
Несмотря на эти яркие результаты, современные языковые модели, особенно для русского языка, еще далеки от совершенства. Например, сгенерированные тексты только на первый взгляд похожи на те, которые написаны людьми: они могут содержать искаженные факты и противоречивую информацию. Более того, недавние исследования показывают, что даже большие языковые модели, насчитывающие огромное количество параметров, не улавливают различные лингвистические феномены. Языковые модели обладают ограниченными возможностями и в задачах, которые требуют оценить, корректно ли написан текст с точки зрения языка.
зачем мы создали RuCoLA
Мы представляем русскоязычный корпус для оценки приемлемости предложений (RuCoLA), с помощью которого можно оценивать лингвистическую компетентность языковых моделей. Он основан на общих принципах приемлемости, которая была введена лингвистом Ноамом Хомским. В отличие от грамматической корректности, или грамматичности, которая относится к структуре языка, приемлемость оценивает, насколько предложение является естественным с точки зрения носителя. Таким образом, грамматичное предложение может быть неприемлемым (широко известный пример Л. В. Щербы: «Глокая куздра штеко будланула бокра и курдячит бокрёнка»), однако приемлемое предложение должно быть грамматичным. По аналогии со стандартными диагностическими наборами данных — GLUE, Russian SuperGLUE и RuSentEval — RuCoLA может быть использован и для сравнения способностей нейросетей к пониманию языка, и для улучшения качества генерации текстов.

Команда

Владислав МихайловSberDevices, Сбербанк
Татьяна ШамардинаABBYY
Максим РябининЯндекс, НИУ ВШЭ
Алёна ПестоваНИУ ВШЭ
Иван СмуровABBYY, МФТИ
Екатерина АртемоваНИУ ВШЭ, Huawei Noah's Ark Lab

Контакты

С вопросами по RuCoLA или работе сайта можно обращаться по адресу contact@rucola-benchmark.com или в раздел Issues GitHub-репозитория корпуса.

Присоединяйтесь к официальному чату в Telegram, чтобы участвовать в обсуждении идей и следить за обновлениями проекта.