Часто задаваемые вопросы

  • Как отправить
    свое решение?

    Чтобы добавить решение в таблицу результатов, в правом верхнем углу сайта нажмите кнопку «Войти» и предоставьте приложению RuCoLA доступ к вашей учётной записи, а также заполните форму регистрации. После этого вам станет доступна кнопка отправки решения.

    Каждое отправляемое решение должно содержать название метода, название команды и файл с предсказаниями для тестовой выборки. Будем рады, если вы захотите опубликовать свой код или рассказать об используемой модели и приложите ссылку с более подробной информацией о решении.

    Файл с предсказаниями должен иметь формат CSV и содержать два столбца: id и acceptable. Первый столбец должен содержать индексы предложений из тестовой выборки, а второй — бинарные предсказания для этих предложений. В нашем GitHub-репозитории доступен пример файла в нужном формате.

  • Какие метрики качества используются при сравнении?

    Мы используем две метрики бинарной классификации: долю правильных ответов (accuracy) и коэффициент корреляции Мэттьюса (Matthews Correlation Coefficient, MCC). Вторая метрика также используется при оценке качества на оригинальном датасете CoLA и предпочтительна в сравнении с accuracy при дисбалансе классов, в связи с чем мы считаем ее основной для нашей задачи.

  • Как определяется
    лучший метод?

    Все участвующие модели сортируются по значению MCC, которое подсчитывается на всех тестовых данных. На вкладке «По источникам» доступны результаты на подмножествах экспертных и сгенерированных предложений. Из всех решений с одинаковым именем команды и названием модели отображается только то, которое имеет лучший результат.

  • Какие данные были использованы для создания RuCoLA?

    Мы использовали учебные материалы и научные публикации по лингвистике, задания ЕГЭ, а также предложения, сгенерированные моделями парафраза и машинного перевода. Полный список источников данных представлен в статье.

  • Что собой представляет
    решение Human Baseline?

    Строка Human Baseline демонстрирует качество того, как студенты бакалавриата и магистратуры по лингвистике и филологии решили задания, входящие в тестовую часть корпуса. С этим решением следует сравнивать все автоматические методы. В настоящий момент метрики Human Baseline доступны только для экспертных предложений, результаты для всего набора данных будут опубликованы в ближайшее время.

  • Почему на сайте представлено две таблицы результатов?

    Корпус RuCoLA составлен на основе данных из разных источников, и мы представляем результаты как в агрегированном виде, так и в разрезе по источникам. Это позволяет проводить более детальный анализ полученных результатов и применимости моделей к разным задачам.

  • Под какой лицензией распространяется RuCoLA?

    Код базовых решений и метки приемлемости распространяются под лицензией Apache 2.0, точная формулировка которой доступна в репозитории. Тексты, использованные при создании корпуса, были взяты из ряда источников, которые также указаны в репозитории. Права на эти тексты принадлежат их авторам.

  • Как я могу процитировать
    эту работу?

    В GitHub-репозитории RuCoLA содержится ссылка в формате BibTeX, которую вы можете использовать в своем тексте.