РОМИП

 Новости 
 Регистрация 2012! 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Материалы РОМИП 
 Тестовые коллекции 
 Таблицы релевантности 
 Участники 2012 
 Дорожки 2012 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Дорожка по классификации прямой и косвенной речи из новостных лент

Задача

Дорожка посвящена анализу и классификации наиболее вероятных носителей тональности в новостях - прямой и косвенной речи на 3 класса: положительный, отрицательный и нейтральный (нет оценки).

Общая процедура проведения дорожки стандартна.

Тестовые коллекции

Исходный набор данных:

Формулировка задания для участвующей системы

Для проведения данной дорожки из потока новостей будут извлечены сотни тысяч фрагментов прямой речи. Около пяти тысяч таких фрагментов предполагается разметить с помощью асессоров на 3 класса (положительный, отрицательный, нейтральный). Данная коллекция будет выдаваться участникам для обучения их систем. Оставшаяся часть текстов будет использована для тестирования участников. Для этого каждый участник должен будет оценить весь корпус фрагментов, а организаторы случайным образом выберут 2000-5000 текстов и на их основе оценят качество работы.

Ответом системы на каждый фрагмент текста является:

  • число 1, если текст в целом отрицательный,
  • число 2, если текст в целом положительный,
  • число 3, если текст нейтральный, то есть не содержит оценки.

Методология оценки

  • Постановка задания асессору:
    При трехбалльной шкале асессор должен ответить на вопрос, является ли текст в целом положительным (оценка 2), отрицательным (оценка 1) или нейтральным (оценка 3).
  • Для оценки качества систем, из коллекций, выданных участникам для тестирования, будут отобраны и оценены 2000-5000 текстов.

Официальные метрики:

  • Аккуратность (Accuracy)
  • Точность, Полнота, F-мера (Precision, Recall, F-measure)

Форматы данных