| |
Дорожка по классификации отзывов пользователей на 2 класса
Задача
Дорожка посвящена анализу и классификации отзывов пользователей о различных
сущностях (фильмы, книги, гаджеты) на 2 класса: "положительный" или "отрицательный".
Общая процедура проведения дорожки стандартна.
Тестовые коллекции
Исходный набор данных:
-
Фильмы, 15718 отзывов с рекомендательного сервиса Имхонет (www.imhonet.ru),
-
Книги, 24159 отзывов с Имхонета,
-
Цифровые фотокамеры, 10370 отзывов с Яндекс.Маркета.
Формулировка задания для участвующей системы
Система участник получает два набора данных с Имхонета (книги и фильмы) и один набор
данных с Яндекс.Маркета (цифровые фотокамеры).
Каждый отзыв, собранный с Имхонета, имеет пользовательскую оценку от 1 до 10
баллов. Отзывы, собранные с Яндекс.Маркета, имеет оценку от 1 до 5. Эти оценки
участники могут использовать для обучения своих алгоритмов. Никаких дополнительных
данных для обучения предоставляться не будет.
Для тестирования качества классификации систем участников, сформированы
дополнительно 3 коллекции (фильмы, книги, фотокамеры).
- Объем каждой коллекции от 10 до 30 тысяч текстов.
- Эти данные собраны по блогам с использованием Поиска по Блогам
Яндекса. Поиск релевантных отзывов выполнялся по названиям объектов. В
случае неоднозначности в запрос включались уточняющие слова.
- Например, при поиске по фильму могут использоваться запросы вида:
название фильма или фильм|кино|сценарий|режиссер название фильма.
Ответом системы на каждый текст является:
- число 1, если отзыв отрицательный,
- число 2, если отзыв положительный.
- При возможности, вместо указания класса, предоставлять вероятность отнесения отзыва к некоторому классу. По умолчанию будем считать, чем ближе к 1, тем более вероятно, что отзыв положительный.
При предоставлении вероятности, выставление класса не нужно. Если вероятность больше либо равна 0.5 - значит класс 2, иначе класс 1.
Например: 0.68 будет означать, что с вероятностью 68% отзыв положительный и будет отнесен к классу 2.
Методология оценки
- Постановка задания асессору:
При двухбалльной шкале асессор должен ответить на вопрос, является ли отзыв
положительным (оценка 2) или отрицательным (оценка 1).
- Для оценки качества систем, из коллекций, выданных участникам для
тестирования, будут отобраны 300-500 отзывов по заданной сущности и оценены
не менее, чем двумя асессорами.
- Официальные метрики:
- Аккуратность (Accuracy)
- Точность, Полнота, F-мера (Precision, Recall, F-measure)
- AUC
Форматы данных
|