| |
Дорожка построения панорам
Задача
Дорожка посвящена оценке автоматических методов сравнения визуального сходства изображений, поиска общих фрагментов на изображениях.
Общая процедура проведения дорожки стандартна.
Тестовая коллекция
В качестве тестового набора данных используется (коллекция конкурса Интернет-Математика 2011).
Дорожка проводится на объединении тренировочного набора и финального наборов данных Интернет-Математики, исключая обучающую выборку тренировочного набора:
всего 11000 серий по 5 изображений. Данные можно скачать с сайта Интернет-Математики.
В предоставляемых архивах данных имена файлов уникальны только в рамках одного набора. Для однозначной идентификации изображений далее считаем,
что все имена файлов тренировочного набора получают префикс "a_", а имена файлов финального набора получают префикс "b_". Например,
файл 1234_1.jpg тренировочного набора далее будет идентифицироваться как a_1234_1.jpg, а файл с таким же именем финального набора будет
идентифицироваться как b_1234_1.jpg.
Формулировка задания для участвующей системы
Участник получает набор серий по 5 изображений. Основа каждой серии -- последовательные фрагменты панорамы
с частичным перекрытием (возможно, в неправильном порядке). В сериях возможно наличие повторяющихся кадров.
В некоторых сериях есть один или два лишних снимка из других панорамных серий. Некоторые серии являются составляющими
одной длинной панорамной серии.
Ниже приведены примеры двух серий:
|
|
|
|
|
a_1_1.jpg |
a_1_2.jpg |
a_1_3.jpg |
a_1_4.jpg |
a_1_5.jpg |
|
|
|
|
|
b_1_1.jpg |
b_1_2.jpg |
b_1_3.jpg |
b_1_4.jpg |
b_1_5.jpg |
В первой серии второй и четвертый снимки -- лишние, во второй лишних нет. Изображения этих двух серий могут
составить общую длинную панорамную серию, представленную ниже.
|
|
|
|
|
|
a_1_3.jpg |
b_1_1.jpg |
a_1_1.jpg |
b_1_3.jpg |
a_1_5.jpg |
b_1_2.jpg |
Задача участников:
- Определить лишние кадры в каждой серии (не принадлежащие данной панораме) и упорядочить остальные кадры
(принадлежащие панораме) в соответствии с порядком в панораме.
- Построить "длинные" панорамы, являющиеся объединением нескольких серий, упорядочить изображения в "длинных"
панорамах. Удалить дублирующиеся кадры из полученных панорам, оставив в панораме только один из дублей.
При этом оставить в панораме надо тот из дублей, чье название является наименьшим согласно лексикографическому
порядку.
Методология оценки
Оценка результатов будет производиться с использованием разметки, полученной от независимых асессоров.
Для оценки упорядочивания коротких серий из выданного участникам набора серий будет случайным образом отобрано
1000 серий, на которых и будет производиться оценка. Длинные серии будут оценены в полном объеме.
- постановка задания асессору для разметки подмножества коротких серий:
Асессор указывает на правильный порядок изображений относительно друг друга в панораме,
лишние изображения определяются автоматически на основе имеющихся метаданных коллекции.
Асессор также отмечает дублирующиеся кадры в серии, если таковые имеются. При наличии дублей
в разметку включается тот из дублей, у кого название файла минимально согласно лексикографическому порядку.
К примеру, серия состоит из изображений A, B, C, D, E, в которой B и E являются дубликатами.
Асессор упорядочил кадры в серии следубщим образом: ABCD и указал, что E -- дубликат кадра B.
При этом, название файла, соответствующего кадру B "a_2003_1.jpg", а название файла с кадром E "b_3010_5".
Тогда такая серия получает разметку: ABCD.
- постановка задания асессору для разметки длинных серий:
Кандидаты в длинные серии строятся автоматически на основе метаданных коллекции.
Асессор указывает на лишние изображения в длинных сериях и упорядочивает правильные кадры,
составляющие панораму. Разметка дублирующихся кадров происходит аналогично разметке дублей в коротких сериях.
- официальные метрики для оценки коротких и длинных серий
Для коротких серий вычисляются для отобранного подмножества; для длинных серий вычисляются дважды:
относительно длинных серий, построенных данным участником (некий аналог точности результата) и относительно
всех известных длинных серий (некий аналог полноты результата):
- аккуратность классификации изображений (официальная метрика Интернет-математики 2011),
которая вычисляется как доля правильно классифицированных изображений при рассмотрении двух классов:
правильные -- фотографии, составляющие панораму, и лишние. Эта метрика не учитывает порядок изображений
в панораме.
- усреднение по всем сериям расстояния Левенштейна между разметкой, полученной от асессора и разметкой
участника. Например, если серия состоит из набора изображений A, B, C, D, E, и асессор расположил
изображения в следующем порядке BACD (E -- лишнее изображение в серии), то ответ BACD получит оценку 0;
ответ ABCD получит оценку 2; ответ ABCDE получит оценку 3; ответ BAC получит оценку 1. Значение данной
оценки для отсутствующей у участника длинной серии (в случае вычисления оценки относительно всех
размеченных длинных серий) принимается равным длине такой серии (расстояние Левенштейна между пустой
строкой и имеющейся разметкой для серии).
Форматы данных
|