Тестовые коллекции

Дорожки 2012

Архив

2003

2004

Дорожка построения панорам

Задача

Дорожка посвящена оценке автоматических методов сравнения визуального сходства изображений, поиска общих фрагментов на изображениях.

Общая процедура проведения дорожки стандартна.

Тестовая коллекция

В качестве тестового набора данных используется (коллекция конкурса Интернет-Математика 2011). Дорожка проводится на объединении тренировочного набора и финального наборов данных Интернет-Математики, исключая обучающую выборку тренировочного набора: всего 11000 серий по 5 изображений. Данные можно скачать с сайта Интернет-Математики.

В предоставляемых архивах данных имена файлов уникальны только в рамках одного набора. Для однозначной идентификации изображений далее считаем, что все имена файлов тренировочного набора получают префикс "a_", а имена файлов финального набора получают префикс "b_". Например, файл 1234_1.jpg тренировочного набора далее будет идентифицироваться как a_1234_1.jpg, а файл с таким же именем финального набора будет идентифицироваться как b_1234_1.jpg.

Формулировка задания для участвующей системы

Участник получает набор серий по 5 изображений. Основа каждой серии -- последовательные фрагменты панорамы с частичным перекрытием (возможно, в неправильном порядке). В сериях возможно наличие повторяющихся кадров. В некоторых сериях есть один или два лишних снимка из других панорамных серий. Некоторые серии являются составляющими одной длинной панорамной серии.

Ниже приведены примеры двух серий:

a_1_1.jpg a_1_2.jpg a_1_3.jpg a_1_4.jpg a_1_5.jpg

b_1_1.jpg b_1_2.jpg b_1_3.jpg b_1_4.jpg b_1_5.jpg

В первой серии второй и четвертый снимки -- лишние, во второй лишних нет. Изображения этих двух серий могут составить общую длинную панорамную серию, представленную ниже.


a_1_3.jpg	b_1_1.jpg	a_1_1.jpg	b_1_3.jpg	a_1_5.jpg	b_1_2.jpg

Задача участников:

Определить лишние кадры в каждой серии (не принадлежащие данной панораме) и упорядочить остальные кадры (принадлежащие панораме) в соответствии с порядком в панораме.
Построить "длинные" панорамы, являющиеся объединением нескольких серий, упорядочить изображения в "длинных" панорамах. Удалить дублирующиеся кадры из полученных панорам, оставив в панораме только один из дублей. При этом оставить в панораме надо тот из дублей, чье название является наименьшим согласно лексикографическому порядку.

Методология оценки

Оценка результатов будет производиться с использованием разметки, полученной от независимых асессоров.

Для оценки упорядочивания коротких серий из выданного участникам набора серий будет случайным образом отобрано 1000 серий, на которых и будет производиться оценка. Длинные серии будут оценены в полном объеме.

постановка задания асессору для разметки подмножества коротких серий:
Асессор указывает на правильный порядок изображений относительно друг друга в панораме, лишние изображения определяются автоматически на основе имеющихся метаданных коллекции. Асессор также отмечает дублирующиеся кадры в серии, если таковые имеются. При наличии дублей в разметку включается тот из дублей, у кого название файла минимально согласно лексикографическому порядку. К примеру, серия состоит из изображений A, B, C, D, E, в которой B и E являются дубликатами. Асессор упорядочил кадры в серии следубщим образом: ABCD и указал, что E -- дубликат кадра B. При этом, название файла, соответствующего кадру B "a_2003_1.jpg", а название файла с кадром E "b_3010_5". Тогда такая серия получает разметку: ABCD.
постановка задания асессору для разметки длинных серий:
Кандидаты в длинные серии строятся автоматически на основе метаданных коллекции. Асессор указывает на лишние изображения в длинных сериях и упорядочивает правильные кадры, составляющие панораму. Разметка дублирующихся кадров происходит аналогично разметке дублей в коротких сериях.
официальные метрики для оценки коротких и длинных серий
Для коротких серий вычисляются для отобранного подмножества; для длинных серий вычисляются дважды: относительно длинных серий, построенных данным участником (некий аналог точности результата) и относительно всех известных длинных серий (некий аналог полноты результата):
- аккуратность классификации изображений (официальная метрика Интернет-математики 2011), которая вычисляется как доля правильно классифицированных изображений при рассмотрении двух классов: правильные -- фотографии, составляющие панораму, и лишние. Эта метрика не учитывает порядок изображений в панораме.
- усреднение по всем сериям расстояния Левенштейна между разметкой, полученной от асессора и разметкой участника. Например, если серия состоит из набора изображений A, B, C, D, E, и асессор расположил изображения в следующем порядке BACD (E -- лишнее изображение в серии), то ответ BACD получит оценку 0; ответ ABCD получит оценку 2; ответ ABCDE получит оценку 3; ответ BAC получит оценку 1. Значение данной оценки для отсутствующей у участника длинной серии (в случае вычисления оценки относительно всех размеченных длинных серий) принимается равным длине такой серии (расстояние Левенштейна между пустой строкой и имеющейся разметкой для серии).

Дорожка построения панорам

Задача

Тестовая коллекция

Формулировка задания для участвующей системы

Методология оценки

Форматы данных