Анализ повторения – мать учения
Дата публикации: 18.03.2013

Устанавливаем теоретический фундамент для видеоаналитики. Часть 3.

Продолжение, начало здесь...

После первых двух статей к нам пришло много писем с изложением своего видения материала, и мы поняли, что остались непонятыми – извините за тавтологию.  Но именно она мешает в понимании, как нам кажется.

Возможно не все, но многие зациклены на классических понятиях видеоаналитики, которые, как это ни странно, Спецлаб когда-то и сформулировал. Ну, действительно, если поискать в Интернете, можно найти наши статьи десятилетней давности с «Опасными началами», «Опасными количествами», «Опасными поворотами» и т.д. Увы, эти определения и до сих пор присутствуют в интерфейсе сегодняшней видеоаналитики Спецлаб, но в качестве условных понятий для настройки. И используются они именно для отстройки повторов. Но, видимо, с ними надо расставаться, тем более что не осталось ничего по существу. Ну, надо признаться, и Спецлаб когда-то ошибался, и было это на заре охранного телевидения. Убить созданного нами же монстра нелегко, но других вариантов нет, попробуем.

Лучшая форма – это дискуссия, в которой иногда что-то рождается. Если частные письма публично обсуждать некорректно, то возьмем очень известную в узких кругах фирму «Тодес», которая выступила на нашем форуме. Эта компания – крупный инсталлятор Безопасных городов по московской области. Ставила почти все известные системы, поэтому знает ситуацию изнутри. Участник форума известен нам по обучению, которое проходил в Спецлабе, по количеству технологических споров наши специалисты такого человека еще не видели. Очень въедливый и недоверчивый, таким, наверное, сегодня и должен быть настоящий безопасник. Из негативных черт: очень долго не понимает или делает вид, что не понимает, на наш взгляд очевидных вещей. Хотя этот фактор все-таки больше позитивный в данном случае. Разговор с профи всегда приятен!

Итак, существует стереотип, что видеоаналитика – это какой-то поиск по заданным четко формализованным критериям. Еще раз извинимся, что именно Спецлаб 10 лет назад и назвал видеоаналитикой этот процесс. Но то было начало, практика всё расставляет по своим местам. «Оператор архива задает условия выборки в периоде архивации, нажимает кнопку пуск и идет курить», - вот так типично уважаемый сотрудник Тодеса описал понимание процесса видеоанализа. Так считают многие, наверное, и Вы. Однако давайте задумаемся, что бы Вы хотели получить в результатах поиска? Допустим, чисто гипотетически, что Ваши условия полностью выполнимы. Например, Вы ищете кадры с лицами, что довольно несложно реализуется.

Обратимся к практике. Человек может стоять перед камерой и минуту, и час, и… Даже за минуту система запишет 25 кадров х 60 сек = 1500 кадров. Вы получите результат, несовместимый с жизнью: по каждому человеку будут выводиться десятки тысяч кадров, ведь ищутся все кадры, где есть лица.

lico_povtor_.jpg

Такую же ситуацию мы имеем по любому другому формализованному поиску. Например, человек пересекает виртуальную линию вот уже полчаса туда-сюда – так часто бывает, когда говорят по телефону. На выходе вы получите сотни кадров одного и того же события. А, если стайка голубей бегает по этой линии? Вроде бы мы нашли понимание в том, что искусственного интеллекта нет, и птички будут фиксироваться так же, как и люди. Равно, как и все другие помехи.

Ответ напрашивается сам собой – надо убирать повторы! Вместо десятков тысяч кадров с одним и тем же лицом, выводить только один (или несколько в разных ракурсах). Вместо сотен кадров пересечения телефонного агрессора, также показать только один (или несколько в разных ракурсах). Вместо сотен номеров одной и той же машины… Вместо два дня ползающей мухи по объективу… Господа, давайте убирать ненужные повторения.

Вот этот процесс мы и называем основой основ видеоаналитики. На нем мы и строим для нее фундамент:

1. Надо сначала выделить событие как таковое – как семантическую единицу происходящего.
2. Дать ему краткое представление, понятное для человека, но обо всем семантическом событии, какой бы длительности оно не было.
3. А потом все остальное: формализация, попытки классификации, идентификации и т.д.

Вот поэтому мы сегодня и говорим, что видеоаналитика начинается с видеосемантики. А Видеосемантика – это анализ и фильтрация повторяющихся признаков действия, а также вывод – представление пользователю основы содержания самого действия.

Пока мы не отделили одно событие от другого, о чем-либо еще говорить бессмысленно, иначе мы упремся в нескончаемое количество данных. Вот поэтому уже в первой статье о фундаментальных основах мы предложили измерять интеллектуальный архив в семантических единицах – событиях. Пока мы остерегаемся публиковать научные классификаторы, но скоро придется. Пока давайте подготовимся на уровне образов. Скульптор отсекает лишнее, и из бесформенной каменной глыбы получается понятный сюжет. Мы  отсекаем лишнее из видеоизображения, что превращает длинные необработанные видеозаписи в краткую картину происходящего.

Добавим высокопарности, когда-то нам приходилось доказывать людям необходимость видеодетекции. Было время, когда системы видеозаписи писали всё. Нелегко мир перешагнул боязнь компьютерного сравнения кадров на предмет фильтрации повторений. Сегодня видеодетектор не только прижился, но и стал основополагающей функцией любой системы видеонаблюдения. Конечно, в этом не столько наша заслуга, мы лишь повествуем о своем опыте. А первый видеодетектор появился у нас в системе GOAL v5, когда большинство технарей в нашей стране еще сомневались в достоинствах цифрового видео. Тогда мы в полной мере ощутили на себе невежественные насмешки. Но это история.

Видеодетектор в сотни раз сократил записываемую информацию, избавив ее от повторяющихся статических кадров. Теперь не надо в архиве по часу разглядывать пустую стенку – есть лишь несколько кадров, где эта стена представлена во всей красе. И, сколько не разглядывай остальные сто пятьдесят миллионов, ничего нового в них не увидишь.

Теперь Спецлаб применил видеосемантику, которая ещё более сократила бесполезную информацию за счет фильтрации повторений. Посудите сами, вот стоит человек на остановке: стоит и стоит – и так полчаса. Обычный видеодетектор будет постоянно срабатывать, т.к. человек не может стоять, не двигаясь. Таким образом, появится получасовой промежуток обязательного контроля оператором. А видеосемантика заметит закономерность в том, что каждую секунду человек выполняет одни и те же движения. Вместо того чтобы демонстрировать оператору 30 минут повторений, видеосемантика выдает 3 секунды видеосюжета, полностью передающего смысл тридцати минут действия. Только и всего.

Или человек идет: каждую секунду он совершает одни и те же движения руками и ногами. Зачем это всё повторять, если ничего не меняется? Даже по трем секундам видео можно понять: откуда и в каком направлении объект движется, в какую одежду он одет, какое у него лицо и другие особые приметы,… даже манеру ходьбы. Мы отсекаем лишнее – тем самым уменьшаем время, которое необходимо оператору на осмотр событий.

Наша видеоаналитика – это новая ступенька в сокращении потока информации после видеодетектора. И человечество конечно пойдет еще дальше. Только давайте придерживаться научного фундамента, чтобы не улететь в космос.

Заметьте, мы даже не говорим о самом здании, пока лишь фундамент для видеоаналитики.

Продолжение следует…


Для кого-то это не смешно
Первоапрельский топ вызывающих фактов
Здесь наши дороги расходятся
Ставим фундамент для видеоаналитики. Часть 2