Чем отличается видеосемантика от стандартной видеоаналитики?
Дата публикации: 08.10.2015

Кратко, но популярно

Разговор между видеоаналитиками и видеосемантиками выглядит так: Первые ищут методы, как силой мысли поднять многотонный груз, что крайне удобно, быстро и не требует затрат. Другие предлагают для этого подъемный кран, что требует физической и умственной работы человека, времени, обслуживания, затрат на соляру, - в общем, очень неудобный вариант. Естественно, что поднимать бетонные плиты мыслью гораздо комфортнее, поэтому видеоаналитики ценятся больше видеосемантиков.

На Харбаре мы нашли цикл популярных статей со сравнением различных видов видеоаналитики. Сначала он привлек нас знакомыми картинками, явно напоминающими те, что у нас на сайте. Потом стало понятно, что там все картинки с других сайтов. Но автор умело использовал их, передав смысл и нами описанного, и другими компаниями. Получилось неплохое сравнение обычной видеоаналитики с видеосемантикой. Очень рекомендуем почитать http://habrahabr.ru/users/videoanalitic/topics/ . Причем, все 4 статьи.

Мы также решили сделать свое более краткое сравнение. Возможно, это кому-то нужно. Итак:

Почему стандартная видеоаналитика, пытающаяся четко формализовать поведение людей, не применима на практике?

Детекторы драк, оставленных предметов, пересечений линий и даже определители самих людей или автомобилей легко демонстрируются в подготовленных условиях при хорошем уровне демонстраторов, но не работают в реальных. Вот несколько понятных причин, почему:

- Любой видеотдетектор основан на контрасте цветности. Если белая рубашка сольется с белой стеной, то человек будет распознан как два контрастных объекта: один типа животного внизу, другой – типа птички вверху, или как-то в этом роде.


- Тень от любого объекта принимает разные формы, поэтому форма детекции человека может напоминать автомобиль или несклько человек вместе.


- Перекрытие одного объекта другим также никак не может быть распознано ничем, кроме человека.


Сколько здесь человек?

- У двухмерной камеры нет понятия перспективы, размеры близко летящей птицы или мухи, севшей на объектив, могут быть больше автомобиля вдалеке. Поэтому оперировать к размерам и формам, на чем основаны детекторы стандартной видеоаналитики, бессмысленно.


- Всевозможные помехи могут принимать формы, как напоминающие человека, так и все что угодно. 


Подобные примеры можно приводить долго, существующее сегодня компьютерное зрение пока не может формализовать не только поведение объектов, но и сами объекты.

Но, если заранее подготовить контрастные условия, задать заранее отработанные движения и при отсутствии помех вполне реально продемонстрировать, как хорошо всё работает.

Сюда нужно добавить, что такая видеоаналитика первой появилась в Интел, который выпустил бесплатную библиотеку Open CV, на которой все и строят свои коды. Но 5 лет назад Интел закрыл это направление как бесперспективное. Хотя дело его живет и даже продается уже на базе последователей.



Видеосемантика отличается от такой видеоаналитики признанием самого факта, что искусственного интеллекта нет, и только человек с его доказанным наукой человеческим интеллектом может распознать, что высовывающаяся за дверью нога принадлежит другому человеку или вообще понять, что здесь происходит.

cctv.jpg

Тем не менее, видеосемантика решает почти те же задачи, что и предыдущая видеоаналитика, но на другом фундаменте технологий.


Видеосемантика ничего не формализует и не утверждает, а только находит изменения обстановки по сравнению с предыдущей ситуацией. Тем самым человеку нет необходимости длительно отслеживает сами ситуации, он получает только их краткий смысл.

Зачем оператору отслеживать, как человек идет по улице - и так в течение 10 минут? 


Если человек не менял скорость, направление, не подпрыгивал и ничего не делал руками, то видеосемантика выдаст короткий видеоролик в 3 секунды, где будет показано, как идет этот человек, куда идет, как он выглядит, походка и прочие приметы. Зачем смотреть 10 минут, если всё можно узнать за 3 секунды? 600 делим на 3, получаем выигрыш в 200 раз. Мы сократили необходимость внимания оператора в 200 раз!

Или зачем Вашему начальнику безопасности просматривать 30 минут того времени, что мы здесь беседуем? Ведь короткий сюжет из этого зала в 3 секунды полностью передает смысл происходящего и лица участников. Наши аудио разговоры – это уже не компетенция охранника.

cctv-offis-4.jpg

Но, если кто-то что-то сделает нестандартное, даже если встанет или пересядет, будет еще 3 секунды. 

cctv-offis-5.jpg

В сумме таких нестандартностей в сотни и тысячи раз меньше, чем отслеживать или просматривать в архиве 30 - 130 минут.

Как и говорилось раньше, это не кашерно, видеосемантика не выдает сигнала тревоги, если кто-то что-то украдет со стола, она лишь выдаст короткий ролик, что кто-то что-то взял. Но мы полностью решаем задачу видеоанализа – мы устраняем человеческий фактор. Человек не может следить не моргая, не выходя в туалет 8 часов подряд за смену, а вот обращать внимание на экран раз в 5 минут, когда выскакивает новый видеоролик – это вполне посильная задача.

Если проанализировать среднестатистический офис, то 99% своего рабочего времени охранник смотрит в пустые экраны.

cctv-offis-1.jpg

Но ему платят именно за то, чтобы он не пропустил ни одного вдруг возникшего события.

cctv-offis-2.jpg

И эта задача превращает простую на первый взгляд вещь в непосильные мучения. Попробуйте заставить себя делать какую-нибудь статическую операцию долго! Например, сидеть неподвижно 8 часов или смотреть в одну точку хотя бы 10 минут…

Каждое – даже не заметное человеческому взгляду движение – улавливается компьютером. Высокоуровневая программа определяет его значимость и выводит на отдельный экран событий. Оттуда видеоролик не уходит моментально с экрана, как на живой видеокамере, а остается на длительное время, чтобы у охранника был шанс его заметить – после возвращения из курилки или выхода из спячки.

cctv-offis-3.jpg

Кроме того, эти видеоролики не уходят сразу с экрана, охранник сможет их пересмотреть и когда вернется из буфета или выдаст ключи. Не надо лезть в архив, чтобы наверстать упущенное, теряя при этом текущее. События и онлайн и архивно – все на виду. Есть гораздо больших шансов заметить проблемное событие даже после микросна, которым грешат охранники.

cctv-offis-6.jpg

Один взгляд на монитор – и вы видите сразу все события за последнее обозримое время. Человеческая физиология устроена так, что мы не способны смотреть долго, даже на пустые экраны, но легко находим в гуще даже большого количества событий – важное и тем более опасное. Это наши базовые инстинкты.

видео с реальных объектов

Кадры взяты из видео с реальных объектов, поэтому экспорт не такой красочный.


Скачать презентацию в PowerPoint

palitra.jpg

Видеосемантика улучшает видеонаблюдение
Примеры с реальных объектов
Вневедомственную охрану сократили
При выполнении правительственной программы по сокращению личного состава полиции под нож попала полукоммерческая структура