Наступила эра распознавания и идентификации
Дата публикации: 19.03.2018

Нейросети. Принимаем заказы на обучение компьютерных питомцев.

 

нейросеть GOALcity Спецлаб

С нейросетями нас связывают давние тесные отношения еще начиная с их основоположника в Советском Союзе - Минского Университета в Белоруссии. Уже 25 лет назад магия казалось бы элементарной логики манила своей перспективой. Но ей не хватало высоких разрешающих способностей систем ввода данных, в частности видеокамер, и мощных вычислительных средств, а также того, что еще не было известно, что будет не хватать, когда первые два появятся. И вот сейчас появились и нужные камеры, и почти нужные компьютеры, и сейчас мы знаем, что еще не хватает для полного счастья. 

К сожалению, это  список стал значительно больше, но мы выделим главное, а самое главное – скрытое, ну, или незамеченное. Среди известных проблем, которые широко описываются в Интернете, мы не находим основную для нас – для  аналитических систем видеонаблюдения. Мир опять ушел в шоу-бизнес, как и раньше, о видеонаблюдении многие продолжают думать, что это по-голливудски поставленное кино с отличным освещением, шикарными контрастными планами, выбранными из сотен лучших дублями. Предполагается, что есть отлично заснятая картинка, хоть и из десятков менее удачных, и она сравнивается с, пусть даже, миллионом других четких картинок. 

интернет картинки

 
Всё здорово в таком подходе, вопросов нет, хотя иногда к выдаче на Бен Ладена и появляется фотка Барака Обамы, но просто хороших снимков Бена, видимо, нет. Только в видеонаблюдении, особенно в охранном, в ответственный момент у вас не будет ни освещения, ни хорошей безпомеховой погоды, ни возможности выбрать несмазанный кадр. Даже нет смысла тратить ресурсы компьютера на 25 кадров высокого разрешения с каждой камеры. 

кадр1 кадр2
кадр3 кадр4
кадр5

     
Стоп, это мы погорячились на счет высокого разрешения. В какой системе видеонаблюдения оно вообще есть? Давайте уже откроем маленькую тайну большого бизнеса! Да, в кодеке H.264 все пишут на диск многомегапиксельные кадры. Такое возможно лишь из-за того, что сами камеры дают уже готовое сжатие. Но для анализа нейросетями нужен расжатый кадр. И тут любой персональный комп умрет уже на нескольких камерах только при расжатии, до нейросетей мы еще не дошли. 

А как же обрабатывается видеодетекция? Очень просто – все гонят с тех же камер поток поменьше. Причем поменьше даже уровня камер первого поколения. Ну, и какие нейросети вы на этом хотите запустить? Какой значок автомобиля вы хотите хотя бы даже найти в кадре, чтобы распознать его марку? Мы пришли к Минску 90-х, даже тогда уже было такое же разрешение камер. И это засада! 

видео камера обзор

 
А вы думали, мы будем давать рекламу своих нейросетей? Ну, вы не ошиблись, только это будет какая-то блеклая реклама, или лучше сказать честная. Т.е. все должны понимать, что большое число видеоканалов нейросетями в режиме реального времени не обработаешь. Ну, более менее, на ПК с I7 и встроенной «видюшкой» идет два, если расжимать H.264, и 4, если брать MJPEG. Опять же всё зависит от задач, что мы распознаем. Но, как вы поняли, массовой такая технология еще не стала, та же проблема Минска 90-х – нехватка ресурсов. Ну, не такая, чтобы не смочь работать с одной камерой, но всё же. По сути надо использовать мощные видеокарты, сравнимые по цене с компьютером. Т.е. тут засада в стоимости, это не 5 копеек.  

Следующая коллективная невменяемость в получаемом с камер материале. Нас просто удивляет тот факт, что все насели на картинку, а не на видео. Да и как насели? Распознавание идет именно по одной картинке. Не по двум, не по ряду уточненных кадров, а по каждому кадру отдельно. Зачитываясь научными статьями и чьими-то рекламами в области нейросетей, мы – практики – не понимаем, как вообще можно довольствоваться тем кадром, который прислала камера? С нашей точки зрения, на 90% качество распознавания зависит от того, как получен это снимок: какие естественные помехи были на него наложены природой, в какой контрастности по отношению к фону находился распознаваемый объект (давайте не забывать, что белые полосы на белом фоне не найдет ни один компьютер, как и любой другой сливающийся цвет), какие физические процессы объективов и оцифровщика повлияли на кадр, с каким мусором и искажением пропорций камера выдала этот кадр в своем протоколе и много-много что еще. 

Даже если одним и тем же фотоаппаратом сделать два снимка одной и той же белой стены, у вас в компьютере получатся две совершенно разных, например, с точки зрения набора пикселов и их оттенков, картинки. Более того, другой цифро-аналоговый прибор, например принтер, может напечатать одну из них в чуть желтом, а другую, чуть в розовом цвете. А ведь мы фоткали белую стену, т.е. задали самую элементарную задачу. 

Соответственно, Спецлабу пришлось опять поработать самостоятельно – разработать собственные алгоритмы нейросетей, направленные в сферу видеонаблюдения. И, конечно, первое, с чего пришлось начать  - это с обработки помех. Сие ничуть не проще, чем сами нейросети. Т.к. для многих эта область новая, и здесь много пустой рекламы, мы расскажем все популярно: пусть долго, но зато честно и понятно. В ближайшее время мы выпустим цикл статей на данную тему. 

И это не отменяет главную новость, в GOALcity Vanga теперь есть модуль собственной нейросети Спецлаб, который на сегодняшний день по умолчанию отличает людей и автомобили от всего остального и от друг друга. А по расширению, постоянно обучается на новые задачи, которые теперь можете поставить и вы. В прайсе появилась строка заказов на обучение ПО.

Естественно, нужно трезво оценивать тот факт, что пока лишь несколько каналов тянет один стандартный ПК, для онлайн работы нужны видеокарты, и желательно с CUDA. А вопросы качества материала мы будем брать на себя, совершенствуя алгоритмы предподготовки видеоконтента для нейросетей. О них поговорим подробнее, вернее, это одно из последних достижений Спецлаб за последние годы, доведенное до практического применения. Как нам кажется, мы сделали нейросеть непосредственно для боевого видеонаблюдения, а не для гламура. Предлагаем всем попробовать!

Тем не менее, почти любая уже предобученная нейросеть предполагает фронтальное видение интересуемого объекта. А большинство охранных камер установлено выше человеческого роста и смотрят сверху. Причем, на разных уровнях, под разными углами с разной степенью различимости относительно фона.

кадр

 
Здесь мы пока видим лишь один путь – доучивать нейросеть непосредственно на объекте заказчика.

Если брать эконом диапазон применения, то нейросети сегодня хорошо отрабатывают нестандартные ситуации на проходных, например: проход нескольких людей по одному пропуску, проход человека в зоне пропуска автомобилей, проезд автомобиля чужой марки… А также в качестве управления автодорожным движением: появление человека на проезжей части или в зоне железнодорожных путей, выезд автомобиля на пешеходную полосу, непропуск пешеходов на пешеходном переходе и т.д. Везде, где нужно четко отделить виды объектов друг от друга. 

Спецлаб GOALcity видеонаблюдение

 
Еще одно направление – это распознавание определенного символа, например, на куртке работника, или шильдика на корпусе автомобиля. Естественно, можно с определенной точностью говорить о наличии у человека защитных средств, типа каски, но определять это в каждой точке большого предприятия – уже накладно. То же самое с проверкой работы коммунальных служб, на сколько эффективно они почистили ту или иную улицу. Остальные перспективные вопросы мы не будем выдавать сразу… 

распознавание символа идентификация

 
Но, как и обещали, сначала честно поговорим и покажем проблемы, с которыми нам приходится бороться, и, может быть, вы поймете, почему наша нейросеть немножечко лучше множества других. 

Этот алгоритм борется с устойчивыми помехами
Помехи/Растения. По-другому можно назвать – «динамическая автомаска»
Бесплатно!
Идентификация лиц. На всех каналах GOALcity Vanga.