Вы здесь

Кто есть кто в робототехнике. Выпуск I. Компоненты и решения для создания роботов и робототехнических систем. Глава 2. Электронное зрение роботов (А. П. Барсуков)

Глава 2

Электронное зрение роботов

Электронное зрение роботов обладает той особенностью, что может работать не только в реальном времени, но и в «отсроченном» режиме: в частности, когда в массиве видеоизображений система поиска находит искомую видеозапись какого-то события. Поиск объекта среди других средствами компьютерного зрения – тоже навигация, только зрительная. Возьмём из предыдущей главы пример с GPS-навигацией, когда робот, достигнув «мёртвой зоны» радиусом 10–20 м, до цели всё же не доходит. Тогда ему на помощь должно придти зрение, с помощью которого он распознает цель. Пример такой технологии приводится ниже. Она не предназначалась для установки в мобильном роботе, но хорошо поясняет критерии распознавания. Кроме того, подобно описанной в предыдущей главе технологии удалённой GPS-корректировки, она тоже может быть инкорпорирована в стационарный вычислитель, и робот будет обмениваться данными по радиоканалу с централизованным видеоархивом в процессе распознавания.

1. Excalibur: технология распознавания видеоизображений

Эффективность данной системы обусловлена применением в ней как традиционной для фирмы Excalibur Technologies технологии нечёткого поиска APRP, так и оригинальной технологии анализа видеоинформации VAE.

VAE (Video Analysis Engine) обеспечивает автоматическое построение StoryBoard (последовательности кадров, наиболее адекватно отражающих суть видеофрагмента) для вводимой видеоинформации, выделяя набор характерных (по тому или иному критерию) кадров.

APRP (Adaptive Pattern Recognition Process), технология адаптивного распознавания образов, производит так называемый «нечёткий поиск», при котором для поиска изображения не требуется ни словесного описания, ни ключевых слов, ни других специальных приёмов. В данной технологии под нечётким поиском понимается операция нахождения объекта по его достаточно близкому образу (например, по фотографии человека, на лице которого время оставило свои следы). Любого рода данные технология обрабатывает одинаково – в виде нулей и единиц, поэтому она равным образом применяется для индексации и нечёткого поиска как текстов (библиотека TRS), так и звукозаписей (библиотека SRS) и видеозаписей (библиотека VRS). Это обстоятельство позволяет воспользоваться для понимания алгоритмов технологии примером из области обработки текстов. Поскольку APRP работает не с ключевыми словами, а с образами, две-три изменённые (или ошибочные) буквы в слове или фразе не могут существенно изменить базовую картину текста. Таким образом, автоматически становится допустимой ошибка как во входных данных, так и в терминах запроса. Например, если мы напишем в запросе: «ЦЦЦТЕР МАРГМАСАРИТАЭЭЭЭЭЭ», имея в виду название романа Булгакова, то получим правильный ответ – «Мастер и Маргарита».

Поиск происходит так:

• запрос конвертируется в бинарную форму;

• игнорируется шум (т. е. отбрасываются «ЦЦЦ» и «ЭЭЭЭЭЭ»);

• проводится нечёткий поиск, представляющий собой комплекс операций сравнения комбинаций нулей и единиц, по результатам которых осуществляется выбор наиболее близких вариантов искомого образа. Описанный алгоритм поиска по существенным признакам применяется при сравнении почерков, отпечатков пальцев, голосов и фотографий.

Обеспечиваемая технологией скорость поиска видеоинформации по индексированному массиву объёмом 5 Тбайт составляет 5-15 с при степени достоверности, соответствующей сертификату, выдаваемому подобным системам. Под «индексированным массивом» в данном случае понимается вышеупомянутый набор характерных кадров, 1 Мбайт которых соответствует примерно 6 Мбайтам исходного видеоматериала (но это соотношение ориентировочно и зависит от выбранного порога индексирования). В итоге образуются как бы два массива: проиндексированный (потому и «как бы», что он может быть не один – в зависимости от числа критериев индексации), которым, например, телекомпания оперирует при подготовке новостных и иных программ, и другой, состоящий из оригиналов видеоматериала. Типовая схема работы системы – на рис. 2.1.

Рис. 2.1


Кроме того, технология используется для видеонаблюдения: например, она осуществляет в реальном времени последовательное сканирование (посредством видеокамеры) толпы в местах, где движение людей упорядочено: эскалаторы, турникеты и т. п. Ключами для анализа снимаемого материала служат хранящиеся в базах данных фотографии разыскиваемых людей, объектов, автомобильных номерных знаков и т. д. Достоверность распознавания – вопрос постоянного совершенствования технологии. Представитель фирмы привёл такой пример: на одном из этапов развития технологии проводилось «опознание» футболистов по фотографии их команды. Система опознала 9 из 11 футболистов плюс лежащий перед ними мяч. То есть террорист в принципе мог замаскироваться, неся возле своей головы большой розовый грейпфрут, но и в таком случае среди критериев поиска можно было задать «обнаружение людей с большими грейпфрутами». Позже, уже в России, проводились эксперименты по настройке системы на «похожесть» лиц. На человека надевали шапку, очки, прикрывали лицо шарфом, при этом достоверность распознавания достигала 40–50 %. Кроме того, приемлемый процент распознавания достигался при изменении ракурса лица примерно на 20 %.

На рис. 2.2 показаны особенности поиска по изображению человека. Маленький кадр в левом нижнем углу – изображение-запрос. Верхняя линейка кадров – результат поиска с указанием степени близости результата к запросу: «100 %» здесь относятся к кадру, использованному в качестве запроса; рядом с числом процента – названия видеоматериалов, содержащих данные кадры.

Рис. 2.2


Для работающего с Excalibur оператора исследуемый массив предстаёт в виде двух мультимедийных составляющих: картинки и текста. Текст – это фоновый код для поиска видеоизображения, поэтому в ранее рассмотренном процессе редактирования большое значение имеет вычленение текстового материла из видеозаписи (этот же текстовый материал при необходимости ложится в основу субтитров). Поиск проиндексированной видеоинформации, уже хранящейся в VideoAsset Server, осуществляется как по кадрам из StoryBoard при помощи ПО Visual RetrievalWare, так и по тексту (субтитры, название и пр.) при помощи RetrievalWare – профессиональной системы управления знаниями. В частности, в версии 7.0 этой системы, имеющей графические словари (рис. 2.3), мультимедийные запросы могут формироваться по следующим принципам: слова и изображения смешаны в одном запросе; объединение слов и изображений в сложное логическое выражение; при ранжировании результатов поиска учитываются и слова, и изображения. На рис. 2.4 приведён пример сложного поиска.

Конец ознакомительного фрагмента.