Распознавание образов

Закрывание и открывание захвата машины не представляет проблемы, и распознать наличие головоломки в захвате во время процесса ее решения также несложно, так как от нашего приложения не требуется большой точности. (К примеру, автоматический механизм ворот гаража может распознать и отреагировать на наличие помехи на пути двери во время закрытия.) Даже проблему фокусировки камеры на головоломке можно легко решить, запрограммировав захват так, чтобы он помещал головоломку в определенное положение, подходящее для просмотра. Следовательно, первое интеллектуальное действие, которое требуется от нашей машины, — это считывание информации с визуального носителя.

Важно понимать, что проблема, с которой сталкивается машина во время наблюдения головоломки, это не просто воспроизведение и хранение изображения. Такая задача решена уже давно — например, при помощи традиционных фотографических и телевизионных систем. Наша задача состоит в распознавании изображения и получении текущего состояния головоломки (а позже и в управлении движением фишек). В этом существенное отличие от приемника телевизионных сигналов, который просто преобразует образы с одного носителя на другой, не распознавая само изображение. Итак, наша машина должна демонстрировать способность распознавать образы (understanding images).

В случае нашей машины для решения головоломки количество вариантов изображений, которые могут быть получены в ходе распознавания, ограничено. Мы можем предположить, что полученный образ — это всегда головоломка с восемью цифрами от 1 до 8 в каком-либо порядке. Вопрос лишь в определении порядка расположения цифр. Представим себе, что образ головоломки закодирован битами в памяти компьютера, где каждый бит представляет уровень яркости определенного пиксела. Исходя из того, что размер изображения всегда один и тот же (машина удерживает головоломку в определенном положении перед камерой), машина может определить позицию каждой фишки, сравнивая различные части картинки с заранее заданными шаблонами, состоящими из битовых комбинаций, обозначающих отдельные цифры головоломки. Как только будут определены совпадающие битовые комбинации для всех фишек, состояние головоломки будет распознано.

Эта техника распознавания изображений используется при оптическом чтении текста. Однако у нее есть и отрицательная сторона — для подобного распознавания требуется единообразие стиля, размера и ориентации считываемых символов. В частности, битовая комбинация, полученная при распознавании символа большого размера, не совпадает с шаблоном для небольшой версии того же символа, хотя очертания их одинаковы. Кроме того, вы можете представить себе, как усложняются проблемы при попытке распознать рукописный текст.

Другой подход к распознаванию символов основывается на сравнении геометрических характеристик, а не внешнего вида символов. В этом случае цифру 1 можно описать как одну вертикальную линию, цифру 2 — как открытую кривую линию, соединенную внизу с прямой горизонтальной чертой, и т. д. Этот способ распознавания символов состоит из двух задач: выявления особенностей обрабатываемого изображения и сравнения его с характеристиками уже известных символов. Но, как и в случае сравнения шаблонов, такая техника также не гарантирует отсутствия ошибок. Например, небольшие ошибки в изображении могут создать набор совершенно других геометрических характеристик, как в случае распознавания О и С или, для нашей головоломки, 3 и 8.

При создании машины для решения головоломки нам, к счастью, не нужно распознавать объемные трехмерные сцены. Мы можем быть уверены, что образы, которые необходимо распознать (цифры от 1 до 8), находятся в различных частях общей картинки и не перекрывают друг друга, как это бывает в общих задачах. Если взять обыкновенную фотографию, то проблема будет заключаться не только в распознавании объекта с различных углов, но и в том, что какие-то части объекта могут быть скрыты от обозрения.

Задача распознавания образов обычно выполняется за два шага: обработка изображения (image processing), которая состоит в идентификации символов на изображении, и анализ изображения (image analysis), то есть осмысление, что же означают эти символы. Мы уже встречались с такими двойными процессами в контексте распознавания символов исходя из их геометрического представления: обработка изображения заключалась в выявлении геометрических характеристик изображения и анализа полученного образа, то есть определения значения этих характеристик.

Обработка изображений влечет за собой множество смежных исследований. Например, усиление контуров, то есть процесс применения математических методов для подчеркивания границ между областями изображения. В каком-то смысле усиление контуров — это попытка преобразования фотографии в чертеж. Другое приложение анализа изображений — это поиск зон, то есть областей изображения со сходными характеристиками, такими как яркость, цвет или текстура. Зоны обычно являются частям одного объекта. Именно возможность распознавания зон позволяет компьютерам добавлять цвета в комиксы или раскрашивать старинные черно-белые фильмы. Еще одно приложение обработки изображений — сглаживание, то есть удаление дефектов изображения. При сглаживании ошибки изображения скрываются от других процессов, входящих в обработку изображений, однако слишком большое сглаживание может привести к исчезновению важной информации.

Сглаживание, усиление контуров и поиск зон — это шаги по направлению к идентификации компонентов изображения. Анализ изображения — это процесс выяснения, что представляют эти компоненты и, в конечном итоге, что представляет собой все изображение. Здесь возникает такая проблема, как распознавание частично скрытых объектов с различных перспектив. Один из подходов к анализу заключается в том, что сначала высказывается предположение, что может представлять собой изображение, а далее производятся попытки связать компоненты изображения с предполагаемыми объектами. Этот способ похож на процесс человеческого мышления — иногда, когда все вокруг выглядит расплывчатым, нам трудно распознать незнакомый объект, но если мы получим подсказку о том, что это может быть, то с легкостью рассмотрим его.

Существует огромное количество различных проблем, связанных с анализом изображений, и в этой области необходимо исследовать еще многое. Задачи, с которыми быстро и просто справляется человеческий разум, все так же остаются за пределами возможностей машин. Тем не менее, в современной ситуации есть признаки того, что альтернативные архитектуры машин смогут однажды преодолеть проблемы, остающиеся нерешенными сегодня (см. раздел 10.4).

Мышление

После того как наша машина для решения головоломки узнала, в каком порядке расположены фишки на визуальном образе, перед ней встает новая задача — вычислить, какие действия необходимо предпринять для решения головоломки. На ум сразу же приходит решение запрограммировать в машине решения для всех возможных состояний головоломки. Тогда машине потребуется просто выбрать и выполнить подходящую программу. Но для головоломки с восемью фишками существует 181 440 различных конфигураций, поэтому вариант программирования явных решений для каждой из них выглядит не слишком привлекательным, а если учесть ограничения по времени и объему памяти, то и вовсе невозможным.

Следовательно, лучше запрограммировать машину так, чтобы она самостоятельно проектировала возможные решения для головоломки из восьми фишек. Это означает, что в машине необходимо запрограммировать возможность принимать решения, делать выводы и, в целом, производить элементарные мыслительные действия.