Журнал «Человек без границ»

Информация о материале: Автор: Алексей Чучичков

Распознавание образов Один из наиболее емких каналов восприятия информации для человека — зрительный. В основном именно благодаря зрению человек легко ориентируется в окружающем мире — без труда отличает один предмет от другого, оценивает их размеры и расположение в пространстве, состав материала, из которого они изготовлены.
Это свойство во многом определило интерес исследователей к изучению механизма зрительного анализатора — ведь успехи в этой области позволили бы конструировать автоматы, способные заменить человека во многих областях его деятельности.

Устройство глаза и его сходство с оптическими приборами типа фотоаппарата было осознано довольно давно: хрусталик, как маленькая линза, формирует изображение на дне глазного яблока, выстланного светочувствительными клетками. Однако это еще не позволило ответить на вопрос, как с помощью зрения удается узнавать объекты и ориентироваться в пространстве; было лишь ясно, что ответ на него нужно искать в устройстве нервной системы. Первые успехи были связаны с работами по моделированию зрительного восприятия лягушки: выяснилось, что структура нервных связей, идущих от светочувствительных клеток, такова, что позволяет выделять движущиеся объекты на фоне неподвижных. Величина этих объектов определяла поведение лягушки: маленькие объекты следует съедать, а от больших — прятаться. Разгадка структуры нервных связей в зрительном аппарате лягушки позволила сконструировать искусственные системы, выделяющие движущиеся объекты на серии изображений.
Однако поведение человека сложнее, чем лягушки. Дальнейшие исследования натолкнули ученых на мысль, что мозг человека может выделять на изображении определенные характерные признаки, совокупность которых в дальнейшем позволяет узнавать объект и определять его характеристики — геометрическую форму, расположение, размер, состав материала и т. п. И хотя до сих пор не ясно, действительно ли по такому принципу работает зрительный аппарат, эти исследования дали многое для того, чтобы вплотную подойти к созданию «зрячих машин».
С начала 50-х годов ХХ века начало расцветать новое научное направление — распознавание образов. В это время появились первые электронно-вычислительные машины, и казалось, что до создания искусственного интеллекта осталось всего-то пара шагов. Классический подход состоял в выделении на изображении системы признаков, или информативных деталей, после чего вместо самого изображения анализировался его код — система количественных или качественных признаков, составляющих его описание. Сложность состояла в выборе этой системы признаков — здесь трудно было придумать какие-либо общие принципы, позволяющие сделать это априори. Попытки разобраться с тем, насколько важен тот или иной признак для узнавания объекта, привели к развитию методов факторного анализа, теории кластеров, новым подходам в теории информации и т. п. Необходимость создания самих формальных правил, позволяющих отнести объект к тому или иному классу по набору его признаков, тоже потребовала развития таких областей математики, как дискриминантный анализ, высшая алгебра, математическая логика, теория проверки гипотез и др.
В результате этих работ появился целый ряд интересных моделей «машинного зрения». Будучи воплощены в реальных системах, каждая из них демонстрирует свойства, похожие на зрение человека.

Один из самых первых подходов состоит в попытке создания электронных устройств, имеющих ту же структуру, что и сеть нервных клеток и связей между ними, имеющихся у человека или животных. Устройство, называемое «перцептрон», было описано в 1957 г. Розенблаттом и представляло собой слои «клеток», соединенных между собой «нервными связями». Первый слой был собран из светочувствительных элементов (сенсоров) наподобие сетчатки глаза, второй слой, называемый «ассоциативным», соединялся с первым; элемент второго слоя оказывался в «возбужденном состоянии» только тогда, когда суммарный сигнал, приходящий на него от первого слоя, превосходил некоторый порог. Далее следовал третий слой и т. п. Идея состояла в том, чтобы путем подбора связей между элементами слоев добиться, чтобы при подаче на слой сенсоров, например, любого изображения кошки, на последнем слое возбуждался один-единственный элемент, связанный с образом кошки. Если же на вход подавалось изображение собаки — должен был возбуждаться другой элемент, соответствующий образу собаки.
В таком варианте эти перцептроны, к сожалению, до сих пор не могут конкурировать с человеком по гибкости и точности распознавания, но идеи, лежащие в их основе, породили целый класс устройств, называемый «нейронными сетями», которые успешно применяются во многих областях для решения частных задач, например — в физике при исследовании новых элементарных частиц, появляющихся в экспериментах на ускорителях или в космических лучах, с помощью нейронных сетей удается с высочайшей скоростью «узнать» незнакомую частицу и измерить ее параметры.
Другая идея решения задачи узнавания объекта по его изображению состоит в том, чтобы описывать его системой признаков, отражающих его качественные или количественные особенности, которые отличают изображение одного объекта от изображений других. Этот набор признаков можно представить как последовательность чисел, задающих координаты точки в многомерном пространстве, — теперь каждому изображению геометрически соответствует точка. Образы, тем самым, оказываются заданными как некие «облака» в многомерных пространствах, и процесс узнавания связан с отнесением новой точки (предъявленного изображения) к тому или иному облаку.
Еще один подход, лежащий в этом же русле, заключается в создании специальных языков описания, моделирующих процесс обучения узнаванию: например, вы описываете своему другу внешность человека, которого он должен встретить в метро: высокий, черноволосый, волосы густые, нос прямой, носит очки и т. п. Опыт показывает, что такие словесные описания достаточно часто приводят к успеху. Но предложение, которое позволяет узнать определенного человека, построено по определенным законам русского языка — их можно формализовать и положить в основу распознающей системы. Успех, конечно, в этом случае определяется тем, насколько удачно выбраны признаки, легко ли определить их наличие и, наконец, насколько разумно действует ваш друг при поиске этого человека.
Парадоксы зрения, свойственные человеку, есть и у роботов. Например, можно придумать последовательность изображений, в которой кошка переводится в собаку. Где-то посредине есть изображения, над которыми и человек задумается, к кому бы отнести нарисованного зверя — к кошкам или к собакам? А как будут принимать решение искусственные системы узнавания? В зависимости от их конструкции они могут либо «глубоко задуматься» (т. е. отказаться от ответа), либо дать однозначный ответ, однако ошибка узнавания, которая часто может быть оценена априори, покажет, что степень уверенности в правильном решении у машины невысока.
Проблема создания искусственного аналога зрительного анализатора человека еще далека от решения. Однако для частных задач можно предложить системы, действующие значительно лучше, чем человек. Если компьютеру объяснить, чем формально одна ситуация отличается от набора других, то часто узнавать выбранную ситуацию он сможет быстрее и даже в такой ситуации, когда человек уже ничего не видит (большие шумы, низкая контрастность и т. п.). Например, сейчас уже проводятся соревнования роботов, играющих в футбол: эти роботы видят границу поля, футбольный мяч и других игроков — и больше ничего, но зато видят это хорошо. В этом смысле мы приблизились только к зрительному аппарату лягушки, отделенной от человека многими веками эволюции.

Как видит машина?