Пример технической неудачи

«Вместо законов, ограничивающих поведение интеллектуальных машин, мы должны дать им эмоции, которые будут руководить их обучением поведению. Они должны хотеть, чтобы мы были счастливы и процветали, – что есть эмоция, которую мы называем любовью. Мы можем спроектировать интеллектуальные машины так, что их основная, врождённая эмоция будет безусловная любовь ко всем людям. В начале мы можем сделать относительно простые машины, которые научатся распознавать выражения счастья и несчастья на человеческом лице, человеческие голоса и человеческий язык жестов. Затем мы можем жёстко привязать результат этого обучения в качестве изначально присущих эмоциональных ценностей более сложным интеллектуальным машинам, позитивно подкрепляемым, когда мы счастливы, и негативно – когда несчастливы. Машины могут обучиться алгоритмам приблизительного предсказания будущего, как, например, инвесторы используют сейчас обучающиеся машины, чтобы предсказать будущие цены облигаций. Таким способом мы можем запрограммировать интеллектуальные машины обучиться алгоритмам предсказания будущего человеческого счастья, и использовать эти предсказания, как эмоциональные ценности».

Bill Hibbard (2001), Сверх-интеллектуальные машины (Super-intelligent machines.)

Однажды американская армия захотела использовать нейронную сеть для автоматического обнаружения закамуфлированных танков. Исследователи натренировали нейронную сеть на 50 фотографиях закамуфлированных танков среди деревьев, и на 50 фото деревьев без танков. Использую стандартные методики контролируемого обучения, исследователи обучили нейронную сеть взвешиванию, которое правильно опознавало тренировочный набор – ответ «да» – для 50 фотография закамуфлированных танков, и ответ «нет» для 50 фотографий леса. Это не гарантировало, ни даже означало, что новые образцы будут классифицированы правильно. Нейронная сеть могла обучиться ста отдельным случаям, которые могли не обобщаться ни на одну новую задачу. Предусмотрительные исследователи сделали в начале 200 фото, 100 фото танков и 100 деревьев. Они использовали только 50 из каждой группы для тренировочного набора. Исследователи запустили в нейронную сеть оставшиеся 100 фото, и без дальнейшей тренировки нейронная сеть распознала все оставшиеся фотографии правильно. Успех подтвердился! Исследователи направили законченную работу в Пентагон, откуда её вскоре вернули, жалуясь, что в их собственной серии тестов нейронная сеть была не лучше, чем случай, в отборе фотографий.

Оказалось, что в наборе данных исследователей фотографии закамуфлированных танков были сделаны в облачные дни, тогда как фотографии чистого леса были сделаны в солнечные дни. Нейронная сеть обучилась различать облачные и солнечные дни вместо того, чтобы научиться различать закамуфлированные танки от пустого леса.[163]

Технический провал имеет место, когда код не делает то, что, вы думаете, он делает, хотя он четно выполняет то, на что вы его запрограммировали. Одни и те же данные могут соответствовать разным моделям. Допустим, что мы обучаем нейронную сеть различать улыбающиеся человеческие лица и отличать их от хмурящихся лиц. Будет ли эта сеть распознавать маленькую картинку смеющегося лица как такой же аттрактор, как и смеющееся человеческое лицо? Если ИИ, жёстко фиксированный на таком коде, обретёт власть – и Hibbard (2001) говорит о сверхинтеллекте – не закончит ли галактика тем, что будет покрыта малюсенькими молекулярными картинками улыбающихся лиц?[164]

Эта форма провала особенно опасна, потому что система выглядит работающей в одном контексте, и проваливается при смене контекста. Создатели «определителя танков» обучали свою нейронную сеть до тех пор, пока она не начинала правильно распознавать данные, затем проверили сеть на дополнительных данных (без дальнейшего обучения). К несчастью, данные и для обучения, и для проверки содержали предположение, которое относилось ко всей информации, использованной в разработке, но не к ситуациям реального мира, где нейронная сеть была призвана работать. В истории с определителем танков это предположение состояло в том, что танки фотографируются в облачные дни.

Предположим, мы стремимся создать усиливающийся ИИ. Этот ИИ будет иметь фазу развития, когда люди-программисты будут сильнее его – не только в смысле физического контроля над электропитанием ИИ, но в смысле, что люди-программисты умнее, хитрее и более творческие, чем этот ИИ. Мы предполагаем, что в течение фазы развития программисты будут обладать способностью изменять исходный код ИИ без его согласия. После этого момента мы должны полагаться на установленную до того систему целей, потому что, если ИИ заработает достаточно непредсказуемым образом, то он сможет активно сопротивляться нашим попыткам корректировать его – и если ИИ умнее человека, то, скорее всего, он победит.

Попытки контролировать растущий ИИ посредством тренировки нейронной сети, чтобы создать его систему целей сталкиваются с проблемой большой смены контекста при переходе от стадии развития ИИ к стадии после его развития (postdevelopmental stage). На стадии развития, ИИ может быть только способен создавать реакции, попадающие в категорию «улыбающихся человеческих лиц», решая предоставленные людьми задачи, как задумали его создатели. Вскоре, когда ИИ станет сверхчеловечески интеллектуален и создаст свою собственную нанотехнологическую инфраструктуру, он станет способен создавать столь же притягательные для него стимулы, покрывая всю галактику маленькими улыбающимися лицами.

Таким образом, ИИ кажется работающим правильно на стадии разработки, но создаёт катастрофические результаты, когда он становится умнее программистов(!)

Есть соблазн подумать: «Но наверняка ИИ будет знать, что это не то, что мы имеем в виду?» Но код не дан ИИ, чтобы он его просмотрел и вернул, если выяснится, что он работает неправильно. Код и есть ИИ. Возможно, приложив достаточно усилий и понимания, мы можем написать код, который следит, чтобы мы не написали неправильный код – легендарная DWIM-инструкция, которая среди программистов означает делай-то-что-я-имею-в-виду. (Do-What-I-Mean. (Raymond, 2003.)) Но требуются усилия, чтобы описать механику работы DWIM, и нигде в предложении Хиббарда нет упоминаний о создании ИИ, который делает то, что мы имеем в виду, а не то, что мы говорим. Современные чипы не выполняют DWIM над своим кодом; это не автоматическое свойство. И если у вас проблемы с самим DWIM, вы пострадаете от последствий. Предположим, например, что DWIM был определён так, чтобы максимизировать удовлетворение программиста от своего кода; когда этот код запустится как сверхинтеллект, он может переписать мозги программиста, чтобы он был максимально удовлетворён этим кодом. Я не говорю, что это неизбежно; я только говорю, что Делай-то-что-я-имею-в-виду – это большая и не тривиальная техническая проблема на пути к Дружественному ИИ.