Темпы усиления интеллекта

С точки зрения глобальных рисков, одно из наиболее критических обстоятельств в связи с ИИ, это то, что ИИ может усилить свой интеллект чрезвычайно быстро. Очевидная причина подозревать такую возможность – это рекурсивное само-улучшение (Good, 1965) ИИ становится умнее, в том числе умнее в отношении написания внутренней когнитивной функции ИИ, так что ИИ может переписать свою существующую когнитивную функцию, чтобы она работала лучше. Это сделает ИИ ещё умнее, в том числе умнее в отношении задачи переделывания себя, так что он сделает ещё больше улучшений.

Люди по большому счёту не могут улучшать себя рекурсивно. В ограниченном объёме мы себя улучшаем: мы учимся, мы тренируемся, мы затачиваем свои навыки и знания. В небольшом отношении эти само-улучшения улучшают нашу способность улучшаться. Новые открытия могут увеличить нашу способность делать дальнейшие открытия – в этом смысле знание само себя питает. Но есть более нижний уровень, которого мы даже не коснулись. Мы не переписываем человеческий мозг. Мозг является, в конечном счёте, источником открытий (the source of discovery), и наши мозги сейчас почти такие же, как они были 10 тысяч лет назад.

Похожим образом, естественный отбор улучшает организмы, но процесс естественного отбора не улучшает сам себя – по большому счёту. Одна адаптация может открыть дорогу к дополнительным адаптациям. В этом смысле адаптация питает сама себя. Но даже когда генетический океан (pool) кипит, там всё равно присутствует нижестоящий нагреватель, а именно процессы рекомбинации, мутации и селекции, которые сами себя не перепроектируют. Несколько редких нововведений увеличили скорость эволюции самой по себе, например, появление половой рекомбинации. Но даже пол не изменил сущностной природы эволюции: её отсутствие абстрактного интеллекта, её зависимость от случайных мутаций, её слепоту и постепенность, её сосредоточенность на частоте аллелей. Точно также появление науки не изменило сущностного характера человеческого мозга: его лимбическое ядро, церебральный кортекс, его префронтальные собственные модели (prefrontal self-models), его характеристическую скорость в 200 ГЦ.

ИИ может переписать свой код с самого начала – он может изменить лежащую в основе динамику процесса оптимизации. Такой процесс оптимизации будет закручиваться гораздо сильнее, чем эволюционные накапливающие адаптации, равно как и человеческие накапливающиеся знания. Главным последствием с точки зрения наших целей является то, что ИИ может совершить огромный прыжок в интеллектуальности после достижения некого порога критичности.

Часто встречающееся скептическое мнение об этом сценарии, – который Good (1965) назвал «интеллектуальным взрывом» – происходит из того, что прогресс в области ИИ имеет репутацию очень медленного.

Здесь полезно рассмотреть свободную историческую аналогию об одном неожиданном открытии. (Дальнейшее взято главным образом из Rhodes, 1986.)

В 1933 году лорд Эрнст Резерфорд заявил, что никто не должен ожидать, что когда-нибудь удастся извлечь энергию из распада атома: «Любой, кто искал источник энергии в трансформации атомов, говорил вздор». В те времена требовались дни и недели работы, чтобы расщепить небольшое количество ядер.

Вскоре, в 1942 году, на теннисном корте под Стаг Филдом около университета Чикаго физики строят агрегат в форме гигантской шарообразной дверной ручки из чередующихся слоёв графита и урана, намереваясь запустить первую само-поддерживающуюся ядерную реакцию. За проект отвечает Энрико Ферми.

Ключевым числом для реактора является K, эффективный фактор умножения нейтронов: то есть среднее значение числа нейтронов из реакции деления, которое вызывает другую реакцию деления. Пока К меньше единицы, реактор является субкритическим. При К >=1 реактор должен поддерживать критическую реакцию. Ферми рассчитал, что реактор достигнет К=1 при числе слоёв между 56 и 57.

Рабочая группа, руководимая Гербертом Андерсоном, закончила 57 слой в ночь 1 декабря 1942 года. Контрольные стержни – бруски дерева, покрытые поглощающей нейтроны кадмиевой фольгой, – предохраняли реактор от достижения критичности. Андерсон убрал все стержни, кроме одного и замерил радиацию реактора, подтвердив, что реактор готов к цепной реакции на следующий день. Андерсон вставил все стержни, запер их на висячие замки, запер теннисный корт и пошёл домой.

На следующий день, 2 декабря 1942 года, ветреным и морозным Чикагским утром, Ферми начал окончательный эксперимент. Все, кроме одного, стержни были подняты. В 10:37 Ферми приказал поднять последний контролирующий стержень на половину высоты. Счётчики Гейгера застучали чаще, и самописец дёрнулся вверх. «Это не то, – сказал Ферми, – график дойдёт до вот этой точки и выровняется», – указывая на точку на графике. Через несколько минут самописец дошёл до указанной точки, и не пошёл выше. Через несколько минут Ферми приказал поднять стержень ещё на один фут. Опять радиация усилилась, но затем выровнялась. Стержень подняли ещё на 6 дюймов, затем ещё и ещё.

В 11:30 медленный подъём самописца прервался колоссальным ПАДЕНИЕМ – защитный контролирующий стержень, запущенный ионизационным датчиком, активировался и опустился в реактор, который был всё ещё некритичен. Ферми тихо приказал команде сделать перерыв на обед.

В два часа пополудни команда собралась снова, вынула и заперла защитный стержень, и вывела контролирующий стержень на его последнюю позицию. Ферми сделал несколько измерений и вычислений, и затем опять начал процесс подъёма стержня небольшими шагами. В 15:25 Ферми приказал поднять стержень ещё на 12 дюймов. «Это должно дать результат», – сказал Ферми. «Сейчас она станет самоподдерживающейся. График будет расти и расти, не выравниваясь».

Герберт Андерсон рассказывает (Rhodes, 1986):

«В начале вы могли слышать звук нейтронного счётчика, щёлк-щёлк. Затем щёлчки стали появляться всё чаще и через некоторое время они слились в рёв; счётчик за ними больше не успевал. Теперь надо было переключаться на графический регистратор. Но когда это было сделано, все уставились во внезапной тишине на возрастающее отклонение пера самописца. Это была значительная тишина. Каждый понимал значительность этого переключения; мы были на режиме высшей интенсивности и счётчики больше не могли справляться с этой ситуацией. Снова и снова шкала самописца должна была сменяться, чтобы подстраиваться под интенсивность нейтронов, которая возрастал всё более и более быстро. Внезапно Ферми поднял свою руку. «Реактор достиг критичности», – объявил он. Никто из присутствующих не имел на этот счёт никаких сомнений».

Ферми дал проработать реактору 28 минут, при скорости удвоения интенсивности нейтронов в две минуты. Первая критическая реакция имела К в 1,0006. Но даже при К=1.0006 реактор был контролируем только потому, что некоторые из нейтронов из деления урана задерживаются – они получаются при распаде короткоживущих продуктов деления. На каждые 100 распадов U₂₃₅ 242 нейтрона испускаются почти мгновенно (0,0001 сек) и 1,58 нейтронов испускаются в среднем через десять секунд. Поскольку среднее время жизни нейтрона ~0.1 секунды, что означает 1200 поколений за 2 минуты, и время удвоения в 2 минуты, потому что умножение 1.0006 на 1200 примерно даёт 2. Ядерная реакция, являющаяся мгновенно критичной (prompt critical), достигает критичности без вклада отложенных нейтронов. Если бы реактор Ферми был бы мгновенно критичным с k=1.0006, интенсивность нейтронов удваивалась бы каждую десятую долю секунды.

Первая мораль этой истории состоит в том, что смешение скорости исследований ИИ со скоростью реального ИИ подобно смешению скорости физических исследований со скоростью ядерных реакций. Происходит смешение карты и территории. Потребовались годы, чтобы построить этот первый реактор, усилиями небольшой группы физиков, которые не публиковали много пресс-релизов. Но когда реактор был построен, интересные события произошли на временной шкале ядерных взаимодействий, а не на временной шкале человеческого общения. В ядерной области элементарные взаимодействия происходят гораздо быстрее, чем срабатывают человеческие нейроны. Тоже может быть сказано о транзисторах.

Другая мораль в том, что есть колоссальная разница между ситуацией, когда одно самоулучшение запускает в среднем 0.9994 дальнейших самоулучшений, и когда одно самоулучшение запускает 1.0006 дальнейших самоулучшений. Ядерный реактор перешёл порог критичности не потому, что физики внезапно заложили в него много дополнительного вещества. Физики вводили вещество медленно и равномерно. Даже если имеется гладкая кривая интеллектуальности мозга как функции оптимизационного давления, оказанного до того на этот мозг, то кривая рекурсивного самоулучшения может содержать огромный скачок.

Есть и другие причины, по которым ИИ может совершить внезапный огромный скачок в интеллектуальности. Вид Homo sapiens совершил большой прыжок в эффективности интеллекта, как результат естественного отбора, оказывавшего более-менее равномерное давление на гоминидов в течение миллионов лет, постепенно расширяя мозг и лобовую кору, настраивая программную архитектуру. Несколько десятков тысяч лет назад интеллект гоминидов пересёк некий ключевой порог и сделал огромный прыжок в эффективности в реальном мире; мы перешли от пещер к небоскрёбам за мгновение ока эволюции. Это произошло при неизменном давлении отбора – не было большого прыжка в оптимизирующей силе эволюции, когда появились люди. Наша соответствующая мозговая архитектура тоже развивалась плавно – объём нашего черепа не увеличился вдруг на два порядка величины. Так что может так случиться, что даже если ИИ будет развивать снаружи силами людей-инженеров, кривая его интеллектуальной эффективности совершит резкий скачок.

Или, возможно, некто построит прототип ИИ, который покажет некие многообещающие результаты, и эта демо-версия привлечёт дополнительные 100 миллионов долларов венчурного капитала, и на эти деньги будет закуплено в тысячу раз больше суперкомпьютеров. Я сомневаюсь, что усиление оборудования в 1000 раз приведёт к чему-либо подобному усилению интеллектуального потенциала в 1000 раз – но само это сомнение не надёжно при отсутствии какой-либо возможности произвести какие-либо аналитические вычисления.

В сравнении с шимпанзе, человек имеет трёхкратное преимущество в мозге и шестикратное – в лобовой коре, что означает (а) программы важнее оборудования и (б) малые увеличения оборудования могут поддержать большие улучшения программного обеспечения. И есть ещё один момент, который надо рассмотреть.

В конечном счёте, ИИ может сделать кажущийся резким скачок в интеллектуальности только по причине антропоморфизма, то есть человеческой склонности думать о «деревенском идиоте» и Эйнштейне как о крайних границах интеллектуальной шкалы, а не как о почти неразличимых точках на шкале умов-вообще.

Любой объект, более немой, чем немой человек, может показаться нам просто немым. Можно представить «стрелу ИИ», медленно ползущую по шкале интеллекта, проходящую уровни мыши и шимпанзе, и при этом ИИ остаётся всё ещё немым, потому что ИИ не может свободно говорить или писать научные статьи, и затем стрела ИИ пересекает тонкую грань между ультра-идиотом и Эйнштейном в течение месяца или такого же малого периода. Я не думаю, что этот сценарий убедителен, в основном, потому что я не ожидаю, что кривая рекурсивного самоулучшения будет ползти линейно. Но я не буду первым, кто укажет, что ИИ – это двигающаяся цель. Как только веха достигнута, она перестаёт быть ИИ. Это может только вдохновлять промедление.

Давайте допустим, для продолжения дискуссии, что, исходя из всего, что мы знаем (и это кажется мне реально возможным), ИИ обладает способностью совершить внезапный, резкий, огромный скачок в интеллектуальности. Что из этого следует? Первое и главное: из этого следует, что реакция, которую я часто слышал: «Нам не следует заботится о Дружественном ИИ, потому что у нас ещё нет самого ИИ» – неверна или просто самоубийственна. Мы не можем полагаться на то, что у нас будут заранее предупреждающе сигналы до того, как ИИ будет создан; прошлые технологические революции обычно не телеграфировали о себе людям, жившим в том время, что бы потом ни говорилось. Математика и техника Дружественного ИИ не появится из ниоткуда, когда она будет нужна; требуются годы, чтобы установить твёрдые основания. И мы должны разрешить проблему Дружественного ИИ до того, как универсальный ИИ появится, а не после; мне даже не следует говорить об этом. Будут трудности с Дружественным ИИ, потому что поле исследований ИИ само по себе имеет мало согласия и высокую энтропию. Но это не значит, что мы не должны беспокоиться о Дружественном ИИ. Это означает, что будут трудности. Эти два утверждения, к сожалению, даже отдалённо не эквивалентны.

Возможность резкого скачка в интеллектуальности также требует высоких стандартов для техники Дружественного ИИ. Техника не может полагаться на способность программиста наблюдать ИИ против его воли, переписывать ИИ против его воли, угрожать превосходящей военной силой, ни на то, что программисты смогут контролировать «кнопку вознаграждения», которую умный ИИ отберёт у программистов, и так далее. В действительности, никто не должен исходить из этих предположений. Необходимой защитой является ИИ, который не хочет вам повредить. Без этого ни одна дополнительная защита не является безопасной. Ни одна система не является безопасной, если она ищет способы разрушить свою безопасность. Если ИИ повредит человечеству в любом смысле, вы должны были сделать что-то неправильно на очень глубоком уровне, искривив свои основные посылки. Вы делаете дробовик, направляете его на свою ступню и спускаете крючок. Вы осознанно приводите в движение некую когнитивную динамику, которая, при некоторых обстоятельствах, будет стремиться вам повредить. Это – неправильное поведение для данной динамики; напишите вместо этого код, который делает что-то другое.

Примерно по тем же причинам, программисты Дружественного ИИ должны предполагать, что ИИ имеет полный доступ к своему исходному коду. Если ИИ хочет модифицировать себя, чтобы не быть больше Дружественным, Дружественность уже потерпела неудачу в тот момент, когда Ии создал такое намерение. Любое решение, которое полагается на то, что ИИ не будет способен модифицировать сам себя, будет разрушено тем или иным способом, и будет разрушено даже в том случае, если ИИ решит никогда себя не модифицировать. Я не говорю, что это должна быть единственная предосторожность, но главной и незаменимой предосторожностью будет то, что вы создадите ИИ, который не захочет вредить человечеству.

Чтобы избежать ошибочности Гигансткой Ватрушки, мы должны сказать, что способность улучшать себя не означает выбора делать это. Успешное воплощение техники Дружественного ИИ может создать ИИ, который обладает потенциалом расти более быстро, но выбирающего вместо этого расти медленнее и по более управляемой кривой.

Даже в этом случае, после того, как ИИ пройдёт критический порог рекурсивного самоулучшения, вы окажетесь действующими в гораздо более опасном режиме. Если дружественность потерпит неудачу, ИИ может решить направиться с полной скоростью в сторону самоулучшения – метафорически говоря, он станет мгновенно критичным.

Я склонен предполагать потенциально произвольно большие прыжки в интеллектуальности, потому что это (а) консервативное предположение; (б) это отвергает предложения построить ИИ без реального понимания его; и (с) большие скачки потенциала (large potential jumps) кажутся мне наиболее вероятными в реальном мире. Если я обнаружу некую область знаний, в которой консервативной точкой зрения по поводу перспектив управления рисками предполагается медленное улучшение ИИ, тогда я потребую, чтобы этот план не стал катастрофическим, если ИИ замедлится на около-человеческой стадии на годы или дольше. Это не та область, относительно которой бы мне хотелось предлагать узкие интервалы уверенности.