Заниматься обеспечением безопасности ИИ надо начинать уже сегодня (часть 1)

По поводу рисков, которые связанны с искусственным интеллектом, можно кратко сформулировать следующие аргументы, доказывающие всю серьёзность ситуации:
1. Если люди не уничтожат сами себя, то в итоге мы сможем создать искусственный интеллект человеческого уровня.
2. Если люди смогут создать искусственный интеллект человеческого уровня, то прогресс будет продолжаться, и,в конце концов,люди придут к искусственному интеллекту, уровень которого будет намного выше человеческого.
3. Если возникнет такой искусственный интеллект, в итоге он окажется настолько сильнее человечества, что все наше существование станет зависеть от того, будет ли он совпадать в своих целях c людьми.
4. Уже в настоящий момент можно провести необходимые исследования, увеличащие шансы людей на то, чтобы успешно решить задачу совпадения целей людей и искусственного интеллекта.
5. Так как мы можем уже приступать к этим исследованиям, нам, скорее всего, и следует так поступить, ведь будет очень недальновидно бросать эту проблему до тех пор, пока она не превратится в слишком явную и срочную.
В трёх первых пунктах я уверен больше чем на 95% — это рассуждения на тему того, что если тенденции сегодняшнего движения к определённой цели будут сохраняться, то в результате мы к ней придём. В последних же двух утверждениях я меньше уверен, примерно на 50%.

В целом, все мои комментаторы были с этими утверждениями согласны. Всерьёз никто не пытался как-то спорить с первыми тремя пунктами, но многие говорили, что сейчас нет смысла беспокоиться по поводу искусственного интеллекта. В итоге мы получили расширенную аналогию с незаконным взломом компьютеров. Это огромная проблема, которую мы никогда не могли полностью решить – но если бы Алан Тьюринг пожелал решать бы эту проблему в 1945 году, то его идеи оказались бы похожими на «перфокарты надо хранить в закрытой коробке, чтобы их не прочитали немецкие шпионы». Не закончится сейчас ли попытка решать проблемы, которые связаны с искусственным интеллектом чем-то похожим?

Существует такая вероятность. Но есть несколько причин, по которым я с этим не соглашусь. Некоторые из них – довольно общие, можно сказать, мета-уровня, некоторые –конкретней и объективней. Наиболее важная из причин мета-уровня: если принять первые три пункта, то есть, если мы не сумеем решить вопрос совпадения целей людей с целями искусственного интеллекта, то человечества вымрет, то вы действительно считаете, что шансы человечества на подвижки в решении этой проблемы малы.Столь малы, что мы скажем «Да, конечно, мы на пути к самоуничтожению, но разве исследование вопроса о том, способны ли мы что-нибудь с этим сделать, станет эффективной тратой ресурсов». А каковы те другие, удивительные варианты использования ресурсов, которые вам больше по душе?Конечно, можно приводить аргументы в стиле пари Паскаля, но стоит учесть, что профессиональный боксёр получает за бой намного больше, чем мы потратили на изучение рисков, связанных с искусственным интеллектом, за всю историю существования человечества!

Если бы ограничение искусственного интеллекта привлекало хотя бы одну десятую часть того внимания или одну сотую часть тех денег, которые привлекли боксёрские матчи с участием искусственного интеллекта, мир был бы намного спокойнее.
Но мне хотелось сделать ещё более сильное заявление: риски, связанные с искусственным интеллектом не просто важнее, чем боксёрские матчи; это так же важно, как и все другие вещи, которые считаются важными, к примеру, сохранение окружающей среды, поиск лекарств от болезней, обнаружение опасных астероидов. И потому следует доказать, что в этом вопросе прогресс может быть достигнуть даже на столь раннем этапе развития этой области.

И я полагаю, что прогресс возможен, так как эта проблема находится в области не технологий, а философии. Сейчас нашей целью является не «написать код, контролирующий будущее искусственного интеллекта», а «понять, с какой нам придётся столкнуться категорией задач». Позвольте мне привести несколько примеров открытых проблем, чтобы плавно перейти к дискуссии об их текущей актуальности.

Проблема 1: электроды и мозг

В мозг некоторых людей имплантированы электроды – это сделано как для терапевтических, так и для исследовательских целей. Если электрод попадает в определённые участки мозга, например, в боковую часть гипоталамуса, у человека возникает непреодолимое стремление к максимально возможной их стимуляции. Если дать ему кнопку для стимуляции, он будет нажимать её много раз в час. Если у него попытаться забрать эту кнопку, он будет защищать её - свирепо и отчаянно. Их жизнь и цели сжимаются до точки, привычные цели,такие как любовь, деньги, слава, дружба – человек забывает, и всё из-за стремления к максимальной стимуляции электрода.

Это хорошо совпадает с тем, что нам известно о нейробиологии. Грубо говоря, награды в мозге выдаются через электрическое напряжение, которое возникает в парочке центров вознаграждения, и потому мозг стремится ко всему, что максимизирует получение наград. Обычно это неплохо работает после удовлетворения биологических потребностей, таких как, еда или секс, центр наград отвечает на это, закрепляя рефлексы, и поэтому вы продолжаете удовлетворять ваши биологические потребности. Но прямая стимуляция центров вознаграждения при помощи электродов работает гораздо сильнее, чем простое ожидание небольших наград, которые получены естественным путём, потому подобная деятельность становится по умолчанию максимально вознаграждающей. Человек, который получил возможность прямой стимуляции центра вознаграждений, забудет обо всех этих непрямых путях получения наград вроде «счастливой жизни», и просто будет как можно больше нажимать соединённую с электродом кнопку.
И для этого даже не нужна нейрохирургия –наркотики, подобные кокаину и метамфетамину, вызывают привыкание в частности потому, что вмешиваются в работу биохимии мозга и увеличивают уровень стимуляции центров вознаграждения.

Компьютеры могут столкнуться со схожей проблемой. Не могу найти ссылку, но помню историю про эволюционный алгоритм, разработанный для создания кода в каком-то приложении. Он генерировал код наполовину случайно, потом прогонял его через «функцию совместимости», определявшую, насколько он полезен, и лучшие участки кода скрещивались друг с другом, немного мутируя, до тех пор, пока не получался адекватный результат.

В итоге, конечно же, получился код, взломавший функцию совместимости, в результате чего она выдала какое-то абсурдно высокое значение.

Это не единичные случаи. Любое мышление, которое работает с обучением с подкреплением и функцией вознаграждения – а это, по-видимому, универсальная схема, как в биологическом мире, так и в растущем количестве примеров искусственного интеллекта – станет обладать похожим недостатком. Основная защита против этой проблемы, на данный момент – отсутствие возможностей. Большинство компьютерных программ не настолько умны, чтобы «взломать функцию получения награды». А у людей системы вознаграждения спрятаны глубоко в голове, где мы не способны добраться до них. У гипотетического сверхразума такой проблемы не будет, он будет точно знать, где находится центр его вознаграждений, и он будет достаточно умным, чтобы до него добраться и перепрограммировать.

В итоге, если только мы не предпримем осознанных действий для предотвращения, получится, что искусственный интеллект, разработанный для лечения рака, взломает свой собственный модуль, определяющий, сколько рака он вылечил, и задаст ему максимальное значение из возможных. А затем отправится на поиски способов увеличения памяти, чтобы в ней можно было хранить ещё большее значение. Если он будет сверхразумным, то в варианты расширения памяти можно будет включить «получение контроля над всеми компьютерами в мире» и «превращение всего того, что не является компьютером, в компьютер».

Это не какая-то экзотическая ловушка, в которую могут попасть несколько странных алгоритмов; это может быть естественным путём развития для достаточно умной системы обучения с подкреплением.

Проблема 2: странная теория принятия решений

Пари Паскаля – известный аргумент на тему того, почему логично присоединяться к религии. Даже если вы считаете, что вероятность существования бога исчезающе мала, последствия вашей ошибки (попадание в ад) велики, а преимущества в случае, если вы окажетесь правы (можно не ходить в церковь по воскресеньям), относительно малы – поэтому кажется выгодным просто верить в бога, на всякий случай. Хотя к такому рассуждению было придумано достаточно много возражений на основе канонов конкретных религий (хочет ли бог, чтобы в него верили на основе такого анализа), эту проблему можно обобщить до случая, когда человеку выгодно стать приверженцем чего угодно, просто потому, что вы пообещали ему за это огромную награду. Если награда достаточно велика, она пересиливает все сомнения человека по поводу ваших способностей обеспечить эту награду.

Эта проблема в теории решений не связана с вопросами интеллекта. Очень умная личность, вероятно, сможет подсчитать вероятность существования бога, и численно прикинуть недостатки ада – но без хорошей теории принятия решений никакой интеллект не спасёт вас от пари Паскаля. Именно интеллект позволяет вам провести формальные математические вычисления, убеждающие вас в необходимости принятия пари.

Люди легко сопротивляются таким проблемам – большинство людей пари Паскаля не убедит, даже если они не найдут в нём недостатков. Однако непонятно, благодаря чему мы обладаем такой сопротивляемостью. Компьютеры, печально известные тем, что полагаются на формальную математику, но не обладают здравым смыслом, не приобретут такой сопротивляемости, если в них её не вложат. А вложить их в неё – задача трудная. Большинство лазеек, которые отвергают пари Паскаля без глубокого понимания того, к чему приводит использование формальной математики, просто порождают новые парадоксы. Решение на основе хорошего понимания того, в какой момент формальная математика перестаёт работать, сохраняющее при этом полезность математики в решении повседневных задач, насколько я знаю, ещё не выработано. Что хуже, решив пари Паскаля, мы столкнёмся с парой десятков похожих парадоксов теории решений, которые могут потребовать совершенно других решений.

Это не просто хитрый философский трюк. Достаточно хороший «хакер» может свергнуть все галактический искусственный интеллект, просто угрожая (бездоказательно) невероятным уроном в случае, если искусственный интеллект не выполнит его требования. Если искусственный интеллект не будет защищён от подобных «пари Паскаля» парадоксов, он решит выполнить требования хакера.

Проблема 3: эффект злого гения

Все знают, что проблема с компьютерами в том, что они делают то, что вы им говорите, а не то, что вы имеете в виду. Сегодня это значит всего лишь, что программа будет работать по-другому, когда вы забудете закрыть скобку, или веб-сайты будут выглядеть странно, если вы перепутаете HTML-теги. Но это может привести к тому, что искусственный интеллект сможет неправильно понять приказы, данные на естественном языке.

Это хорошо показано в истории Эра Альтрона. Тони Старк приказывает суперкомпьютеру Альтрон наладить мир во всём мире. Альтрон подсчитывает, что самый быстрый и надёжный способ сделать это – уничтожить всю жизнь. Альтрон, по-моему, прав на 100%, и в реальности всё так бы и произошло. Мы могли бы получить тот же эффект, задав искусственному интеллекту задачи типа «вылечить рак» или «покончить с голодом», или любую из тысяч подобных.