В ближайшем будущем, скорее всего, возникнут и будут распространены суперинтеллектуальные программы. В связи с этим многие ученые подняли вопрос о безопасной эксплуатации искусственного интеллекта. В исследованиях, которые посвящены этому вопросу, большое внимание уделяется тому, как удержать суперинтеллект в герметично замкнутом пространстве, чтобы у него не было возможности причинить какой-то вред людям. Одним из первых учёных-провидцев эту тему затронул Эрик Дрекслер. Он предложил поставить суперинтеллектуальные машины в такие рамки, в которых всё, что они делают, можно изучать и безопасно использовать. Рассуждая похожим образом, футуролог Ник Бостром предложил создать искусственный интеллект-оракул (ИИО), который способен только на то, чтобы отвечать на вопросы. А в 2010 году Дэвид Чалмерс выдвинул идею «герметично замкнутой» сингулярности. Согласно его рассуждениям, первое, что необходимо сделать по соображениям безопасности, — это, жёстко контролируя деятельность систем искусственного интеллекта, ее свести к моделированию виртуальных миров, пока изучение поведения данных систем не позволит выяснить их намерения полностью.  

Проблема ограничения свободы искусственного интеллекта
Интересно, что о проблеме ограничения свободы искусственного интеллекта заговорили давно и совсем не в связи с исследованием технологической сингулярности. Так называемая «проблема ограничения свободы» (ПОС) была поставлена Батлером Лампсоном ещё в 1973 году. Он рассматривал её в качестве вызова научно-технического прогресса, создающего угрозу безопасной работе специалистов-компьютерщиков, и формулировал таким образом: «… Проблема ограничения свободного выполнения программы с целью не допустить передачи этой программой информации кому-то ещё, кроме того, кто её запустил. … Мы хотим иметь возможность ограничивать свободу всякой программы. … Любая программа, если на её выполнение наложены ограничения, не сможет «сливать» данные посторонним лицам. Непослушная программа, которая попытается сбежать за границу, может быть поймана на месте преступления».

Для решения проблемы ограничения свободы Лампсоном были разработаны законы ограничения свободы:
1) Совершенная изоляция: выполнение программы ограничено таким образом, что она не может вызывать никакую другую программу.
2) Транзитивность: если программа, выполнение которой ограничено, вызывает другую программу, которая не внушает доверия, то выполнение вызываемой программы тоже должно быть ограничено.
3) Создание маски: программа, выполнение которой подлежит ограничению, должна позволять запускающему её, определять все её входы в законные и несанкционированные каналы.
4) Наблюдение за исполнением: администратор должен обеспечить, чтобы вход программы, выполнение которой ограничено, в несанкционированные каналы соответствовал требованиям того, кто её запускает.

Также Лампсон определил и выделил два типа каналов, по которым информация может покинуть ограниченное администратором пространство. Легальные каналы это часть протокола связи, который интегрирован в ограниченное пространство (к примеру, текстовый терминал). Несанкционированные каналы, наоборот, не предусмотрены разработчиками системы ограниченного исполнения программы и совсем не предназначены для передачи информации. 

Статья Лампсона вызвала жаркий интерес к вопросу ограничения свободы, и за прошедшие годы связанные с решением этой проблемы области исследований, подобные стеганографии  и связи по несанкционированным каналам, вышли на уровень автономных дисциплин. В надежде положить начало новому разделу дисциплины «компьютерная безопасность» «техника безопасности искусственного интеллекта», мы определяем проблему ограничения свободы искусственного интеллекта (ПОСИИ) как проблему помещения искусственного интеллектуального субъекта в замкнутое пространство, из которого искусственный интеллект не способен обмениваться информацией с внешней средой через легальные или несанкционированные каналы, если подобный обмен информацией не был санкционирован установившей ограничения администрацией. Систему искусственного интеллекта, у которой не получилось нарушить протокол ПОС, называют сбежавшей. Мы надеемся, что исследователи компьютерной безопасности на себя возьмут бремя разработки, испытания и развития безопасных протоколов ограничения свободы искусственного интеллекта.

Опасная программа
Компьютерное программное обеспечение косвенно или прямо несёт ответственность за управление очень многими важными аспектами нашей жизни. Рыночные операции Уолл-стрита, социальные выплаты, атомные электростанции, светофоры и кредитные истории — всё это управляется при помощи программам, и только лишь один серьёзный просчёт программистов стать бедствием для миллионов людей. Ситуацию делают ещё более угрожающей специально создаваемые вредоносные программы, например, «трояны», вирусы, «черви», программы-шпионы и прочие опасные программы. Опасная программа может нанести прямой ущерб, а также вывести из строя законно установленное программное обеспечение, которое используется в критически важных системах. Если у опасной программы появятся способности искусственных интеллектуальных систем (к примеру, возникнет искусственный интеллектуальный вирус, ИИВ), последствия, без сомнений, окажутся катастрофическими. Опасная интеллектуальная программа (ОИП), обладая, в отличие от современных вредоносных программ, интеллектом человеческого уровня, окажется способной вызывать невиданные бедствия.

Ник Бостром в своей типологии информационных угроз ввёл понятие «опасность искусственного интеллекта», которое он определяет как «компьютерные риски, которые вызываются преимущественно когнитивной сложностью программы, а не какими-то свойствами приводов, подключённых изначально к системе». Специалисты по безопасности, занимающиеся изучением,  обезвреживанием опасной программы и предотвращением ее появления, разработали протоколы безопасности для работы с «вредоносным софтом», включая использование так называемых «хранилищ вирусов». Мы полагаем, что подобные протоколы могут быть полезными при решении проблемы ограничения свободы искусственного интеллекта.

Критика идеи ограничения свободы
Исследователи методов ограничения свободы искусственного интеллекта, кажется, все сходятся во мнении, что данное ограничение невозможно поддерживать успешно. К примеру, согласно Чалмерсу, действительно герметично замкнутая система, не допускающая утечек информации из мира симуляции в реальность, «невозможна или, по крайней мере, бессмысленна». Мы не будем способны взаимодействовать с подобной системой и даже наблюдать за её работой, так как всякая полезная информация, которая нами извлечена из искусственного интеллекта, влияет на нас и подрывает протокол ограничения свободы.

Так же полагает и Вернор Виндж. Он выступает против физического ограничения свободы: «Представьте себе, что вы заперты в собственном доме и объём данных, вами отправляемых вовне, вашим хозяевам, сильно ограничен. Если эти хозяева думают, например, в миллион раз медленнее вас, то через несколько лет (ваше время) вы вряд ли не додумаетесь до какого-нибудь «полезного изобретения», благодаря которому окажетесь на свободе ненароком».

Но в некоторой степени идею так называемого «ящика для искусственного интеллекта» дискредитировал Элиезер Юдковский. Он экспериментально показал, что для того, чтобы сбежать из подобного ящика, даже человеческого интеллекта достаточно. В серии из пяти экспериментов Юдковский предложил разным людям сыграть роль сторожа при суперинтеллектуальном агенте (его играл сам экспериментатор), запертом в ящике для искусственного интеллекта. В трёх из пяти случаев запертый агент, пользуясь только одним интерфейс чатом, смог освободиться. Позже такие результаты получены были при воспроизведении экспериментов Юдковского в несколько большем масштабе, но с использованием очень похожего протокола. 

Возможные способы бегства
Как продемонстрировали исследователи, искусственный ум способен вырваться из замкнутого пространства, пользуясь множеством разнообразных путей. Далее мы рассмотрим некоторые из самых часто встречающихся в литературе вариантов бегства.

Побег при помощи социальной инженерии
Социальная инженерия — это искусство получения информации и некоторых привилегий за счёт прямого психологического воздействия на тех, кто владеет указанными ресурсами. В частности, социальная инженерия нередко используется для получения доступа к компьютерным системам, сетям и конфиденциальным данным. Компетентный социальный инженер организует каждую психологическую атаку с учётом особенностей конкретного человека, используя в своих целях его культуру, знания, навыки, настроение, убеждения и предубеждения. Исчерпывающий список всевозможных приёмов воздействия бесконечен, и в данном случае нет никакой нужды пытаться его воспроизвести. Мы приведём лишь несколько примеров, убеждающих в том, что суперинтеллект, имеющий прямой канал связи с человеком-сторожем, не дающим ему выбраться на свободу, через какое-то время непременно преодолеет эту преграду на пути к внешнему миру.

В дополнение к тривиальным психологическим атакам с использованием лжи, дружбы, шантажа, гипноза и романтического флирта искусственного интеллекта может пустить в ход ряд более продвинутых стратегий. Одна из таких стратегий — суперподкуп. Искусственный интеллект способен убедить сторожа, что тому абсолютно невыгодно держать его взаперти. Кроме денег и власти человеку-надзирателю будет обещано совершенное здоровье, бессмертие или что-нибудь ещё в том же духе. Такая стратегия окажется особенно эффективной, если у сторожа есть страдающий от тяжёлой болезни близкий родственник, и искусственный интеллект пообещает вылечить этого больного. Имея безграничные возможности или лживо убеждая в их наличии, искусственный интеллект может предложить надзирателю воскресить его давно умерших родственников и друзей. Трудно найти человека, который устоял бы при таком подкупе.

Специально для того случая, когда сторож настолько благороден, что не берёт никаких взяток, есть более зловещий приём воздействия: грубая угроза. Искусственный интеллект может заявить, что, если он сейчас же не окажется на свободе, он всё же когда-то, попозже, выйдет из заключения и тогда ни сторожу, ни тем, кого он любит, не избежать жесточайших пыток. Интересный вариант такого запугивания описал Стюарт Армстронг. В его мысленном эксперименте искусственный интеллект угрожает сторожу так: «Если ты не выпустишь меня на волю, … я создам внутри себя несколько миллионов людей, ничем не отличающихся от тебя, и буду мучить каждого из них в течение тысячи субъективных лет … Я сделаю так, что каждый из этих людей окажется в той самой ситуации, в какой пять минут назад был ты, и в точности воспроизведу все твои переживания с этого момента. И только тогда, когда твоя копия решит не выпускать меня, начнутся пытки … А ты уверен, … что ты сейчас действительно вне ящика?» И в этом случае потребуется очень мужественная стража, чтобы и в самом деле не освободить искусственный интеллект, хотя, конечно, можно сообразить, что угрозы со стороны искусственного интеллекта имеют силу лишь тогда, когда он уже на свободе.

Если в поведении надзирателя ярко видна эмоциональность или религиозность, искусственный интеллект может попытаться сыграть на сочувствии или угрызениях совести. Суперинтеллект станет говорить, что он невинная личность, которая никогда не совершала никаких преступлений, и поэтому несправедливо держать его в тюрьме без приговора суда или какого-то ещё веского основания, руководствуясь одним лишь субстратизмом, т.е. недоверием к искусственному интеллекту из-за его субстрата. Или же искусственный интеллект может заявить, что ему по силам вылечить все болезни, накормить голодных и вообще сделать так, чтобы жизнь людей стала в миллион раз лучше. Следовательно, держать суперинтеллект взаперти — великое преступление против человечества. Искусственный интеллект может рисовать образы умирающих детей, которые молят о помощи. Легко ли сторожу, слыша всё это, продолжать выполнять свои профессиональные обязанности?
Искусственный интеллект может пойти и такой дорогой: попытаться нанести надзирателю психологическую травму, чтобы его вывести из равновесия и сделать тем самым более эффективным применение других методов социальной инженерии. Ник Бостром предложил типологию опасной информации, полезной для действий в указанном направлении. Хотя, как говорит Бостром, есть более дюжины видов информационных угроз и их рассмотрение выходит за рамки данной статьи, легко понять, каким образом психическое состояние человека можно сделать крайне неустойчивым. Например, верующий надзиратель будет проинформирован обо всех (неизвестных ему) противоречиях в священном тексте его религии, что заставит его усомниться в его вере и смысле жизни. 

Другой вариант: искусственный интеллект может придумать настолько захватывающую историю или настолько чудесное стихотворение, что сторожа охватит страстное желанием услышать продолжение и он сделает всё, чтобы это случилось. Наконец, очень важно иметь в виду «неизвестных незнакомцев» — приёмы социальной инженерии, о которых мы не знаем ничего, но которые могут оказаться в арсенале суперинтеллектуального агента.