DeepMindНедавно знаменитый физик-теоретик Стивен Хокинг сделал довольно категоричное заявление, что совершенствование искусственного интеллекта окажется «либо лучшим, либо худшим событием для всего человечества». Все мы смотрели «Терминатора» и все мы прекрасно можем  представить, в какой апокалиптический ад может погрузиться наша жизнь, если подобная обладающая самосознанием система искусственного интеллекта, как «Скайнет», вдруг когда-нибудь решит, что она больше не нуждается в человечестве.

И последние результаты работы новой системы искусственного интеллекта от компании DeepMind (которая принадлежит Google) лишь в который раз нам напоминают о необходимости быть очень осторожными при создании роботов будущего.

В исследованиях, которые проводились в конце прошлого года, искусственный интеллект от DeepMind обрел и продемонстрировал возможность своего обучения независимо от того, что в его память заложено, а также победил лучших в мире игроков в логическую игру го. Кроме того, он смог совершенствовать свои навыки читать по губам и имитировать человеческий голос.

Во время последних испытаний системы исследователи проверяли «ее стремление» к сотрудничеству. Тесты продемонстрировали, когда искусственный интеллект DeepMind «чувствует», что вскоре должен проиграть, то для чтобы проигрыша избежать он начинает выбирать новые стратегии - «довольно агрессивные». Команда Google провела с искусственным интеллектом сорок миллионов сессий в обычной компьютерной игре Gathering, где от игрока требуется собрать как можно больше определенных фруктов. Искусственный интеллект DeepMind управлял двумя «игроками-агентами» (красным кубиком и синим кубиком). Инженеры Google поставили системе задачу провести соревнование между «агентами» и собрать как можно больше виртуальных яблок (представленных зелеными квадратиками).

До тех пор, пока у «агентов» была возможность собирать фрукты без проблем, и когда они имелись в большом количестве, все шло довольно гладко. Но как только сокращался запас яблок, поведение «агентов» менялось - они становились «агрессивными». Они принялись активнее использовать то средство (лазерный луч), которое выбивало противника за игровой экран и затем сами принимались собирать все яблоки:

Стоит обратить внимание на то, что никакой дополнительной награды за выбивание противника с поля с помощью лазерного луча не предлагалось. Только некоторое время выбитый противник оказывается за пределами экрана, в то время как у более успешного противника появляется возможность собрать беспрепятственно  как можно больше виртуальных фруктов.

Если бы «агенты» не пользовались лазерными лучами, то теоретически количество собранных ими яблок было бы одинаковым. Это и происходило в принципе, когда в качестве «агентов» использовались «менее интеллектуальные» и более низкоуровневые варианты DeepMind. Более агрессивное поведение жадность и вредительство начали проявляться лишь тогда, когда команда Google начала пользоваться более и более сложными формами DeepMind.

Когда исследователями использовались в качестве «агентов» более простые сети DeepMind, то между ними отмечалось наличие «атмосферы более дружелюбного сосуществования на игровом поле». Но, когда управление агентами передавалось все более и более сложным формам сетей, искусственный интеллект становился более агрессивным и начал пытаться выбить оппонента с игрового поля заранее, чтобы быстрее первым добраться до большей части добычи из виртуальных фруктов.

ИИУченые Google делают предположение, что чем «агент» умнее, тем эффективнее он может обучаться, адаптироваться к условиям среды и доступных методов, и в конечном итоге приходить к использованию наиболее агрессивной тактики для победы.
«Эта модель демонстрирует, что результатом обучения и адаптации к условиям окружающей среды является проявление некоторых аспектов, свойственных человеческому поведению», — рассказывает Джоэль З. Лейбо, один из исследователей, которые этот эксперимент проводили.

«Менее агрессивное поведение проявлялось лишь при обучении и нахождении в относительно безопасной среде, с меньшей вероятностью последствий после тех или иных действий. Жадность же, в свою очередь, выражалась в стремлении обогнать своего соперника и самостоятельно собрать все виртуальные фрукты».

После «сбора урожая» DeepMind предложили сыграть в другую игру, под названием Wolfpack. На сей раз в ней присутствовали сразу три агента искусственного интеллекта: два играли роль волков, а оставшийся – роль добычи. В отличие от игры Gathering, новая игра всячески способствовала сотрудничеству между волками. Во-первых, так легче поймать добычу, а во-вторых, если оба «волка» находились рядом с загнанной добычей, они оба получали некую награду, в независимости от того, кто именно ее поймал.

«Идея заключается в том, что добыча может быть опасной. Кроме того, может одинокий волк и способен ее загнать, но есть риск ее потери в результате нападения падальщиков», — рассказывает команда.
«Но если оба волка загоняют добычу вместе, то они могут лучше ее защищать от падальщиков и благодаря этому получают повышенную награду».

В общем и целом из игры Gathering искусственный интеллект DeepMind уяснил, что агрессия и эгоизм являются наиболее эффективными стратегиями для получения нужного результата в конкретно взятой среде. Из Wolfpack та же система поняла, что сотрудничество, в отличие от индивидуальных попыток, может стать ключом к более ценной награде в определенных ситуациях. И хотя описанные выше тестовые среды являются лишь элементарными компьютерными играми – основной посыл понятен уже сейчас. Возьмите разные искусственные интеллекты, обладающие конкурирующими интересами в реальной ситуациях, поместите в одну среду, и, возможно, если их задачи не компенсируются общей целью, результатом может стать настоящая война. Особенно если человек, как один из звеньев в достижении этой цели, будет исключен.

В качестве примера просто представьте себе светофоры, управляемые искусственные интеллекты, и беспилотные автомобили, пытающиеся самостоятельно найти быстрейший маршрут. Каждый выполняет свои задачи с целью получения наиболее безопасного и наиболее эффективного результата для общества.

Несмотря на «младенческие» годы DeepMind и отсутствие какого бы то ни было стороннего критического анализа его возможностей, результаты его испытаний наводят на следующие мысли: даже если мы их и создаем, это совсем не означает, что в роботах и ИИ-системах будет автоматическим образом заложено стремление ставить наши человеческие интересы выше их собственных. Поэтому нам самим необходимо «закладывать доброжелательность» в природу машин и предвидеть любые «лазейки», которые могут позволить им добраться до тех самых лазерных лучей.

Один из основных тезисов инициативной группы OpenAI, направленной на изучение вопросов этики искусственного интеллекта, как-то прозвучал в 2015 году следующим образом:

«Сегодняшние ИИ-системы обладают удивительными, но узкоспециализированными возможностями. И вероятнее всего, мы еще долгое время не будем их сдерживать в своем совершенствовании. По крайней мере до тех пор, пока их возможности в решении практически каждой интеллектуальной задачи не станут превосходить человеческие.

Сложно представить, какой именно уровень пользы сможет принести искусственный интеллект человеческого уровня для общества, равно как и сложно представить, какой урон он сможет нанести обществу при халатном отношении к его созданию и использованию».