Григорий Бакунов («Яндекс») – о распознавании речи, беспилотных машинах и других достижениях систем искусственного интеллекта

Интервью с Григорием Бакуновым, директором по распространению технологий компании «Яндекс» - об искусственном интеллекте, применении технологий искусственного интеллекта в современной жизни и о том, чего ждать от ближайшего будущего. 
– Назовите, пожалуйста, три самых важных события в мире искусственного интеллекта за последний год. На ваш вкус.
– Первое: AlphaGo окончательно обыграла самого сильного игрока го в мире. Игрок номер один (человек) проиграл машине все партии и закончил последнюю словами, что играет против компьютера последний раз, так как это больше не имеет никакого смысла – очевидно, что компьютер всегда будет побеждать. Это момент, который, мне казалось, только в кино может произойти: лидер определенной части человечества (в данном случае тех, кто играет в го) сказал: «Все, ребят, мы проиграли компьютеру».
Почему это так важно? AlphaGo – первый хорошо работающий пример искусственного интеллекта, который обучился не на игре с человеком, а на игре с другим искусственным интеллектом. До этого мы почти всегда говорили, что машины только стараются догонять людей, а теперь, выходит, у них нет этого потолка в лице самых сильных человеческих игроков. Это большое, фундаментальное изменение. Компьютер показал превосходство над человеком. Пока, правда, только в вычислительных возможностях, потому что если подсчитать энергетическую эффективность, то компьютеру до человека еще далеко. Он потребляет киловатты и киловатты энергии, чтобы поддерживать вычисления, а тех 2200 килокалорий, которые человек получает с едой в день, компьютеру хватит в лучшем случае на питание вентилятора, который охлаждает системный блок.
Кроме того, в индустрии искусственного интеллекта произошло другое очень важное изменение. По-русски сложно подобрать слово, но по-английски это называется «коммодитизация»: технологии искусственного интеллекта стали настолько общедоступны, что любой технический специалист, не обладая специальным образованием, может внедрить систему искусственного интеллекта почти в любой области, которой он занимается: от продажи пирожков до изготовления космических ракет.
Этот второй пункт сильно связан с пунктом номер три. Появились четыре крупных игрока на рынке, которые производят прекрасные облачные решения, позволяющие быстро создавать системы искусственного интеллекта.
Если подытожить: в современном своем виде искусственный интеллект – это системы, которые доступны буквально всем, они уже не требуют огромных вычислительных мощностей и при этом дошли до такого состояния, что в некоторых областях могут побеждать человека.
Это три больших события, которые произошли за последний год, все прямо на наших глазах случилось.
– Задам уточняющий вопрос. Вы ⁠говорите, ⁠что произошла коммодитизация, появилось много ⁠стандартных решений. Объясните неспециалисту, ⁠как теперь человек, знающий, допустим, азы программирования, строит ⁠эти системы искусственного интеллекта?
– Есть несколько готовых библиотек, несколько готовых кирпичиков – например, TensorFlow от Google. Это такая игрушка, где ты говоришь: «Я здесь буду анализировать звук. Звук нужно разложить на гармоники. В дальнейшем я хочу эти гармоники повторять». Ты выстраиваешь нейронную сеть буквально мышкой, drag-and-drop, а функционал слоев в этой сети описывается обычным человеческим языком. И получаешь на выходе генератор мелодий, например.
– Мы привыкли, что машины в состоянии решить многие проблемы простым перебором вариантов. Вы могли бы объяснить, чем перебор отличается от самообучающихся или обучаемых систем, нейросетей?
– Давайте я поясню на примере, я проводил опыт в детском лагере. Дети туда приезжают на два месяца, каждый месяц – новый заезд, то есть они как минимум на месяц пересекаются с другой группой. Мальчикам и девочкам я давал одно и то же задание после двух недель в лагере, когда уже все друг друга неплохо знают: «Нарисуйте график, где по по оси X – количество прогулов человека из вашей группы [за прошлый год в школе], а по оси Y – рост. Для каждого человека из группы отметьте точку на графике, только вместо точки поставьте сердечко, если вам этот человек нравится, или крестик, если этот человек вам не очень нравится». И внезапно оказалось, что у большинства людей есть ярко выраженные кластеры – области, которые заставлены целиком сердечками и целиком крестиками. Выяснилось, например, что большей части девочек нравятся высокие прогульщики.
А дальше в лагерь приезжают новые дети (заезды пересекаются, как я говорил), и через две недели я просил проделать такое же упражнение уже для новых детей. И, как ни странно, кластеры сохранились.
– И как это связано с обучением нейросетей?
– Процесс, когда расставлялись крестики и сердечки, – это и есть процесс машинного обучения, когда вы учите систему, говоря: «Вот эти области мне нравятся, а вот эти области мне не нравятся». Можно было для тех людей, которые заехали во вторую смену, уже не ставить эти крестики и сердечки, а просто смотреть, приблизительно в какую группу они попали по росту и числу прогулов. Безусловно, там была бы дичайшая погрешность (в том смысле, что есть ведь и невысокого роста очень симпатичные прогульщики), но здесь проявляется разница между перебором и машинным обучением: на перебор у вас ушло бы 15 дней, чтобы понять, нравится человек или нет, а построение нашего графика позволяет сделать первые прогнозы немедленно, в первый же день.
– Перейдем от сердечек к более серьезным вещам. Например, технология распознавания звука – очень важное направление в компьютерной науке и бизнесе. Возможно ли здесь достичь стопроцентного результата?
– Вообще-то человек сам не достигает стопроцентного понимания того, что слышит. Представьте себе учеников десятого класса, у которых стоит задача законспектировать нашу речь. Они не очень понимают, о чем мы говорим, поэтому количество ошибок, неправильно понятых слов будет довольно велико. Собственно, такая же история сейчас происходит и с машинными системами распознавания речи. Но в некоторых областях, таких, например, как понимание адресов в городе, как сделано в навигаторе на смартфоне, мы давно уже далеко ушли вперед понимания человека. Человек в среднем понимает примерно 93%, а системы, которые встроены в «Яндекс.Навигатор», распознают адрес правильно с вероятностью 97%. И цифры эти потихоньку улучшаются – у компьютера. У человечества ничего не меняется.
– То есть в том, что касается распознавания речи, искусственному интеллекту под силу обогнать человека в отдельных областях знаний?

– Да.
– Названия улиц, медицинские термины…
– Да, да. В таких областях среднестатистический искусственный интеллект, который сейчас занимается распознаванием речи, работает уже лучше, чем среднестатистический человек. Иногда даже лучше, чем специалист в своей области.
– А все, что касается понимания контекста, перевода с одного языка на другой, например. Как здесь обстоят дела?
– Тоже, в общем, неплохо. Дело в том, что контекст, он же на самом деле и у человека строится на базе произнесенных ранее слов. То есть: «В лесу родилась елочка, в лесу она…» – говорим мы, останавливаясь, и любой продолжает: «Росла». Точно так же работают системы, которые достраивают контекст на основе искусственного интеллекта, и лучше всего на это можно, наверно, посмотреть, например, в «Яндекс.Переводчике». Попробуйте там из интереса набирать какие-нибудь стихи или какие-нибудь фразы. Он автоматически предложит вам самое популярное дополнение, и точно так же работают системы понимания контекста. Они понимают, о чем идет речь, на базе предыдущего диалога. Там тоже все относительно неплохо. Мы давно уже научились с этим работать.
– Но, по моему опыту, качество перевода оставляет желать лучшего…
– Поверьте, оно выросло за последние два года и довольно сильно выросло даже за последние полгода. Я бы на вашем месте попробовал еще раз. Наверно, самые показательные изменения можно посмотреть в переводчике Bing от Microsoft. У них есть страничка, на которой старые модели перевода сравниваются с переводом на основе искусственного интеллекта. И видна разница прямо невооруженным глазом.
– А чем они принципиально отличаются? Какой сейчас подход к переводу на базе искусственного интеллекта?
– Машины обучаются на базе массивов параллельных текстов. По большому счету, точно так же обучалась старая модель, которая называлась статистической. Просто текущие модели благодаря системам, построенным на нейронных сетях, позволяют гораздо более точно переводить, гораздо более точно сопоставлять конструкции. Статистические методы зачастую старались перевести слово в слово. Теперь же нейросети стараются сделать перевод, условно говоря, исходя из смысла предложения.
Кроме того, если раньше машины работали с языковыми парами (английский – русский), то сейчас почти всегда используется весь массив текстов на всех языках. То есть строится не шестьдесят раздельных систем, а одна большая система, у которой один из параметров – это язык, на который нужно перевести текст. Ведь внутри многих языков, особенно языков европейских групп, есть скрытые структурные связи. Можно, например, представить себе, что это один общий переводчик для европейских языков. Если он не находит аналогии или параллельные документы в своей памяти, которая подходит для конкретного случая, то пытается провести аналогию с другими языками. Если говорить очень сильно упрощенно, это то, о чем не так давно писали ребята из Google, Facebook и других компаний: они строили переводчик, и внезапно обнаружилось, что на одном из слоев нейросети появился свой собственный метаязык, который нужен исключительно для существования нейросети. Получается, что нейросеть сначала транслирует текст в этот общий международный метаязык, а с него уже делает перевод на нужный человеческий язык.
– То есть конкретное языковое воплощение – это примерно как разный интерфейс одного компьютерного кода?
– Да, как разные внешние проявления одной и той же программы. Этот метод существенно изменил качество перевода.
– Как развитие этих технологий повлияет на взаимодействие с гаджетами, с интеллектуальными системами типа Alexa, Siri и прочих? Сейчас же это пока очень условно можно назвать общением.
– Это общение ограниченно в первую очередь потому, что мы, как я люблю говорить, угнетаем роботов. Сейчас большая часть систем искусственного интеллекта работает в режиме вопрос – ответ, где вопрос всегда задает человек. На самом деле это категорически неправильно, и мы должны увидеть в ближайший год изменение: системы ИИ сами должны уметь задавать вопросы. А в идеале сами принимать решения за нас. Хотя бы начинать с того, чтобы задавать вопрос, предложить что-то самостоятельно. Система, которая сама за сорок минут до того, как мне нужно оказаться в этой комнате, сообщает мне: «Слушай, тебе пора выезжать, а то ты опоздаешь – на улице пробки», – это нормальное действие, это тот ассистент с искусственным интеллектом, которого мы все ждем. Я думаю, что это дело года-двух.

– Раз уж мы заговорили о машинах и пробках, насколько мы близки к тому, чтобы получить автомобили на автопилоте, которые безопасно и свободно ездили бы по городам?

– Все зависит от определения слова «безопасно», потому что есть много хороших прототипов, которые прямо сейчас способны ездить по дорогам. У них у всех есть разные мелкие, не очень существенные проблемы. Недавний скандал с Uber (у них есть совместный проект с Volvo) был, например, связан с аварией с участием велосипедиста в Сан-Франциско. Почему так получилось? Видимо, данные для обучения машины собирались в городах, где очень мало велосипедистов (в отличие от Сан-Франциско). Но за этим скандалом прячется важная вещь: все остальное, кроме проблемы велосипедистов, решено! Сейчас искусственный интеллект уже ведет себя как не очень опытный, но хорошо ездящий водитель.

В Аризоне есть города, где беспилотники от Uber уже возят людей. Это впечатляющее зрелище: на месте водителя в проезжающей мимо тебя машине сидит человек (он там должен сидеть по закону) и читает газету, развернув на все лобовое стекло! Ты понимаешь, что через год-два этого водителя там просто уже не должно быть. Это потрясающая экономия, так как автомобиль может ездить 24 часа в сутки, периодически заезжая на заправку. И это резкое увеличение уровня безопасности. Система искусственного интеллекта, в отличие от таксиста, никуда не гонит, не нарушает правила. Это позволяет надеяться, что в среднем, когда системы автопилота будут внедрены везде, уровень безопасности на дорогах повысится. Хотя я, если честно, большой противник всех этих систем, потому что мне просто нравится водить, даже в пробке.

Первая демонстрация беспилотного автомобиля от «Яндекса»

– И как будет решаться проблема вагонетки, когда из двух этически неприемлемых решений машина обязана будет выбрать одно: условно сбить старушку впереди или увернуться и по касательной задеть группу людей на остановке?

– Тут на самом деле нужно понимать, что проблема вагонетки в случае с самоуправляемыми автомобилями еще более страшная, потому что есть еще третий вариант: «Сверни в отбойник – убей человека, который тебя, искусственный интеллект, купил». Проблема тяжелая, но я уверен, что со временем все организуется. Очевидно, что долгое еще время главным виновным таких происшествий будет автопроизводитель, и он будет производить выплаты. Также очевидно, что через какое-то время появится система, которая будет судить систему искусственного интеллекта. Я надеюсь, что судьей будет искусственный интеллект, иначе просто нечестно.

У Пелевина в «Ананасной воде для прекрасной дамы» есть место, где он описывает военные беспилотные системы, которые убивали, если я правильно помню, террористов в Афганистане. Поскольку современное общество устроено так, что обязательно нужно иметь объяснение, почему ты убил именно этого человека, то было построено две нейросети: одна опознавала террориста, а вторая была предназначена исключительно для того, чтобы объяснить действия первой. Книга вышла в 2010 году, так что Пелевин во многих отношениях провидец.

– Правильно ли я понимаю, как устроена вообще вся эта индустрия и каждый отдельный интеллект в частности. С одной стороны, есть разработчик, который задает правила игры; с другой стороны, есть процесс накопления информации, и в конечном итоге для того, чтобы искусственный интеллект научился делать что-то как человек, или даже лучше человека, или вообще делать то, что человек в принципе не умеет делать, есть всего два фактора: верно ли заданы правила и время, за которое нужно накопить данные?

– Я бы сказал даже не время, а просто данные, накопленные данные. Человечество только последние лет пятьдесят, наверное, стало привыкать к мысли, что надо все данные сохранять. Пятьдесят лет – это очень мало в масштабах человечества. Мы, с одной стороны, очень молодая раса, а с другой – уже очень хотим использовать систему искусственного интеллекта, которая требует зачастую миллионов и миллиардов накопленных принятых решений для того, чтобы построить действительно интересную систему в этой области.

– Как тогда определить зону, в которой искусственный интеллект не может соревноваться с человеком?

– У меня есть странное определение – правило одной секунды, оно звучит так: «Если ты можешь принять какое-то решение за секунду или меньше, это зона, где искусственный интеллект, скорее всего, в ближайшее время сможет принимать решения лучше, чем ты».

– Если это шутка?

– То есть?

– Ну, человек за секунду может придумать классную, смешную шутку.

– За секунду придумать шутку? Не верю.

– Почему нет? Посмотрите, как люди шутят в прямом эфире.

– Я много общаюсь в эфире, но большая часть моих «экспромтов» тщательно отрепетирована. И любой актер вам скажет, что на самом деле единственный способ хорошо сыграть экспромтом – это иметь большую базу экспромтов в голове. А вот если взять вождение автомобиля, то там тебе нужно постоянно принимать решения за долю секунды, и это – с точки зрения обучения ИИ – совершенно элементарно.

– Часто бывает, что человеку кажется, что он принял решение за секунду, но на самом деле он в фоновом режиме думал об этом несколько дней. Но когда я говорю о различиях машины и человека, то я имею в виду креативные решения.

– С креативными решениями такая сложность. Искусственный интеллект может создавать креативные решения, но качество этого креатива все равно должен оценивать живой человек. Даже сейчас, когда вы видите огромное количество творчества систем искусственного интеллекта, вы же понимаете, что на тысячу нарисованных искусственным интеллектом картин или написанной музыки только одна-две могут быть признаны удачными. Есть хорошая американская поговорка, что «красота – в глазах смотрящего». Оценить то, что красиво, а что нет, может только тот, кто смотрит. То есть человек.
– В этом и будет наше предназначение как человеческой расы?
– У человечества появилась новая задача. Каждый индивидуум должен развиваться быстрее, чем развивается система искусственного интеллекта. Если нагнетать в стиле фантастов, у нас началась игра на выживание: кто будет развиваться быстрее? Я думаю, что человечество сможет развиваться быстрее, чем система искусственного интеллекта, потому что я вокруг себя вижу очень много умных людей, вне зависимости от возраста.
– На мой взгляд, противопоставление «машины против людей» искусственное: человеку даже легче развиваться, если есть поддерживающие системы искусственного интеллекта.
– Да. Когда я разговариваю с врачами, то говорю им, что не надо бояться систем искусственного интеллекта в медицине. Со временем появятся такие системы, которые будут принимать участие в консилиуме наряду с живыми врачами. И это позволит более аргументированно принимать решения, более взвешенно, услышать другую точку зрения и т.д.
– И последний вопрос. С чем связано такое довольно большое количество разработчиков и разработок искусственного интеллекта в России?
– В первую очередь с российской математической школой; у нас по-прежнему очень много хороших математиков, есть кому заниматься нейронными системами. Потом, все большие российские IT-компании занимаются образованием в этой области. У «Яндекса» есть ШАД – Школа анализа данных, которая готовит людей, способных заниматься системами искусственного интеллекта на самом глубоком уровне, то есть доходя до самых основ и базовых вычислительных алгоритмов. Мы выпускаем более ста человек в год, я думаю, что это сравнимо или даже больше, чем выпускает каждый по отдельности лучший американский вуз. При этом независимые оценки показывают, что наши специалисты не хуже, чем те ребята, которые выходят из профильных кафедр MIT.
Ну а второй важный момент заключается в том, что для того, чтобы работать с системами искусственного интеллекта не на низком уровне, не на уровне базовых алгоритмов, а на уровне их использования, нужна гибкость в подходе, что ли, такая классическая смекалка. Я очень не хочу здесь уподобиться одному известному сатирику, но смекалке нас, кажется, учат с детства. Жизнь [в России] нас постоянно заставляет применять неординарные решения.