Приемы хранения избыточной информации

Скрытые в миллиардах современных устройств крошечные компьютеры в настоящее время способны собирать невероятное количество информации. Ныне они пробуют извлекать из нее даже знания. Большие данные, накопленные ими, оказались на острие прогресса и очень важны для развития науки. Что произойдет, когда объем данных увеличится, а размеры компьютеров уменьшатся?

Есть ли нечто общее между персонализированной медициной, автоматизированным переводчиком и картой пробок в городе? Да, ведь все технологии базируются на анализе больших данных, или Big Data. Карта пробок занимается анализом данных о находящихся в наших карманах смартфонах. Google Translate и прочие переводчики смысла слов не понимают, но применяют собранную поисковиком по всему интернету статистику. Они выдают перевод наиболее вероятный, встречающийся чаще всего в сходных контекстах. Персонализированная же медицина базируется на анализе информации о геноме каждого пациента. Если собрать все эти данные, их будет невероятно много.

Их принято называть «большой нефтью», или ключевым трендом в современной науке, технологической революции и экономике. Что же такое «большие данные»? Чем вызван ажиотаж? Довольно актуальное определение дано в 2001-ом году аналитиком Дугом Лэни. Это скорость, разнообразие и объем, по-английски: Velocity, Variety и Volume, или «три V». Информация поступает крайне быстро, она не структурирована или даже запутана, кроме того, ее очень много.

Понятие больших данных появилось с оцифровкой многих областей, появлением информационных сетей, связывающих устройства и людей. Современные агентства сообщают, что к «интернету вещей» уже подключено около полутора десятков миллиардов объектов. И ведь каждый генерирует собственные данные, сигнализируя о состоянии. С развитием коммуникаций стала возможной передача видео, фрагменты же данных уже все чаще измеряются в гигабайтах и даже петабайтах.

Но важно даже не то что объем данных уже зашкаливает, а то, что это – один из самых ценных ресурсов. Очень важно научиться извлекать из него полезную информацию. Большие данные – главное сырье современной эпохи. Правда, есть у них не только светлые стороны.

Тонем под массой!

Футурологи утверждают, что у информационной эпохи есть сходство со словесно невыдержанными людьми, которые говорят так много, что их уже и не слушают. Это точно отражает ситуацию реальной недостачи времени на ознакомление не только со всем интересным, но хотя бы с самым важным. Люди гонялись за информацией во времена индустриальной эпохи. Теперь – обратная история: френды в соцсетях, новостные заголовки и так далее бьются за наше с вами внимание.

Еще в прошлом веке герои фантастических книг жаловались на нехватку данных. Тогда и в голову никому не приходило вложить в уста героя слова: «Слишком много информации, я не могу ее обработать!».

Сотня часов различных видео выкладывается на YouTube ежеминутно. Внимание зрителя перегружено, и ролик, длящийся более минуты, кажется чересчур длинным. В Интернете все превратились в фотографов и писателей, сложнее стало со зрителями и читателями. Из блогов мы попадаем в социальные сети, а средний пост, например, в Facebook в 5 раз меньше, чем в том же ЖЖ. В мире, где внимание оказалось наиболее востребованным ресурсом, мы столкнулись с его дефицитом. Все с легкостью скачут по верхам. Данных чересчур много для детального их изучения. Избыточной роскошью стало чтение романов, поскольку времени не хватает даже на отслеживание собственной почты. К таким объемам информации мозг оказался просто не готов!

Однако проблема не только в человеке. Будучи гибкими существами, мы научимся приспосабливаться к гнету ежемоментно меняющейся информации, разработаем некие правила работы с ней. Но компьютерам, в отличие от нашего мозга, справляться с обработкой и хранением данных сложнее. Генерировать их им гораздо проще, нежели, анализируя, вычленять самое важное.

Мы создаем все больше разных компьютеров: чего стоят только следящие за нашим здоровьем портативные устройства! Но потоки информации от этого только мощнее. Как справляться с цифрами, отсылаемыми круглосуточно умными часами, фитнес-браслетами и смартфонами?

Большую часть полезных данных извлекать нам попросту не под силу. Ведь источников слишком много: производимая мозгом информация, расшифрованные геномы множества людей, их медицинские записи, промышленные сети и так далее, и так далее.

В соответствии с проведенным агентством IDC исследованием Digital Universe уже сейчас мы вообще можем обработать лишь 22 процента от информации, создаваемой нами же. В реальности же мы обрабатываем и того меньше: всего 5 процентов.

Остается только научить машины столь же хорошему анализу данных, насколько хороша их генерация. Если они не смогут извлекать смысл из собираемых сырых данных, цивилизация будет погребена под настоящей информационной лавиной.

Мыслящие машины и их развитие

Умный домКак ни странно, умнеют машины достаточно быстро. Мы уже даже придумали такие термины, как «умный дом», «умные часы» или «умный город». В чем их разумность? Да в способности к анализу больших объемов информации, а также – к смене собственного поведения в зависимости от его итогов.

Исследователи и фантасты ранее полагали, что преимущество машины по сравнению с человеком в ее более логичном мышлении. Но оно оказалось в другом. Машина быстрее и легче обрабатывает огромные массивы данных.

Правда, для решения этой задачи привычные нам компьютеры и устройства не очень-то подходят. Они отлично подходят для дел, связанных с перебором массы различных вариантов, вроде шахмат. Но не стоит надеяться на создание искусственного разума просто за счет увеличения быстродействия. Программы-переводчики, используемые рядовыми потребителями, не справляются с задачей так же, как и пару десятков лет назад. Браузеры и текстовые редакторы также не смогли радикально измениться.

Хороший компьютер отныне должен в первую очередь, распознавая образы, находить закономерности. Отличным примером является суперкомпьютер Watson. Раньше это был понимавший вопросы, а затем находивший ответы победитель викторин. Теперь он стал медиком, лучше живых врачей ставящим диагнозы при помощи анализа информации из медицинской статистики. Подобные компьютеры даже способны делать научные открытия!

KnIT, суперкомпьютер из Калифорнии, лишь за пару часов прочел около сотни тысяч разных научных статей. В итоге он открыл несколько совершенно новых ферментов. А компьютер из Манчестера смог разработать даже новейшее лекарство от малярии.

Машины вроде Watson уже не привязаны даже к собственному кремниевому телу. Их мозг обитает в сети интернет, получая здесь доступ к необходимым физическим мощностям, а также к полному объему человеческой виртуальной памяти. Для облегчения их доступа к данным, Google работает над базой данных под названием Knowledge Vault. Она будет содержать все накопленные человечеством знания, продолжая накапливать их уже без участия людей.

Что случиться, когда умные компьютеры смогут полноценно использовать память человечества, программируя себя и делая выводы из чужих и собственных ошибок? Вполне вероятно их объединение в некий компьютерный единый сверхразум.

Следует упомянуть тут важные термины: когнитивными сейчас называют как раз самообучающиеся компьютеры, а нейроморфными – те из них, что могут имитировать функции мозга человека. Создавать их пробуют на базе, например, мемристоров. Это электронные аналоги соединений меж мозговыми нейронами, или синапсов. Тысячи синапсов соединяют каждый нейрон с остальными. Подобно им, мемристоры изменяются под влиянием проходящих через них импульсов. Ассоциативная связь меж ними улучшается с увеличением импульсов, передаваемых от одного мемристора другому. Для работы по принципу мозга они должны научиться образовывать свежие связи. Именно это – суть учебы на нейронном уровне.

Связи сокрыты?Информация

Как говорил Натан Ротшильд, владеющий информацией, владеет всем миром. А ведь именно он обогатился на торговле разными ценными бумагами лишь потому, что раньше всех проведал о поражении при Ватерлоо Наполеона. Могут ли принести пользу большие данные?

Для этого нужно научиться получать от них информацию. Первыми с этим столкнулись физики. Когда в коллайдере сталкиваются частицы, к ним поступает невероятный объем информации, до сорока терабайт за секунду. И это лишь при экспериментах в ЦЕРНе. Среди миллиардов столкновений разных частиц следует вычленить лишь пару десятков интересных, могущих привести к зарождению чего-то любопытного.

На анализе больших данных базируется и открытие разных новых частиц типа бозона Хиггса. То же самое происходит и в прочих естественных науках, от молекулярной биологии до астрономии. Все наиболее любопытные открытия, полученные нами в последнее время, связаны с расшифровкой и сопоставлением генетических данных различных организмов.

Да и любые самые крупные изобретения наших дней связаны также на с физическими свойствами тех или иных объектов, а с информационной начинкой, делающей их «умными». В настоящее время рынок сервисов и технологий для грамотного анализа больших данных достигает полутора десятков миллиардов долларов, возрастая ежегодная практически на треть (в шесть раз быстрее всего IT-рынка). Это понятно. На основании подобного анализа в крупнейших компаниях принимают бизнес-решения.

Например, генеральный директор онлайн-магазина Ozon Маэль Гавэ поясняет, что у фирмы уже есть 17 миллионов клиентов. Для создания корректных прогнозов необходим анализ огромного массива данных. Увеличить продажи на 25 процентов получилось с помощью алгоритмов, дающих клиентам при покупке индивидуальные рекомендации. Не зря появилось сравнение с нефтью!

Человеческое лицо информации…

Большие данные, однако, могут дать ключ не только к информации о целом мире. Грамотно их анализируя, люди узнают много интересного и о себе самих. Для этого есть даже термин: персональная аналитика.

Портативные устройства способны подсчитать каждое движение наших организмов. Они отслеживают ритм работы внутренних органов, запоминают наши координаты, определяют время работы и время сна, отслеживают разговоры и так далее. Искусственный интеллект подобного «персонального ассистента» подчас знает о своем хозяине больше, чем сам человек.

Доступные всем желающим программы типа Wolfram Alpha Personal Analytics рассказывают нам много нового о нашем поведении в социальных сетях и отношениях с различными виртуальными друзьями. Пользуются ими и ученые. Например, они смогли выяснить, что сами мы обычно оставляем позитивные сообщения, гневные же публикуем чаще в виде перепостов.

Созданная с участием Microsoft в Кембриджском университете программа умеет по лайкам определять не только политические симпатии, но и расовую или конфессиональную принадлежность и многие иные характеристики пользователей знаменитого Facebook-а. Алгоритм с точностью в 95 процентов может отличить негров от белых, в 85 процентов – демократов от республиканцев, в 82 процента – христиан от мусульман.

Анализ больших данных – крайне ценный инструмент в руках гуманитариев. Ведь они давно мечтали о методиках исследовании, столь же точных и объективных, как в естественных науках. Появилась даже новая область: цифровая гуманитаристика, или digital humanities. Историки и филологи, пользуясь инструментами Google, могут анализировать тексты и частоту применения слов в разных контекстах и в различные времена.

Большой Брат и его данныеБольшой брат и его данные

Но и это еще не все: возможно, достаточно скоро мы окажемся под постоянным прицелом огромного количества крошечных камер. Будут, конечно, средства защиты от них, но также будут и устройства, от которых рядовой человек не сможет укрыться.

Сейчас от абсолютной прозрачности нас спасает лишь неспособность машин хорошо обрабатывать большие данные. Однако предназначенные для исследования людей специфические программы все чаще выведывают о нас болmit информации, чем нам хотелось бы.

Приведем ставший классическим пример. В американской сети магазинов Target ввели анализ информации скидочных и кредитных карт клиентов для персонализированной рекламы. Последовал крупный скандал. Рассвирепевший папа двенадцатилетней девочки требовал ответа от руководителей магазина, засыпавшего школьницу рекламой с предложениями для беременных. Менеджеры активно извинялись, но вскоре с извинениями пришел ошеломленный папаша. Оказалось, что девочка на самом деле беременна, правда, на момент жалобы даже она не знала об этом. Программа же отследила характерные для беременных перемены в покупках.

Однако реклама еще относительно невинна. Анализирующие персональную информацию программы можно применять и в более «серьезных» контекстах: при решении вопроса о приеме на работу или выдаче кредита, поиске вероятных террористов, исследовании политической благонадежности.

А если машины научатся разбираться в людях даже лучше нас? Например, разработанная в Университете Огайо в прошлом году программа умеет с точностью в 96,9 процента по выражению лица распознать 6 базовых эмоций:

•    отвращение,
•    удивление,
•    гнев,
•    страх,
•    печаль,
•    счастье.

Грядущий аналог Google Glass, возможно, научится определять на лету, говорит ли собеседник правду или врет. Такое вторжение в личное пространство любого человека пока немыслимо для нас. В столь прозрачном мире нам придется перестраивать всю систему отношений!

Скажем иллюзиям «Прощай!»

Страстная увлеченность любой идеей обычно сменяется столь же сильным разочарованием. Мода в сфере прогресса и науки непостоянна так же, как и в прочих сферах. Как полагают эксперты, пик связанных с большими данными ожиданий остался позади. Используем же мы их лишь в минимальном объеме. Аналитики утверждают, что все больше говорят о больших данных, нежели используют их.

Машина, конечно, способна справляться с задачей, подобной принятию решений. Однако смысл анализируемых событий компьютер понять не может. Он воспринимает их лишь как ряды цифр. Анализ больших данных чаще сводят к поиску корреляций. Это связи меж парой переменных, демонстрирующие, что меняются они одинаково в пространстве или времени. Но причинной зависимости эта связь вообще не означает.

Скажем, число домов терпимости в городах коррелирует с количеством церквей. Однако вызвано это не тем, что параметры эти друг друга дополняют (например, грешники каются). Просто оба они зависят от третьего параметра: городского населения. При анализе множества переменных по различным параметрам некоторые из них могут подобным образом случайно коррелировать.

Эксперты говорят, что многие исследователи пытаются брать данные и анализировать их без наличия процесса или объекта, породившего эти данные. Можно привести пример с шопингом: из данных о покупках того или иного клиента пытаются делать выводы о перспективах приобретений. Однако выстраивания корреляции лишь меж цепочками цифр здесь недостаточно. Важно учесть и психологию покупателей, выстроив модели их поведения. Для качественного анализа данных требуется создание таких хороших моделей. А это не так уж и просто.

Ведь самые лучшие когнитивные компьютеры все еще не в состоянии заменить человеческий мозг...