Биология и информатика: в ожидании третьего прорыва?

К.б.н., ведущий специалист по компьютерной геномике, кафедра онкологии Оксфордского университета, представитель России в консорциуме ELIXIR

В альтернативной версии истории человечества, представленной в культовом аниме середины 1990-х «Shinseiki Evangelion» («Евангелион нового поколения»), землян в 2015 г. ожидает очередной апокалипсис, который готовят ученые, занимающиеся геномикой, клонированием и биоинформатикой. Авторы называют его «третьим ударом» (Third Impact).

В середине прошлого века Игорь Тамм, выдающийся физик, лауреат Нобелевской премии, утверждал, что наступающий век будет веком биологии – подобно тому, как XX век был веком физики. Если говорить о привлечении общественного внимания, то ученый, безусловно, оказался прав. Но так ли это с точки зрения прорывов в науке? По аналогии с аниме «Evangelion» можно сказать, что два «удара» или, точнее, прорыва уже состоялись. Ждет ли нас третий прорыв, который может дать принципиально новые знания в фундаментальной науке и принести новые лекарства и методы лечения в практическую медицину?

Рассмотрим одну из бурно развивающихся отраслей научного знания – биоинформатику. Как и во многих подобных ей междисциплинарных областях, довольно трудно дать ей строгое определение. В рамках настоящего обзора под биоинформатикой мы будем понимать применение информационных технологий для анализа биологических данных.

Цифры в биологии: от гороха Менделя до персональных геномов

Информационные технологии перестали быть уделом программистов и математиков, что привело к расширению круга биологических задач, решаемых с помощью компьютеров.

Исторически биология складывалась как описательная наука. Например, существенной частью работы Чарльза Дарвина как биолога в его экспедициях были иллюстрации, изображение различных видов животных. С появлением возможности оцифровывать изображения анализ графической информации вернулся в биологию в новом аспекте. В определенном смысле первым биоинформатиком можно считать Грегора Менделя, поскольку он использовал количественные данные для решения чисто биологической задачи: подсчитывая число горошин, имеющих различный фенотип в ряду поколений, он смог сформулировать законы наследственности.

Постепенно в биологии появлялось все больше параметров, которые можно было «пересчитать», и к статистической генетике добавились исследования динамики популяций, кинетики биохимических реакций и других процессов, протекающих в биологических системах. Хрестоматийно известная модель системы «хищник – жертва» была одним из первых примеров использования математики для моделирования биологических процессов. Существенным компонентом в этом развитии стало использование численных методов в биофизике для моделирования структуры и динамики биополимеров – белков и нуклеиновых кислот.

Такие вычисления, безусловно, требовали значительных компьютерных мощностей, но о выделении биоинформатики в отдельную дисциплину речь не шла до середины 1980-х годов. Первым упоминанием термина «биоинформатика» в названии научной статьи считается работа «Новые направления в биоинформатике» («New Directions in Bioinformatics»), вышедшая в 1989 г.


Игорь Тамм, выдающийся физик, лауреат
Нобелевской премии, утверждал, что
наступающий век будет веком биологии –
подобно тому, как XX век был веком физики

В 1980-х годах в развитии разных наук и технологий наблюдались два тренда: во-первых, стали доступны в больших масштабах (сотни и тысячи) первые последовательности белков и нуклеиновых кислот, во-вторых, появились персональные компьютеры, позволившие биологам анализировать новые типы данных, справиться с которыми вручную было уже сложно. Например, программа PC/GENE, написанная швейцарским биоинформатиком Амосом Байрохом, работала на простейшем персональном компьютере PC/XT с тактовой частотой процессора 4 МГц и позволяла делать практически все, что было тогда нужно молекулярному биологу. Примерно тогда же (1986 г.) А. Байрох создал банк данных белковых последовательностей SwissProt, который и сегодня сохраняет свой статус всемирно известного и надежного информационного ресурса.

Не отставали и российские ученые и программисты. Можно вспомнить некоторые из пакетов программ, которые были созданы в начале 1990-х годов и по своей функциональности и инновационности не уступали зарубежным аналогам: GeneBee (МГУ), VOSTORG (Институт цитологии и генетики СО РАН), Samson (Институт математических проблем биологии, г. Пущино) и др. Информационные технологии перестали быть уделом программистов и математиков, что привело к расширению круга биологических задач, решаемых с помощью компьютеров.

Таким образом, к середине 1990-х годов биоинформатика заняла достойное место среди других отраслей знания. Признание ее значимости мировой научной общественностью было отмечено появлением мировых центров – «трех китов» биоинформатического мира: Европейского института биоинформатики (European Bioinformatics Institute, EBI, 1992), Национального центра биотехнологической информации США (National Centre for Biotechnological Information, NCBI, 1988 г.) и Банка данных ДНК Японии (DNA Data Bank of Japan, DDBJ, 1986 г.). Следует отметить, что такой «взрывной» рост объема данных касался (и касается в основном до сих пор) преимущественно молекулярной биологии. Биополимеры, хранящие наследственную информацию (ДНК), а также те, которые выступают как непосредственные инструменты в биохимических реакциях в клетке (белки), можно представить как последовательность символов – своего рода букв в том или ином алфавите. Такого рода информация очень легко формализуется для хранения и обработки в вычислительных системах.

Если учесть, что большинство заболеваний связано не с одним, а со многими генами, то от радужных надежд на быстрый успех в медицинском применении открытий, связанных с геномом человека, почти ничего не остается.

Объемы данных в современной биологической науке таковы, что без применения информационных технологий их анализ практически невозможен. Наступающая эпоха персональных геномных данных, когда генетический код практически любого человека будет прочитан, делает роль биоинформатики еще весомее.

Бессмертны ли телевизоры, или о рекламной науке

День 26 июня 2000 г., безусловно, вошел в историю не только науки, но и всего человечества: на совместной пресс-конференции Б. Клинтон и Т. Блэр объявили о публикации первой версии генома человека. Ученые в целом трезво оценивали ситуацию, понимая, что прочитанная последовательность генома, все три миллиарда букв-нуклеотидов – это лишь начало. Даже само название статьи, в которой были опубликованы исследования генома, – «Первоначальное секвенирование и анализ генома человека» («Initial Sequencing and Analysis of the Human Genome») – подчеркивало предварительность полученных данных. Авторы прямо заявляли о том, что представляют черновую версию генома человека, предварительные результаты анализа данных. В отличие от ученых политики были настроены гораздо более оптимистично. Так, президент Б. Клинтон, завершая торжественную часть, заметил, что скоро мы будем жить по 150 лет, а наши внуки будут знать слово «рак» только как название созвездия.

Однако уже через 3–4 года наступило разочарование. Многие ученые стали говорить о «геномном пузыре», напоминающем «пузыри» биржевых спекуляций. Большинство из них признало, что практического использования этого открытия в медицине придется ждать еще долго, что для этого понадобится не только терпение, но и понимание того, что можно сделать с этими данными.


circos.ca
Предварительные результаты
картирования генома. ENCODE

Гены, которые кодируют белки, составляют лишь около 1% от всего генома. Поэтому представлять себе, что получение информации обо всех белках и их генах способно радикально улучшить ситуацию и привести к прорывам в области создания новых лекарств и методов лечения, было бы не вполне правильным.

Классический пример – муковисцидоз, наследственная болезнь, вызываемая мутацией в одном из генов, кодирующих регуляторные белки. Примечателен заголовок статьи, опубликованной в журнале «Nature», – «Один ген и двадцать лет» («One Gene, Twenty Years»). Он как бы подчеркивает тот факт, что даже в таком, казалось бы, простом случае, когда известна конкретная «поломка» в гене, вызывающая болезнь, мы все еще далеки от победы над этой болезнью. А если учесть, что большинство заболеваний связано не с одним, а со многими генами, то от радужных надежд на быстрый успех в медицинском применении открытий, связанных с геномом человека, почти ничего не остается.

Через три года после публикации генома человека был создан международный консорциум ENCODE (Encyclopedia Of DNA Elements). Главной целью проекта стало детальное описание всех генов и других элементов генома, создание своего рода карты или энциклопедии. В 2012 г. предварительные результаты картирования были опубликованы в большой обзорной статье и в 29 дополнительных статьях, посвященных отдельным биологическим проблемам.

По сути, участники консорциума попытались понять, какой функции соответствует тот или иной участок генома человека. Используя экспериментальные техники и методы биоинформатики, они обнаружили, что около 80% последовательности ДНК генома может быть прочитано, и на ее основе может быть синтезирована РНК (этот процесс называется транскрипцией). Если же этот участок хромосомы не считывается, он может быть модифицирован химически, чтобы выполнять функции регулятора, включая или выключая считывание тех или иных участков геномной ДНК. Авторы исследований провели также эволюционный анализ, сравнив между собой геномы различных видов приматов и млекопитающих, и пришли к следующему выводу: если один и тот же участок ДНК похож у разных видов животных, это означает, что в процессе эволюции он изменяется слабо или не изменяется совсем. Следовательно, функция данного участка важна для функционирования клетки или всего организма в целом.

Следует различать то, что часто называют «рекламной наукой» («publicity science»), и реальное научное знание, которое и ведет к практическому применению открытий.

Проект ENCODE был, безусловно, важным шагом в исследовании генома человека. Прочитав геном, ученые записали буквы, из которых он состоит. Теперь нужно было понять, какие слова записаны этими буквами, понять фразы этого языка. Однако биологические системы отличаются беспрецедентной сложностью структуры и организации протекающих в них процессов, что исключает возможность простых и быстрых решений.

Публикация данных ENCODE вызвала бурное обсуждение в научной среде. Одна из наиболее ироничных и обсуждаемых статей называлась «О бессмертии телевизоров, или что такое “функция” в геноме человека (по евангелию от ENCODE, без эволюции)» («On the Immortality of Television Sets: “Function” in the Human Genome According to the Evolution-Free Gospel of ENCODE»). Авторы статьи резонно замечали, что в публикациях консорциума ENCODE непомерно раздута функциональная сторона проблемы, что утверждение о функциональной значимости 80% генома человека основано на логически противоречивых допущениях, не принимающих в расчет положения теории молекулярной эволюции и другие фундаментальные биологические постулаты.


innovaworld.ru
Устройство для чтения ДНК (мини-
секвенатор)

Если функциональность участков генома не поддерживается естественным отбором, они будут накапливать повреждающие мутации и перестанут функционировать. Абсурдная альтернатива этому утверждению, принятая в качестве позиции авторами ENCODE, заключается в том, что они полагают, будто бы повреждающие мутации могут происходить в участках генома, имеющих функциональное значение. Это утверждение равносильно тому, что телевизор, предоставленный сам себе, будет так же работоспособен через миллион лет, поскольку он не будет ржаветь, изнашиваться, подвергаться воздействию разрядов статического электричества или землетрясений.

Не преуменьшая глобального значения проектов «Геном человека» и ENCODE, все же следует различать то, что часто называют «рекламной наукой» («publicity science»), и реальное научное знание, которое и ведет к практическому применению открытий.

Биологические системы невероятно сложны, и описать простыми словами и уравнениями законы их функционирования пока удается лишь для достаточно простых ситуаций. Дело здесь не только в том, что компьютерные мощности отстают от темпов, с которыми новые технологии производят биологические данные (например, секвенирование нового поколения – next-gen sequencing). Проблемы, с которыми сегодня сталкиваются математики, во многом схожи с теми, которые обнаруживались в физике при смене классической парадигмы на квантовую.

Одна из интересных работ по философии науки так и называется: «Математика – новый микроскоп для биологии, только лучше; биология – новая физика для математики, только лучше» («Mathematics Is Biology’s Next Microscope, Only Better; Biology Is Mathematics’ Next Physics, Only Better»). Автор статьи профессор Дж. Коэн описывает десять основных вызовов, с которыми сталкиваются биологи и математики. По его мнению, необходимость анализировать и моделировать сложные биологические системы, от клеток до биоценозов, может привести к созданию новых теорий и алгоритмов в математике и вычислительной технике. Нынешняя ситуация, считает ученый, аналогична той, которая сложилась в физике в начале XX века и привела к созданию квантовой механики и теории относительности.

Будущее где-то рядом: от генов к лекарствам

Третий прорыв (Third Impact) в биоинформатике многие связывают с тем, что называется «Большие данные» (Big Data).

Итак, можно сказать, что два прорыва уже состоялись: геном человека и ENCODE. Что можно ожидать в ближайшем будущем – нового прорыва или стагнации?

Одним из наиболее заметных изменений в экспериментальной молекулярной биологии стало открытие относительно дешевых методов секвенирования последовательностей ДНК и РНК. Сегодня прочтение полного генома человека может стоить около 1000–1500 долл., при этом цена быстро снижается. Такой прогресс связан с появлением технологий секвенирования нового поколения (Next-Generation Sequencing, NGS). Основной игрок в данном сегменте рынка – компания «Illumina», ее серьезные противники – «Pacific Biosciences» и «Life Technologies» с технологией Ion Torrent. В большинстве этих методик геном разбивается на короткие фрагменты (длиной несколько сотен букв-нуклеотидов), которые очень быстро прочитываются тем или иным физико-химическим способом. Таким образом, геном человека представляется как файл, содержащий несколько десятков миллионов коротких фрагментов.

Однако технологии развиваются, и одним из многообещающих выглядит подход, разрабатываемый компанией «Oxford Nanopore». Данная технология еще не вышла из стадии первых тестов, но уже привлекла к себе внимание не только ученых, но и средств массовой информации. Оказалось, что геном можно читать почти целиком, используя USB-устройство, не намного превышающее по размеру обычную флеш-карту. В теории эта технология позволяет прочитывать более длинные фрагменты генома (до 100 тыс. нуклеотидов), но пока точность такого прочтения составляет около 10%. Мини-секвенатор лишь считывает первичные данные, а основная вычислительная работа происходит на облачном сервере компании.


microbialchronicles.com
Ждет ли нас биоинформатический
апокалипсис: большие данные

Прочтение последовательностей генома как набора коротких фрагментов имеет свои ограничения. Пока не существует алгоритмов, способных собрать полную последовательность генома человека из миллионов коротких фрагментов, прочитанных секвенаторами. Поэтому применяемый сегодня анализ называют ресеквенированием. В этом случае все фрагменты генома сравниваются с некой базовой последовательностью, своего рода канонической версией генома, собранной из геномов нескольких людей. Конечно, такая последовательность будет некоторым обобщением, а не реальным геномом конкретного человека. В свою очередь, в процессе ресеквенирования фрагменты индивидуального генома сравниваются с канонической версией, и таким образом находятся различия, которые могут характеризовать именно этого человека или, если сравнивать между собой несколько индивидуальных геномов, группу людей (например, страдающих определенной наследственной болезнью).

Ресеквенирование ДНК позволяет понять устройство генома. Для того чтобы узнать, как он работает, используются другие методики, в том числе секвенирование РНК (RNA-Seq). Эта методика помогает определить, «включен» ли в клетке тот или иной ген, производит ли он РНК, на которых синтезируется белок, выполняющий ту или иную функцию. Методики иммунопреципитации хроматина (Chromatin Immuno Precipitation, ChIP) дают возможность понять, как происходит регуляция работы генов, как тот или иной белок «включает» либо «выключает» работу генов, подстраивая работу клетки или организма под изменения внешних условий.

Секвенирование – не единственный способ получения биологических данных. Большое распространение получили так называемые биочипы, или ДНК-микрочипы (microarrays). Эта технология была впервые применена к анализу геномов в лаборатории академика А. Мирзабекова и с тех пор широко используется как достаточно дешевая альтернатива методам секвенирования, особенно в медицинской диагностике. Она позволяет быстро определить, несет ли геном пациента мутацию, которая будет влиять на успешность лечения его тем или иным лекарством.

Объемы данных растут, но, к сожалению, понимание того, что за ними стоит, все еще очень далеко от того, что необходимо для практического использования, прежде всего в медицине.

Можно также назвать методики, которые непосредственно подсчитывают количество тех или иных молекул в клетках, в частности, технологии нанострун или количественные методы анализа белков с применением масс-спектрометрии.

Вернулись в «большую биологию» и рисунки. Компьютерный анализ изображений используется не только в таких очевидных случаях, как диагностика рака по морфологии клеток и тканей, но и в изучении динамики биохимических реакций в клетках на молекулярном уровне.

Все перечисленные методики производят огромное количество данных самых разных типов. Разумеется, их обработка, анализ и хранение невозможны без применения компьютеров, и биоинформатика играет здесь первостепенную роль. С одной стороны, речь идет о разработке новых алгоритмов для анализа и интеграции гетерогенных данных. С другой стороны, необходимо решать чисто инженерные проблемы организации хранения и доступа к данным разной степени защищенности (например, к клиническим). Иными словами, третий прорыв (Third Impact) в биоинформатике многие связывают с тем, что называется «Большие данные» (Big Data).
* * *
Один из основных вызовов, с которыми сталкивается биоинформатика в условиях прогресса в области методик секвенирования геномов, сформулирован в форме своеобразного мема профессором Джорджем Черчем – «геном за тысячу, его интерпретация за миллион» («1K Genome and 1M Interpretation»). Объемы данных растут, но, к сожалению, понимание того, что за ними стоит, все еще очень далеко от того, что необходимо для практического использования, прежде всего в медицине. Во многом это обусловлено тем, какие данные производят современные технологии. Последовательность генома дает статичную картину. Это описание того, с каким набором генетических инструкций родился тот или иной человек. Как эти инструкции будут работать в течение его жизни, какие из них проявят себя (и в какой степени), а какие вообще не будут включены – все это зависит от огромного количества внешних факторов. К тому же из-за того, что сборка de novo полного генома человека из фрагментов секвенирования пока невозможна, анализ данных сводится преимущественно к поиску различий между людьми и через эти различия – к объяснению функции того или иного участка генома. Признаки могут быть либо нейтральными (цвет глаз, группа крови, средний рост), либо патологическими (та или иная наследственная болезнь). Различия в том или ином гене (говоря шире, в участке генома) связаны с тем или иным внешним признаком, и таким образом можно понять его функциональную роль. Безусловно, здесь «Большие данные» имеют большое значение. Чем больше пациентов с той или иной болезнью будет проанализировано, тем надежнее будет статистика, и тем точнее удастся определить генетические маркеры, соответствующие данному заболеванию. Неудивительно, что в настоящее время генетическая диагностика переживает новый бум.

Однако от разработки метода диагностики до его внедрения в широкую клиническую практику проходит достаточно много времени. Первые клинические тесты с использованием секвенирования нового поколения были официально одобрены американским агентством по контролю над пищевыми продуктами и лекарственными препаратами (FDA) всего лишь год назад. Это связано с тем, что до сих пор генетические тесты обнаруживают лишь наиболее очевидные и легко объясняемые признаки. Количество пока еще не перешло в качество, и обилие данных о новых участках генома, связанных с патологическими или нормальными признаками, не дает достаточных оснований для прорыва в получении нового биологического знания. Ситуация похожа на ту, которая возникла с прочтением генома человека: ученые просто каталогизируют признаки, приписывая их к разным участкам генома. Это относится не только к секвенированию, но и к другим способам получения данных, таким как биочипы, масс-спектрометрия, анализ изображений. Накопление новой информации происходит лавинообразно, и многое из нее уже получает практическое применение.

Оптимизм внушает тот факт, что биология всегда развивалась от накопления данных к их обобщению. Остается надеяться на то, что прорыва придется ждать недолго. Без биоинформатиков, этих «бухгалтеров от биологии», он сейчас невозможен.

http://russiancouncil.ru/inner/?id_4=4741#top