Может ли молекула ДНК, носитель наследственной информации, стать также надежным хранилищем огромного объема данных, накопленного человечеством за всю его историю? Первые результаты ученых, работающих над решением этой поистине эпохальной задачи, кажутся обнадеживающими.
ЕСЛИ ВЕРИТЬ СПЕЦИАЛИСТАМ, МИР СТОИТ НА ПОРОГЕ ГЛОБАЛЬНОГО ИНФОРМАЦИОННОГО КРИЗИСА. Он вызван, конечно же, не недостатком информации, а наоборот – ее лавинообразным ростом и связанной с этим проблемой надежного депонирования и активного использования данных. К 2020 году только отцифрованный архив нашей планеты – от астрономических изображений и журнальных статей до видеоклипов YouTube – распухнет аж до 44 триллионов гигабайт (Гбайт), что в десять раз больше, чем в 2013 году. А к 2040 году, если вся информация будет архивирована с обеспечением постоянного доступа к ней, например, в уже ставших обычными для нас флешках, то производство микрочипов для такого объема данных потребует в 100 раз больше кремния, чем способна обеспечить промышленность.
Даже если эта потребность будет каким-то образом удовлетворена, что представляется крайне маловероятным, остается проблема надежного хранения информации на используемых сегодня носителях. Специалисты по базам данных уже не доверяют записям на жестких дисках по прошествии коротких трех лет. Еще меньше они полагаются на магнитные ленты по истечении всего десяти лет. Долгосрочное и безопасное хранение отцифрованной информации сегодня они связывают с ДНК, которая не раз доказала свою надежность в этом отношении: например, в 2013 году удалось прочитать геном лошади, расшифровав его из кости, пролежавшей в течение 700 тыс. лет в вечной мерзлоте.
Идея о кодировании данных на ДНК появилась не так давно, в 2011 году, и поначалу она воспринималась не иначе как остроумная шутка. Но уже через два года на спиралях генетической молекулы удалось записать пять файлов, включая сонеты Шекспира и отрывок из знаменитой речи Мартина Лютера Кинга "У меня есть мечта". В 2016 году исследователи из компании Майкрософт и Университета Вашингтона объявили о достижении объема зашифрованной на ДНК информации в 200 мегабайт, побив тем самым державшийся три года рекорд их коллег из Европейского института биоинформатики.
Сегодняшнее развитие науки требует анализа большого объема информации, который все еще накапливается и хранится на устаревших магнитных лентах. Эти носители данных в сравнении с кремниевыми намного плотнее пакуют информацию, но по этой же причине она прочитывается медленнее. Теоретически можно представить базу данных объемом один гекзабайт (один миллиард Гбайт) информации, записанной на магнитных лентах. Однако на конструкцию и эксплуатацию такого хранилища в течение десяти лет потребуется около одного миллиарда долларов США, а также сотни мегаватт электроэнергии.
МОЛЕКУЛЯРНЫЙ СПОСОБ ХРАНЕНИЯ НА НЕСКОЛЬКО ПОРЯДКОВ СОКРАТИЛ БЫ ЭТИ РАСХОДЫ. Если информацию упаковать так же, как в генах бактерии, потребности мирового архива информации могут быть удовлетворены примерно одним килограммом ДНК. Понятно, что достижение такого потенциала не представляется легкой задачей. Прежде чем ДНК станет серьезным конкурентом традиционным технологиям, исследователям придется решить массу проблем, начиная от дешевого синтезирования искусственной ДНК, надежного кодирования на ней информации и возможности извлечения для дальнейшего анализа только нужных потребителю данных.
Первым человеком, в 1988 году картировавшим единицы и нули отцифрованной информации на четыре пары оснований ДНК, был художник Джо Дэвис, которому помогал исследователь из Гарварда. Последовательность ДНК, встроенная в кишечную палочку, копировала всего лишь 35 битов информации. Поместив закодированные данные в матрицу 5 х 7 (единицы – темные пиксели, нули – светлые), авторы получили контуры древнегерманских письмен (рун), обозначающих жизнь и женщину. Растиражированные копии этих изображений стали первым коммерческим успехом использования ДНК в качестве хранилища негенетической информации.
Сегодня исследователи работают над снижением расходов при синтезировании искусственной ДНК, как это удалось сделать для стоимости секвенирования генома человека и других организмов. Другой проблемой являются ошибки при записи информации на нити генетической молекулы. В одном из экспериментов даже после повторного секвенирования в декодированном тексте было обнаружено 22 неточности – слишком много для надежного хранения данных.
Значительно смогла продвинуться в этом направлении уже упомянутая группа из компании Майкрософт и Университета Вашингтона. Исследователи извлекали крохотные участки из архива синтезированной ими ДНК и создавали большое количество их копий с закодированными данными. Увеличение числа копий сделало процесс секвенирования быстрее, дешевле и намного точнее, чем при предыдущих методах. Удалось также построить оригинальную схему коррекции ошибок, которая помогла в два раза увеличить плотность кодируемых данных. В результате этого исследователи поместили 151 килобайт информации на одном-единственном пучке нитей ДНК. Они извлекли три изображения – кошки, здания Сиднейской оперы и карикатурной обезьяны, допустив лишь одну ошибку, которую пришлось исправлять вручную.
ОСНОВНЫЕ ПРОБЛЕМЫ, КОТОРЫЕ ПРЕДСТОИТ РЕШИТЬ СПЕЦИАЛИСТАМ, связаны с масштабом и скоростью синтезирования молекул ДНК – в данном случае носителей и хранителей негенетической информации. Сегодня химический процесс по добавлению одного основания в синтезируемую цепь ДНК длится до 400 секунд, что для объема информации в один петабайт займет около 30 лет. Для кодирования глобальной информации должны быть синтезированы миллиарды различных нитей с их одновременным кодированием. Однако потолок возможностей современных технологий составляет лишь несколько десятков тысяч отдельных последовательностей.
С временным фактором тесно связана и стоимость синтезируемой ДНК. Сегодня она составляет около 98% расходов, т.е. на секвенирование остается только 2% благодаря значительному снижению расходов на эту процедуру за последние 15 лет – со времени завершения проекта "Геном человека" в 2003 году. Тем не менее ученые пока еще настроены пессимистично относительно того, что экономический фактор может существенным образом стимулировать прогресс в синтезе ДНК: "Легко представить секвенирование геномов семи миллиардов людей, но пока нет оснований даже помышлять о синтезировании того же количества геномов человека". Некоторые надежды в скором прогрессе в данном направлении связываются с успехами новой программы Human Genome Project-Write (HGP-write), которая в случае достаточного финансирования и успешного продвижения должна завершиться сборкой полного генома человека – 23 пары хромосом, содержащих 3,2 миллиарда нуклеотидов.
Оптимисты уверены, что стоимость синтеза ДНК снизится на несколько порядков уже в обозримом будущем, поскольку не видят никаких фундаментальных причин того, почему она высокая. Согласно вполне реалистичным прогнозам, для практического использования наследственной молекулы в роли хранилища глобальных данных необходимо стотысячекратное улучшение существующих технологий. Процесс усовершенствования используемых вариантов идет постоянно вперемежку с появлением революционных инноваций, и потому снижение стоимости синтеза на шесть порядков, по мнению большинства специалистов, вполне достижимая цель в геномике.
Необходимо только набраться терпения и ждать, когда ДНК обязательно станет рутинным и надежным архивом не только уже накопленной, но и постоянно генерируемой информации в процессе бурной жизнедеятельности человечества.
Левон ЕПИСКОПОСЯН, доктор биологических наук, профессор
"Мост" (приложение к газете "Голос Армении")