В 90-х годах был успешно запущен проект «Геном человека», целью которого было прочтение всего генома человека. Усилиями десятков лабораторий по всему миру это удалось. Чтобы прочитать весь геном человека, потребовалось 3 миллиарда долларов и 13 лет усилий. С изобретением новых приборов высокопроизводительного секвенирования ситуация резко изменилась, и теперь 10 геномов человека можно прочитать в течение двух недель за довольно низкую цену.

1. Архитектура компьютера для обработки геномных данных

При построении такой системы нужно иметь хорошо проработанный технический проект. Перед тем как его устанавливать, нужно задаться вопросом, кто будет создавать архитектуру компьютера. Обычно это происходит неявно при взаимодействии заказчика-ученых и поставщиков оборудования. Также необходимо выделять персонально ответственных лиц, которые будут отвечать за архитектуру. Иначе архитектура будет сформирована только на основе каких-то имеющихся решений и может не подходить под задачи обработки геномных данных.

Основной вопрос, который придется решить, — это какую операционную систему использовать. В нашем случае это операционная система Scientific Linux, разработанная на основе промышленного дистрибутива Redhat Enterprise Linux ведущими научными лабораториями ЦЕРНа и FERMILAB. Также придется решать задачу использования файловых систем. Наша лаборатория использует файловые системы Lustre, OCFS2 и XFS. Кроме этого придется решать задачи мониторинга всей системы. Наша система мониторинга — это Nagios. Также нужно решать проблему конфигурации узлов, поскольку невозможно ходить с флешкой от узла к узлу. Для решения этой проблемы существует система Puppet, которая позволяет настраивать конфигурацию всех узлов.

Рекомендуем по этой теме:
6959
Компьютеры для геномики
2. Компьютеры для обработки геномных данных

Для многих специалистов в этой сфере вопросы архитектуры компьютера являются прописной истиной, однако когда с этой проблемой сталкиваются биологи, то они должны начинать решать ее с нуля. Сталкиваясь с такой проблемой, биологи обращаются либо к вендорам (производителям компьютеров), либо к физикам, которые уже используют компьютеры не одно десятилетие, со времен расчетов атомной и водородной бомбы. Однако для обработки геномных данных нужны совершенно другие компьютеры, не такие, как, например, для обработки расчетов в математической физике или в гидродинамике.

Один из первых таких центров обработки геномных данных был создан нашей лабораторией эволюционной геномики. Если обычные суперкомпьютеры представляют собой очень мощные вычислители с огромным количеством процессоров, очень быстрой сетью связей между процессорами и с относительно маленькими хранилищами данных, то для биологов нужен компьютер, который не только обрабатывает данные, но и может вместить огромное количество данных, передавать их на большой скорости и при этом обладает сравнительно небольшой вычислительной мощностью. То есть в нем количество процессоров сравнимо с количеством хранилищ данных. Такой компьютер получает данные с двух секвенаторов, на нем производится сборка геномов, аннотация геномов.

3. Секвенаторы в лабораториях

В мире существует огромное количество больших геномных центров. Среди ведущих центров можно назвать Пекинский институт геномики, который располагает более чем сотней секвенаторов, Broad Institute в США и Институт Сенгера в Англии. В России только начинают поступать первые высокопроизводительные секвенаторы в отдельные лаборатории.

Подобные компьютеры разрабатывают для таких наук, как геология, где обрабатывают большие потоки данных, или для сотовых компаний, где хранят записи всех звонков. Это компьютеры, которые обладают огромными хранилищами и позволяют передавать данные на большой скорости. Такой компьютер построен в нашей лаборатории эволюционной геномики на факультете биоинженерии и биоинформатики МГУ. Он содержит около 500 Тбайт дисковых массивов, это примерно 1/3 от дисковых массивов суперкомпьютера «Ломоносов». При том что «Ломоносов» содержит около 70 тысяч вычислительных ядер, в то время как наш компьютер содержит всего лишь около 300-400 вычислительных ядер.

4. Типичные вычислительные задачи

Типичными задачами в области геномики являются сборка геномов de novo из коротких чтений, аннотация геномов, то есть разметка их на области, кодирующие белки и некодирующие белки, задачи обработки сырых данных, которые поступают с секвенаторов. В нашей лаборатории также решаются задачи популяционной геномики, когда мы обрабатываем генотипы множества индивидов популяции, задачи транскриптомики, медицинской геномики. В нашем случае для решения этих задач пришлось иметь узлы с большой памятью: для сборки геномов de novo нужен огромный объем оперативной памяти — это 512 Гбайт оперативной памяти. Также у нас развернута инфраструктура SAN, с передачей данных по протоколу Fibre Channel. Мы можем гибко подключать диски к серверам, выделять диски для различных проектов и передавать данные на большой скорости. Кроме того, у нас развернута файловая система Lustre. Это распределенная файловая система, которая используется обычно в очень мощных суперкомпьютерах; в частности, она также используется и на «Ломоносове» и позволяет распределить нагрузку на дисковые массивы.

Огромная проблема, с которой сталкиваются создатели таких систем, — это проблема электричества. К сожалению, иногда возникают перебои с электричеством, и нужно предусматривать мощные источники бесперебойного питания, чтобы питать в критическом случае от 5 минут до получаса всю компьютерную систему.

5. Проблемы и новые возможности в геномике

С появлением высокопроизводительных секвенаторов впервые появилась возможность получать дешево геномные данные на уровне полного генома, а не каких-то участков определенных локусов. Это открыло совершенно новые возможности для исследований в эволюционной и в медицинской геномике. Например, вы можете взять популяцию гаммарусов или каких-нибудь рыб, прочитать геномы сразу 20-40-50 образцов и проверить всю популяционную генетику, просто исходя из генотипов этих организмов. В медицине для любых моделей и предсказаний нужно множество повторностей. Другими словами, нужно секвенировать 50-100 пациентов, чтобы можно было о чем-то говорить. Именно для этого и необходимы секвенаторы. Естественно, это очень тяжело. И ученые сейчас пишут программы на скриптовых языках, учатся программировать, изучают статистику, для того чтобы понимать смысл этих данных.

Может быть, когда-нибудь эта эпоха пройдет и сменится каким-то более разумным подходом, когда будут планировать эксперименты и понимать, какие именно данные нужно получать, а какие нет. Сейчас же секвенируют все что можно и получают все данные, до которых могут дотянуться. Их и пытаются обработать. В связи с этим потребность в компьютерах будет только возрастать до того времени, пока не будет выработана более зрелая методология исследований.