В чем особенности физического и статистического подходов в биоинформатике? Какие значимые результаты удалось получить в структурной биоинформатике? Как проходит чемпионат мира по предсказанию структуры белков? Об этом рассказывает доктор биологических наук Михаил Гельфанд.

Структурная биоинформатика — это раздел биоинформатики, который изучает структуры, — из названия ясно. Могут быть структуры белков, могут быть структуры РНК, в последнее время это структуры ДНК, причем не одной молекулы, а того, как она уложена в ядре — это отдельная новая область.

На самом деле структурная биоинформатика существует дольше, чем просто биоинформатика, ее девичья фамилия — это физика белка. Предсказывать структуру белка по последовательности люди начали где-то в 70-е годы, когда какие-то структуры стали известны. Были классические опыты, которые показывали, что структура полностью определяется последовательностью — во всяком случае, для небольших белков. И значит, если последовательность умеет свернуться в правильную структуру, то мы должны уметь воспроизводить, мы должны по последовательности уметь эту структуру предсказать.

Этим начали заниматься очень много. Я помню, что когда окончил университет, то решил, что не буду заниматься математикой, а буду заниматься чем-то биологическим. Первое, что мне пришло в голову: давайте я тоже придумаю какой-нибудь способ предсказания структуры белка. И старшие коллеги мне сказали: «Миша, это, конечно, замечательно, но у нас будет еще 13-й метод — и что?» Я не стал этим заниматься и не жалею, но, с другой стороны, прошло 30 лет, а люди продолжают придумывать новые алгоритмы. Только сейчас начались работы, где эти предсказания делаются более или менее уверенно.

Есть два подхода. Обычно они как-то комбинируются. Первый — чисто физический, и он и был бы самый правильный, если бы мы умели, потому что там индивидуальная молекула белка про другие молекулы ничего не знает: ни про статистику, ни про эволюцию, — она сама умеет в пробирке правильно свернуться просто под действием физических сил. Значит, мы должны уметь по-хорошему смоделировать действие этих физических сил так, чтобы она правильно свернулась. Это получается не очень хорошо.

Причины очень разнообразные. Во-первых, очень неустойчивое, потому что очень маленькие колебания в параметрах могут приводить к сильным изменениям в модели, мы не умеем моделировать настолько хорошо, чтобы уметь сглаживать принципиальную неточность. Кроме того, оказывается, что совсем хорошие модели вычислительно совершенно ужасны. Там есть область, тоже относительно новая, которая называется молекулярная динамика, которая как раз пытается моделировать движение молекул под действием физических полей. Но она требует каких-то нечеловеческих вычислительных ресурсов, чтобы сделать хоть что-нибудь минимально разумное. Она будет развиваться с развитием суперкомпьютеров. Но массово так не получается, и безумно хорошо тоже не получается.

Второй подход — статистический. Если мы знаем, что какая-то последовательность аминокислот во многих разных белках любит принимать одну и ту же форму, то, наверное, в нашем новом белке она будет принимать примерно ту же самую форму. Это в некотором смысле альтернативная идеология. Там тоже люди начали делать довольно красивые вещи, оказалось, что надо смотреть локально, маленькими пространственными кусочками. Появились хорошие алгоритмы, которые это делают, и это, по-видимому, действует.

То, что появилось с ростом числа геномов, числа последовательностей и числа известных структур, — это сравнительный подход, который, по-видимому, сейчас один из самых мощных. Там идея такая, что, если у вас есть много белков, они, скорее всего, сворачиваются в одну и ту же структуру, если они родственные, и тогда вы можете пытаться их свернуть сразу все одновременно. И это оказывается намного точнее, чем если вы сворачиваете индивидуальную молекулу.

Потому что все несущественные различия при этом нивелируются, у вас остается только то, что важно и существенно.

Идеологически близкий подход, который был популярен лет 10 назад и в общем популярен и сейчас, — это пронизывание, по-английски это threading. Идея была такая, что мы знаем все классы структур, что принципиально новых структур, скорее всего, не существует — бывает, что они существуют, но они редкие, — и если у вас есть какой-то индивидуальный белок, то общая архитектура для него уже, скорее всего, встречалась. Поэтому давайте мы возьмем эту последовательность и не будем предсказывать структуру с самого начала, а просто возьмем коллекцию существующих архитектур структурных элементов и будем пытаться (вот откуда термин «пронизывание») эту линейную последовательность белка вставить в эти структуры наилучшим образом. Результат будем оценивать с точки зрения физики, с точки зрения физики взаимодействия.

Это классическая наука, она очень давно известна, но, когда там появились статистические и сравнительные эволюционные подходы, она постепенно вползла в биоинформатику. Это такой физический край биоинформатики.

Вторая довольно близкая область — это пространственные структуры РНК. Это другая молекула, совершенно другая физика, другие принципы. Но по постановке задачи очень похожи: у нас есть последовательность нуклеотидов, и мы хотим предсказать сначала вторичную структуру, какие будут взаимодействия, создающие локальные элементы структуры, а потом как эти элементы структуры друг с другом связаны.

С самого начала это проходило по ведомству биоинформатики, были придуманы хорошие алгоритмы минимизации сначала физических параметров, то есть просто энергии, а потом стали применять сравнительные методы. Идея та же самая: если у вас есть родственные РНК, то они должны свернуться в похожие структуры. Это хорошая, красивая область, потому что она связана с другой биоинформатикой. РНК, когда образует вторичную структуру, пространственную структуру, после этого что-то делает. И результатом таких предсказаний, в частности, оказались новые классы регуляторных структур РНК, которые регулируют работу генов, рядом с которыми они образуются. Это так называемый РНК-переключатель — один из любимых примеров тотального успеха биоинформатики, потому что это класс регуляторных структур, который был целиком открыт путем биоинформатического анализа, а потом уже экспериментально подтвержден и проверен. Это success story в нашей области.

Еще одна область, довольно сильно идеологически отличающаяся, но тоже о пространственной структуре, — это пространственная структура укладки ДНК в ядре (в тех клетках, в которых ядро есть). Это совсем молодая область. Экспериментальная техника, которая позволяет это делать, появилась где-то в середине 2000-х. Там очень красивая экспериментальная идея, которая порождает эти данные. В конечном счете получается вот что: вы берете популяцию клеток, и для каждой пары фрагментов ДНК вы знаете, насколько часто эти два фрагмента в клетках из вашей популяции оказываются рядом. Ясно, что укладка ДНК в клетках разная. ДНК, если ее вытянуть из одной нашей клетки, будет три метра. А уложено это в ядро размером в несколько микрон — упаковка довольно плотная. И она в клетках разная, такого сорта опыты тоже делали, когда смотрели эти данные в индивидуальных клетках. Тем не менее есть какие-то общие структурные свойства, и их очень интересно смотреть, их можно для этих данных вынимать, а дальше их интересно сопоставлять с другими данными. Например, как гены работают.

Рекомендуем по этой теме:
10663
Биоинформатика как дисциплина

Доказывается, что в участках, которые часто пространственно сближены, гены находятся в одном и том же функциональном состоянии, они включаются или выключаются одновременно. Это нетривиальный результат, который в каком-то смысле ожидали, в фольклоре это всегда было, что должны быть такие пространственные области, в которых гены одновременно работают. Но реально это было на уровне фольклора, на уровне того, что каждый биолог себя мнит Господом Богом. И если бы он был Господом Богом, он бы клетки устроил так, потому что это разумно. Оказывается, что в каком-то приближении это действительно так устроено. Есть только самые первые результаты. Ясно, что это будет развиваться довольно сильно.

Если говорить о пространственной структуре белка, то я повторю своих учителей и скажу, что туда молодому человеку идти необязательно, потому что там существенные вещи сделаны. И те алгоритмы, которые есть.

Проводится чемпионат мира по предсказанию структуры белков, где программы реально соревнуются.

Структуры, которые решены, но еще не опубликованы. Сообщается, что есть такой-то белок, все предсказывают его структуру, а дальше эти структуры публикуются, и смотрят, кто лучше предсказал. На самом деле это довольно жестокое мероприятие. Как в любом спорте, там есть разные типы соревнований: можно предсказывать структуру по последовательности; можно предсказывать структуру по последовательности, если уже известна структура родственного белка, а вам надо понять, в чем состоят тонкие отличия одного от другого; можно предсказать, как с белком будет взаимодействовать какая-то малая молекула, что полезно во всей фармакологической деятельности, потому что лекарства — это и есть малые молекулы, которые взаимодействуют с белками. Это очень конкурентная область, туда тяжело входить, и там уже очень много сделано.

А область, связанная с пространственной укладкой хроматинов клетки, очень молодая, новая, и там очень красивые работы делаются буквально каждый год, экспериментальная техника очень быстро развивается, и сливки, конечно, снимают те биоинформатики, которые работают с этими биологами. Там можно ставить нетривиальные задачи и что-то пытаться делать — это область очень горячая. Ею как раз прямо сейчас имеет смысл заняться. Может быть, чуть поздно, но еще имеет смысл.