7 октября 2014 года на сайте журнала PNAS была опубликована статья с описанием новой модели восстановления эволюционной истории с учетом произошедших гибридизаций. Мы попросили прокомментировать это исследование специалиста по биоинформатике, доктора биологических наук Михаила Гельфанда.

Сама по себе наука рисования эволюционных деревьев по последовательностям генов довольно старая. Она восходит к Фрэнсису Крику, который однажды заметил, что можно использовать аминокислотные последовательности белков для установления родственных отношений между живыми существами, из которых взяты эти белки. А первые такие деревья были построены Лайнусом Полингом и Эмилем Цукеркандлем в начале 60-х годов.

Для того чтобы строить такие деревья, нужно использовать какую-то модель молекулярной эволюции. При этом часто получается, что-либо модель очень простая и поэтому нереалистическая, либо она реалистическая, но вычислительно очень сложная. В особенности сложности возникают, когда вы хотите учитывать события гибридизации, которые вообще не описываются деревом, а только сетью. Авторам обсуждаемой статьи удалось частично эту техническую проблему решить, то есть у них, с одной стороны, модель вполне красивая и похожая на правду, а с другой стороны, такая, которую можно вычислить, то есть нарисовать такую сеть хотя бы для какого-то количества таксонов.

Когда вы рассматриваете близкие виды (а это то, о чем идет речь в статье), существуют два осложнения, которые не позволяют рисовать аккуратные филогенетические деревья, к которым все привыкли. Первое — это, как я уже сказал, гибридизация, а второе — это то, что если вы смотрите на близкие виды или даже на подвиды, как в данном случае, то надо учитывать уже индивидуальные различия между конкретными особями. Необходимо принимать во внимание, что полиморфизмы, которые мы сейчас наблюдаем, то есть места в геноме, где конкретные особи отличаются друг от друга, тоже вполне могут быть наследованы от предковой популяции, то есть может быть, что они же были полиморфизмами у предковой популяции. При этом в анализ попадает лишь несколько особей, и до конца набор полиморфизмов неизвестен. Если этого не учитывать, как делалось до сих пор, то оказывается слишком много событий гибридизации.

В модели, представленной в данной статье, авторам удалось свести число гибридизаций до разумного уровня за счет того, что они придумали, как учитывать генетическую неоднородность исходной популяции (предковой) и современных популяций, данные о которых у нас есть. В этом смысле технически это очень серьезное продвижение. Например, если руки дойдут, я хочу попробовать ту программу, которую они опубликовали, применить к анализу современного человека, неандертальца и денисовца. Интересно посмотреть, что получится, так как ситуация там такая же — было несколько событий гибридизации, и где-то секвенировано несколько особей, где-то секвенирована одна особь (у денисовца), а у современного человека секвенированы тысячи особей.

Другой красивый результат состоит в том, что эта программа выдает не одну оптимальную сеть, а несколько, и есть возможность сравнивать, смотреть, что в данной сети достоверно, а что сомнительно. Технически в этой модели использован метод наибольшего правдоподобия. Этот метод, конечно, использовали и раньше в самых разнообразных контекстах, но заслуга авторов именно в том, что им удалось объединить анализ популяционной структуры, то есть анализ полиморфизмов, анализ гибридизации и сделать хорошие оценки, как правильно выбирать количество событий гибридизации. В итоге нельзя сказать, что эта модель элегантна, там очень много деталей, но технически она очень хорошо проработана.