В рамках проекта «Банк знаний», созданного вместе с Корпоративным университетом Сбербанка и посвященного современным технологиям и новым компетенциям, о современных подходах к разработке новых лекарств рассказывает Дмитрий Киреев, профессор вычислительной биофизики и молекулярного дизайна школы фармакологии Университета Северной Каролины.

Быстрый прогресс в генетике, структурной биологии, химических технологиях и биотехнологиях в 1990-е годы привел к созданию новой индустрии, которую сейчас принято называть открытием лекарств. Как правило, открытие нового лекарства проходит в несколько этапов. Сначала биологи выявляют молекулярные причины заболевания и определяют белок-мишень, который новому лекарству необходимо поразить для устранения причин заболевания. Цель следующего этапа — найти химическое соединение, которое могло бы блокировать функцию белка-мишени за счет многочисленных нековалентных связей, образуемых соединением с жизненно важными элементами структуры белка. Поиск такого активного соединения (на индустриальном жаргоне — «хита») обычно проводится методом скрининга — систематического тестирования сотен тысяч, а то и миллионов, химических соединений на предмет их активности по отношению к белку-мишени.

Активные соединения, обнаруженные в процессе скрининга (обычно уровень их активности невысок), становятся отправной точкой многодисциплинарного проекта, в котором принимают участие медицинские химики, специалисты по компьютерному дизайну, биохимики, структурные и молекулярные биологи и многие другие. Результатом такого проекта становится молекула-кандидат на статус лекарства. Кандидат в лекарства несет в себе некоторые черты исходного хита, но обладает повышенной активностью по отношению к белку-мишени, возможностью проникать в ткани организма, а главное — способностью оказывать терапевтический эффект в живом организме (как правило, на мышах с привитым человеческим заболеванием). Получение кандидата завершает фазу открытия, и он передается в разработку, которая в идеале завершится успехом клинических испытаний и разрешением официальных инстанций на коммерческую эксплуатацию лекарства.

Виртуальный скрининг

Технологии скрининга прочно вошли в практику открытия лекарств и доказали свою надежность и эффективность. Однако технологические платформы для скрининга больших химических коллекций на разнообразных биологических мишенях чрезвычайно дороги в приобретении и эксплуатации и доступны только большим организациям с миллиардными бюджетами. Сегодня при общей тенденции к демократизации открытия лекарств, то есть вовлечению в него широкого круга академических лабораторий и малых биотехнологических компаний, появилась необходимость в альтернативных стратегиях скрининга.

Одной из таких альтернатив стал виртуальный скрининг. В основе виртуального скрининга лежит компьютерный алгоритм, на вход которого можно подать структуру химического соединения и получить на выходе ответ на вопрос, активно ли соединение по отношению к нашей терапевтической мишени. Сегодня суммарное предложение на рынке химических соединений превышает 20 миллионов. Все эти миллионы соединений могут быть пропущены через компьютерный алгоритм виртуального скрининга. Те соединения, на которые алгоритм укажет как на потенциально активные, могут быть куплены и тестированы в пробирке. Огромное достоинство виртуального скрининга в том, что с его помощью в поиск хита вовлекается количество соединений, немыслимое в рамках экспериментального скрининга даже в самых больших фармацевтических компаниях. Его главная слабость в том, что слишком многим пропущенным через алгоритм соединениям присваивается статус потенциально активных. Нередко случается, что среди 50–100 виртуальных хитов, закупленных для экспериментального подтверждения, не оказывается ни одной действительно активной молекулы.

Оценивающие функции

Почему виртуальный скрининг так часто ошибается и можно ли повысить его эффективность? Для ответа на эти вопросы нужно, хотя бы очень кратко, пояснить, как именно работает компьютерный алгоритм виртуального скрининга. Таких алгоритмов много, но самый популярный из них, ставший практически синонимом скрининга, называется «докинг». В ходе докинга (англ. — «стыковка») трехмерная модель химического соединения (лиганд) подстыковывается алгоритмом в трехмерную же модель белка-мишени. Лиганд примеряется и так и этак к полостям на поверхности мишени, с тем чтобы прочно влипнуть в одну из них, тем самым заблокировать биологическую функцию мишени. Опыт показывает, что алгоритмы докинга неплохо справляются со своей задачей. Однако после собственно докинга необходимо рассчитать так называемое сродство лиганда к мишени, которое определяет, как долго лиганд может в ней просидеть. Строгий расчет сродства, исходя из законов физики, занял бы работой на годы самые мощные компьютеры на земле. Поэтому для предсказания сродства в процессе виртуального скрининга используют сильно упрощенные схемы, так называемые оценивающие функции. Именно несовершенство оценивающих функций приводит к недопустимо многочисленным ошибкам при поиске потенциальных хитов.

Соответственно, специалисты по компьютерному молекулярному дизайну продолжают работу над новыми схемами оценки сродства. Задача-минимум таких исследований — добиться того, чтобы среди 50–100 виртуальных хитов, покупаемых для экспериментального тестирования, оказалось хотя бы от одной до трех действительно активных молекул.

Функция SPLIF

Моя группа разработала принципиально новую функцию, значительно повышающую эффективность виртуального скрининга и основанную на следующем принципе. Активные лиганды образуют с белком-мишенью сложную сеть нековалентных взаимодействий — мы называем ее «структурным отпечатком взаимодействий» (англ. — structural protein-ligand interaction fingerprint, SPLIF). Наша функция позволяет численно оценить, насколько отпечаток тестируемого лиганда похож на отпечаток родного лиганда белка-мишени (например, кофактора, агониста или субстрата). Химические соединения, чьи отпечатки имеют наибольшее сходство с отпечатком родного лиганда, имеют больше шансов быть настоящими хитами. Мы испытывали наш подход в двух режимах. Во-первых, на больших массивах опубликованных результатов экспериментального скрининга, хранящихся в общедоступных базах данных. По результатам этой работы мы опубликовали статью, в которой показали, что наша функция работает лучше, чем другие популярные фильтры. Группа исследователей из Университета Лейдена (Голландия) вскоре после нас провела тщательный сравнительный анализ эффективности многих существующих оценивающих функций на рецепторах, сопряженных с G-белком (это самый большой класс терапевтических мишеней). В их исследовании наша функция также оказалась лучше других. В то же время наша группа активно использовала SPLIF в проектах нашего Центра открытия лекарств в Университете Северной Каролины. Эта работа привела к обнаружению нескольких хитов для новых классов терапевтических мишеней.

На сегодняшний день работа над усовершенствованием SPLIF в целом закончена, и я переключился на новые проекты. Что касается дальнейшей судьбы SPLIF, я работаю над тем, чтобы дать проекту самостоятельную жизнь, и охотно откликаюсь на просьбы поделиться исходным кодом. Уже более сорока исследовательских групп из академии и «Биг фарма» используют его в своих проектах. Две лаборатории из Стэнфорда используют SPLIF в качестве исходных данных для глубокого обучения (deep learning) нейронных сетей. На основе огромного количества данных и искусственного интеллекта они строят математические модели, непрерывно повышающие эффективность виртуального скрининга по мере их практического применения. Кроме того, я начал переговоры с одной из ведущих фирм-разработчиков программного обеспечения для компьютерного дизайна лекарств с целью включения нашего кода в их пакет программ. Успех этих переговоров стал бы для меня идеальным завершением проекта SPLIF.

Прогресс в разработке вычислительных технологий для открытия лекарств

Область подобных разработок довольно консервативна и переживает длительный период застоя. Обеспечение, с которым дизайнеры лекарств работают сейчас, и сама практика их работы мало чем отличаются от того, чем пользовались и как работали дизайнеры в конце 1990-х — начале 2000-х годов. Разработка инструментов компьютерного дизайна для многих перестала быть областью активной науки и перешла в разряд ремесла, поля для многочисленных, но незначительных улучшений, в основном движимых эволюцией компьютерного железа. Живя на таком плоском инновационном ландшафте, очень трудно предвидеть, какая из зарождающихся технологий станет прорывной.

Важной причиной застоя является и то, что даже фантастически значимое улучшение инструментов компьютерного дизайна внесло бы очень скромный вклад в ускорение и сокращение затрат на открытие лекарств в целом. Проект открытия — от скрининга до появления кандидата в лекарства — длится 5–7 лет и стоит от 15 до 30 миллионов долларов. И конечно, нельзя забывать о том, что только один кандидат из десяти станет лекарством по результатам клинических испытаний, а стадия разработки добавит к затратам еще порядка 50– 80 миллионов долларов. Вклад вычислительных методов дизайна и скрининга в общий успех довольно микроскопичен и ограничивается в основном начальной стадией открытия при поиске хита, с которым будут работать медицинские химики. Также компьютерный дизайнер может помочь химикам довольно быстро улучшить активность хита. Затем начинаются эксперименты на живых клетках, на животных, в различных моделях болезней. Предсказать их исход компьютерный дизайнер, как правило, не может. Он продолжает помогать химикам создавать новые активные по отношению к белку-мишени молекулы, из которых методом проб и ошибок в конце концов будет отобран кандидат. Этот общий контекст, конечно, не способствует мотивации и серьезным инвестициям в разработку новых прорывных технологий компьютерного скрининга и дизайна.

Перспективы: нейронные сети и Big Data

Некоторые исследователи сейчас делают робкие шаги по применению искусственного интеллекта и глубокого обучения на больших данных в области открытия лекарств. Пока трудно сказать, насколько полезными в мире молекул окажутся технологии, разработанные в основном для распознавания изображений или интерпретации текстов. По опыту прошлых лет можно сказать, что модные слова и перспективные технологии зачастую тихо исчезали из поля зрения вскоре после шумного появления, но иногда закреплялись надолго, как это случилось с докингом.

Сейчас моя группа также работает над новой технологией с применением больших данных для дизайна активных соединений. Оригинальность нашего подхода заключается в том, что он представляет собой прототип виртуального медицинского химика. Дело в том, что большинство существующих компьютерных технологий в области открытия лекарств являются некоей моделью виртуального биохимика. Он тестирует молекулы на предмет их активности и нуждается в живых химиках, которые бы эти молекулы придумывали. Наша же модель имитирует логику медицинского химика. При этом логические построения нашего виртуального химика основываются на обработке большого количества разнообразных данных, включая кристаллографические структуры комплексов «лиганд — белок» и результаты биологического скрининга химических соединений из гигантских электронных ресурсов вроде ChEMBL или PubChem. В результате трехмерная структура нового биоактивного соединения возникает на глазах у зрителя непосредственно в белке-мишени.

Эта новая схема дизайна уже была использована при разработке перспективной серии химических соединений, которые, помимо высокой активности на белках-мишенях, оказались чрезвычайно мощными противоопухолевыми агентами в клеточных культурах нескольких типов рака. В настоящее время эта серия соединений запатентована, ведутся эксперименты на мышах с привитыми человеческими опухолями.