ПостНаука продолжает рассказывать о современных технологиях в проекте «Банк знаний», подготовленном совместно с Корпоративным университетом Сбербанка.

Тематическое моделирование — одно из направлений компьютерного анализа текстов. Этим занимается компьютерная лингвистика, в которой выделяется несколько уровней изучения текста: фонетический, морфологический, лексический, синтаксический, затем семантический. Уровни отличаются друг от друга по легкости формализации и степени развития.

На морфологическом уровне исследуется структура слов: приставки, корни, суффиксы. На лексическом — словарный запас, встречающиеся словоформы. На синтаксическом уровне анализируются связи между словами, и для каждого языка есть своя, особая специфика.

Текстовая иерархия

Во всех языках существуют устойчивые словосочетания, а в научной и общественно-политической лексике постоянно появляются новые выражения, которые быстро изменяются, забываются, меняют свои значения. На семантическом уровне рассматриваются более длинные единицы текста, в них появляются какие-то смыслы, и на этом уровне с компьютерной точки зрения очень много неоднозначности. На уровне морфологии все формализуется довольно хорошо, но чем выше мы идем по этой иерархии задач компьютерной лингвистики, тем гуманитарнее становится каждый уровень и тем сложнее его формализовать. Особенно это касается смыслов.

Самый высокий уровень — прагматический, то есть связи сообщений естественного языка с объектами реального мира, тут работа собственно с языком заканчивается. Для прагматического уровня нам нужны связи между объектами, указанными в тексте, и объектами реального мира. И без какого-то жизненного опыта дальше анализ не идет. В этот барьер упираются уже задачи статистического машинного перевода. Нельзя сделать хороший перевод без того понимания мира, которое есть у каждого человека и даже не осознается им. Но когда мы делаем системы машинного перевода, мы понимаем, что без этого нельзя сделать перевод адекватным. Машине просто неоткуда взять нужную информацию о соответствии одного объекта другому. Поэтому в рамках описанной выше пирамиды мы сейчас находимся на уровне семантики и пока не готовы подняться на следующую ступень, потому что для этого нужны сложные структуры данных, которые свяжут текст и объекты реального мира.

Темы и смыслы

На уровне семантики, где слова и словосочетания складываются в определенные фразы, можно провести некую формализацию. Этим, в частности, занимается тематическое моделирование и выявление тематики текстовых коллекций. Что такое тематика? Казалось бы, интуитивно мы осознаем, что значит слово «тема». В самом примитивном, технократическом смысле это просто некий лексикон слов. Мы понимаем, чем тема «математика» отличается от темы «биология»: в этих областях используется разная терминология. Мы можем посмотреть на текст и, даже не разбираясь в его содержании, сказать, что это отрывок из учебника по математике, а это — из учебника по биологии.

Рекомендуем по этой теме:
10991
Компьютерная лингвистика

Кроме того, существует так называемая модель «мешок слов» — это когда текст рассматривается не с точки зрения последовательности слов в нем, а с точки зрения наличия или отсутствия определенных терминов. Представим опять же учебники по математике и биологии: мы взяли и перепутали в них все слова. Сможем ли мы понять, где математика, а где биология? Конечно да, потому что термины там все равно используются разные. То есть в некоторых случаях мы можем классифицировать документ, понять, к какой теме он относится, несмотря на нарушенный порядок слов и потерю смысла. Можно сказать, что тема — более грубая вещь по сравнению со смыслом.

Применение семантического анализа

Тем не менее выделение смыслов сейчас тоже может быть полезно для автоматизации многих задач анализа текста, например для поиска. Скажем, у нас есть текст научной статьи, и мы хотим понять, что еще известно по этой теме, как она развивалась во времени, что было сделано после этой работы, а также собрать самую актуальную информацию по вопросу. Или, например, мы анализируем новостные потоки и видим цепочку событий. Как объединить их в один сюжет, понять, что они связаны, что события развивались так, потом интерес к ним затух, а затем появился снова, но теперь об этом пишут по-другому? Как выделять новостные сюжеты и их развитие во времени? Они могут возникать и исчезать, сливаться и расщепляться.

Могут быть темы, которые по чуть-чуть присутствуют в разных текстах и как бы растворены в других темах. Эти явления очень интересны, в том числе когда мы делаем умные поиски по научным публикациям, новостным потокам, патентным базам, корпоративным базам знаний в какой-либо области. Много задач возникает для медицинских текстов. Еще одно приложение — юридические тексты. Например, у нас есть договор на сотню страниц, и нам нужно быстро понять, чем он отличается от другого похожего договора. Для этого не нужно читать и тот и другой или быть опытным юристом (даже у них уходит фантастическое количество времени на обнаружение различий между двумя формальными текстами). Или у нас есть две версии одного и того же договора, или типовое соглашение, в которых все время что-то чуть-чуть меняется; или патенты — очень формально написанные документы с определенными формулами. Но все равно нужно взять какое-то изобретение, изучить, что еще делалось по этой теме.

Тематическое моделирование можно было бы применять и для анализа научно-популярных ресурсов. Можно агрегировать разные источники и изучать все, что есть по интересующей нас теме. Можно подключать к этой системе сторонние ресурсы, которые вроде бы не посвящены напрямую науке, но на которых встречается подходящая под наши запросы информация. Анализируя все эти данные, можно было бы выстраивать иерархию знаний, раскладывать все по полочкам — это было бы очень полезно и интересно. Это, по сути, задача навигации человека в тематическом поле.

Профессиональный поиск

Можно искать по словам, но этого недостаточно. Нужно уметь распознавать формальные и неформальные части, выуживать формулу изобретений и отличия изобретений друг от друга. Это была бы аналитическая поддержка для патентоведов, юристов, врачей, фармакологов. Существует огромное количество информации, например, о лекарствах. Ее нельзя изучить простым поиском в Google: когда вы заходите в поисковую систему и просто хотите узнать о процессе производства лекарства, на вас вываливается огромное количество рекламной информации: аптеки, фармакологические компании, в лучшем случае симптоматика. Для профессионала 99% этой информации является мусором. Находить профессиональную информацию как раз очень сложно, а потребность в таком поиске, на мой взгляд, есть во многих профессиональных областях, и их количество постоянно растет. Здесь стандартные поисковые системы плохо помогают.

Если вы, например, ведете журналистское расследование, то вы пользуетесь Google и «Яндексом», а также личными контактами. И если спустя два месяца поисков информация нашлась в чьем-то личном блоге или социальной сети, то почему не получилось найти ее сразу? Поиск по социальным сетям — задача, применимая во многих областях, и сейчас она набирает популярность. Нужно понимать, как пишут о компаниях, каких-то личностях, например политиках. Это стандартная задача аналитики бренда, очень востребованная и коммерческая. Ее тоже можно решать при помощи тематического моделирования. Средства массовой информации — огромный поток, около 100–200 тысяч сообщений в день только в русскоязычном сегменте, но с учетом отраслевых и региональных СМИ. В социальных сетях этот поток еще больше, но нужной информации в нем очень мало. Из этого потока нужно не только выделить интересующие нас данные, но еще и разложить их по полочкам, понять, что к чему и зачем.

Поиск и междисциплинарность

Тематическое моделирование помогло бы решить проблему нехватки профессиональных знаний в междисциплинарных проектах: если я специалист по анализу данных, а мне для работы нужно срочно узнать что-то про электрокардиографию, то у меня нет возможности учиться этому в университете. В междисциплинарных исследованиях точки входа всегда разные, разных специалистов интересует различная информация и ее аспекты. Специалист одной профессии всегда очень поверхностно будет понимать смежную область, но ему надо дать инструмент, чтобы там сориентироваться. Тематическое моделирование могло бы сказать: электрокардиография состоит из таких-то направлений, вот практика, вот теория, вот стык с кардиологией, вот исследования последних лет.

Рекомендуем по этой теме:
6011
Разведочный информационный поиск

Мне кажется, со временем это все разовьется во что-то вроде Google Earth: представьте, что весь земной шар покрыт документами, и, как в упомянутом интерфейсе, можно углубляться в той или иной точке. Когда эта система построена на документах, на определенной высоте видна укрупленность тех смыслов, которые в этом месте находятся, — обрывки фраз, слов. Совсем издали видно, что это планета, на ней два десятка материков: физика, химия, биология, социология… А при детальном рассмотрении заметно, что каждая область распадается на страны, регионы, города и так далее.