Разведочный информационный поиск

Сохранить в закладки
7280
4
Сохранить в закладки

Математик Константин Воронцов о роли знаний в постиндустриальном обществе, инвертированных индексах и тематическом моделировании больших текстовых коллекций

Давайте поговорим о том, как люди ищут информацию и приобретают знания. Сто лет назад основным источником знаний были книги и личная коммуникация, когда студенты слушали лекции профессоров. Книги можно было брать в библиотеке. Когда осознали, что библиотеки настолько огромны, что в них очень трудно найти нужную информацию, придумали библиотечные каталоги и придумали раскладывать книги по полкам и при этом так выстроить систему рубрикации, чтобы можно было быстро определить, исходя из темы, на какой полке находится книга. И так родился универсальный десятичный классификатор, который появился в конце XIX века и уже более ста лет развивается огромным сообществом экспертов. С приходом компьютеров и сети интернет эта парадигма поиска существенно изменилась, и теперь нам практически не нужно ходить в библиотеки, мы можем найти нужную нам информацию, и не только книги, но и самые последние статьи, просто зайдя в поисковую систему. У нас есть Google, есть Яндекс, другие поисковые системы, есть специализированные библиотечные поисковые системы, есть архивы научных статей, у нас, в компьютерных науках, это CiteSeer. Там можно поискать нужную статью.

Это, конечно, революционно изменило отношение людей к накопленному человечеством знанию, знание приблизилось к людям, то есть стало доступнее, и можно найти нужную информацию быстрее. Однако проблема в значительной степени сохраняется, если мне нужно узнать, где передний край науки по какой-то интересующей меня теме, или нужно быстро разобраться в смежной области. Например, я специалист по анализу данных, анализ данных применяется сейчас практически повсеместно, я заинтересовался медициной, в частности электрокардиографией, но через несколько месяцев или лет я могу заинтересоваться геологией, биологией, социологией, чем угодно, и для меня очень важно довольно быстро найти необходимый мне минимум информации, чтобы разобраться в новой предметной области. К сожалению, существующие поисковые системы не очень хорошо отвечают этому запросу. Мы вынуждены четко формулировать наш поисковый запрос в виде короткой текстовой строки, и для этого мы должны хорошо осознавать, что мы ищем, и знать терминологию предметной области. К сожалению, когда мы как раз познаём новую предметную область, нам не известна ни терминология, ни то, что важно, а что неважно.

Хотелось бы переходить к какой-то новой парадигме поиска, когда мы можем в качестве поискового запроса задать какую-то тему, наметить ее достаточно широко, например просто скинуть большой документ по этой теме или подборку документов, собрать целую коллекцию и сказать системе: «Вот всё, что есть еще по этой теме, ищи, мониторь весь интернет и, как только появится что-то новое, сообщи нам об этом». Таких поисковых систем практически нет, но во всем мире активно думают над их созданием.

Появляется новая парадигма в информационном поиске — разведочный информационный поиск, или exploratory information search. Это парадигма поиска, которая понадобится человечеству буквально через несколько лет, десятилетий. Мы часто говорим о том, что мы переходим к обществу, основанному на знаниях, или постиндустриальному обществу, где будет постоянно увеличиваться доля людей, в силу своей профессии вынужденных приобретать новые знания постоянно.

Всё больше людей перейдет в тот режим работы и жизни, когда они учатся всю жизнь и постоянно приобретают новые знания. Это необязательно студенты, ученые, это могут быть люди любой профессии. В частности, уже сейчас, например, каждый из нас, покупая какой-то новый товар, вынужден производить собственное маркетинговое исследование. Далеко не все существующие средства, даже такие замечательные, как Яндекс.Маркет, позволяют нам это делать хорошо. Это затраты времени. Хотелось бы, поняв, что я хочу купить новый товар, быстро разобраться в том, что бывает на рынке и что меня может заинтересовать среди большого множества этих товаров. Или, например, когда мы рассматриваем какую-нибудь компанию, которая работает на том или ином рынке. Довольно часто начальник дает своему подчиненному задание наподобие: «Вот, пожалуйста, разберись в рынке пенобетона и завтра подготовь отчет о том, какие технологии существуют на рынке, какие есть производители, товары. Собери информацию». И этот запрос: «Собери информацию» — становится совершенно повсеместным, он проникает во все профессии, и фактически собственным исследованием приходится заниматься уже рядовым работникам — «белым воротничкам», а не только ученым, студентам и людям знания.

Поэтому необходимы какие-то новые решения, новые типы поисковых систем, и одна из парадигм, один из подходов, который ведет нас к разведочному поиску знаний в Сети, — это тематическое моделирование. Я и моя научная группа в физтехе и на факультете ВМК МГУ занимаемся методами вероятностного тематического моделирования.

Что это такое? Это методы, которые позволяют по большой коллекции текстовых документов узнать то, чего мы не видим глазами в этой коллекции. К каким темам относятся все эти документы? Какие вообще темы есть в коллекции? Какими словами представлена каждая тема? Какие есть термины в каждой теме? К каким темам относится каждый документ?

Эта задача ставится чисто математически, то есть у нас есть на входе коллекция документов, мы знаем, какие слова или термины встречаются в каждом документе, а на выходе мы хотим получить информацию о том, как документы раскладываются по темам и как каждая тема представлена в словаре терминов. Получив такую модель — а этим занимаются особенные численные методы, — мы уже можем строить поисковые системы.

Мы можем строить поисковые индексы, но если раньше поисковый индекс позволял нам находить документы по словам (и так работают все крупнейшие поисковые системы: и Яндекс, и Google), то в разведочном поиске всё то же самое можно делать, если использовать вместо слов темы. Если мы узнали, из каких тем состоит каждый документ (мы можем взять в качестве запроса сколь угодно длинный документ или даже коллекцию документов), этот набор тем уже будет фактически коротким запросом. Такой короткий запрос является полным аналогом тех самых коротких запросов, которые используются в существующих поисковых системах.

Мы также можем использовать так называемые инвертированные индексы, которые теперь будут искать документы не по словам, а по темам. То есть мы документы-запросы преобразовали в темы, а эти темы теперь можем поискать во всей проиндексированной большой коллекции, которую мы насобирали из интернета.

Вот таким мне и моей научной группе видится ближайшее будущее разведочного поиска информации. Можно еще мечтать об этом, потому что таких сервисов нет, можно думать над тем, как это должно быть организовано. Например, если пользователь задал такой широкий разведочный поисковый запрос, получил в итоге ответ, какие темы были найдены в этом документе, что собой представляет каждая тема (а это означает, что мы еще должны научиться автоматически без участия экспертов именовать эти темы), такая задача уже ставится и уже решается. Мы должны научиться структурировать поисковую выдачу, то есть если текущая поисковая система нам просто выдает ранжированный список, то теперь этого будет мало. Мы должны будем человеку-пользователю показать, какие темы найдены в его запросе, что они собой представляют, фактически это уже список списков, то есть это сначала список тем, а в каждой теме уже список документов, которые найдены в ответ на запрос.

Становится более сложным и способ работы с информацией, и вид запроса, и поисковая выдача, но это дает новые огромные возможности по автоматической систематизации информации. Вы, например, можете сделать такой сервис, когда заходите в систему, создаете там собственную коллекцию документов, которые интересны вам, или вашей научной группе, или отделу вашей строительной компании, который занимается пенобетоном. Система мониторит весь интернет и время от времени находит по этой теме то, что вам интересно, сразу это систематизирует и структурирует (выделяются темы и подтемы), сразу вам покажет, какова история этого вопроса и как он развивался по времени, где передний край науки по данной теме.

Вот такими методами сейчас активно занимаются во всем мире, и я думаю, что уже через несколько лет мы сможем увидеть в действии такие новые поисковые системы, основанные на новой парадигме поиска — разведочном поиске.

Над материалом работали

Читайте также

Внеси свой вклад в дело просвещения!
visa
master-card
illustration