Digital Humanities — область, в которой явления человеческой культуры изучаются при помощи компьютерных инструментов. Один из них — компьютерная лингвистика. Литературоведам она помогает анализировать большие массивы текстов и находить в них закономерности, например элементы авторского стиля. Правда, пока что литература от математических методов в основном ускользает: чтобы ее поймать, филологи и компьютерные лингвисты должны «заговорить на одном языке». О том, как программисты сравнивают позднего Диккенса с ранним, можно ли считать написанные нейросетью стихи настоящей поэзией, комьюнити-менеджер ПостНауки Кристина Чернова поговорила с филологом Борисом Ореховым

Лирики и программисты

— Вы по образованию филолог, но занимаетесь компьютерной лингвистикой. Как так вышло?

— Меня всегда интересовала точность. Филологическая специальность очень много дает для кругозора и понимания того, как устроена человеческая культура, но методы, которыми оперируют гуманитарии, меня не всегда устраивали некоторой своей неопределенностью. Меня интересовало, как сделать так, чтобы, скажем, те же исследования художественных текстов могли иметь большую верифицируемость, большую точность. Для этого неизбежно придется изучать инструменты компьютерной лингвистики, то есть такой дисциплины, которая умеет извлекать из текста какую-то информацию с помощью компьютерных инструментов.

— Компьютерная лингвистика — это часть Digital Humanities?

— Нет. Digital Humanities — это область, в которой применяются различные компьютерные инструменты, необязательно лингвистические. Потому что в рамках Digital Humanities можно изучать и фильмы, и картины, и археологические артефакты. Это область, где мы с помощью компьютерных инструментов изучаем явления человеческой культуры и акцент делаем именно на культурной составляющей.

А компьютерная лингвистика — это самостоятельная область, немного менее исследовательская и более инженерная. В рамках нее разрабатываются инструменты, которые помогают компьютерам обрабатывать тексты на естественном языке. Специалисты по Digital Humanities ими тоже пользуются. Но главным образом они нужны для каких-то инфраструктурных проектов, которые имеют дело с текстом. 

Например, информационный поиск. Что делают поисковики? Скачивают из интернета разные тексты и в ответ на запросы пользователей показывают те, которые, как им кажется, наиболее этим запросам соответствуют. Или, скажем, какой-нибудь юридической конторе нужно проанализировать очень много юридических документов и что-то из них извлечь. 

Компьютерно-лингвистические инструменты давно поставлены на службу тем, кто изучает блоги и социальные сети. Самый частый вариант — это отзывы о каких-нибудь брендах или услугах. Если этих отзывов сотни тысяч, прочесть их невозможно. Но можно настроить робота, который их проанализирует и поймет, что такой-то бренд или такую-то услугу ругают. 

С помощью компьютерной лингвистики можно, изучив условно тысячу текстов, понять политические предпочтения людей, которые эти тексты написали. Это даже иногда не очень хорошо оборачивается: мы помним скандалы с Facebook, который слил кому-то данные, а потом эти данные были использованы для влияния на избирательную кампанию. 

— В какой степени литература поддается компьютерному исследованию, а в какой ускользает?

— В большей степени пока ускользает. Digital Humanities, или цифровые гуманитарные исследования, стремятся отвечать на те же вопросы, на которые многие десятилетия до них пытались отвечать литературоведы. Но пока компьютеры еще слишком слабы — не в смысле их вычислительных возможностей, а в смысле того, какие задачи они умеют решать. На те вопросы, на которые интересно было бы ответить литературоведам, компьютеры пока отвечать не умеют.

Дело еще и в том, как организован сам процесс. Приходят в Digital Humanities какие-нибудь люди, которые умеют делать компьютерные программы, и думают, что сейчас все посчитают, всех «глупых литературоведов» облапошат. Но дело в том, что люди, приходящие из других областей, не очень хорошо понимают, какие вообще вопросы нужно ставить. Научиться ставить вопросы не так просто, для этого как раз нужны годы погружения в тему, и инженерного бэкграунда бывает недостаточно.

Если специалисты из разных областей научатся общаться между собой, научатся понимать друг друга, мы получим качественно иные результаты.

Рекомендуем по этой теме:

Что такое стиль

— Есть ли у Digital Humanities достижения, которых все-таки нельзя было бы добиться без применения цифровых технологий и компьютерных методов?

— Наиболее обнадеживающие лежат в области так называемой стилеметрии. Это когда мы можем посчитать внутри текста нечто такое, что скрывает в себе некоторый авторский отпечаток, как отпечаток пальца. Если мы возьмем какие-то тексты и захотим понять, кто их написал и оставил ли он в этих текстах свою индивидуальность, то без компьютеров нам будет сложно обработать большие объемы.

— Различается ли понятие стиля для классических филологов и для компьютерных лингвистов?

— Конечно. Классические филологи не обязаны точно определять стиль и часто этого не делают. Даже в классических работах по стилистике определение стиля не всегда можно найти. Ну как бы: «Я знаю, что такое стиль, вы знаете, что такое стиль, и этого достаточно».

— Инженеры сейчас за голову мысленно хватаются.

— Да. Вот у них совершенно другие задачи. Им нужно точно определиться, что такое стиль, что в него входит, а что нет. И это проблема как раз взаимодействия областей. Специалисты из разных областей разговаривают на разных языках.

— Допустим, мы хотим изучить стиль какого-нибудь писателя, например Диккенса. Как мы действуем? У нас есть нейросеть, мы скармливаем ей массив текстов. Как мы их отбираем? И что происходит дальше?

— Поскольку мы с вами говорим о научной проблематике, то здесь вопросы начинаются гораздо раньше. Например, они начинаются в тот момент, когда мы с вами пытаемся понять, что значит «изучить стиль».

Если мы берем какие-нибудь классические работы, то стиль — это в основном какая-то лексика. Это можно изучать без всяких нейросетей. Достаточно собрать коллекцию текстов и посмотреть, какие слова употребляются в этих текстах, а какие не употребляются. Или, например, сравнить: вот здесь аномально растет употребление какого-то слова, а в контрастном корпусе текстов этого слова нет.

Рекомендуем по этой теме:

— То есть, грубо говоря, берем томик, подчеркиваем в нем искомое слово и считаем?

— До появления компьютеров все делалось буквально так, с подчеркиваниями. 

Есть более сложные вещи. Например, морфология: может быть, стиль кроется в распределении частей речи — где-то больше существительных, где-то больше прилагательных, где-то — каких-то падежей. Но такие подсчеты тоже можно сделать без нейросетей.

Хотя здесь тоже есть вопросы, ответы на которые появились благодаря разработкам в области математической статистики. Например, что нужно делать поправки на объемы текстов или что слова, которые употребляются чаще всего, наименее информативны — предлоги, союзы. И вот там, где мы начинаем вводить статистические фильтры, как раз начинается компьютерная лингвистика. 

— Как подобрать выборку?

— Зависит от наших задач. Например, очень влияет жанр: если мы сравниваем пьесы писателя с его же прозой, у нас получаются совершенно разные стили. Чехов, который пишет пьесы, и Чехов, который пишет художественную прозу, — это разные Чеховы. Более того, Чехов, который пишет личные письма, — это еще один Чехов. То есть когда мы настраиваемся на определенную коммуникативную стратегию (если можно так упростить определение жанра), то эта стратегия начинает нами управлять и влияет на то, что у нас получается, сильнее, чем наша собственная индивидуальность.

— А период творчества? Ранний Толстой, поздний Толстой?

— Да, это тоже сильно влияет. Особенно, конечно, когда речь идет о человеке, который жил долго и писал долго. На меня очень большое впечатление произвели стилистические подсчеты, связанные с философом Алексеем Федоровичем Лосевым. Он прожил долгую жизнь. И, скажем, с точки зрения стиля по формальным показателям его тексты 1920-х годов представляют собой совершенное единство, но абсолютно непохожи на то, что он пишет в 1980-х. Как будто два разных человека. 

Это хорошо видно и на примере Толстого, Диккенса. Ранние тексты Диккенса похожи между собой, поздние тексты Диккенса похожи между собой, но ранние тексты Диккенса не похожи на поздние.

— Стиль — это человек? Есть ли в письменной речи каждого из нас такие индивидуальные лексические, синтаксические и другие особенности, по которым, как по отпечаткам пальцев, можно было бы идентифицировать человека с минимальными погрешностями?

— Да, есть такая крылатая фраза у Жоржа Бюффона[]Жорж-Луи Леклерк де Бюффон (1707–1788) — французский натуралист, биолог, математик, естествоиспытатель и писатель XVIII века. По случаю своего избрания во Французскую академию произнес речь, в которой утверждал, что индивидуальной особенностью человека, которая отличает его от других, являются не идеи, а стиль.. Безусловно, в нашей речи есть какие-то особенности, которые нас, может быть, отличают от части людей. Но не нужно забывать, что такие же особенности, повторяющие наши, могут быть и у других людей. Так или иначе, чтобы их выявить, компьютерными средствами нужно проанализировать большой материал. Вот 10 тысяч слов — там, может быть, мы найдем какие-то устойчивые статистические показатели индивидуальности. 

Кто написал «Тихий Дон» 

— Вот компьютер подсчитал количество определенных конструкций, определенных слов. Что делает с этим исследователь? Как он с этим массивом данных работает?

— Зависит от того, что ему надо, чего он, собственно, хотел. 

— Например, определить авторство. Написал Шолохов «Тихий Дон» или не написал?

— Если нас интересует авторство, сначала нужно удостовериться, что у нас нет других способов его выяснить, например каких-нибудь архивных документов. Потому что подсчеты — это некий дополнительный аргумент. 

Нужно собрать тексты Шолохова. И это уже проблема, потому что наиболее радикальные исследователи, которые высказываются по этой проблематике, считают, что Шолохов вообще ничего не писал. Но предположим, что мы не столь радикально настроены и считаем, что Шолохов написал хотя бы «Донские рассказы». Еще нам нужны для контрастного сравнения другие тексты того же времени — скажем, Булгакова, Серафимовича, Платонова. И тексты тех, кого антишолоховеды считают истинными авторами «Тихого Дона», — Виктора Севского, Федора Крюкова. 

А затем сравнить эти тексты между собой по критериям, которые считаются надежными в рамках стилеметрии.

— Это какие?

— Есть методика, которая много раз подтвердила свою работоспособность. Она называется «Дельта», ее в 2002 году придумал Джон Барроуз. Каждый может установить на свой компьютер программу, в которой эта методика реализована, и попробовать, и это очень хорошо с точки зрения воспроизводимости экспериментов.

У нее, конечно, есть свои ограничения, те же жанровые. Поэтому мы не можем проверить версию о том, что первые две книги «Тихого Дона» написал Гумилев, потому что от Гумилева не дошла художественная проза, а сравнивать стихи с «Тихим Доном» мы не можем.

Рекомендуем по этой теме:

«Дельта» показывает, что, кто бы ни написал «Тихий Дон», во-первых, это был один и тот же человек. Есть точка зрения, что первые две книги написал кто-то один, а вторые две книги — кто-то другой. Так вот это не так. 

Во-вторых, кто бы это ни был, это был тот же самый человек, который написал «Донские рассказы». 

Был ли это Федор Крюков? Нет. Это не был Севский, Серафимович или тем более Платонов. Все они по формальным стилистическим параметрам совершенно непохожи на то, что мы видим в «Тихом Доне». 

Я все-таки считаю, что «Донские рассказы» — произведение пера Шолохова. Так что мой ответ: да, Шолохов — автор «Тихого Дона».

Поэзия случайности

— Когда появились первые программы, которые были способны создавать художественные тексты, и какими они были?

— Все началось в конце 1950-х годов, а хайп возник еще до того, как такие программы появились. Был один очень смешной эпизод. В журнале Computers and Automation, посвященном кибернетике и компьютерам, в 1956 году вышел небольшой юмористический рассказ «Механическая муза» о том, как компьютер написал стихи. В Советском Союзе этот рассказ прочитали и почему-то восприняли как не юмористический, а вполне себе реальный. Стихотворения из этого рассказа, написанные человеком как бы под компьютер, были переведены на русский язык — сначала подстрочником, а потом поэт Владимир Котов даже сделал стихотворное переложение. А в разных изданиях, посвященных компьютерам, кибернетике, появились свидетельства, что компьютеры уже пишут стихи, хотя ничего подобного тогда еще не было. 

Но в 1960-х за это активно взялись разные художники. Я говорю о западной поэзии, где существовала традиция верлибра. Люди, которые с поэзией в последний раз имели дело в школе, часто думают, что стихи — это обязательно в рифму. На самом деле целые поэтические традиции существуют без нее. Поэтому первые эксперименты с нейронной поэзией — это когда из небольшого словаря выбираются слова в более-менее случайном порядке.

Случайность — значимая эстетическая категория для западной культуры в то время: еще не отгремела слава сюрреализма, дадаизма. Дадаизм был ответом на Первую мировую войну,, а компьютерная поэзия появилась вскоре после Второй мировой. Увидев, что достижения эпохи Просвещения приводят к войне, философы объявили о смерти модерна, художники противопоставили рациональности случайность.

Дадаист Тристан Тцара в свое время придумал разрезать газеты, перемешивать кусочки в шляпе, доставать в случайном порядке — и это будут стихи. Компьютер делал примерно так же, только вместо физической случайности за этим стояла магия цифровой случайности. Случайность была в этих экспериментах главной. Хотя это парадокс: компьютерам довольно сложно действовать случайным образом.

Андре Бретон. Три коллажных стихотворения. 1920-е гг.
Андре Бретон. Три коллажных стихотворения. 1920-е гг.

— Чем современная нейропоэзия отличается от этих ранних опытов?

— У нее другой механизм. В ней нет случайности. 

Что такое нейронная сеть? Это математическая модель, которая изучает исходные данные — мы называем их обучающей выборкой — и на их основе выводит какие-то закономерности, что уже антоним случайности. В соответствии с этими изученными закономерностями она порождает какой-то текст, который будет похож на текст обучающей выборки. 

Тут нужно, правда, сделать некоторые оговорки. Например, когда нейросеть учится на каком-то тексте, она должна выучиться не только стилю, но и языку. Если текстов у нее мало, то она, конечно, языку выучится плохо и не будет понимать до конца, как связаны друг с другом разные падежи и предлоги.

Рекомендуем по этой теме:

— Если скормить нейросети немного Сапфо, она выдаст очень плохую Сапфо?

— Да, будет все очень плохо с точки зрения языка, будут какие-то ненастоящие слова. Поэтому по-хорошему нужно обучать нейросеть не на текстах одного автора, а на текстах, скажем, целого периода, эпохи или поэзии на каком-то языке целиком.

Что хотел сказать автор

— Является ли нейросеть автором в этом случае?

— Прежде всего нужно дать ответ на вопрос, что такое «автор». Если автор — это некоторый субъект, у которого есть какое-то сообщение, которое он хочет донести до своего коммуниканта, то нейросеть, кажется, не является таковым, потому что она себя не осознает и у нее нет целеполагания.

— Но является ли в таком случае нейропоэзия поэзией? Ведь поэзия — это трансляция какого-то авторского мироощущения?

— Это вам так кажется. А может быть, всё не так. Есть прекрасный эксперимент, я его очень люблю, который, правда, не про поэзию, а про картинки. Испытуемым сказали: «Мы вам сейчас будем показывать картинки. Одни нарисованы человеком, а другие — компьютером». Главный итог эксперимента — что люди смотрели на картинки по-разному: те, что были «нарисованы человеком», разглядывали внимательно, а те, которые «нарисовал компьютер», просматривали бегло, ни на чем не сосредотачивая свое внимание. А на самом деле все эти картинки были нарисованы человеком. Разницы в этом материале не было никакой, она была создана искусственно в ходе эксперимента.

Если у вас в голове есть строгий императив, что поэзию должен порождать какой-то мыслящий тростник, то вы не будете воспринимать нейропоэзию как поэзию. Но ваша точка зрения не будет исключительной.

— Получается, вопрос «Что хотел сказать автор?» в школах будущего задавать не будут?

— Я надеюсь, что не будут. Потому что это очень вредный вопрос. Непонятно, зачем он вообще задается. Кажется, он оглупляет изучение литературы и, в частности, поэзии, потому что дело, конечно, совершенно не в том, что там хотел сказать автор, а в том, как сказано в стихотворении нечто. Если бы удалось повлиять на школу, чтобы вопрос «Что хотел сказать автор?» там не звучал, это было бы, конечно, блестяще.

— В «Новом мире» у вас совместно с Павлом Успенским вышла занятная статья под названием «Гальванизация автора». В ней ваш соавтор анализирует два стихотворения, одно из которых написано авангардным поэтом, а другое сгенерировано нейросетью. И интрига в том, что ваш соавтор, как и читатели, до последнего не знал, какое из них написано, а какое сгенерировано. Насколько я поняла, установить авторство все равно оказалось довольно легко. Почему нейросеть не может имитировать человека так, чтобы это было незаметно?

— Это мой любимый сюжет. Правда, не столько из-за того, что написано в статье, сколько из-за того, как ее воспринимают. На самом деле ничего подобного мы не писали. Были два стихотворения, одно из них компьютерное. Вопрос был в том, сумеет ли Павел Федорович Успенский, замечательный филолог, проинтерпретировать стихотворение, в котором заведомо нет смысла, потому что оно написано компьютером, у которого нет никакого желания какой-либо смысл туда вложить. 

— И тут возникает вопрос: что есть смысл?

— Да-да, именно! В общем, он сумел действительно найти там какие-то библейские аллюзии.

— Но это уже получилось вчитывание?

— В этом и был эксперимент: читает литературовед стихотворение «объективно» или он туда что-то вчитывает. Про это была статья. (И, кажется, никто не смог эту статью прочесть так, как она написана, в соответствии с этой интенцией.)

Это, на мой взгляд, очень странный современный эффект. Если в начале эпохи компьютерной поэзии все стремились создать какой-то новаторский текст, то теперь наступила эпоха тотального косплея: сумеет ли компьютер хорошо закосплеить поэта? 

Почему нейросеть не может полностью подделаться под поэта? Потому что это была моя нейросеть и я не ставил перед ней такой задачи. Зачем? Идея-то в другом: не сделать так, чтобы компьютер был неотличим от настоящего поэта, а получить из этого какой-то неожиданный эффект. Если компьютер сможет проанализировать какой-то большой объем текстов и выдать выжимку, никто не будет пытаться понять, похожа ли эта выжимка на написанную человеком. 

— Поэзия больше не элитарна? Это больше не привилегия человека, который потратил на сочинение какие-то умственные усилия?

— Вообще-то существует массовая поэзия. Но она существует не для чтения, а для производства. Есть, например, сайт «Стихи.ру», где может публиковаться любой человек. По моим подсчетам, там публикуется 5–6 стихотворений в минуту. Очень многие пишут поэзию, но не очень многие ее читают. Поэзия элитарна, но не в смысле производства, а в смысле потребления.

Попробуйте угадать, кого пыталась сымитировать нейросеть, сочинившая такие стихи:

task-image
И карточки не слышал. / Он был уж добрый свет, / Но как бы мог прибавил / Какой-то бедного покой.
Николай Некрасов
Велимир Хлебников
Осип Мандельштам
Борис Пастернак
mistake
Увы, вы ошиблись...
task-image
Под деревья полночного воздуха. / На вечности в отказе вернется, / И нашим новым пустотелым платьем / На прозрачной подкове просили лета.
Николай Некрасов
Велимир Хлебников
Осип Мандельштам
Борис Пастернак
mistake
Увы, вы ошиблись...
task-image
В лесу колосья свободы подземного стукали строкие волны. / И заметил ночной земли приворство высокий день, / И скажет белого полятовина, / Тогда толпа солнца и сердцу, / Скажи облоколо по песни морой.
Николай Некрасов
Велимир Хлебников
Осип Мандельштам
Борис Пастернак
mistake
Увы, вы ошиблись...
task-image
Как в сумерки мысль, / лишь город и люди были как пыльник. / Может, как новодородный голос, / Одного листьев и подносит пряда.
Ранний Пастернак
Зрелый Пастернак
mistake
Увы, вы ошиблись...