Хочется понять, что это такое, как они устроены и кому и зачем они нужны. Вот на эти три вопроса я попытаюсь ответить. Параллельный корпус — это двуязычный корпус, то есть текст оригинала и его перевод на какой-то другой язык, причем эти два текста не просто лежат рядом друг с другом, а должны быть выровнены: отдельные фрагменты оригинала должны совпадать с соответствующими фрагментами перевода. Именно это позволяет использовать параллельный корпус как инструмент исследования.

Это выравнивание может проводиться на разных уровнях. Можно выравнивать по главам, по абзацам, но лучше всего и полезнее всего, конечно, выравнивать по предложениям. Работа эта очень трудная, долгая и дорогая, поэтому в мире не так много хороших, чисто сделанных параллельных корпусов. Дело в том, что это нельзя, к сожалению, сделать автоматически, потому что переводчик почти никогда не соблюдает границы предложения. Одно предложение оригинала может быть переведено двумя или даже тремя предложениями, и наоборот. Поэтому просто сказать машине, чтобы она соединила первое предложение с первым, второе со вторым, третье с третьим, не получается, это нужно делать с участием человека. Есть много технических приемов, помогающих облегчить эту задачу, но все равно без участия человека выравнивать корпусы не получается. (Вообще говорят и «корпусы», и «корпуса», а я, как человек ригидный, предпочитаю говорить «корпусы», хотя все больше и больше входит в обиход множественное число — «корпуса».)

Рекомендуем по этой теме:
20282
Корпусная лингвистика

Параллельные корпусы нужно отличать от так называемых сравниваемых или сравнимых корпусов. Это корпусы, где тексты, написанные на разных языках на одну и ту же тему, сравниваются между собой. Понятно, что такие корпусы тоже нужны, но они нужны для решения совсем других задач. Потому что если я, например, интересуюсь, какие в разных культурах приняты дискурсивные стратегии, как говорят о том или ином событии, на ту или иную тему, как автор строит свой текст, то, конечно, интересно смотреть именно эти сравнимые корпусы. Если же я как лингвист интересуюсь способами перевода определенных слов, выражений, синтаксических структур, для меня гораздо важнее и полезнее параллельные корпусы.

Помимо выравнивания в параллельном корпусе должна быть разметка. Есть разные виды разметки: метатекстовая, грамматическая и семантическая. Это разные теги, которые приписываются отдельным словам или всему тексту в целом. Для чего они нужны? Если у меня текст не размечен, то я не могу искать какую-то грамматическую форму. Я, например, не могу попросить все страдательные причастия множественного числа, а если у меня текст размечен, если стоят соответствующие теги, то такая задача выполнима, и я могу решать какую-то исследовательскую задачу: смотреть, как та или иная грамматическая форма переводится на другой язык. Семантическая разметка — это тоже очень интересная вещь. Например, я могу попросить выдать мне все контексты, в которых присутствует обозначение предмета одежды. «Пиджак», «рубашка», «брюки» — они, наверное, вряд ли нужны, потому что мы и так знаем, как переводить эти слова на другие языки, но «поддевка», «армяк», «зипун», «тулуп» — найти все эти слова и посмотреть, как разные переводчики в разных контекстах с ними работают, бывает очень интересно, тем более что такие слова не в любом словаре найдешь.

Теперь к вопросу, зачем и кому нужны параллельные корпусы. В первую очередь они нужны, конечно, лингвистам-исследователям, но они нужны не только им, они нужны и литературоведам, и преподавателям иностранных языков, переводчикам и редакторам. Для чего они нужны? Известно, что этап сбора эмпирического материала всегда занимал очень много времени. Чтобы найти нужные мне контексты из разных произведений прозы или поэзии, мне нужно было прочитать огромное количество книг без всякой уверенности, что, читая тот или иной роман, я найду хотя бы один контекст, который мне нужен для моей лингвистической работы. А сегодня, имея параллельный корпус, это можно сделать за несколько секунд одним нажатием клавиши.

Вот небольшой пример, как лингвисты могут пользоваться параллельным корпусом. В немецком языке есть два глагола beleidigen и kränken, которые оба значат что-то вроде «обидеть», «оскорбить», «задеть», «ранить». И совершенно непонятно, какая между ними разница. Ни одно описание, ни один словарь, даже очень большой и хороший, не дает представления о том, в каких ситуациях нужно говорить beleidigen, а в каких — kränken. И вот я подумал, что теперь у меня есть большой параллельный корпус, который я сам и делал, и я могу сейчас наконец-то понять, в чем здесь разница. Раньше я думал, что один глагол — это скорее «оскорбить», а другой — скорее «обидеть». Оказалось, вовсе нет! И на тот и на другой глагол в качестве эквивалентов встречаются и «обидеть», и «оскорбить». Дело в том, что собственно теоретическая лингвистика давно уже знает: границы между синонимами в разных языках проходят по-разному. То есть то, чем «обидеть» отличается от «оскорбить», — это не то же самое, чем beleidigen отличается от kränken. Я не буду долго об этом говорить, это тонкая и интересная задача, которую, как мне кажется, удалось решить: показать, как должен быть устроен контекст, какие должны быть интенции говорящего, что должно быть слева, что должно быть справа, в каких грамматических формах предпочтительнее употребить тот или иной глагол. И если все это описать, то мы сможем выявить эти различия.

Еще параллельные корпусы помогают в исследовании так называемой лингвоспецифичной лексики, то есть тех слов, у которых нет хороших эквивалентов в других языках. Раньше в основном состав лингвоспецифичного в языке определялся интуитивно: исследователь представлял себе, что вот в этом слове есть что-то исконно русское или исконно английское. А сейчас это можно установить с помощью корпуса: если какое-то слово все время переводится по-разному и у него нет нормального эквивалента, то, значит, оно, скорее всего, лингвоспецифично.

И вот интересным образом таким лингвоспецифичным русским словом оказалось «захолустье». По-немецки вроде бы есть очень похожие слова, используемые в переводах, типа Einöde или Kaff, но это все не то же самое. Einöde предполагает, что там ничего и никого нет, там пусто. А Kaff — это какой-то маленький населенный пункт, где скучно и плохо. Но захолустье — это же совсем не обязательно маленький населенный пункт, тут важно совсем другое, что это далеко от центра, и, видимо, это действительно связано с культурой. То есть в немецкой культуре не так важно жить близко к столицам, потому что какие-то очаги культуры есть и в других местах. А русское пространство, видимо, изначально было так устроено, что эта идея отдаленности от центра лексикализовалась, и слово «захолустье» именно об этом.

И последнее, что я хотел сказать: параллельные корпусы нашей программы «Национальный корпус русского языка» включают не только немецкий, о котором я сегодня говорил, или английский. Параллельных корпусов очень много. У нас есть французский, испанский, итальянский, польский, белорусский, украинский, латышский, армянский, есть даже мультиязычный корпус, когда тот или иной текст сопоставляется одновременно с несколькими его переводами на разные языки. И всем этим можно пользоваться, это все бесплатно и легко доступно онлайн.