Лексическая сочетаемость

Лингвист Александр Пиперски о парадоксальных словосочетаниях, модели мешка слов и использовании логарифмов в лингвистике

12.01.2016
5 865

Когда мы говорим на человеческом языке, мы складываем слова во фразы, пользуясь какими-то правилами грамматики, но на самом деле есть очень много тонкостей, которые мы при этом незаметно для себя учитываем. В частности, далеко не любые слова можно соединить в рамках словосочетаний и предложений. Понятное дело, что с точки зрения грамматики можно все. Например, есть знаменитая фраза лингвиста Ноама Хомского: «Бесцветные зеленые идеи яростно спят», которая демонстрирует, что предложение может быть грамматически правильным даже и без смысла. Но точно так же ясно, что на самом деле мы такими фразами не говорим, а сочетаем слова как-то более осмысленно. И оказывается, что в значительной мере то, как выражается то или иное значение, зависит от окружающих слов во фразе. Например, возьмем значение очень высокой степени, которое на русском языке можно выражать десятками разных слов. В частности, есть слово «заядлый», есть слово «закадычный», есть слово «проливной». Мы все, носители русского языка, знаем, что заядлым бывает картежник, закадычным бывает друг, а проливным бывает дождь. Сказать «заядлый друг» или «заядлый дождь» невозможно, как невозможно сказать «проливной картежник» или «проливной друг». Значение во всех случаях одно и то же, но сочетаемость немного разная.

Начала компьютерной лингвистикиЛингвист Леонид Иомдин о первом эксперименте по машинному переводу, синтаксической теории Хомского и моделировании языка

То же самое, например, если мы рассмотрим сочетание глагола с существительным. Как обозначается действие, которое по умолчанию производится с некоторым существительным? Например, решение мы принимаем, а помощь оказываем. Опять же нельзя сказать «оказать решение», хотя, казалось бы, ничего не мешало, этот глагол — такая пустышка при существительном, которая просто позволяет встроить его в предложение. Как же это все устроено?

В теории «Смысл ⇔ Текст», которая разрабатывалась в Советском Союзе учеными, в числе которых надо в первую очередь назвать Игоря Мельчука, существует понятие лексической функции. То есть существует некоторый набор стандартных значений, несколько десятков, которые при каждом слове выражаются специальным, идиосинкратически закрепленным за ним образом. Лексические функции довольно полезны для описания сочетаемости. Например, тот пример с проливным другом и закадычным дождем — это то, что называется лексической функцией Magn — лексическая функция выражения высокой степени. Проливного друга и закадычного дождя не бывает. Слово «друг» Magn — это «закадычный», а слово «дождь» — «проливной», никак иначе.

Важно, что лексические функции довольно плохо предсказуемы. Их значение ни из чего не следует. Это хорошо видно, если мы попробуем переводить такие сочетания на другие языки. Например, по-русски заядлым бывает не только картежник, но и курильщик. Как будет «заядлый курильщик» по-английски? «Заядлый курильщик» по-английски — это либо heavy smoker («тяжелый курильщик»), либо chain smoker («цепочечный курильщик»). Ни то, ни то никак нельзя предсказать, кроме как знать. То же самое с нашими примерами с глагольными сочетаниями. Например, «принять решение» по-русски, а по-немецки — eine entscheiden treffen («встретить решение»). Тоже для человека, который этого не знает, совершенно непрозрачно.

Здесь есть, в принципе, два подхода к изучению этого явления. Один подход: идти от значения к разным формам, то, как это делает теория «Смысл ⇔ Текст». Вот у нас есть набор лексических функций, мы смотрим, как обозначение высокой степени или значение действия по существительному выражается. Есть противоположный подход, который более распространен в современной корпусной компьютерной лингвистике: посмотреть, какие сочетания часто встречаются, и дальше уже попытаться их как-то классифицировать в зависимости от того, что они значат. Такие сочетания, которые встречаются в текстах чаще, чем случайно, называются коллокациями. В любом тексте, посвященном коллокациям, вы наверняка встретите цитату из британского лингвиста Джона Руперта Ферса, который в какой-то момент написал следующее: «You shall know a word by the company it keeps», то есть «по окружению его узнаете слово». Эта идея, что слова определяются тем, с чем они сочетаются в текстах, оказалась крайне плодотворной. Собственно говоря, она легла в основу лингвистического изучения коллокаций. Здесь надо специально оговориться, что под коллокациями в теории фразеологии понимается не совсем то, что в корпусной компьютерной лингвистике. Но я буду иметь в виду именно корпусное понимание коллокаций: неслучайно часто встречающиеся сочетания.

Главы | Язык Facebook: «Падонки», «красавчеги» и другиеОтрывок из книги «Современный русский язык в интернете» лингвиста Анны Плисецкой о навешивании ярлыков в социальных сетях, интернет-неологизмах и языке Facebook

Что такое «неслучайно часто»? В этом нам поможет так называемая модель мешка слов. Представим себе, что у нас есть набор слов, частоты которых известны, что-то вроде частотного словаря, который мы построили по текстам на языке. И мы знаем, что, например, слово «и» в русских текстах — это примерно каждое 25-е слово, слово «в» — это примерно каждое 30-е слово и так далее. Если мы считаем, что появление слов в тексте — это независимые случайные события, то тогда мы можем рассчитать вероятность любого словосочетания, зная вероятности входящих в него элементов. Например, для словосочетания «и в» вероятность будет следующая: 1/25 умножить на 1/30 равняется 1/750, то есть каждое 750-е сочетание слов будет в этой модели сочетанием «и в». То же самое касается словосочетания «в и»: 1/30 умножить на 1/25 равняется 1/750. Но понятно, что эта модель плохо описывает реальность, но для нас это не страшно. Нам как раз интересны те точки, где она с реальностью расходится. Естественно, слова не независимы друг от друга, и ровно это нам и интересно.

Мы, если посмотрим на реальные тексты, увидим, что частота сочетания «в и» намного ниже, чем предсказано этой моделью. Не каждое 750-е словосочетание в русском языке — это словосочетание «в и», гораздо реже. Частота сочетания «и в» примерно такая же, как предсказано. Но бывают такие словосочетания, у которых реальная частотность оказывается в разы выше предсказанной.

Например, возьмем сочетание слов «бить» и «баклуши». Пусть у слова «бить» частотность 1/10000, то есть каждое 10000-е русское слово — это слово «бить», и каждое миллионное русское слово — слово «баклуши». Тогда мы будем ожидать, что каждое 10-миллиардное словосочетание — это словосочетание «бить баклуши». Возьмем 10-миллиардный корпус текста. В нем слово «баклуши» встретится 10 тысяч раз. Это очевидным образом следует из нашего исходного предположения, что слово «баклуши» имеет частоту одна миллионная. Но мы понимаем, что словосочетание «бить баклуши» встретится в нем не один раз, как предсказано, будет иметь частоту не одна десятимиллиардная, а гораздо больше. Значительная часть вхождения слова «баклуши» — это будет вхождение в сочетании со словом «бить». Даже если считать, что мы берем только контактные словосочетания, то это будет примерно четверть от всех вхождений слова «баклуши». Реально в таком корпусе будет 2,5 тысячи сочетаний «бить баклуши», притом что мы предсказали, что оно будет одно. Этот огромный разрыв между предсказанной и наблюдаемой частотностью и есть показатель силы этой коллокации. То есть «бить баклуши» — это очень сильная коллокация, намного чаще встречается, чем предсказывает модель мешка слов, значит, это какое-то лингвистически интересное сочетание связанных между собой слов, которые интересно поизучать. Например, внести в словарь, чтобы люди знали, что это несвободное сочетание. Таким образом можно сравнивать силу разных коллокаций. Существует несколько десятков мер, которые позволяют это измерить. Самая простая мера — это так называемая взаимная информация: взять отношение наблюдаемого к ожидаемому количеству вхождений в некотором корпусе и от этого числа взять двоичный логарифм. Для сочетания «бить баклуши» у нас будет в нашем условном примере 2500 разделить на 1, двоичный логарифм от 2,5 тысяч. Чуть больше 11. Соответственно, для сочетания «и в» эта мера будет равна примерно 0, потому что там наблюдаемая частота примерно равна ожидаемой. А для сочетания «в и» эта мера будет и вовсе отрицательной, потому что там наблюдаемая частота меньше ожидаемой, то есть отношение меньше единицы.

Лингвистические технологии в интернетеСпециалист в области информационных технологий Анатолий Гершман о принципах работы поисковиков, системе индексирования сайтов и способах определения тональности текста

Таким образом можно исследовать много сочетаний. Например, если мы возьмем какое-нибудь слово и посмотрим, с чем оно рядом встречается в большом корпусе текстов. Дальше для всех слов, которые встретились с ним рядом или не совсем рядом, а, например, в пределах окна в три слова влево и три слова вправо, можем проверить, насколько сильна связь между этими словами, вычислив меру силы коллокации. Тогда мы получим упорядоченный список слов, которые с интересующим нас словом, с так называемым узлом коллокации, сочетаются неслучайно часто. Естественно, вручную сделать это невозможно, а при помощи компьютера сделать довольно легко. Существует много разных сервисов, которые позволяют узнать интересные вещи про сочетаемость того или иного слова. Один из самых известных ресурсов такого рода — система Sketch Engine, которая включает в себя корпуса разных языков, в которой можно, например, для русского посмотреть, с чем сочетаются разные русские слова, построив так называемую word sketch, то есть описание сочетаемости данного слова, причем не просто по соседству в тексте, а по грамматическим отношениям.

Если мы возьмем, например, наше слово «заядлый», то обнаружим, что оно неслучайно часто сочетается с двумя классами существительных. Оно, во-первых, сочетается с обозначениями разных увлечений и зависимостей. Грань между этими понятиями, конечно, тонкая. Бывает заядлый картежник, курильщик, театрал, геймер, рыбак и так далее. Во-вторых, с некоторыми чертами характера. Например, бывает заядлый спорщик и заядлый скептик, часто встречаются в русских текстах. Это информация о слове, которая должна быть обязательно отражена в словарях и для носителей языка, и для изучающих язык, потому что невозможно никак иначе узнать, что скептик бывает заядлым, например, а оптимист скорее нет. Для этого нужны корпусные данные, потому что интуиции лексикографа все-таки не хватает, чтобы учесть действительно частотные сочетания. В последнее время все больше и больше внимания в лексикографической практике уделяется вопросам сочетаемости, вопросам поиска коллокаций и включения их в словарь, поэтому есть надежда, что в будущем словари будут лучше отражать лексическую сочетаемость, чем это было прежде.

кандидат филологических наук, доцент Института лингвистики РГГУ, научный сотрудник Школы филологии НИУ ВШЭ
Узнал сам? Поделись с друзьями!
    Опубликовано материалов
    03586
    Готовятся к публикации
    +28
    Самое читаемое за неделю
  • 1
    ПостНаука
    5 159
  • 2
    Татьяна Тимофеева
    2 598
  • 3
    Роман Бевзенко
    1 502
  • 4
    Сергей Афонцев
    1 487
  • 5
    ПостНаука
    761
  • Новое

  • 5 159
  • 761
  • 2 598
  • 1 487
  • 1 502