Если мы откроем словарь русского языка в произвольном месте и начнем просто читать его подряд, то мы увидим что-то вроде такого: «ижевский, ижевцы, ижица, из, изабелла, изба, избавитель». Один взгляд на этот список слов позволяет нам заметить, что, вообще говоря, роль этих слов в языке разная. Например, можно всю жизнь прожить, говоря на русском языке, и не знать нарицательного существительного «изабелла», которое обозначает название сорта винограда. Но прожить всю жизнь, говоря на русском языке, и не знать предлога «из» все-таки невозможно. То есть роль разных слов в языке разная, и интересно было бы понять, с чем это может быть скоррелировано и как это можно измерить.

Самый напрашивающийся коррелят — это, конечно, частотность. Мы понимаем, что слово «из» встречается очень часто, слово «изабелла» как название сорта винограда встречается очень редко, слова типа «ижевцы» и «избавитель» — где-то посередине. То есть мы стоим перед задачей измерить частотность слов. Сделать это можно довольно простым способом: нам нужно набрать достаточно большое количество текстов, которые будут, как нам кажется, представлять язык во всей совокупности его разновидностей, если мы хотим строить что-то вроде частотного словаря всего языка — русского, английского, какого угодно, — и дальше посчитать, сколько раз в этой совокупности текстов встретилось то или иное слово. Ясно, что вручную это делать довольно непросто. На компьютере это делать намного удобнее и легче. Но тем не менее первые частотные словари русского языка появились еще в 1950-е годы, когда об автоматической обработке речь почти что и не шла.

Первый частотный словарь русского языка был издан Гарри Йоссельсоном в Детройте в 1953 году, и автор обработал массив один миллион слов. Дальше стали появляться частотные словари уже в Советском Союзе. Например, Эви Штейнфельдт в Таллине в 1960-е годы выпустила словарь на материале 400 000 слов, а группа под руководством Лидии Засориной из Ленинграда и Горького — из Санкт-Петербурга и Нижнего Новгорода — в 1977 году выпустила еще один словарь на основе миллиона словоформ. А сейчас настала эпоха частотных словарей, порождаемых почти полностью автоматизированно, и самый известный современный русский частотный словарь — это словарь Ольги Ляшевской и Сергея Шарова, который вышел в 2009 году и базируется на корпусе текстов объемом 92 млн словоформ. Этот словарь находится в свободном доступе в интернете, любой может им воспользоваться.

Если мы откроем словарь Ляшевской и Шарова, то начинается он примерно так: на первом месте там слово «и» с 36 тысячами вхождений на миллион, на втором месте слово «в» с 31 тысячей, на третьем месте слово «не» с 18 тысячами, на четвертом месте слово «на» с 16 тысячами, на пятом месте слово «я» с 13 тысячами. Где-то около тысячного места встречаются такие слова, как «обязательно», «слава», «кухня», «определение», «пользоваться», «быстрый». А где-то в районе пятнадцатой тысячи мы можем найти слова типа «жилистый», «палисадник», «конфессия», «пашня», «навечно». Мы имеем упорядоченный частотный список. Как устроены в нем частоты? Как распределены значения частот? Ясно, что это невозрастающая последовательность. Невозрастающие последовательности, как легко догадаться, бывают самые разные. Например, это могла бы быть арифметическая прогрессия, где первое слово отстоит по частотности на столько же от второго, на сколько второе от третьего, третье от четвертого и так далее. Могла бы быть геометрическая прогрессия, где второе слово во столько же раз реже, чем первое, во сколько третье слово реже, чем второе.

Но тем не менее закон распределения частотности слов совсем другой. Его в середине XX века открыл американский исследователь Джордж Кингсли Ципф, и он называется законом Ципфа. Закон Ципфа гласит, что частотность слова обратно пропорциональна его рангу, то есть его номеру в частотном списке. Другими словами, частотность слова равна некоторой константе, деленной на его ранг. Если мы возьмем эту константу, равную 40 тысячам вхождений на миллион, то частотность первого слова в этом списке будет составлять 40 тысяч, второго слова — 20 тысяч, третьего слова — 13 тысяч, четвертого слова — 10 тысяч и так далее, а, например, сотого слова — 400, двухсотого слова — 200. Это приближение довольно хорошо описывает среднюю часть списка. Верх и низ описываются им неидеально, но интересно, что этот же закон, открытый на языковом материале, на материале частотности слов, хорошо работает и в разных других сферах.

Например, если взять список городов России, отсортированных по убыванию населения, то он будет устроен так же, как частотный словарь русского языка. Точно так же количество жителей в городе будет примерно обратно пропорционально рангу города в списке. Эту математическую модель можно, конечно, еще уточнять, но в самом простом виде она выглядит вот таким образом. И с законом Ципфа связано то, что в экономике называют законом Парето. Это всякие утверждения типа того, что «на 10% населения приходится 90% благосостояния», «на 20% вложенных усилий приходится 80% результата» и так далее. И в языке это тоже работает, потому что очевидно, что если частота обратно пропорциональна рангу, то будет не очень большое количество слов с очень высокой частотой, которые будут занимать собой бо́льшую часть текстов на этом языке.

Рекомендуем по этой теме:
6008
Главы: Русский национальный

Для чего могут понадобиться знания частотности? Во-первых, они очень важны при обучении языку. Например, в 1953 году Майкл Вест составил так называемый General Service List для английского языка — список слов общего пользования, список общеупотребительных слов, в который он включил примерно 2000 наиболее частотных английских слов, утверждая, что они покрывают более 90% устной речи и 85–90% письменной речи на английском языке. То есть иностранец, выучивший эти 2000 слов, может достаточно легко понимать значительную часть текстов. Если мы, например, возьмем словари издательства Macmillan, то в них рядом со словами можно встретить звездочки — иногда три, иногда две, иногда одну. Три звездочки означают, что это слово из верхней части частотного списка, с 1-го места по 2,5-тысячное. Если две звездочки, то это следующие 2500, если одна звездочка — следующие 2500, то есть с 5001-го по 7500-е место. И это, вообще говоря, очень удобно для изучающего, например, английский язык, потому что он понимает, что какие-то слова ему, скорее всего, пригодятся, какие-то, скорее всего, не пригодятся, и он может соответственно распределить усилия. Для русского языка недавно тоже вышел такой словарь, составленный коллективом авторов, возглавляемым Сергеем Шаровым, одним из авторов частотного словаря русского языка. Это тоже может пригодиться при обучении русскому языку как иностранному.

Связанный с этим интересный вопрос: как частотность слов должна находить отражение в обучении языку как родному? Например, какие слова нужно включать в учебники для первоклассников, второклассников и так далее? Здесь такого однозначного ответа уже нет. С одной стороны, можно считать, что частотные слова они и так выучат, а пусть уж в учебниках знакомятся с редкими словами, которые им неоткуда больше узнать. Можно, наоборот, считать, что язык учебника должен быть приближен к реальному языку, тогда хорошо было бы прошерстить учебники на предмет того, чтобы в них не попадались всякие редкие слова, которые учащимся потом в жизни особенно и не понадобятся. Но здесь, повторяю, в отличие от преподавания языка как иностранного, единственного правильного ответа явно не существует.

Еще одна задача, для которой полезно знание частотности слов, — это автоматическая обработка естественного языка с разными целями. Возьмем в качестве примера автоматическую проверку орфографии. Представим себе, что пользователь ввел сочетание букв МЕСА — «меса». Такого слова в словаре нет, и компьютер начинает подозревать, что что-то не так. Тогда он может построить кандидатов, которые должны быть правильным написанием. Для этого сочетания букв это может быть, например, слово «месса» с двумя «с», может быть слово «мяса» (родительный падеж от слова «мясо»), может быть слово «мыса» (родительный падеж от слова «мыс»), может быть слово «ме́ста» или «места́» (родительный падеж единственного числа или именительный/винительный падеж множественного от слова «место»). Из всех них наше сочетание букв МЕСА получается с допущением одной ошибки: пропустить букву, заменить букву. И что из этого выбрать? Что предложить пользователю в качестве первого варианта или на что произвести автоматическое исправление?

Рекомендуем по этой теме:
5559
Двуязычные словари

Здесь может быть много разных аргументов. Например, можно подсчитывать вероятность той или иной ошибки, можно оценить вероятность, с которой пользователь пропускает букву, с какой вероятностью пользователь заменил «я» на «е» или «ы» на «е», потому что ясно, что это как-то зависит от расположения букв на клавиатуре, например. Но важно учесть еще одну вещь: задуматься о том, какое слово пользователь хотел написать. Здесь снова вступает в игру частотность. Если мы посмотрим по какому-нибудь корпусу текстов частотность этих слов, то обнаружим, что частотность словоформы «ме́ста» или «места́» — поскольку на письме мы не различаем ударение, то это неважно — в 7 раз выше, чем частотность всех остальных словоформ из этого списка, вместе взятых. То есть если перед нами стоит задача автоматически исправить нашу запись, то вместо «меса» выбирай «места» и с большой вероятностью не ошибешься. Это еще одно приложение частотности к практическим задачам.

Но частотность важна и для теории языка. Частотные слова — это те слова, которые мы часто слышим. Соответственно, когда ребенок осваивает язык, можно предполагать, что у него в голове есть два механизма. Эту идею высказал известный американский лингвист Стивен Пинкер, и затем она активно развивалась. Часть слов, которые мы порождаем, — это слова, взятые из памяти как готовые, часть — слова, построенные по правилам. Например, если мне нужно построить творительный падеж множественного числа от слова «осциллятор» — я, скорее всего, никогда его не слышал, не произносил, — я строю его по общим правилам и получаю «осцилляторами». Если мне нужно построить творительный падеж множественного числа от слова «лошадь», то, скорее всего, я просто достаю его из памяти, потому что это довольно частотное слово, которое, наверное, многократно слышал, и строю «лошадьми», что не вполне соответствует общим правилам, которые предписывали бы от слов такого склонения иметь форму на –ями (например, крепость — крепостями и так далее).

Это показывает, что частотные слова — это как раз те, которые более всего склонны иметь нерегулярные формы. Если мы посмотрим, например, на то, какие слова входят в списки исключений, будь то в русском языке или в любом изучаемом нами иностранном языке, то мы обнаружим, что, к большому сожалению для изучающих язык, самые частотные слова — это и есть самые странно склоняющиеся и спрягающиеся слова. Например, существительное «человек» имеет в русском языке множественное число «люди», которое совершенно непохоже на его единственное число, но мы не ожидаем, что такая же ситуация будет со словом «осциллятор» — скорее всего, его множественное число будет регулярным.

Все это показывает, что изучение частотности очень важно для самых разных аспектов лингвистики — и для прикладных направлений, и для теоретического языкознания.