Почему владение устной речью важнее навыка письменного общения? Какая информация кодируется в транскриптах? Каким образом обрабатываются тексты для использования в корпусе? Об этом рассказывает доктор филологических наук Вера Подлесская.

Что такое компьютерный корпус устной речи? Это, по существу, коллекция аутентичных устных текстов, которые хранятся в виде аудио- или видеофайлов вместе с синхронизированными расшифровками, которые лингвисты называют «транскриптами». Расшифровки очень похожи, например, на то, что мы видим в расшифровках радиопередач, но в очень существенном отношении отличаются от того, что мы знаем как расшифровки радиопередач. Чем отличаются? Отличаются объемом информации, которой нагружены эти транскрипты. В транскриптах аннотируются, то есть кодируются и фиксируются наиболее существенные свойства такого фрагмента устного текста, которые характеризуют его именно как устный текст.

Рекомендуем по этой теме:
Первое, что мы можем делать с помощью интонации и что фиксируется у нас в транскриптах в корпусе, — это выражение нашего коммуникативного намерения, или, как говорят лингвисты, иллокутивной силы. Что мы хотим сделать этим квантом с говорящим? Например, мы берем то, что в письменном виде выглядит как «Папа купил Васе новый телефон». Мы видим такую последовательность слов. Мы можем из нее голосом сделать сообщение: «Папа купил Васе новый телефон». Можем сделать вопрос: «Папа купил Васе новый телефон?». Можем воскликнуть: «Папа купил Васе новый телефон!» (в смысле, «ура»). Можно устроить какое-нибудь ябедничество или занудство и нудеть: «Ууу, папа купил Васе новый телефо-он». И это, заметим, все те же самые слова и та же самая грамматика. Все эти оттенки мы умеем кодировать в транскрипции с помощью специального набора символов.

Еще один очень важный пласт информации, которая помещается в транскрипте, — это информация о речевых затруднениях и сбоях. В устной речи человек никогда не говорит гладко, особенно если это речь в неформальном регистре. Человек может задуматься, и ему может потребоваться то, что в лингвистике называется «пауза хезитации». Он может заполнить ее мэканьем, тем, что иногда неверно называется словами-паразитами («ну», «это самое» и т. д.). Он может просто взять паузу, которая иногда довольно долгая. Считается, что, если пауза длится дольше секунды, она начинает тревожить слушателя. Лучше мэкать, чем молчать целую секунду, потому что иначе слушатель не знает, что ему думать. Все колебания, паузы хезитации, самоисправления, потому что человек может ошибиться, ему не понравится то, что он сказал, и он исправит, — все это мы тоже фиксируем в транскрипте.