Компьютерный анализ речи

Сохранить в закладки
10724
2
Сохранить в закладки

Лингвист Игорь Исаев об экспериментальной фонетике, механизмах говорения и визуализации речи

Начинаете ли вы учить новый язык, слушаете ли диалектного собеседника, говорите ли с ребенком — везде вы столкнетесь прежде всего с произносительной стороной языка. Механизм говорения, его связь с работой мозга, артикуляцией и акустикой, а также отношения между языковыми единицами (фонемами) — вот главные точки изучения лингвистами, биологами, психологами и физиками. Именно фонетика обычно открывает лингвистическое образование студента.

Методы наблюдения за фонетикой языка менялись со временем. Первый по времени метод — самонаблюдение. Этот метод очень хорошо работает и в современной студенческой аудитории. Студент осмысляет работу органов речи, оценивает то, каким образом и где образуются звуки. Пользуясь фонетической терминологией — определяется место образования и способ образования звуков (у согласных) или их зона образования (у гласных). Органы речи только называются так, на самом же деле человек приспособил для говорения то, что было предназначено для измельчения пищи и для дыхания.

Где и как образуются звуки

Гласные звуки образуются не в какой-то конкретной точке артикуляционного аппарата, а в некоторой зоне, которая образуется в результате движения языка по горизонтали (по рядам) или по вертикали (по подъемам). Проход воздуха в этом случае свободен, преград нет, а качество порождаемого звука определяется формой сформированного резонатора. Согласные звуки имеют фокус, то есть «координаты» источника шума. Таким шумом для типичных шумных согласных может быть импульс ([т], например), турбулентность ([с], например) или комбинированный импульсно-турбулентный шум ([ц]). Есть и нетипичные согласные, их называют сонорными (в русском языке это [р], [р’], [л], [л’], [м], [м’], [н], [н’]). С точки зрения артикуляции они представляют собой артикуляцию типичного смычного (импульсного) согласного и свободный проход воздуха, как у гласного.

Все эти основные характеристики звуков были определены в результате самонаблюдения. Однако с развитием аппаратуры фонетистам для прикладных задач хотелось видеть артикуляцию.

Как увидеть артикуляцию

Для этих целей пользовались методом палатографии. На нёбо наносилась краска, затем осуществлялась целевая артикуляция, и на языке оставались пятна в контактных зонах. Еще менее гуманный способ исследования артикуляции — искусственное нёбо, представляющее собой электрический прибор со множеством контактов и проводов. При касании языком искусственного нёба замыкалась цепь, затем отправлялся сигнал на табло.

С развитием рентгенографии фонетика получила значительно больше ответов на артикуляционные вопросы. Вопрос о положении языка, челюстей, нёбной занавески и гортани во время производства звука отныне не был областью предположений. В 1963 году для русской фонетики, например, появляется палатографическое и рентгенографическое описание русских согласных, выполненное в Киевском университете Л. Г. Скалозуб.

Традиционно для изображения положения органов речи используется артикуляционный профиль в левом сагиттальном разрезе головы. Эти изображения легко читаются и могут быть использованы для учебных целей в процессе преподавания фонетики.

Современные исследования в Университете Аризоны (США), например, позволяют видеть области артикуляции в результате 3D-моделирования. На рисунках показаны пустоты, резонирующие в процессе артикуляции звуков.

«Видимая речь»

Все старые методы естественного наблюдения предполагают статическое изучение объекта, хотя звучащая речь по сути своей — динамическая система. Для устранения этого разрыва использовалась кинорентгенография, но эти исследования небезопасны и технически сложны. Стремление видеть и анализировать звучащую речь в динамике привело к созданию прибора, показывающего динамическую спектрограмму, идея Visible Speech приобрела современную реализацию. Работа Гуннара Фанта «Акустическая теория речеобразования», переведенная на русский язык в 1964 году, позволила фонетистам понимать и прочитывать динамическую спектрограмму. В этот момент фонетика перешла от исследования артикуляционного аспекта речи к исследованию акустического аспекта. Сейчас не нужна лаборатория для проведения исследований, этот прибор — компьютер, который при помощи программ акустического анализа речи (например, PRAAT, Speech Analyzer, Wave Assistant) подвергает анализу звуковой сигнал.

Динамическая спектрограмма позволяет увидеть физическое развитие звука во времени. Тоновые и шумовые составляющие речи связываются с определенными типами звуков. Шум — общее свойство согласного звука, тон — свойство гласного и вокализованного (звонкого) согласного.

Гласные

Тоновый звук рождается голосовыми связками. Положение и напряжение голосовых связок, положение хрящей гортани могут рождать разные типы звука: чистый тон, скрипучий голос и так далее. Звук, рожденный голосовыми связками, обрабатывается несколькими резонаторами (глотка, ротовая и носовая полость). Каждый резонатор имеет индивидуальные характеристики и окрашивает голос индивидуальными же чертами, что делает голоса узнаваемыми. Кроме индивидуальных черт есть и генеральные, которые формируются в результате приобретения социальных (языковых) навыков. К ним относится способ артикуляции звуков речи. Форма резонатора, необходимая для точной артикуляции звука (узнаваемой другими членами языкового коллектива), осваивается ребенком с детства. Это очень трудный опосредованный процесс, так как выстраивается он от акустических впечатлений, которые ребенок пытается повторить, отталкиваясь от несформированной еще артикуляции.

Производство гласного звука представляет собой своего рода аккорд, который задается голосовыми связками и несколькими резонаторами, что отражается в его частотной структуре. Для узнавания гласного важны первые два частотных усиления снизу (выглядят как интенсивные слои), первые две форманты, F1 и F2 важны. Формант больше чем две, но именно F1 и F2 отвечают за лингвистическую суть гласного. Генеральное свойство любого гласного — зависимость структуры частот от положения языка и раствора челюстного угла (формы резонатора).

Артикуляционная схема гласных выглядит как трапеция (или как треугольник), стоящая на вершине. Различают ряды и подъемы языка при артикуляции. Русский гласный [а], например, находится в максимально нижнем положении (нижний ряд), тело языка собрано в средней части (в среднем ряду). Гласный [о] среднего подъема и заднего ряда. Гласный [э] среднего подъема и переднего ряда. Гласный [и] верхнего подъема и переднего ряда. Гласный [ы] верхнего подъема и среднего ряда (этот гласный в русском произношении меняет ряд, скользит из среднего в передний ряд). Гласный [у] заднего ряда и верхнего подъема.

Зависимость акустических характеристик гласных от артикуляционных характеристик обратная: чем ниже подъем, тем выше частота звука первой форманты (F1), которая связывается с подъемом гласного. Чем более передний гласный, тем выше частота второй форманты (F2). Таким образом гласные можно узнавать на спектрограмме по положению F1 и F2. Гласный представляет собой не точку в артикуляционном пространстве, а некоторую зону. Самая примерная схема ударных русских гласных с точки зрения частотного распределения первой и второй форманты (соответствующих подъему и ряду гласного) такова:

Это идеальная схема сорасположения первой и второй форманты. В реальности эти значения зависят от многих факторов: мужской или женский голос, взрослый или ребенок, движение тона, громкость и так далее. Существуют способы нормализации этих данных, но в живой речи мы имеем дело с разнообразием. Несмотря на разнообразие типов речи, мы узнаем звуки в речи разных людей. Для этого есть причины.

На динамической спектрограмме гласные узнаются по ламинарной (слоистой) формантной структуре и отсутствию высокочастотных шумов. Идеальное взаимное расположение F1 (снизу) и F2 (сверху) показано на схеме на примере сочетаний [тас] (таз), [сот], [с’ет] (сед), [сут] (суд), [сыт], [с’ит] (сито). В реальности соседние звуки вносят коррективы в формантную структуру гласных.

Взаимное расположение формант позволяет нам физически узнавать гласные в исполнении различных голосов.

В том случае, если гласные непереднего ряда ([а], [о], [у]) находятся после мягких согласных перед твердыми, их формантная структура меняется, они получают продвижение вперед: [с’ад] (сяду), [т’от] (тётка), [т’ус] (ТЮЗ). Гласный [ы] перед мягкими — это [и].

Схема: мягкий согласный — гласный — твердый согласный (C᾽ГС)

Перед мягкими после твердых: СГС’

Между мягкими: С’ГС’ [с’ат’]. F2 повышена.

Иллюстрация на примере: [тот], [т’от], [то’т], [т’о’т]. Первая и вторая форманты подсвечены.

Не только твердость/мягкость влияет на формантную структуру гласного. Место и способ образования согласного также влияют на структуру соседнего гласного. Одни из них повышают форманты, другие понижают.

Согласные

Система согласных, так же как и гласных, получает описание по месту образования звука и способу образования шума: импульсные (взрывные, смычные), турбулентные (фрикативные, щелевые) и комбинированные, импульсно-щелевые (аффрикаты, смычно-щелевые). Место образования и тип шума (способ образования согласного) хорошо видны на динамической спектрограмме.

Посмотрите на сочетания [атá], [асá], [ацá], иллюстрирующие различие в способе образования согласных.

Импульсный источник шума [т] выглядит как белое поле и черная узкая полоса после белого поля. Это тишина, возникающая из-за смыкания органов речи, и последующий энергичный взрыв, размыкание органов. Турбулентный шум [c] выглядит как равномерный черно-серый фон, возникающий в результате трения воздуха в узкой щели (фрикция). Комбинированный источник шума [ц] совмещает характеристики: тишина — смычка — фрикция.

Место образования также влияет на акустические характеристики согласного и может быть показано на артикуляционных профилях слева направо от губ к глотке с разделением артикуляционного процесса на действие активного и пассивного органа. В русской фонетике из множества возможностей задействованы губно-губные (есть соответствующий международный термин «билабиальные»), губно-зубные (лабио-дентальные), переднеязычные зубные (дентальные). И так далее. Смотрите на схеме.

Русские согласные из учебника С. В. Князева и С. К. Пожарицкой «Современный русский литературный язык. Фонетика, орфоэпия, графика и орфография».

Чем больше резонирующая полость, тем ниже звук. Сравните с музыкальными инструментами: скрипка, виолончель, контрабас. В процессе чтения артикуляции по акустическому сигналу этот принцип оказывается не менее важен: сравните фрикативные согласные [c]-[ш]-[х].

Звук [с] образуется в передней части артикуляционного аппарата, фонация направлена на выход, резонирующая полость минимальна, звук высокочастотный. Звук [ш] образуется глубже, резонатор больше, а звук [х] образуется в области заднего нёба, резонатор самый большой, звук самый низкий.

Все возможности артикуляции, существенные для фонетики языков мира, представлены в международном фонетическом алфавите (2005 г.)

Интонация

Тональные характеристики речи задаются голосовыми связками. Повышение и понижение тона (иногда применяют слово «интонация») может быть записано нотами. Так делали в эпоху до программ акустического анализа речи. Современный программный продукт позволяет видеть F0, то есть движение тона. Движение тона и определенная синтаксическая конструкция говорят нам о значении этого контура. Так мы узнаем вопрос, сообщение, перечисление и так далее.

Практическое применение

Знание законов порождения звучащей речи позволяет использовать эти сведения для практических целей. Одна из них медицинская: формирование звуков речи в тех случаях, когда пациент не может этого делать сам. Однако самое частотное, встречаемое каждый день — автоинформаторы в общественном транспорте, в крупных компаниях, работающих с большим количеством клиентов, «читалки» текста.

Над материалом работали

Читайте также

Внеси свой вклад в дело просвещения!
visa
master-card
illustration