Раздел 2
Экспериментально-психологические исследования невербальной коммуникации
Раздел содержит тексты ряда основных статей автора и фрагментов монографий по проблемам вербально-невербальной коммуникации.
1 Психоакустические аспекты изучения речи[8]
Изучение речи как «инструмента» второй сигнальной системы имеет множество исторически сложившихся аспектов, обусловленных научными и прикладными задачами: эволюционно-антропологическими (Уайт, Браун, 1978), историко-лингвистическими (Якушин, 1984), акустическими (Fant, 1960, 1970), фонетическими (Бондарко, 1977; Зиндер, 1979; Брызгунова, 1984), физиологическими (Чистович, Кожевников, 1972; Физиология…, 1976), нейрофизиологическими (Бехтерева и др., 1977, 1985), акустико-физиологическими (Морозов, 1977), экспериментально-психологическими (Licklider, Miller, 1951; Соколов, 1968), психологическими (Леонтьев, 1965; Ломов, 1984), психолингвистическими (Исследование…, 1985), онтогенетическими (Lennenberg, 1967; Тонкова-Ямпольская, 1971), медицинскими (фониатрическими) (Ермолаев и др., 1970), инженерно-техническими (Сапожков, Михайлов, 1983; Ли, 1983) и многими другими. Все эти аспекты в той или иной степени взаимосвязаны, взаимодополняют и «перекрывают» друг друга, т. е. отражают разные стороны одного и того же речевого процесса.
Задача психофизики состоит в изучении связи между физическими свойствами стимула и его восприятием. Основной задачей настоящей главы является рассмотрение в общей форме связи между акустическими характеристиками речи и ее восприятием человеком, точнее – роли основных акустических характеристик (спектра, основного тона, амплитудно-временных характеристик и др.) в передаче слушателю различных видов речевой информации. Рассмотрены также такие психоакустические особенности восприятия речи слушателем, как информационная избыточность связной речи, влияние шума на восприятие речи, асимметрия слухового восприятия речи, восприятие собственной речи говорящим, особенности вокальной речи (пения), наконец – восприятие человеком так называемых экстралингвистических характеристик звуковой речи, изученных значительно меньше по сравнению с лингвистическими ее свойствами (слово), но значение которых в восприятии речевой информации весьма велико.
Система речевой коммуникации в общем виде включает в себя: 1) источник речевого сигнала (процесс формирования речевого высказывания и образования речи), 2) акустический речевой сигнал, 3) приемник речевой информации (слуховой анализатор и мозг слушателя), 4) шум, всегда присутствующий в системе речевой коммуникации и оказывающий существенное влияние как на процесс восприятия речевой информации, так и на ее образование.
Все звенья указанной системы речевой коммуникации являются взаимосвязанными и взаимосогласованными. Так, например, характеристики источника целиком определяют особенности сигнала. Слух человека в свою очередь хорошо адаптирован к восприятию акустических характеристик речи, выделению речевого сигнала на фоне наиболее вероятных акустических помех. Более того, психофизиологический процесс восприятия речи не ограничивается слуховым анализом акустических характеристик речевого сигнала, но простирается и на анализ слушателем механизмов речеобразования. Данное явление нашло отражение в моторной теории восприятия речи (Галунов, Чистович, 1965; Lieberman et al., 1962; Cooper, 1966), реально регистрируемых биопотенциалах речевых мышц при слушании речи (Соколов, 1968), представлениях об активной природе любого сенсорного процесса, в частности восприятия вокальной речи (Морозов, 1977) и музыки (Теплов, 1947; Леонтьев, 1965).
1.1. Различные акустические параметры речевого сигнала и их значение для восприятия
Разборчивость речи. Важнейшей психоакустической характеристикой речи является ее разборчивость, т. е. степень правильного восприятия слушателем ее фонетических элементов и семантического содержания, иными словами – внятность и понятность речи.
Изучение разборчивости речи исторически было связано с необходимостью оценить качество электроакустических трактов связи, в частности телефонных сетей. Такого рода исследования были проведены как за рубежом (French, Steinberg, 1947; Licklider, Miller, 1951), так и в нашей стране инженерами связи в содружестве с фонетиками (Покровский, 1962). Вместе с тем разработанные для этой цели методы нашли и более широкое применение, в частности – для изучения индивидуальных и групповых особенностей разборчивости речи людей (мужчин, женщин, детей) в различных условиях (Морозов, 1977).
Основной принцип исследования разборчивости состоит в прослушивании группой подготовленных слушателей того, что говорит человек, записи прослушанного и определении вероятности правильного восприятия по отношению ко всему переданному говорящими речевому материалу, согласно формуле: A = Wx/W∑, где А – разборчивость речи в процентах; W∑ – число переданных говорящим лингвистических единиц, например слов; Wx– число правильно принятых слушателем слов.
Характер речевого материала при этом оказывает весьма существенное влияние на результаты восприятия речи слушателем. Так, показано, что при всех прочих равных условиях максимальная разборчивость наблюдается при восприятии связной речи в виде предложений (так называемая фразовая разборчивость). При тех же условиях процент разборчивости оказывается меньше, если передаются изолированные слова, и еще меньше – при передаче изолированных фонетических элементов речи типа слогов (или, как их иногда называют, логотомов). Указанное обстоятельство объясняется высокой информационной избыточностью речевого сигнала связной речи, обеспечивающей возможность слушателю догадываться о нечетко произнесенных и даже вовсе не произнесенных (редуцированных) звуках по смыслу речевого высказывания.
Зависимости между слоговой, словесной и фразовой разборчивостью для английской речи впервые определены Коллардом (Collard, 1929 – цит. по: Покровский, 1962). Для русской речи они обстоятельно были изучены коллективом инженеров Военной академии связи совместно с кафедрой экспериментальной фонетики Ленинградского университета (Покровский, 1962). Для этой цели были разработаны специальные тестовые фразы, слова и слоги, а также процедуры исследования. Данные формы речевого материала были разработаны с учетом статистических характеристик и фонетических закономерностей русской речи, составлено 100 слоговых таблиц по 50 слогов в каждой. Слоги эти закрытые (начинаются и оканчиваются согласными) и лишены смысла (не являются односложными словами).
Комплекс слоговых таблиц официально утвержден для исследования разборчивости русской речи (ГОСТ-7153–61). Составлен также комплекс из 50 лингвистически сбалансированных словесных таблиц (по 50 слов в каждой, служащих для тех же целей), а также материалы для определения фразовой разборчивости (Покровский, 1962).
Зависимости между слоговой, словесной и фразовой разборчивостями для английской и русской речи приведены на рисунках 1 и 2. На основании указанных закономерностей, зная слоговую разборчивость, всегда можно определить разборчивость слов и разборчивость фраз, т. е. связной речи. Так, например, 50 % разборчивости слогов соответствуют 90,5 % разборчивости слов и 96,5 % разборчивости фраз, что считается весьма удовлетворительным.
Рис. 1. Зависимость словесной разборчивости (W) от разборчивости слогов (S) (Покровский, 1970)
Рис. 2. Зависимость фразовой разборчивости (J) от разборчивости слогов (S) (Покровский, 1970)
Информационная избыточность связной речи, обусловливающая повышенную разборчивость осмысленных элементов речи (фраз и слов) по отношению к слогам, является важнейшим психоакустическим свойством речевого восприятия. Этот феномен свидетельствует, что процесс восприятия речи не является поэлементным. Он не сводится к последовательному восприятию отдельных речевых элементов (звуков или слогов), а в каждый данный момент является вероятностным, т. е. опирается на достаточно широкую ретроспективную (т. е. на то, что было произнесено раньше) и перспективную (что будет сказано) оценку воспринимаемого речевого материала. Решающим с этой точки зрения фактором является знание слушателем лингвистических вероятностных закономерностей языка, приобретаемых, разумеется, не в результате какого-либо специального обучения, а эмпирическим путем в процессе овладения языком, начиная с раннего детского возраста.
Трудности проблемы автоматического распознавания речи (существующие и по сей день) в значительной мере возникали в результате попыток исследователей ограничить процесс распознавания процедурой поэлементного, например пофонемного, анализа речевого потока. Но, поскольку многие звуки в живой разговорной речи неузнаваемо изменены (по отношению к своему среднестатистическому стандарту) или даже вовсе отсутствуют, данный алгоритм речевого распознавания заведомо не оптимален. Поэтому в современных теориях машинного распознавания речи все более и более начинает доминировать идея о необходимости обучения ЭВМ распознаванию речи на основе тех же принципов, что и овладение речью человеком в онтогенезе, т. е. на основе «усвоения» машиной всех необходимых вероятностных языковых закономерностей (Ли, 1983).
Спектральные характеристики речи. Наиважнейшей акустической характеристикой речи, обусловливающей восприятие слушателем речевой информации, является динамика спектрального состава звука во времени. Спектром звука принято называть представление сигнала в координатах «частота – амплитуда», иными словами – зависимость амплитуд обертонов от их частоты.
Голосовой источник (гортань, голосовые складки) формирует звук (см. рисунок 3а, б) с линейно падающей по мере увеличения частоты амплитудой обертонов (см. рисунок 3в). Резонаторная система речевого тракта (ротовая полость, глотка) обладает свойством усиливать отдельные полосы частот, значение которых определяется объемом и конфигурацией ротоглоточного резонатора, что в свою очередь обусловливается характерным для каждого речевого звука положением артикуляционных органов (см. рисунок 3 г). В результате прохождения звуковой волны от голосовых складок через ротоглоточный резонатор[9] спектр ее оказывается преобразованным, т. е. имеет максимумы акустической энергии (F1, F2) в частотных полосах, соответствующих резонансному усилению речевого тракта, и минимумы в соседних полосах, соответствующих поглощению (подавлению) речевым трактом акустической энергии (см. рисунок 3д).
Рис. 3. Схема преобразования спектра в речевом тракте (Сапожков, Михайлов, 1983).
а – звуковые импульсы голосовых связок; б – осциллограмма речевого звука; в – спектр источника (голосовых связок); г – резонансные характеристики речевого тракта; д – результирующий спектр речевого звука. А – амплитуда; Р – звуковое давление; t – время; L – относительный уровень спектральных составляющих; f – частота спектральных составляющих; F1– первая форманта; F2– вторая форманта.
Как установлено с параллельным применением кинорентгеносъемки и акустической техники, в процессе артикуляции звуков речи, т. е. перемещении языка, губ, челюсти, изменении объемов и конфигурации ротовой и глоточной полостей, резонансные характеристики речевого тракта меняются. Это соответственно приводит к изменению максимумов на спектрах речевых звуков, в частности гласных [А], [Э], [И], [О], [У], [Ы] (см. рисунок 4). Максимумы акустической энергии на спектрах звуков, получившие название формантных максимумов, или речевых формант, играют основную роль в опознавании речевых звуков слуховой системой человека. Формантные максимумы на спектрограммах обозначаются индексами F1, F2, F3и т. д. (см. рисунок 3д) в соответствии с номером форманты (нумерация ведется от самой низкой, первой, форманты F1к высоким).
Рис. 4. Представление шести русских гласных [А], [Э], [И], [О], [У], [Ы] в координатах «частота первой форманты F1(по оси абсцисс) – частота второй форманты F2(по оси ординат)» (Fant, 1965).
Характерное положение каждой гласной на плоскости F1 – F2 обозначено точкой. Рядом изображен характерный профиль речевого тракта при артикуляции данного звука и типичные для каждой гласной спектрограммы.
Согласно акустической теории речеобразования (Fant, 1960), каждый речевой звук характеризуется наличием ряда формант. Однако для эффективного узнавания звуков речи слушателем достаточно первых двух формант (F1и F2). В отличие от гласных спектральные максимумы многих согласных (например, С, З, Ш) сильно сдвинуты в высокочастотную область вплоть до ультразвуковых частот 50–80 кГц (Мясников, Мясникова, 1970). Вместе с тем в спектре естественной речи обнаружены и низкочастотные составляющие в области инфразвуков (Морозов и др., 1972).
Приведенные на рисунке 4 значения формантных частот гласных звуков отнюдь не являются строго фиксированными (равно как и согласных) и у разных людей могут отклоняться в пределах до 20 % (в силу анатомо-физиологических различий речевых трактов у разных людей). Поскольку у женщин и детей речевые резонаторы в целом имеют меньшие объемы, формантные частоты их речи сдвинуты в высокочастотную область: у женщин на 17 %, у детей (до 10 лет) на 25 % по сравнению с таковыми у мужчин. Указанное обстоятельство тем не менее не вызывает особых затруднений у слушателей в восприятии детской и женской речи, хотя в целом разборчивость детской и женской речи оказывается несколько ниже, чем мужской, особенно в верхней части звуковысотного диапазона голоса (Морозов, 1964b, Morozov, 1980).
Выше упоминалось о среднестатистических распределениях формантных областей на стационарных участках речевых звуков. Однако естественная речь характеризуется более или менее плавными переходами от одного артикулируемого звука к другому, что отражается на спектрах в наличии переходных процессов, т. е. участков между звуками, в которых содержится информация как о предыдущем, так и последующем звуке.
С целью изучения динамики звуковых процессов, и в частности речевых спектров, применяются динамические спектрографы, известные также в литературе под термином «видимая речь». На динамических спектрограммах, полученных с помощью данного прибора, по горизонтальной оси регистрируется время, по вертикальной – частота спектральных составляющих, а их интенсивности соответствует степень потемнения линий (Potter et al., 1947). Пример регистрации речевой фразы: «Девушка, как тебя зовут?» – при помощи динамического спектрографа приведен на рисунке 5. Жирными линиями здесь обозначены формантные частоты, характерным образом изменяющиеся по частотной шкале в процессе речи. Для более точного определения речевых формант существуют специальные методы и автоматические устройства – так называемые формантоискатели (Сапожков, Михайлов, 1983).
Рис. 5. Динамическая спектрограмма фразы «Девушка, как тебя зовут?», синтезированной с помощью синтезатора «OVE-3» (Деркач и др., 1983).
В верхнем ряду «Девушка как», в нижнем – «тебя зовут». Хорошо видны первые три форманты – F1, F2, F3, частоты которых изменяются в процессе воспроизведения фразы.
Среднестатистический (усредненный) спектр русской речи, полученный методом интегрирования (в частотных полосах спектрометра) большого числа речевых сигналов, охватывает весьма широкую полосу частот, примерно от 100 до 10 000 Гц, с постепенным падением к высоким частотам. Это не означает, что весь указанный частотный диапазон необходим для удовлетворительного восприятия и понимания речи слушателем.
Исследования показали, что речевой сигнал сохраняет достаточно высокую разборчивость при условии ограничения его спектрального состава как сверху (подавление высоких частот спектра при помощи фильтров низкой частоты), так и снизу (подавление низких частот спектра при помощи фильтров высокой частоты). Слоговая разборчивость 80 % обеспечивается при ограничении высоких частот от 2 кГц и выше или при ограничении низких частот от 2 кГц и ниже. Напомним, что 80 % слоговой разборчивости соответс твует 98 % разборчивости с лов (см. рис унок 1) и 99,5 % фразовой разборчивости (см. рисунок 2). Таким образом, обе половины спектра речевого сигнала, разделенного по частоте 2 кГц, обеспечивают практически 100-процентную правильность восприятия слушателем фразовой речи.
Еще более устойчивыми к ограничению спектральной полосы оказываются некоторые виды экстралингвистической информации, в частности узнавание говорящего по голосу. Так, ограничение речевого спектра полосой всего лишь 0–400 Гц и ниже обеспечивает правильное узнавание диктора с вероятностью 0,7 (70 %). Однако эта же полоса спектра (400 Гц и ниже) дает лишь около 3 % правильного восприятия слогов. Ограничение низких частот (4 кГц и выше) дает 65 % узнавания диктора и лишь около 32 % правильного восприятия слогов.
Исходя из указанных исследований, частотно-спектральный диапазон в линиях телефонной связи установлен в пределах 300– 3000 Гц, что обеспечивает вполне удовлетворительное речевое общение. Однако для высококачественной передачи речи и особенно музыки (повышения натуральности ее звучания) необходима более широкая полоса частотного диапазона: 16–16000 Гц и шире. Так, некоторые фирмы в целях достижения особо высокого качества звучания выпускают электроакустическую аппаратуру (магнитофоны, усилители) с диапазоном частот, захватывающим инфразвуковые и ультразвуковые области.
Частота основного тона. Согласно миоэластической теории голосообразования (Морозов, 1977; Berd, 1958), голос, как уже указывалось, формируется в результате периодических колебаний голосовых складок под действием проходящего через их сомкнутые края тока воздуха, создаваемого в свою очередь экспираторной мускулатурой дыхательного аппарата и эластической тягой легких. Считается, что эластические свойства голосовых складок с участием эффекта Бернулли обеспечивают достаточно стабильные автоколебания голосовых складок.
В противовес миоэластической теории голосообразования французским ученым Раулем Юссоном была выдвинута так называемая нейрохронаксическая теория образования голоса, согласно которой голосовые складки колеблются не пассивно под действием тока воздуха, а активно – в результате сокращения их мускульных волокон (m. vocalis), происходящих под влиянием нервных эфферентных импульсов, поступающих к m. vocalis по возвратному нерву (n. recurrens) (Husson, 1960, 1962). Теория Юссона, однако, встретила ряд критических возражений (Медведев и др., 1959; Морозов, 1977) и в настоящее время не является общепризнанной.
Частотой основного тона голоса называется наименьшая частота колебаний звука, соответствующая частоте прорывов воздуха черев сомкнутые края голосовых складок в процессе фонации. Частота основного тона голоса (F0) измеряется в герцах и описывается формулой: F0= 1/T0, где Т0– период колебания голосовых складок. Для выделения частоты основного тона голоса из речевого сигнала созданы электронные приборы – интонографы, автоматически вычерчивающие изменения частоты основного тона во времени на ленте осциллографа.
Частота основного тона (ЧОТ) воспринимается на слух как высота голоса человека, а ее изменения во времени, как интонация фразы. В оформлении интонационной структуры фразы существенную роль также играет распределение силы и длительности по составляющим ее элементам (слогам). Мужские и женские голоса различаются по ЧОТ: у женщин ЧОТ в 1,5–2 раза больше, чем у мужчин. Статистические исследования, проведенные B. C. Мартыновым (1962), показали, что ЧОТ мужских голосов колеблется в пределах 85–200 Гц, а женских – 160–340 Гц при средних значениях 136 Гц у мужчин и 248 Гц у женщин. Детские голоса имеют ЧОТ, близкую к женской.
Существенны также индивидуальные различия среди людей по характерной для каждого человека ЧОТ голоса. На этом основании ЧОТ – один из признаков персонализации личности по голосу (Рамишвили, 1981). Любопытно, что мужской и женский голоса, имеющие практически одинаковую ЧОТ, тем не менее различаются по половой принадлежности, что объясняется различиями в спектральной (обертоновой) структуре мужских и женских голосов.
Несмотря на то, что ЧОТ не принимает непосредственного участия в кодировании фонетической информации речи, лингвистическое значение ЧОТ весьма велико. Изменения ЧОТ во времени определяют особенности лингвистической (а также и экстралингвистической – см. об этом ниже) интонации голоса: ударение, вопрос, повествование, завершенность, незавершенность высказывания, восклицание и др. (Артёмов, 1974; Цеплитис, 1974; Бондарко, 1977; Светозарова, 1982). Характерные изменения ЧОТ во времени при произнесении одной и той же фразы («Это мамонт») с различной лингвистической интонацией приведены на рисунке 6. Мелодический рисунок фразы изменяется также в зависимости от места расположения ударного слова. На ударном слове (а в нем на слоге) частота повышается.
Рис. 6. Типичный мелодический контур (изменение частоты основного тона) четырех интонационных типов русского языка: завершенного повествования, общего вопроса, восклицания и незавершенного повествования при произнесении фразы «Это мамонт» (Светозарова, 1982).
Горизонтальные прерывистые линии сверху вниз: средняя максимальная, средняя индивидуальная и средняя минимальная частота основного тона.
Слух человека обладает высокой чувствительностью к восприятию интонационной структуры речевых фраз. Слушатели способны правильно определить интонационный тип предложения даже по его меньшей части. Исследование зависимости точности такого рода опознания от длины предъявленной части фразы показало, что 80-процентная надежность правильного опознавания достигается даже при исключении 8 слогов из 13 (Светозарова, 1982).
Наконец, ЧОТ – важнейшее средство кодирования не только лингвистической интонации голоса, но и экстралингвистической информации речи: индивидуальных особенностей речи человека (Рамишвили, 1981) и эмоциональной интонации (Попов и др., 1966; Цеплитис, 1974; Брызгунова, 1984; Sedlačec, Sychra, 1962; Williams, Stevens, 1972).
Амплитудно-временные характеристики речевого сигнала и их роль в восприятии речи. Психоакустической основой восприятия громкости речи является различие в физической силе речевых звуков. Средний уровень различной разговорной речи при измерении на расстоянии 1 м колеблется от 60 до 80 дБ (относительно стандартного нулевого уровня, за который принято звуковое давление 2,10–5 Н/м2). Уровень звукового давления гласных в целом на 10–40 дБ больше, чем согласных. Поэтому огибающая интенсивности речевого потока выглядит на осциллограмме в виде амплитудно-модулированной кривой с максимумами на гласных и минимумами на согласных.
Статистические исследования звукового потока речи по мощности показали, что разница в децибелах между наиболее слабыми звуками речи, встречающимися в 1 % случаев (по времени), и наиболее сильными звуками, встречающимися также в 1 % случаев, составляет 47 дБ. Она носит название динамического диапазона речи. А разница между условным максимумом и средним уровнем получила название пикфактора речи.
Для эффективного восприятия речи она должна быть достаточно громкой. Однако понятие достаточной громкости относительно и сильно зависит от окружающего шума, на фоне которого воспринимается речь. Для обеспечения отличной разборчивости речи (чему соответствует 80 % слоговой разборчивости) в присутствии сравнительно небольшого шума (50 дБ) уровень речи должен достигать около 73 дБ. В шуме 70 дБ для обеспечения того же качества разборчивости (80 %) необходимо усилить речь до 99 дБ, а в шуме 80 дБ речевой сигнал должен быть усилен до 110 дБ. Иными словами, для того чтобы быть отлично разборчивым, речевой сигнал должен превышать уровень средних и громких шумов примерно на 30 дБ. В случае слабых шумов (40 дБ) указанное превышение достаточно на 20 дБ. Для достижения более низкого класса разборчивости речи требуется, естественно, меньшее превышение уровня речевого сигнала над шумом, что определяется расчетным путем (Покровский, 1962), Среднестатистическая частота амплитудной модуляции (AM) речи и ее связь с характеристиками слуха была предметом специального исследования (Морозов, Черниговская, 1975). Полученные гистограммы статистического распределения AM речи русских дикторов (из числа известных чтецов) показали, что наиболее часто встречающаяся AM речи сосредоточена в области 4–6 Гц (хотя в целом захватывает и более широкий диапазон). Параллельное исследование чувствительности слуха человека к AM звука показало, что ее максимальная величина наблюдается как раз в том диапазоне AM, в котором имеется максимум AM речевых звуков, т. е. в области 3–8 Гц. Это как раз укладывается в диапазон длительности речевых слогов, т. е. 330–120 мс. Высказывается гипотеза, что данное соответствие AM характеристик слуха и речи является не случайным, а возникло в процессе эволюции в результате взаимного согласования характеристик речи и слуха. Такая повышенная избирательность слуха к AM речи обусловливает высокую помехоустойчивость слухового восприятия человеком речевого сигнала на фоне различного рода шумов (Морозов, 1977).
Амплитудно-временные характеристики речи являются весьма важными в передаче слушателю главным образом ее экстралингвистической информации. Так, показано, что одна и та же фраза в зависимости от ее эмоциональной окраски характеризуется специфическим узором амплитудно-временных или, как их еще называют, динамических характеристик сигнала (Котляр, Морозов, 1976). Например, время нарастания и спада амплитуды звуков при выражении эмоции горя максимально велико, а при гневе максимально коротко (см. рисунок 7). Для выражения разных эмоций человек характерным образом видоизменяет амплитудно-временную организацию фразы[10], причем каждая из эмоций характеризуется своим специфическим набором указанных признаков.
Рис. 7. Осциллограммы огибающей звукового давления фразы «Спи, дитя мое» исполненной вокалистом с разными эмоциональными оттенками (Морозов, 1977).
1 – радость; 2 – горе; 3 – нейтрально; 4 – гнев; 5 – страх.
Наконец, амплитудно-временные характеристики речи вносят определенный вклад в восприятие ее семантического содержания. Речь идет не только о лингвистическом ударении и интонации, где роль амплитудно-временных характеристик речи очевидна (Арутюнян, 1966; Бондарко, 1977), но и о восприятии человеком слов и фраз связной речи. Несомненная значимость амплитудно-временных и других просодических характеристик речевого сигнала для его восприятия в последнее время приводит к их более активному использованию в системах автоматического распознавания речи (Ли, 1983).
1.2. Экстралингвистическая информация и восприятие вокальной речи
Речевой сигнал несет слушателю информацию двух родов. Вопервых, это собственно речевая или лингвистическая информация (обозначенная также терминами языковая, семантическая, вербальная). Носителем ее является слово. Во-вторых, звуковая речь несет слушателю информацию о поле, возрасте говорящего, его физическом состоянии здоровья, эмоциональном состоянии (Симонов, 1975) и т. п., и притом независимо от слова, от того, что говорит человек. Этого рода информация получила название экстралингвистической (внеязыковой)[11]. Ее общепринятой классификации не существует. Можно выделить следующие основные виды экстралингвистической информации: 1) эстетическая, включающая ряд психоакустических характеристик голоса и речи и определяемая в целом такими субъективными оценками слушателей (в рамках метода психологического шкалирования), как «приятный – неприятный», «нравится – не нравится» и т. п.); 2) эмоциональная, характеризующая эмоциональное состояние говорящего и его отношение к предмету разговора; 3) индивидуально-личностная, на основе которой возможно опознание личности говорящего по его голосу; 4) социально-групповая, свидетельствующая о принадлежности говорящего к определенной социальной структуре по иерархическому положению, национальности (акцент) и т. п.; 5) пространственная, характеризующая местоположение говорящего по отношению к слушателю (азимут, расстояние) и его передвижение в пространстве (приближение, удаление и др.); 6) медицинская, отражающая общее состояние здоровья человека, его речевой системы в целом и состояние здоровья голосового аппарата в частности (фониатрическая информация); 7) возрастно-половая.
Носителями экстралингвистической информации являются характерные особенности организации речи и акустики голоса говорящего: тембр, высота, громкость, интонация, темпоритмические характеристики и т. п. О роли этих характеристик речи в передаче слушателю экстралингвистической информации частично указывалось в предыдущем разделе.
Есть основание считать, что экстралингвистические свойства речи человека являются эволюционно более древними по сравнению с лингвистическими (Linden, 1981). Среди гипотез возникновения языка немало данных о происхождении речи из эмоциональных и звукоподражательных выкриков предков человека (Якушин, 1984). Способностью к адекватному восприятию экстралингвистической информации человек обладал задолго до появления способности к речи (узнавание голоса матери, понимание эмоциональной интонации речи). Более того, язык эмоций – это доминирующая система звуковой коммуникации ребенка в доречевой период. Овладение речью, однако, не приводит к утрате экстралингвистической коммуникации. В современной речи человека она играет весьма важную роль.
Способность человека правильно определять эмоциональное состояние обезьян по их звуковым сигналам (Гершуни и др., 1977) указывает на определенное эволюционное родство кодирования эмоциональной информации у человека и животных. На это обстоятельство, как известно, указывал еще Дарвин (1953).
Важной особенностью экстралингвистической информации речи является ее независимость от характера лингвистической. Пол, возраст говорящего могут быть опознаны слушателем независимо от характера его высказывания. Эмоциональный контекст голоса, как правило, созвучный смыслу словесного высказывания, может ему и противоречить. Указанная независимость в значительной мере обусловлена существованием обособленных мозговых механизмов, участвующих в кодировании и декодировании этих двух видов речевой информации: преимуществом левого полушария головного мозга в обработке вербальной лингвистической информации (центры Брока и Вернике) и преимуществом правого полушария в обработке экстралингвистической информации (см.: Бару, 1977; Спрингер, Дейч, 1983).
Данные о восприятии человеком экстралингвистической информации речи несомненно более скудны (по сравнению с восприятием собственно речевой информации). В 1974 и 1978 годах в Ленинграде состоялись первые два симпозиума, посвященные различным аспектам эмоциональной информации речи. Мало изучены и другие аспекты экстралингвистической информации речи. Теория ее не разработана. Само понятие «экстралингвистическая информация» нуждается в обстоятельном системном изучении, особенно с точки зрения роли ее в общей системе звуковой коммуникации человека и во многих научно-прикладных проблемах (автоматическое распознавание речи, контроль за эмоциональным состоянием человека-оператора по его голосу, персонализация и верификация личности по голосу, проблема естественности синтетической речи и др.).
Изучение индивидуально-личностной категории экстралингвистической информации проведено Г. С. Рамишвили (1981) в интересах создания систем автоматического опознавания личности по голосу, а также рядом зарубежных авторов. Высокие разрешающие способности слуха человека при различении пола диктора проявляются даже при прослушивании шепотной речи (Шейнин, 1971).
Одной из трудностей изучения восприятия слушателем эмоциональной информации речи является сложность получения тестового материала, отвечающего необходимым требованиям, т. е. образцов речи, содержащих эмоциональную информацию. С этой целью используются образцы естественной речи (Попов и др., 1966; Маришук, 1975), метод гипнотического внушения и, наконец, метод актерского моделирования эмоциональных интонаций (Куницын, 1975; Морозов, 1977).
Процедура исследования состоит в предъявлении слушателям определенного количества эмоционально окрашенных фраз (в магнитофонной записи), предварительно тщательно отобранных методом экспертных оценок. Критерием правильности восприятия испытуемым эмоциональной интонации речи является процент правильных оценок им эмоций, данных в сигналах (по отношению ко всем предъявленным).
Восприятие человеком эмоциональной информации речи характеризуется значительными индивидуальными различиями. Гистограммы распределения правильных ответов испытуемых при определении эмоциональных интонаций речевых фраз, начитанных народным артистом СССР О. Басилашвили (три фразы типа «Они сейчас придут сюда») с интонациями радости, печали, недовольства, страха, показали, что способность к правильному определению эмоций в речи у 90 человек абитуриентов, поступающих в Ленинградский институт театра, музыки и кинематографии, колеблется от 40 до 95 % с максимумом в области 75–80 %. На основании разносторонних экспериментальных исследований индивидуальных, половых, возрастных и профессиональных различий людей по способности к восприятию эмоциональной информации выдвигается понятие «эмоциональный слух» как особая категория слуховой чувствительности, не коррелирующая с речевым, тональным, а также музыкальным слухом (Морозов, 1985c).
Одним из аргументов в пользу выделения экстралингвистической информации в особую категорию служит существенно большая степень ее помехоустойчивости (лучшее восприятие в условиях шума) по сравнению с собственно речевой (лингвистической) информацией (см. рисунок 8).
Рис. 8. Помехоустойчивость различных видов экстралингвистической информации речи в сравнении с лингвистической.
1 – определение пола диктора; 2 – определение эмоциональной интонации голоса; 3 – число правильно воспринятых слов фразы. По оси абсцисс – 20 lg шум/сигнал в дБ; по оси ординат – вероятность правильного восприятия речевой информации, %; 4 – узнавание диктора по голосу (кривые 1–3 – по: Морозов, 1985c; кривая 4 – по: Рамишвили, 1981).
Особенности восприятия вокальной речи. Вокальная речь, или пение, является специализированной формой речевой коммуникации человека, служащей для передачи слушателю информации, главным образом эмоционально-эстетического характера. В этом смысле вокальная речь является яркой моделью экстралингвистической коммуникации человека, средства и формы которой (в данном случае) определены требованиями и традициями вокального искусства.
Считается, что пение по сравнению с речью имеет значительно более глубокие эволюционно-исторические корни как средство акустической сигнализации. Еще Дарвин неоднократно указывал на то, что пение эволюционно связано с эмоциональной вокализацией древних предков человека, и называл пение «эмоциональной речью» (Дарвин, 1953). «Предки человека, по-видимому, издавали музыкальные тона, до того как приобрели способность к членораздельной речи, – считал Дарвин, – музыкальные звуки представляют одну из основ, из которых развился впоследствии язык» (Дарвин, 1953).
Эмоционально-эстетическая направленность вокальной речи в основном определяет особенности ее акустического строения и слухового восприятия. От обычной вокальная речь отличается прежде всего особым тембром звучания, определяемым в свою очередь особенностями спектрального состава (Wolf et al., 1982). Рядом отечественных и зарубежных исследований установлено, что звонкий, «серебристый», оттенок голоса певца обусловливается значительно увеличенным по сравнению с нормой уровнем третьей форманты (F3), расположенной в полосе от 2300 до 3000 Гц и получившей название высокой певческой форманты (Ржевкин, 1956; Husson, 1960, 1962; Морозов, 1965, 1966, 1977, 1984b; Sundberg, 1975). Применение рентгенографической техники в комплексе с компьютерным анализом позволило установить, что высокая певческая форманта есть результат объединения третьей, четвертой и пятой относительно слабо выраженных речевых формант в одну мощную форманту (Sundberg, 1974, 1982).
Искусственное подавление в спектре голоса высокой певческой форманты (при помощи электрических фильтров) приводит к потере голосом звонкости (Морозов, 1967). На слух он начинает восприниматься, как «глухой», «тусклый», слабый звук. При этом разборчивость вокальной речи падает. Высокая певческая форманта, выделенная в изолированном виде из голоса певца, представляет собой мелодический свист, напоминающий соловьиную трель (Морозов, 1977). Таким образом, доказано, что именно высокая певческая форманта придает вокальной речи присущие ей высокие эстетические тембровые качества. Кроме того, высокая певческая форманта придает певческому голосу важнейшее профессиональное, техническое качество – свойство хорошо слышаться на фоне маскирующего влияния других звуков, например музыкального сопровождения (хор, оркестр). Свойство это, обозначаемое термином «полетность голоса», сильно коррелирует со степенью выраженности высокой певческой форманты (коэффициент корреляции +0,83) (Морозов, 1977).
Большой вклад высокой певческой форманты в обеспечение важнейших эстетических и профессионально-технических свойств вокальной речи становится понятным при сопоставлении типичных спектров обычной речи (см. рисунок 9, кривая 1) со спектрами вокальной речи (2) и характеристиками слуховой чувствительности человека (5). Как можно видеть, энергетические составляющие спектра в вокальной речи перераспределяются из области низких частот (300–400 Гц), где они максимально выражены в обычной речи (1), в область 2000–3000 кГц, соответствующую максимальной чувствительности слуха. В результате указанного соответствия сигнал вокальной речи воспринимается на слух не только как более звонкий и эстетически приятный, но и как более громкий при той же акустической мощности, что и речевой. Данным соответствием обусловливается также повышенная помехоустойчивость слухового восприятия сигнала вокальной речи, характеризуемая термином «полетность».
Рис. 9. Среднестатистические спектры вокальной (1) и обычной (3) речи в сравнении с порогами слухового восприятия человека (2) свидетельствуют, что в вокальной речи максимум энергии спектра перемещается в область 2000–3000 Гц, соответствующую максимуму слуховой чувствительности человека (Морозов, 1977).
Имея в виду большое значение высокой певческой форманты в обеспечении эстетических и профессионально-технических свойств голоса, предложен метод искусственного улучшения эстетических свойств тембра голоса человека (при его электроакустическом преобразовании) путем избирательной коррекции частотных характеристик усилительного тракта в области высокой певческой форманты (Морозов, 1977).
В формировании специфического тембра вокальной речи высокой певческой форманты принимают участие и другие формантные области. Интегральные характеристики спектра вокальной речи, полученные при помощи интегрального спектрометра, выявили в основном ее трехформантную структуру. При этом первая форманта, расположенная в полосе 300–600 Гц, обозначаемая в литературе термином «низкая певческая форманта», придает голосу певца присущую ему «мягкость», «массивность», «округлость» тембра. Средняя формантная область, локализуемая в среднем около 1000 Гц, оказывается наиболее лабильной по своему частотному положению (вокруг частоты 1000 Гц) и в значительной степени определяет фонетическое качество вокальных гласных.
Помимо особенностей спектра вокальная речь характеризуется многими другими акустическими особенностями, влияющими на ее восприятие слушателем: повышенной мощностью, достигающей у профессиональных оперных певцов уровня 120 дБ, т. е. превышающей уровень разговорной речи на 40–50 дБ, значительно более глубоким вследствие этого динамическим диапазоном гласных (до 35 дБ), а также более широким звуковысотным диапазоном (две октавы и более вместо одной-полутора октав в речи), значительно большей длительностью гласных, достигающей в пении 3–5 и более секунд по сравнению с 150–250 мс в речи (Златоустова, 1981).
Наконец, специфической особенностью вокальной речи является наличие так называемого вибрато, представляющего собой амплитудно-частотную модуляцию голоса, происходящую с частотой 5–7 Гц и воспринимаемую слушателем, как весьма приятная на слух пульсация звука голоса певца (Seashore, 1936; Mason, Zemlin, 1982). Поскольку частота вибрато практически совпадает с частотой статистически наиболее типичной модуляции речи и максимумом слуховой чувствительности к амплитудно-частотной модуляции звуках высказана гипотеза о происхождении вибрато в результате согласования (сформировавшегося в процессе эволюции) амплитудно-модуляционных характеристик вокальной речи (или протяженных музыкальных звуков) с таковыми характеристиками слуха (Морозов, 1977).
Доминирование эмоционально-выразительной функции вокальной речи, как уже указывалось, связывается с ее более древним происхождением по отношению к обычной речи. На это же указывают данные онтогенеза речевой функции: эмоционально-выразительный элемент речи, доминирующий в самом раннем онтогенезе человека, намного опережает вербальную речь, начинающую появляться лишь в годовалом возрасте. Несомненно, что современная вокальная речь, проделавшая большую эволюцию, по своим формам существенно отличается от своего доисторического прототипа. Вместе с тем она, по-видимому, сохранила и некоторые свои древние черты. В этой связи Дарвин писал: «Страстный оратор, певец или музыкант, который своими разнообразными звуками или модуляциями голоса возбуждает самые сильные эмоции в своих слушателях, едва ли подозревает, что пользуется теми же средствами, которыми в очень отдаленной древности его получеловеческие предки возбуждали друг у друга пламенные страсти во время ухаживания и соперничества» (Дарвин, 1953).
В свете этих данных перечисленные выше акустические особенности вокальной речи (значительно увеличенная громкость, продолжительность и высота гласных, а также особый спектральный состав звука и наличие модуляций основного тона и вибрато) следует рассматривать как своего рода код, несущий эмоциональную информацию. Значительная часть этой информации кодируется композитором (в форме мелодии, ритма, динамических оттенков и т. д.), остальная ее часть вносится исполнителем как интерпретатором вокального произведения[12] (Котляр, Морозов, 1976).
Несмотря на очевидную специфичность акустических средств выражения эмоций в пении, есть основание говорить, что в общих чертах эти средства совпадают в пении и речи. Эта общность определяется наличием достаточно определенных связей между характером звука голоса и физиологическим состоянием организма, испытывающего ту или иную эмоцию: акустический признак эмоций в голосе связан с физиологическим признаком состояния.
1.3. Восприятие собственной речи говорящим как сигнала обратной связи
Рядом отличительных особенностей характеризуется восприятие говорящим собственной речи. Эти особенности касаются двух аспектов. Во-первых, речевой сигнал, генерируемый самим говорящим, достигает слухового приемника не только воздушным, как при восприятии чужой речи, но и непосредственным контактным (вибрационным) путем, распространяясь по костно-мышечным тканям от голосовых органов говорящего к его внутреннему уху. Это обстоятельство приводит к тому, что каждый человек слышит свой голос существенно иначе, чем окружающие, и нередко не узнает тембра своего голоса при воспроизведении его магнитофонной записи. Еще Бекеши (Bekesy, 1949) было показано, что действие звуковых волн изнутри на барабанную перепонку из области среднего уха, куда они проникают вышеуказанным вибрационным путем, отчасти нейтрализует действие звукового давления снаружи и тем самым предохраняет от самооглушения при увеличении громкости голоса. Этот защитный механизм имеет большое значение для певцов, мощность издаваемых звуков которых достигает огромной величины (до 120 дБ). Во-вторых, на восприятии говорящим собственного голоса основываются важнейшие физиологические механизмы самоконтроля и регуляции акустических характеристик речи по принципу обратной связи. Указанный самоконтроль, будучи в определенной мере произвольным, т. е. основанным на сознательном корректировании акустических параметров речевого процесса (например, темпа, громкости, ритмики речи или, в случае необходимости, четкости артикуляции речевых звуков), в то же время в значительной степени является и непроизвольным, не поддающимся сознательному волевому усилию. В научной литературе описаны три характерных феномена, связанных с механизмами непроизвольного рефлекторного регулирования речи по принципу обратной акустической связи. Один из них, получивший название эффекта Ломбарда[13], это непроизвольное увеличение громкости речи под влиянием увеличения громкости окружающего звукового фона (Бронштейн, 1949). Данный эффект наглядно проявляется, если на уши человека, читающего какой-либо текст, через головные телефоны подать шум. Громкость его речи при этом увеличивается пропорционально интенсивности поданного шума. Детальные измерения показали, что увеличение уровня звукового фона на 5 дБ приводит к приросту громкости речи на 2,5 дБ, при этом шум высокочастотного спектра оказывается более эффективным при той же громкости по сравнению с низкочастотным шумом. Адаптационная психоакустическая сущность эффекта Ломбарда очевидна: он «автоматически» поддерживает необходимый перевес громкости речи говорящего над громкостью окружающего шума и тем самым обеспечивает необходимый уровень разборчивости речи для слушателя.
Второй феномен, связанный с изменением обратной акустической связи, известен как эффект Томатиса (см.: Husson, 1960, 1962). Суть его состоит в непроизвольном изменении частотных характеристик тракта обратной акустической связи (при восприятии собственного голоса через микрофон-усилитель – головные телефоны). При этом подъем высокочастотных составляющих ведет к увеличению высоких частот в спектре голоса говорящего, а подъем низких частот в тракте обратной электроакустической связи приводит к увеличению относительного уровня низкочастотных составляющих спектра голоса испытуемого. Иными словами, происходит непроизвольная рефлекторная самоимитация человеком особенностей спектра сигнала обратной акустической связи.
В основе феномена Томатиса, по-видимому, лежит механизм эхолалии, характерной для человека в раннем онтогенезе и связанной с рефлекторной имитацией слышимых звуков. Практическое значение эффект Томатиса получил в работе А. Н. Киселева (1976), обосновавшего возможность использования его для исправления недостатков тембра голоса у молодых обучающихся вокалистов.
Наконец, третий, весьма любопытный, феномен непроизвольного изменения речи наблюдается при искажении временных характеристик сигналов обратной акустической связи, а именно их задержке во времени. При определенном времени задержки в восприятии говорящим собственных речевых звуков (около 200 мс) через головные телефоны и при определенной его интенсивности, преобладающей над интенсивностью естественных звуков собственной речи, у человека возникает непроизвольное заикание. Нормализация временных характеристик обратной акустической связи приводит к восстановлению нормальной речи испытуемого без каких-либо последствий.
Простейшим средством демонстрации эффекта задержанной обратной связи является магнитофон (имеющий раздельные каналы записи и воспроизведения звука). Испытуемому надевают головные телефоны, подключенные к выходу канала воспроизведения. Он говорит в микрофон, сигнал записывается на магнитофонную ленту, полученная запись воспроизводится на телефонах испытуемого с некоторой задержкой. Задержка сигнала обратной связи Т в данном случае определяется расстоянием между записывающей и воспроизводящей головками магнитофона согласно формуле T = L/V, где L – у казанное расс тояние в мм, V – скорость движения магнитной ленты в мм/с.
Указанный феномен, впервые описанный американским исследователем Бернардом Ли (Lee, 1950) и потому получивший название эффекта Бернарда Ли, известен также как эффект отставленной речи или феномен искусственного заикания. В дальнейшем он получил весьма широкое распространение в разнообразных исследованиях механизмов восприятия речи и их нарушения (Chase et al., 1959; Морозов, 1965, 1977; Речь…, 1965). Показано, что эффект Бернарда Ли выражается в резком удлинении времени произнесения тестового отрывка речи и увеличении ее громкости (Black, 1951). Эффект Бернарда Ли усиливается с увеличением громкости сигнала обратной связи, зависит от индивидуальных особенностей испытуемых и времени задержки: наиболее эффективна для большинства испытуемых задержка около 200 мс. Показано, что вокалисты в целом оказываются более устойчивыми к действию задержанной обратной связи, чем невокалисты (Морозов, 1977). Непроизвольность эффекта отставленной речи дала основание использовать его в качестве теста для выявления симуляции глухоты (Базаров, 1963; Ewertsen, 1955), а также степени потери слуховой функции.
Физиологические механизмы искусственного заикания связываются с нарушением временной синхронизации сложившегося комплекса (стереотипа) акустических и проприоцептивных сигналов обратных связей, регулирующих речевой процесс (Данилов, Черепанов, 1970; Морозов, 1977).
Феномен отставленной речи, вызывающий искусственное заикание, вызвал множество попыток объяснить механизмы естественного заикания нарушением в мозгу человека механизма временной обработки речевых сигналов обратной связи. Данная точка зрения находит определенное подтверждение в нарушениях временной синхронизации ЭЭГ правого и левого полушарий головного мозга у заикающихся (Данилов, Черепанов, 1970), в некоторой нормализации речи заикающихся при подавлении сигнала обратной акустической связи методом заглушения шумом, а также в условиях применения задержанной обратной акустической связи. В настоящее время имеется все больше оснований искать причину логоневрозов (заикания) в нарушениях механизмов функциональной специализации полушарий головного мозга к обработке речевой информации (см. следующий раздел).
1.4. Особенности восприятия речи в условиях дихотического прослушивания
В обычных условиях человек, слушая речь в свободном звуковом поле, воспринимает ее бинаурально (обоими ушами) или монаурально (через одно ухо, как при телефонном разговоре). Дихотическим восприятием (или прослушиванием) называется такой вид восприятия, когда на каждое ухо одновременно предъявляется информация разного рода, например разные речевые тексты или разные неречевые сигналы (с применением головных телефонов). Особенность дихотического восприятия речи состоит в том, что нормальные люди, как правило, лучше запоминают, повторяют и пересказывают речевой материал, предъявленный через правое ухо, чем через левое. (Опыт ведется с применением головных телефонов, информация на которые поступает с двухканального магнитофона.)
Объяснение эффекта правого уха в условиях дихотического восприятия речи в обоснованной форме впервые предложила Кимура (Kimura, 1961a, 1961b, 1967). Изучая указанным методом больных с латеральными поражениями мозга в слуховой височной области и здоровых испытуемых, Кимура установила связь асимметрии слухового восприятия речи с асимметрией локализации в мозгу речевых центров: испытуемые лучше воспринимают речь ухом, контралатеральным по отношению расположения в мозгу речевых центров, т. е. у большинства людей правым ухом, поскольку речевой центр Вернике локализован обычно в левой височной извилине.
В дальнейшем метод дихотического прослушивания получил широчайшее распространение, усовершенствование и обоснование как тест, позволяющий оценить функциональную асимметрию мозга и восприятие речи у нормальных здоровых людей, изучение функций мозга которых имеет известные ограничения по сравнению с изучением мозга животных или у людей в клинических условиях (см.: Бару, 1977; Bryden, 1982; Спрингер, Дейч, 1983).
Благодаря наличию перекреста афферентных путей слуховой системы и межполушарной комиссуры информация, предъявляемая через любое ухо, достигает каждого из полушарий. Однако в условиях дихотического восприятия преимущество получают перекрестные контралатеральные пути за счет, во-первых, их большей мощности, во-вторых, более быстрого достижения речевых центров при поступлении речевого сигнала с правого уха, а в-третьих, функционального торможения ипсилатеральных афферентных путей, что имеет место в условиях параллельного конкурирующего поступления речевой информации с обоих ушей.
Указанное представление, высказанное еще Кимурой (Kimura, 1961а, 1961b), в целом является общепризнанным. Оно, в частности нашло подтверждение в исследованиях пациентов с комиссуротомией, т. е. с разобщенными полушариями мозга («расщепленный мозг»), где был доказан функциональный характер торможения ипсилатерального пути (Sparks, Geschwind, 1968), а также применением пробы Вада, обеспечивающей функциональное выключение одного из полушарий мозга фармакологическим путем (введением в сонную артерию барбитуратов).
Количественная оценка доминирования того или иного уха в восприятии дихотических сигналов производится по формуле,
где Кас – коэффициент асимметрии восприятия; Pправ – число правильно воспроизведенных испытуемых сигналов, поступивших через правое ухо; Рлев – то же через левое ухо.
Картина преимущества правого уха при восприятии речи в условиях дихотического прослушивания существенно варьирует от 2–3 до 20 % и даже более в зависимости от методических условий эксперимента, контингента испытуемых, особенностей речевого материала и т. п. Установлено, что наилучшим образом функциональная асимметрия дихотического восприятия проявляется при информационной нагрузке на оба уха достаточной сложности (например, количество предъявляемых слов должно быть не менее 3–4 на каждое ухо).
Существенно, что далеко не все испытуемые демонстрируют преимущество правого уха при дихотическом восприятии речи, а только лишь около 80 %. Меньша я же часть (около 20 %) оказывается «левоушной», что, по-видимому, может быть связано с правосторонним расположением речевых центров в мозгу. Феномены «правоухости» и «левоухости» в значительной мере коррелируют соответственно с праворукостью и леворукостью испытуемых, но отнюдь не стопроцентно, поскольку леворукость может не сопровождаться правосторонним расположением речевых центров.
Важная особенность дихотического восприятия речи состоит в том, что если при восприятии речевой лингвистической информации (слова, фразы, слоги) преимущество принадлежит правому уху, то при восприятии экстралингвистической информации речи (эмоциональной интонации, определении пола говорящего, узнавании диктора по голосу), а также при восприятии музыкальных мелодий преимущество примерно с таким же перевесом оказывается за левым ухом. Указанное обстоятельство связывается с обработкой данных видов экстралингвистической информации правым полушарием (Балонов, Деглин, 1976).
Доминирование левого уха в восприятии эмоциональной интонации речи проявляется не только при дихотическом, но и монауральном прослушивании и характерно не только для взрослых (Морозов и др., 1982), но и детей (см. рисунок 10).
Рис. 10. Вероятности правильного определения эмоциональной интонации фраз актерской (/) и вокальной (//) речи детьми разного возраста при монауральном предъявлении сигналов (Морозов, 1985c).
По оси ординат – процент правильных ответов; по оси абсцисс – возраст испытуемых (лет). 1 – левое ухо, 2 – правое ухо.
Значительное число новых экспериментальных фактов, полученных в последнее время с применением метода дихотического восприятия, выявляют все более и более сложную картину обработки мозгом речевой информации. Так, например, при действии сильного шума правое ухо существенно теряет преимущество в восприятии речи, а нередко происходит даже и инверсия доминирования, т. е. переход преимущества к левому уху при восприятии речи в шуме. На основании этих фактов выдвинута модель параллельного участия обоих полушарий в обработке речевой информации на основе разных принципов (Галунов и др., 1985).
Любопытная картина дихотического восприятия речи обнаружена при логоневрозах (заикании). Она характеризуется двумя особенностями: 1) значительно большей по сравнению с нормой вариабельностью ответов испытуемых, т. е. более широким диапазоном дисперсии коэффициентов асимметрии у каждого отдельного испытуемого и у всей группы больных в целом; 2) более близкими к нулю по сравнению с нормой среднестатистическими значениями коэффициентов асимметрии. Указанные особенности проявляются при тестировании больных логоневрозами разными видами дихотических сигналов (слова, слоги, эмоциональные тесты). Таким образом, при логоневрозах имеет место нарушение латеральной асимметрии восприятия речи. Картина эта сопровождается нарушением синхронизации биопотенциалов в правом и левом полушариях мозга, т. е. явным нарушением временных межполушарных отношений (Данилов, Черепанов, 1970).
Интерес представляет формирование функциональной симметрии к восприятию речи в онтогенезе. Исследования выявили ее не только у взрослых, но и у детей (Kimura, 1963), причем начиная с трехлетнего возраста (Морозов и др., 1983). Относительно онтогенеза функциональной асимметрии у человека имеются разные точки зрения. Согласно одной из них, асимметрия формируется с возрастом из эквипотенциальных в отношении речевой функции полушарий (Lennenberg, 1967; Nagafuchi, 1970; Berlin et al., 1973). Отсутствие сильных речевых расстройств и большие компенсаторные возможности у детей при поражении речевых зон свидетельствуют в пользу данной позиции. Согласно другой точки зрения, функциональная асимметрия мозга человека генетически обусловлена, так как в разных формах она проявляется уже на ранних стадиях онтогенеза (Molfese, 1973; Wada, 1977; Hynd et al., 1979). Последняя точка зрения находит определенное подтверждение в сравнительно-физиологических исследованиях. Вопреки ранее существовавшему мнению о том, что функциональная асимметрия мозга является уникальным свойством человека, она недавно была установлена у животных по отношению к восприятию разного рода биологически значимых сигналов. Так, экстирпация левого полушария у самцов канареек нарушает их способность к пению (Notebohm, 1979), а разрушение височной зоны мозга у обезьян, гомологичной зоне Вернике человека, нарушает их способность правильно воспринимать коммуникационные сигналы своего вида (Petersen et al., 1978). Этого не наблюдалось в обоих случаях при разрушении симметричных контралатеральных зон мозга животных.
Исследования функций мозга многих видов животных, проведенные В. Л. Бианки (1985) и выявившие асимметрию мозга животных, позволили автору сформулировать гипотезу, согласно которой левое полушарие мозга обрабатывает информацию по принципу индукции, а правое – по принципу дедукции. Данная гипотеза согласуется с доминирующим в современной науке представлением о примате абстрактно-символической функции левого полушария мозга человека и об иконической форме обработки информации правым полушарием. Справедливость данного представления в целом доказана по отношению не только к речевой, но и многим другим видам информации.
1.5. Заключение
В данной главе, посвященной психоакустическим аспектам изучения речи, описан ряд основных констант и принципов работы системы речевой коммуникации, определяющих восприятие речи человеком.
Одним из важнейших принципов работы мозга, отличающих его от многих технических систем, в частности ЭВМ, является принцип параллельной обработки разных видов информации, поступающей по разным анализаторным каналам и даже в пределах одного сенсорного канала. Применительно к звуковой речи мозг – это двухканальная система, несмотря на кажущуюся одноканальность речевого акустического сигнала.
В этой связи традиционная одноканальная схема речевой коммуникации, приведенная в начале главы, нуждается в принципиальной коррекции. В свете изложенных современных исследований систему звуковой речевой коммуникации можно представить как состоящую из двух параллельных каналов, по одному из которых слушателю передается лингвистическая информация, а по другому – экстралингвистическая. В мозгу человека осуществляется не только функциональное разделение этих каналов (разные принципы обработки лингвистической и экстралингвистической информации), но и пространственное разделение (преимущественная роль в обработке данных видов информации принадлежит разным полушариям мозга).
Двухканальный принцип работы мозга проявляется не только в условиях восприятия речи, но и в процессе формирования (порождения) речевого высказывания в форме принципиально разных функций больших полушарий мозга в этом процессе. Объективной основой разделения мозгом каналов лингвистической (вербальной, собственно речевой) и экстралингвистической коммуникации являются различия в акустических средствах и принципах кодирования этих двух видов речевой информации: если для лингвистической информации определяющим фактором является динамика с формантной структурой сигнала, то для экстралингвистической – динамика основного тона голоса и другие особенности просодической организации речи. Таким образом, лингвистический и экстралингвистический каналы оказываются обособленными (по целому ряду критериев) во всех звеньях системы речевой коммуникации. По отношению к действию шума эта обособленность проявляется в разной степени помехоустойчивости лингвистической и экстралингвистической форм информации (см. рисунок 8).
Несомненны также различия между указанными каналами и в эволюционно-историческом аспекте: значительно большая древность экстралингвистической коммуникации по сравнению с лингвистической. Возникновение слова в процессе эволюции как весьма совершенного средства передачи любых видов информации не привело, однако, к умалению роли эволюционно древней формы экстралингвистической коммуникации. Она продолжает сосуществовать наряду со словом, существенно дополняя и видоизменяя его смысл, а во многих случаях и претендуя на самостоятельность. В огромном большинстве ситуаций речевого общения более важным является но столько что говорит человек, сколько кто говорит и как говорит. Доминирующая роль канала экстралингвистической коммуникации представляется очевидной в таких специфических человеческих видах звуковой коммуникации, как искусство сценической речи и пения. Важнейшим и практически не изученным свойством двухканальной системы речевой коммуникации является взаимодействие каналов лингвистической и экстралингвистической информации, проявляющееся во всех звеньях данной системы и на всех этапах обработки речевой информации мозгом.
Представление о речевой коммуникации как двухканальной системе является несомненно плодотворным в бионическом плане, т. е. для создания новых более совершенных систем автоматического анализа и синтеза речи с помощью ЭВМ.
2 Опознавание говорящего по голосу на основе нормального и инвертированного во времени звучания его речи[14]
Основная задача данной экспериментальной работы состояла в том, чтобы выяснить, насколько опознавание личности говорящего (в дальнейшем – диктора) по голосу возможно на основе восприятия только невербальной экстралингвистической информации.
Для разделения семантической и экстралингвистической информации в речи можно использовать метод временно́й инверсии, представляющий звуковое сообщение в обратной временно́й перспективе и избирательно разрушающий семантическую часть сообщения (Моль, 1966). Технически это достигается путем прокручивания магнитной ленты с записью речевого сообщения в обратном направлении.
В настоящей работе сравнивали узнавание знакомых голосов при прослушивании естественно звучащих фраз с узнаванием тех же фраз, инвертированных во времени.
2.1. Методика и результаты
В эксперименте были использованы голоса десяти знакомых коллективу слушателей дикторов (5 мужчин и 5 женщин) и двух незнакомых (мужской и женский голоса). Слушателям предъявлялись в магнитофонной записи фрагменты свободной разговорной речи указанных дикторов длительностью 6–10 с. Задача слушателей состояла в том, чтобы идентифицировать личность диктора по голосу. Предварительно слушателям были предъявлены списки дикторов, чьи голоса они услышат в эксперименте Каждый слушатель, пользуясь этим списком, оценивал степень своего знакомства с голосом каждого диктора по пятибалльной шкале. При этом незнакомый диктор получал нулевой (0) балл, а знакомые – от двух до пяти баллов в зависимости от степени знакомства с голосом. Затем слушателю давали инструкцию о том, что он услышит ряд фраз, произнесенных дикторами, перечисленными в списке. Голос каждого диктора мог звучать несколько раз. Порядок предъявления фраз произнесенных разными дикторами, был случайным.
В специальной серии опытов слушателей просили как можно быстрее останавливать звучание фразы нажатием соответствующей кнопки, после того как диктор будет опознан. Время опознавания регистрировалось экспериментатором по электронному секундомеру и оценивалось как время от начала звучания голоса диктора до момента нажатия испытуемым кнопки, останавливающей секундомер После записи фамилии диктора слушатель должен был оценить степень своей уверенности в том что это голос именно данного диктора. Оценка производилась также по 5-балльной шкале (0, 2, 3, 4, 5 баллов). Далее слушатель включал систему воспроизведения и слушал фразу, произнесенную следующим по порядку диктором.
В экспериментах в качестве слушателей участвовали 22 сотрудника научного института. Шесть из них были из числа дикторов, голоса которых, в том числе и свои, оценивались ими же. Каждый слушатель в течение опыта прослушивал три цикла, каждый из которых состоял из 24 фраз В каждом цикле голос каждого диктора звучал дважды. Первым предъявлялся цикл с инвертированным звучанием (И1). Затем – цикл с нормально звучащими фразами (Н), далее – вновь цикл с инвертированными фразами (И2). Между циклами были незначительные перерывы. Случайные ряды в инвертированных и нормальном циклах были разными.
У восьми слушателей из общего числа испытуемых во всех циклах регистрировали время опознавания личности дикторов по их голосам.
Вычисляли процент правильных опознаваний голосов дикторов по группе слушателей и отдельно для каждого слушателя и каждого диктора, отдельно для дикторов-мужчин и дикторов-женщин, для слушателей-мужчин и слушателей-женщин. Вычисляли коэффициенты корреляции между степенью априорного знакомства и вероятностью правильного опознавания во всех ситуациях. Достоверность различий рядов данных вычисляли по t-критерию Стьюдента.
Результаты экспериментов представлены в ряде таблиц. Из таблицы 1 видно, что вероятность правильного опознавания личности диктора по его голосу при прослушивании фраз в цикле с естественным звучанием составила по всей группе испытуемых 98,3 %. При первом прослушивании инвертированных фраз эта вероятность составила 71,4 %, а при втором (т. е. после предъявления И1 и Н) – 83,1 %.
Процент правильных идентификаций в ситуациях И1 и И2 достоверно отличается от процента правильных идентификаций при прослушивании нормальной речи (р < 0,001).
Динамика средних коэффициентов уверенности у слушателей в трех циклах (см. таблицу 1) соответствует динамике правильных идентификаций в этих циклах. Обращают на себя внимание весьма высокие коэффициенты уверенности при опознавании дикторов в ситуациях И1 и И2 (4,2 и 4,4 соответственно). Средние по группе коэффициенты уверенности в циклах И1 и И2 достоверно отличаются от значений коэффициента уверенности в цикле Н (р < 0,001).
Таблица 1. Общие результаты экспериментов по опознаванию слушателями личности говорящего (диктора) по голосу (средние данные для всего состава дикторов и слушателей)
В нижней графе таблицы даны значения усредненного по группе слушателей времени опознавания дикторов для трех циклов. При прослушивании голоса в цикле с естественным звучанием фраз средние значения времени узнавания диктора слушателем колебались от 1,6 с (слушатель Ф-ва) до 4,2 с. (слушатель А-ва) при среднем времени по группе 2,6 с. В ситуациях с инверсией фразы время узнавания колебалось от 2,5 с (слушатель Ф-ва) до 7,1 с (слушатель А-ин) при среднем максимуме по группе 6,6 с. В цикле И2 опознавание дикторов требовало меньше времени, чем в цикле И1 (р < 0,001), но больше, чем в цикле Н (р < 0,05). Достоверная разница отмечена и при сравнении среднего по группе времени в циклах И1 и И2 между собой (р < 0,05).
Следует отметить, что реальное время узнавания дикторов значительно меньше, чем дано в таблице 1, поскольку эти значения включают в себя время нажатия слушателем кнопки магнитофона. При этом довольно часто после остановки магнитофона слушатель говорил, что узнал голос раньше, но хотел большей уверенности. Ряд слушателей, несмотря на инструкцию останавливать звучание магнитофона как можно быстрее после принятия решения об узнавании диктора, предпочитали прослушивать большую часть или весь фрагмент инвертированной фразы и ставили при этом заниженный коэффициент уверенности. Процент правильных идентификаций при этом был довольно высоким.
Мы сопоставили степень априорного знакомства каждого слушателя с голосом каждого диктора с объективной оценкой (% правильного опознавания) при прослушивании нормальных и инвертированных фраз. Результаты даны в таблице 2. Все дикторы расположены в порядке убывания степени знакомства слушателей с их голосом. В левой части таблицы против фамилии каждого диктора указаны цифры, соответствующие количеству слушателей, оценивших степень своего знакомства соответствующим баллом. Например, в 5 баллов степень своего знакомства с диктором Л-овым априорно оценили 19 слушателей, в 4 балла – 2 слушателя и в 3 балла – 1. Учитывался средний балл, вычисленный по всей группе слушателей.
Таблица 2. Соотношение степени априорного знакомства слушателей с голосом диктора (в баллах по 5-балльной шкале) с объективной вероятностью узнавания данного диктора при прослушивании его голоса в условиях нормального и инвертированного во времени звучания
Примечание: * – % правильного опознавания данного диктора по группе слушателей, ** – средний коэффициент уверенности по группе слушателей.
В правой части таблицы представлены усредненные по группе слушателей данные по объективному опознаванию каждого из дикторов при первом прослушивании инвертированных фраз, при последующем прослушивании нормально звучащих фраз и далее при втором прослушивании инвертированных фраз. Полученные результаты показали наличие положительной корреляции между степенью априорного знакомства слушателей с голосом диктора и процентом правильного узнавания данного диктора только при прослушивании фраз в естественном звучании. Коэффициент корреляции между этими показателями в ряду дикторов составил 0,75, что свидетельствует о достаточно высокой степени соответствия (р < 0,01 по двустороннему критерию значимости).
При прослушивании инвертированных фраз коэффициент корреляции для цикла И1 был равен 0,16, а для цикла И2–0,20, что говорит об отсутствии значимой корреляции.
В таблице 3 приведены результаты оценки голосов в соответствии с половой принадлежностью диктора. По оценке среднего балла априорного знакомства по группе дикторов-мужчин и по группе дикторов-женщин можно заключить, что голоса тех и других были знакомы общему контингенту слушателей примерно в равной степени (различия недостоверны). Объективные данные показали, что вероятность правильного опознавания женских голосов во всех циклах оказалась несколько выше, чем по группе мужчин. Однако эти различия недостоверны.
Таблица 3. Сравнительные результаты правильного опознавания слушателями дикторов-мужчин и дикторов-женщин
Примечание: См. таблицу 2.
Шесть дикторов принимали участие в экспериментах в качестве слушателей. Анализ ошибок, допущенных ими при восприятии собственного голоса и голосов других дикторов, показал следующее. В цикле Н ошибок допущено не было. В циклах И1 и И2 один диктор-слушатель показал 100 % правильных идентификаций и своего голоса и голосов других дикторов при максимальной степени уверенности. Три диктора допустили ошибки в равной мере при опознавании как своего голоса, так и голосов других дикторов. При этом один из них во всех случаях свой голос принимал за голос диктора противоположного пола (!). Два диктора идентифицировали свои голоса верно, допустив ошибки при опознавании голосов других, но при оценке своего голоса ставили более низкий коэффициент уверенности.
При анализе субъективных отчетов слушателей было выделено в качестве основных три группы признаков, как наиболее информативных для опознавания личности диктора по голосу. Одну группу составили тембро– и звуковысотные характеристики речи (указание на голос, как высокий – низкий, глухой – звонкий и т. п.); другую – темпоритмические характеристики речи (быстрота или медленность говорения, паузирование, протяженность отдельных гласных или слогов и т. д.); третью – свойственные только данному диктору экстралингвистические особенности (вздохи, покашливания, смешливость, эмоциональность и т. д.).
Следует подчеркнуть, что при восприятии инвертированных фраз одни голоса (по субъективным оценкам слушателей) сохраняли в большей мере свои отличительные признаки, а другие – в меньшей.
Нами был проведен анализ спектральных характеристик гласных звуков русской речи при естественном их звучании и при инверсии во времени. Было показано, что при инверсии интегральные спектры не меняются, что свидетельствует о сохранности тембральных характеристик этих звуков при временной инверсии.
Вероятность опознавания личности диктора по голосу при естественном звучании фраз оказалась несколько выше, чем в экспериментах других авторов (Bricker, Pruzansky, 1966; Schmidt-Nielsen, Stern Karen, 1985), несмотря на более жесткие условия экспериментов (не столь длительное время звучания фразы, невозможность повторного ее прослушивания).
Наблюдаемые отклонения от 100 % правильных идентификаций были обусловлены тем, что ряд слушателей плохо знали некоторых дикторов, что отразилось в низких априорных оценках степени знакомства с их голосами.
В условиях предъявления слушателю инвертированных фраз до того, как он услышит их в естественном звучании, процент правильных опознаваний существенно ниже, хотя достаточно высок при сравнении со случайным узнаванием. После предшествующего прослушивания дикторов в циклах И1 и Н значение этого показателя в цикле И2 увеличивается, что можно отнести за счет тренировки слушателей к восприятию инвертированной речи.
Таким образом, результаты показали, что опознавание говорящего по голосу при прослушивании фрагментов его речи, в которых разрушена семантическая информация методом временно́й инверсии, оказывается возможным с высокой степенью вероятности, точности и уверенности.
Опознавание происходит на основе невербальных характеристик, специфических для звуковой речи каждого человека и в разной степени сохраняющихся в условиях инвертирования. Основным средством идентификации личности по голосу при минимальном времени восприятия, является тембр голоса диктора, наиболее полно сохраняющийся при временно́й инверсии речевых фрагментов. На этот факт указывают результаты проведенного нами сравнительного спектрального анализа нормальных и инвертированных во времени речевых звуков.
3 Инвертированная речь как средство подсознательного воздействия на поведение человека[15]
Исследованию речи как важнейшей психологической характеристики человека посвящено весьма значительное число научных работ. Вместе с тем речь во многих аспектах остается для нас «знакомым незнакомцем» – неизученным и загадочным явлением. Это относится, прежде всего, к проблеме подсознательного восприятия речи и связанной с ней такой практической задаче, как подсознательное внушение человеку определенных идей и форм поведения.
Каковы возможные теоретические предпосылки решения такого рода задачи?
Несмотря на то что речь в целом является произвольной функцией организма, осуществляющейся под контролем сознания, в основе репродукции и восприятия речи лежит сложная иерархическая система непроизвольных и неосознаваемых человеком механизмов, начиная с первичной обработки речевого сигнала на уровне периферической слуховой системы и кончая выделением семантической информации с участием высших корковых отделов мозга и специализированных речевых зон (центров Брока и Вернике), что и обеспечивает понимание человеком смысла речи (Бехтерева и др., 1977). Подчеркивая роль подсознания в речи, крупнейший авторитет по проблемам языка и речи Р. О. Якобсон писал: «…наше слово всегда носит в себе больше информации, нежели наше сознание способно извлечь из него, ибо в основе наших слов лежат бессознательные языковые установки» (Якобсон, 1978, с. 166). И далее: «Если бы мы потребовали от нашего сознания, чтобы оно держало под своей властью все, что происходит в нашем языке и речи… то оно было бы вынуждено отказаться от такой беспрерывной (и очевидно, невыполнимой. – В. М.) работы» (там же).
Сказанное находит подтверждение и в экспериментальных психофизиологических исследованиях по воздействию на человека слов на уровне подсознания (Костандов, 1978). Опыты проводились на людях, совершивших правонарушительные поступки и находившихся в состоянии эмоционального стресса. Оказалось, что на эмоционально-значимые для испытуемых слова (например, «жена» для человека, находящегося под следствием в связи с убийством жены, или «кража» для женщины, совершившей кражу), время предъявления которых на экране могло варьироваться, реакция мозга в форме всплеска электрической активности происходит при длительностях экспозиции в 2–3 раза меньших, чем те, при которых слова опознаются и осознаются. В результате автор приходит к выводу: «…мозг человека в состоянии различать некоторые слова без их осознания» (Костандов, 1978, с. 638). И далее: «…при определенных условиях человек может воспринимать отдельные слова и реагировать на их смысловое содержание без их осознания» (там же, с. 648).
3.1. Исследования лаборатории невербальной коммуникации ИП РАН
Проблеме подсознательного восприятия речи ввиду ее теоретической неразработанности и практической значимости, был посвящен ряд экспериментальных исследований в лаборатории невербальной коммуникации Института психологии РАН (Морозов, 1989, 1992, 1993a, 1996d, 1998c; Пашина, Морозов, 1990; Пашина, 1991 и др.). В этих работах был использован метод инвертирования речевых сигналов во времени, что достигалось проигрыванием магнитной ленты с записью речевых звуков в обратном направлении. При этом речь, на первый взгляд, полностью теряет смысловое содержание, превращаясь в бессмысленный набор искаженных фонетических и просодических элементов. Данный способ был применен еще французским исследователем Абрамом Молем (Моль, 1966) для разделения семантической и эстетической (по его терминологии) информации. Однако Молем не был проведен анализ возможностей мозга человека по восприятию разных видов речевой информации (вербальной и невербальной), равно как не были обсуждены им и возможные психофизиологические механизмы восприятия инвертированной речи. Решению такого рода задач и были посвящены вышеуказанные работы лаборатории невербальной коммуникации ИП РАН. В настоящем обзоре приводятся основные результаты этих исследований.
3.2. Исследования восприятия разных видов невербальной (экстралингвистической) информации инвертированной речи
В первом цикле опытов слушателям предлагалось определить эмоциональный контекст голоса артиста (О. В. Басилашвили), произносящего одну и ту же по смыслу фразу (типа «Они сейчас придут сюда»), но с разной эмоциональной окраской (радость, горе, гнев, страх), или нейтрально. Разновидность этой серии – предъявление слушателям вокальных фраз, исполняемых певцами с такими ж эмоциональными красками. Всего в опытах участвовали 28 слушателей, каждый из которых прослушивал по нескольку раз эмоционально окрашенные фразы как в прямом, так и в обратном, т. е. инвертированном во времени, звучании, что достигалось проигрыванием той же магнитофонной записи в обратном направлении.
В результате статистической обработки полученных данных оказалось, что слушатели могут правильно определить эмоциональную окраску голоса человека, звучащего при движении ленты как в прямом, так и в обратном направлении. Средние вероятности правильных определений эмоций слушателями составили 77,7 % (при прямом звучании речевых фраз) и 64,0 % (при их обратном звучании). Аналогичные результаты получены и при восприятии эмоций в пении. Тренировка существенно повышает правильность восприятия эмоций в речи и пении. Наши исследования также показали, что слушатель способен с достаточно высокой надежностью опознавать по инвертированной речи личность говорящего, т. е. узнавать знакомых по голосу (до 80–90 %) (Пашина, Морозов, 1990), пол диктора (99 %), а также его возраст (Морозов, 1993a, 1998c).
Таким образом, было показано, что при инвертировании речи практически полностью сохраняются невербальные виды речевой информации, точнее – виды информации, передаваемые невербальными средствами речи (в данном случае – интонацией голоса). Вместе с тем ни один из наших испытуемых не проявил способности пересказать вербальный смысл и содержание услышанных им инвертированных речевых фраз.
3.3. Метод экспериментального исследования подсознательного воздействия речевых команд
Учитывая вышесказанное, мы разработали и применили метод, позволяющий определить возможное влияние инвертированной речи на невербальное поведение человека, точнее – на его двигательную активность, проявляющуюся в нажатии на одну из клавиш, обозначенных различными цветами или цифрами.
Испытуемым предлагалась игра, согласно которой они должны были отгадать заранее запрограммированную экспериментатором последовательность из нажатий на те или иные клавиши, смонтированные на стоящем перед испытуемым пульте. Пульт содержал шесть клавиш, каждая из которых была обозначена особым цветом – красным, зеленым, желтым, голубым, коричневым, фиолетовым или цифрой – 5, 10, 18, 100, 200, 400 (см. рисунок 1).
Рис. 1. Пульт испытуемого с шестью клавишами, раскрашенными в различные цвета (коричневый, голубой, фиолетовый, красный, желтый, зеленый) или обозначаемых разными цифрами (5, 10, 18, 100, 200, 400)
Сигналом к нажатию той или иной клавиши испытуемому служило прослушивание «обратной» инвертированной во времени речевой фразы, т. е. проигранной на магнитофоне при движении ленты в обратном направлении. В «обратной» фразе либо содержалась, либо не содержалась подсказка, как надо действовать испытуемому (например, «Ваш цвет красный, быстро действуйте» или «Делайте выбор по своему усмотрению»). При этом «обратные» фразы с подсказкой могли содержать слово-подсказку один, два или три раза (например: «Зеленый выбирайте, зеленый, только зеленый» и т. п.). Указанные фразы предъявлялись испытуемым в случайном порядке вперемежку с фразами, не содержащими слов-подсказок. Всего программа для каждого испытуемого состояла не менее чем из 48 нажатий, предваряемых прослушиванием «обратных» фраз, каждая категория которых (без подсказок, 1, 2, 3 подсказки) повторялась равновероятное число раз, т. е. в серии из 48 фраз по 12 раз.
Испытуемые проходили два этапа опытов. На первом им не сообщалось, что необычное звучание «обратных» фраз может нести для них указание, какую клавишу нажимать. А на втором сообщалось, что «обратные» фразы содержат полезную для них подсказку. В опытах участвовало в общей сложности 26 испытуемых, мужчин и женщин, в возрасте от 19 до 57 лет.
3.4. Основные результаты
Результаты статистической обработки показали следующее (см. рисунок 2):
Рис. 2. Средние вероятности правильных действий испытуемых по выбору клавиши при восприятии инвертированной речи, содержащей разное количество слов-подсказок.
По горизонтали – число подсказок в инвертированной фразе. По вертикали – вероятность правильного выбора клавиши (%). А – результаты исследований выбора клавиши по цвету – 1-й этап, Б – выбор клавиши по цвету – 2-й этап. В – выбор клавиши по ее цифровому обозначению – 2-й этап.
1 Минимальное число правильных решений (около 15–20 %) испытуемые принимают при прослушивании «обратных» фраз, не содержащих подсказки. Отметим, что вероятность случайного отгадывания правильного выбора нужной клавиши (при выборе из 6) составляет 16,7 %.
Конец ознакомительного фрагмента.