НАУЧНЫЙ РЕЗУЛЬТАТ
Н Г ^ I \\ С Г N Р |: Г- 1J I
Васильев Р.А. Применение методов фонетического анализа речи для выявления эмоционально устойчивых и нестабильных студентов университета // Научный результат. Информационные технологии. - Т.5, №2, 2020
УДК 621.391: 004.522 DOI: 10.18413/2518-1092-2020-5-2-0-2
Васильев Р.А.
ПРИМЕНЕНИЕ МЕТОДОВ ФОНЕТИЧЕСКОГО АНАЛИЗА РЕЧИ ДЛЯ ВЫЯВЛЕНИЯ ЭМОЦИОНАЛЬНО УСТОЙЧИВЫХ И НЕСТАБИЛЬНЫХ СТУДЕНТОВ УНИВЕРСИТЕТА_
Нижегородский государственный университет им. Н.И. Лобачевского пр. Гагарина, д. 23, г. Нижний Новгород, 603950, Россия
e-mail: romangamma@mail.ru
Аннотация
Данная статья посвящена разработке компьютерной системы, предназначенной для исследования эмоциональной устойчивости человека по речевому сигналу в нормальных и условиях с повышенной напряжённостью на основе методов фонетического анализа речи и критерия минимума требуемой избыточности голосового сигнала.
Основная деятельность высшего учебного заведения - образовательный процесс. Для организации учебного процесса необходимо соединить все его элементы, наладить их взаимодействие между собой, определить содержание деятельности преподавателей и студентов. Комфортная и благополучная психологическая атмосфера на занятиях в вузе, несомненно, способствует успешности обучения студентов. Одна из основных задач преподавателя современной высшей школы не только делиться научной информацией с обучающимися, но и создание психологического комфорта в процессе обучения. Исследования эмоционального состояния обучающихся на лекциях и экзаменах является актуальной задачей.
В связи с этим разработана и протестирована специальная компьютерная система «Информационная система идентификации дикторов по голосу», способная автоматизировать процесс исследования эмоционального состояния студентов по голосу в комфортных и некомфортных условиях, для выявления эмоционально устойчивых и нестабильных.
UDC 621.391: 004.522
Vasiliev R.A.
APPLICATION OF METHODS OF PHONETIC ANALYSIS OF SPEECH FOR IDENTIFICATION OF EMOTIONALLY SUSTAINABLE AND UNSTABLE STUDENTS OF UNIVERSITY
Nizhny Novgorod State University N.I. Lobachevsky, Gagarina Ave., 23, Nizhny Novgorod, 603950, Russia
e-mail: romangamma@mail.ru
Abstract
This article is devoted to the development of a computer system designed to study the emotional stability of a person according to a speech signal in normal and conditions with increased tension based on the methods of phonetic analysis of speech and the criterion for the minimum required voice signal redundancy.
The main activity of a higher educational institution is the educational process. To organize the educational process, it is necessary to combine all its elements, to establish their interaction with each other, to determine the content of the activities of teachers and students. A comfortable and prosperous psychological atmosphere in the classroom of the university, undoubtedly, contributes to the success of student learning. One of the main tasks of a teacher at a modern higher school is not only to share scientific information with students, but also to create psychological comfort in
J ]" TT}T"^T Васильев Р.А. Применение методов фонетического анализа речи для выявления
ji—/ГГТ Т А Т эмоционально устойчивых и нестабильных студентов университета // Научный Г Г..) У I I Г> J_ J-\\ J_ результат. Информационные технологии. - Т.5, №2, 2020
иг Ч& > и II и I- .& I I I
the learning process. Studying the emotional state of students in lectures and exams is an urgent task.
In connection with this, a special computer system called "Voice Announcer Information System for Identifying Voice" was developed and tested, which is able to automate the process of studying the emotional state of students by voice in comfortable and uncomfortable conditions to identify emotionally stable and unstable ones.
ВВЕДЕНИЕ
Многим известно, что в группе студентов всегда есть лидеры и аутсайдеры. Понять, какова позиция студента университета, насколько она благоприятна для его развития, можно с помощью перспективных методик [7, 15, 16]. Одной из лидирующих является методика выявления эмоционально устойчивых и нестабильных студентов на основе фонетического анализа речи и идентификации по голосу.
Информационная система идентификации дикторов по голосу («ИС ИДГ») - это программа для ЭВМ, зарегистрированная в Роспатенте [1], предназначенная для тестирования эмоционального состояния и идентификации личности по голосу. «ИС ИДГ» обладает широким спектром возможностей: высокой чувствительностью к изменениям в эмоциональном состоянии личности при минимальных требованиях к продолжительности исследуемого фрагмента голосового сигнала [3]. Данные возможности достигнуты с применением нового принципа действия «ИС ИДГ», основанного на оценке качества речи личности на фонетическом уровне по критерию минимума требуемой избыточности (МТИ) речевого сигнала [4]. По сути, решается проблема многокритериальности устной речи с позиций информационной теорией качества речи (ИТКР) [2]. Поэтому публикуемые далее результаты теоретического и экспериментального исследования «ИС ИДГ» представляют интерес для специалистов в области биометрических исследований по голосу.
ТЕОРЕТИЧЕСКИЙ АНАЛИЗ
Большинство современных систем автоматического анализа речи функционируют посредством последовательного деления голосового сигнала на короткие (5-10 mc) отрезки данных x = ,х^,...,x j длиной в одну минимальную речевую единицу (МРЕ) с их последующим сравнением с
эталоном. Сложной проблемой для таких систем является создание и обоснование множества
фонетических эталонов jx*| [2].
Проблематика выбора минимальной речевой единицы и сегодня остается актуальной. Специалисты уже давно сделали вывод о том, что элементарные звуки, из которых состоит речь, не эквивалентны буквам. В связи с чем ввели понятие фонемы для обозначения элементарных звуков речи, этой теме посвящено множество исследований [17, 18, 19, 20, 21]. Хотя и сейчас специалисты не могут решить - сколько же всего различных фонем существует. Фонема - это основная единица звукового строя языка, выделяемый линейным членением речи [8]. Она не является простейшим элементом, т. к. состоит из фреймов (реализаций), функционирующих одновременно [9]. В лингвистике фонема определяется, как минимальная речевая единица, предназначенная для различения содержания слов и определяющаяся в зависимости от местоположения - в разных своих вариантах. Речевой сигнал можно разбить на МРЕ имеющие различные реализации с помощью устойчивых параметров и объединяемые в группы одноименных речевых единиц [10]. Это показывает различия в произнесении пользователем одноименных МРЕ и особенности восприятия звуков речи. При анализе фонетического состава речи и статистических характеристик МРЕ, их суммарное число R зависит от особенностей голоса каждой конкретной личности [2].
J ]" TT}T"^T Васильев Р.А. Применение методов фонетического анализа речи для выявления
ji—/ГГТ Т А Т эмоционально устойчивых и нестабильных студентов университета // Научный Г Г..) У I I Г> J_ J-\\ J_ результат. Информационные технологии. - Т.5, №2, 2020
иг Ч& > и II и I- .& I I I
Любой человек в силу ряда причин, например, из-за особенностей своей речи или слуха, не в состоянии в процессе произнесения звуков точно воспроизвести эталон х^ той или иной (г-й) МРЕ. Решением данной проблемы может служить задание каждой МРЕ не одним, а одновременно несколькими допустимыми вариантами х^ ^ = 1,3 ^, где г = 1; Я, а R - объем фонетической базы
данных (ФБД) [3]. В данном случае исследуемой личности будет достаточно приблизить свое произношение к любому из них, чтобы быть правильно понятым экспертом или слушателем. Этим решается рассматриваемая проблема вариативности устной речи: каждый конкретный человек в процессе своего «произношения звуков» выбирает наиболее удобный, достижимый для себя
вариант эталонного произношения МРЕ из некоторого множества альтернатив [4].
Становятся понятными и параметры формируемого (на выходе голосового тракта человека) речевого сигнала к эталону: он должен войти в границы 3 -множества вариантов рассматриваемой
МРЕ Х^ как полноправный, +1) -й его элемент. В данном случае задача переходит в сугубо предметную плоскость: сначала по каждой из R рассматриваемых МРЕ требуется кластер
=|xr j j ее допустимых образцов - на этапе обучения диктора [5].
В соответствии с ИТКР, каждый человек выступает в роли условного источника дискретных
сообщений Х е \\х), определенных на R-множестве его МРЕ c ФБД jx* | Характеристикой
коммуникативных свойств такого источника может служить скорость создания информации, или количество информации на выходе в расчете на одну МРЕ. В предположении об идеальном речевом механизме человека-диктора и безошибочном восприятии всего набора его МРЕ потенциальным слушателем указанная величина определяется выражением для шенноновской энтропии
дискретного источника сообщений вида
Н(Х) = - X Р(Х = x*)logP(Х = x*) = - X pr log pr [3]. r = 1 r = 1
Апостериорная энтропия источника сообщений Н(Х) имеет в данном случае смысл величины рассеяния полезной информации в процессе создания речевого сигнала, или минимальной требуемой избыточности речевого сигнала. Чем больше рассеяние, тем выше степень искажений
формируемого на выходе речевого тракта сигнала Х по сравнению с его эталоном x , и тем ниже,
следовательно, качество речи данного диктора [ 3 ].
Как было сказано ранее, эталоном соответствующей фонемы диктора является x* , а процесс
сравнение множества реализаций фонемы Х диктора - способ выделения эталона фонемы x
конкретного диктора, или звукового ряда |Х^ | (строя) его разговорного языка [5]. В
информационной теории качества речи для сравнения реализаций фонем диктора используется величина - и^ минимум информационного рассогласования (МИР).
Заметим, что именно относительная величина часто является более выгодной по сравнению с абсолютной величиной теоретико-информационного показателя качества речи. Это актуально в задачах речевой идентификации в системах разграничения доступа [6], в нашем случае по принципу сопоставления двух относительных величин требуемой избыточности - а^ (ОВТИ), полученных в
J ]" TT}T"^T Васильев Р.А. Применение методов фонетического анализа речи для выявления
ji—/ГГТ Т А Т эмоционально устойчивых и нестабильных студентов университета // Научный Г Г..) У I I Г> J_ J-\\ J_ результат. Информационные технологии. - Т.5, №2, 2020
иг Ч& > и II и I- .& I I I
процессе тестирования диктора. Задача такого рода подробно рассмотрена далее - в качестве предмета экспериментальных исследований.
МЕТОДЫ ИССЛЕДОВАНИЯ
Для исследований в рамках ИТКР был сконфигурирован образец «ИС ИДГ»,
запрограммированный для выполнения операций над речевым сигналом х по выявлению
эмоционального состояния человека (студента) [11, 12, 13, 14]. Главное окно «ИС ИДГ№ показано на рисунке 1.
Рис. 1. Главное окно программы «ИС ИДГ» Fig. 1. The main window of the program "IS IDG"
Испытания проводились в 2 этапа. На первом этапе были сформированы три группы обследуемых лиц в составе:
- десяти выпускников Нижегородского государственного университета им. Н.И. Лобачевского (ННГУ) кафедры «безопасность информационных систем» на заседании ГАК;
- трех студентов 2 курса радиофизического факультета ННГУ во время сдачи ими экзамена;
- трех преподавателей радиофизического факультета ННГУ - для сравнения;
Фамилии всех студентов и преподавателей в отчетных таблицах заменены.
Каждый студент (диктор) в режиме монолога отвечал последовательно на вопросы экзаменационного задания или выступил с докладом по своей дипломной работе. Им противопоставлялись устные тексты от группы преподавателей, полученные в заведомо комфортных условиях. Все выступления были записаны через систему звукозаписи в память ПК в виде соответствующих звуковых (WAV) файлов. После чего была создана база голосовых данных для проведения дальнейших исследований.
На втором этапе по каждому WAV-файлу из памяти первого ПК запускалась его система воспроизведения речи, и одновременно с ней оператором включалась в работу программа «ИС ИДГ» из памяти второго ПК. Сначала (на интервале 1-2 мин.) программа работала в режиме настройки на конкретного диктора.
В результате по каждому диктору была определена его номинальная величина избыточности речевого сигнала при фиксированном значении порога МИР, равного 0,05. Затем программу переводили в рабочий режим (рис. 2), в котором оценка качества речи производилась по временной диаграмме колебаний избыточности речевого сигнала на интервале в несколько минут.
Чем больше амплитуда колебаний, тем ниже качество речи данного диктора. Окно рабочего режима программы «ИС ИДГ№ показано на рисунке 2.
Васильев Р.А. Применение методов фонетического анализа речи для выявления эмоционально устойчивых и нестабильных студентов университета // Научный Г Г..) У I I Г> J_ J-\\ J_ результат. Информационные технологии. - Т.5, №2, 2020
иг Ч& > и II и I- .& I I I
Рис. 2. Рабочий режим программы «ИС ИДГ» Fig. 2. The operating mode of the program "IS IDH"
РЕЗ УЛЬ ТА ТЫ ИССЛЕДОВАНИЯ
Полученные показатели качества речи по каждому диктору сопоставлялись в дальнейшем с полученной им ранее экзаменационной оценкой или оценкой ГАК. Идея состояла в том, что хорошо подготовленные студенты излагают материал более качественно на фонетическом (звуковом) уровне по сравнению с плохо подготовленными студентами.
Таблица 1
Состав контрольной группы обследуемых лиц
The composition of the control group of subjects
Дипломники На экзамене В комфортных условиях
Величина избыточности во всех случаях имеет характер колебаний - точно в соответствии с естественными колебаниями. Здесь красная прямая линия - это номинальная величина избыточности. А амплитуда колебаний - это главный показатель качества речи диктора.
По результатам проведенных испытаний в таблице ниже представлены сводные данные качества речи по всей контрольной группе обследованных лиц с указанием величины информационного рассогласования (ИРС). Здесь в правой колонке по каждому диктору дана оценка экзаменатора.
НАУЧНЫЙ РЕЗУЛЬТАТ
иг Ч& > и II и I- .& I I I
Васильев Р.А. Применение методов фонетического анализа речи для выявления эмоционально устойчивых и нестабильных студентов университета // Научный результат. Информационные технологии. - Т.5, №2, 2020
Зависимость ИРС от экзаменационной оценки обследуемых
Таблица 2 Table 2
Диктор Номинал ИРС, % Амплитуда колебаний ИРС, % Экзаменационная оценка за ответ
Рис. 3. Оценки относительной величины информационного рассогласования для дикторов Семенова, Груничева, Евсенюк Fig. 3. Estimates of the relative magnitude of the information mismatch for the announcers Semenov, Grunichev, Yevsenyuk
Здесь хорошо видна тенденция к увеличению амплитуды колебаний избыточности речи относительно ее номинального значения при уменьшении качества предметной подготовки диктора (чем больше номинал и амплитуда колебаний величины информационного рассогласования, тем более нестабильна речь диктора).
ЗАКЛЮЧЕНИЕ
По результатам проведенных исследований сделаны следующие выводы:
- Подтверждена устойчивость информационного показателя качества речи: скорости создания информации на фонетическом уровне - относительно личности диктора на различных вариациях текстовой информации и вариативном временном диапазоне;
НАУЧНЫЙ РЕЗУЛЬТАТ
Н Г ^ I \\ С Г N Р |: Г- 1J I
Васильев Р.А. Применение методов фонетического анализа речи для выявления эмоционально устойчивых и нестабильных студентов университета // Научный результат. Информационные технологии. - Т.5, №2, 2020
- Исследована зависимость величины ИРС от интенсивности эмоциональной нагрузки личности;
- Дано экспериментальное обоснование принципа стабильной индивидуальной избыточности речи диктора и скорости создания информации на выходе голосового тракта в комфортных условиях говорения или в отсутствие внешних раздражителей;
- Для дикторов в спокойном состоянии амплитуда колебаний ИРС составляет величину до 10% и практически не изменяется для разных значений порога;
- Показано, что изменение величины избыточности речи для диктора в состоянии стресса стабильно выше, чем для него же в спокойном состоянии; поэтому «ИС ИДГ» может быть использован как эффективное средство для оценки эмоционального состояния человека;
- У менее подготовленных дикторов разброс величины избыточности речи намного сильнее, чем для дикторов с хорошей подготовкой. Это доказывает, что менее подготовленные дикторы испытывали больший стресс при выступлении.
В общем случае даже относительно небольшое по накалу стрессовое состояние диктора оказывает весьма заметное влияние на его речь на фонетическом уровне в теоретико-информационном смысле, что позволяет с высокой точностью определять эмоционально неустойчивых и нестабильных студентов университета.
Список литературы
НАУЧНЫЙ РЕЗУЛЬТАТ
Н Г ^ I \\ С Г N Р |: Г- 1J I
Васильев Р.А. Применение методов фонетического анализа речи для выявления эмоционально устойчивых и нестабильных студентов университета // Научный результат. Информационные технологии. - Т.5, №2, 2020
References
НАУЧНЫЙ РЕЗУЛЬТАТ
Н Г ç I \\ Е Г N Е |: Г- 1J I
Васильев Р.А. Применение методов фонетического анализа речи для выявления эмоционально устойчивых и нестабильных студентов университета // Научный результат. Информационные технологии. - Т.5, №2, 2020
Васильев Роман Александрович, кандидат технических наук, доцент кафедры «Безопасность информационных систем» Нижегородского государственного университета им. Н.И. Лобачевского
Vasiliev Roman Aleksandrovich, Candidate of Technical Sciences, Associate Professor of the Department "Security of Information Systems" of Nizhny Novgorod State University named after N.I. Lobachevsky