Обнаружение скрытых эмоций в голосе [Евгений Столов] (fb2) читать постранично, страница - 2


 [Настройки текста]  [Cбросить фильтры]

человека не обеспечивают 100 % достоверности вывода, поэтому не надо относиться слишком серьёзно к результатам, полученным с помощью описанных ниже алгоритмов анализа. Скорее всего, материал книги нужно рассматривать как основу для хобби. Для всех рассмотренных алгоритмов приведены реализации на Питоне или их словесные описания, поэтому любой человек, обладающий элементарными навыками программирования, может их использовать в реальной жизни, например, на вечеринках для развлечения гостей. Если же они оказались полезными в более серьёзной ситуации, автор книги будет полагать, что достиг максимальной возможной цели.

Кому адресована данная книга

Сказанное выше означает, что приведённые алгоритмы образуют конструктор, из которого каждый может сделать консольную программу по своему вкусу. Алгоритмы не содержат графической интерфейсной части, которую предлагается создать самому читателю в случае необходимости, а приводимые модули являются консольными приложениями. Существующие в Интернете программы, решающие проблему анализа речи, содержат в интерфейсной части какие-то параметры, смысл которых не всегда ясен. В случае самоделки все находится в руках программиста. Как уже упоминалось выше, предполагается знание языка программирования Питон (только базовые знания) и доступ к основным библиотекам: numpy, scipy, matplotlib, scikit-learn и некоторым другим. Приводятся только тексты нестандартных, по мнению автора, модулей Для остальных модулей дается словесное описание алгоритм. Более существенным моментом является владением основами цифровой обработки сигналов, если есть желание понять, что именно измеряется. А когда такого желания нет, достаточно уметь пользоваться числами, полученными в результате вычислений. Книга не является учебником по упомянутым областям знаний, поскольку в настоящее время имеется бесплатный доступ к нужной литературе.

Что касается «железа», то необходимо обеспечить доступ к речевым файлам и способ ввода их в компьютер. Для этих целей может понадобиться микрофон либо обычный смартфон с приложением «Диктофон». Здесь следует сделать несколько замечаний. Для анализа важен способ записи речевого файла. Рекомендуется стандартный формат с частотой записи 44100 Hz. Именно эта частота предполагается, когда речь идет об отдельных параметрах алгоритмов. Программы записи в диктофонах, как правило, используют сжатие файла и перевод его в соответствующий формат. Все алгоритмы, реализованные в книге, предполагают формат wav речевого файла, поэтому будет необходимо перевести исходный файл в этот формат. Наиболее универсальным средством, решающим данную задачу, является бесплатная программа ffmpeg. Другой полезной программой для работы с аудио файлами является бесплатная программа Audacity. Она пригодится для ввода файлов с микрофона, перевода в формат wav и для редактирования файлов.

Автор реализовал представленную выше идею на сайте с адресом http://5.23.55.2. Доступ к сайту свободный, без регистрации. Заметим, что сайт не использует сертификат достоверности, поэтому браузер порождает предупреждение об этом, однако, для эксперимента достаточно только загрузить на сайт речевой файл в любом формате. Такая загрузка не может повредить пользователю. Целью создания сайта является проверка работы алгоритмов, поэтому автор будет благодарен всем пользователям, если они поделятся результатом своего эксперимента. Надо сравнить реакцию программы на отклонение в параметрах с ощущением человека при прослушивании речи. Адрес для связи: ystolov@list.ru.

Свойства речевого файла

Выводы об эмоциональном состоянии диктора основаны на измерении определенных параметров звукового файла. Если речь идет о скрытых эмоциях, то, скорее всего, эти эмоции проявляются при произнесении отдельных слов.

Выделение "фраз" и "слов " в речевом файле

Изменение эмоционального состояния может проявиться во время произнесения очередной фразы в потоке или даже при произнесении отдельного слова в фразе. Нашей ближайшей целью является научиться выделять отдельные слова в потоке и формировать из них фразы. Рассмотрим более детально произвольный отрезок обычного речевого файла.



Видно, что этот отрезок делится на небольшие фрагменты повышенной мощности и промежутки между ними. Отмеченные промежутки это либо заполненные шумом от дыхания интервалы (интервалы между словами или отдельными слогами), либо переходные процессы в речи. Переходный процесс это промежуток между концом гласного и началом согласного или наоборот. Назовем такие интервалы шумовыми интервалами (ШИ), а оставшиеся — информационными (ИнИ). Естественно считать словом промежуток в речевом файле между двумя последовательными ШИ. На самом деле ситуация более сложная, поскольку ШИ может появиться и между двумя слогами одного слова либо в