Сайт о телевидении

Сайт о телевидении

» » Управляем звуком в Windows. Volume2 — стильный регулятор громкости

Управляем звуком в Windows. Volume2 — стильный регулятор громкости

Возможно, путешествуя по безграничным просторам Всемирной паутины, Вы замечали на некоторых Flash-сайтах возможность управления звуком (например, его можно выключить в процессе проигрывания клипа или изменить его громкость, а некоторых сайтах можно даже регулировать его баланс). Если у Вас есть желание и достаточно терпения, давайте попробуем сделать такое управление звуком.
Для того, чтобы создать этот эффект нам понадобится сам звук и собственно программа Flash 5 (именно пятая версия, поскольку пример написан именно в ней).
Создайте новый клип, а в нём три слоя. Первый (здесь и далее слои будут перечисляться сверху вниз т.е. самый верхний - первый, ниже - второй и. т. д.) назовите "action", второй - "vol" и третий - "pan". У Вас должно получиться что-то вроде этого:

В слой "action" поместите такой action:

zvuk = new Sound();
zvuk.attachSound("zvuk");
zvuk.start(0, 999999);
_
Этим Вы создаёте новый звуковой объект, присоединяем его из библиотеки с именем "zvuk" и запускаем с позиции 0 и повторением 99999 раз т.е. практически бесконечно:Если Вы сейчас запустите клип, то ничего не увидите и не услышите. Чтобы Вы могли что-нибудь услышать Ваш звук, надо дать ему имя для этого откройте библиотеку и найдите там Ваш звук. Неважно как он там называется сейчас, это не имеет никакого значения, чтобы реально назвать звук, Вам следует нажать на его имя правой кнопкой мыши и из контекстного меню выбрать пункт "Linkage" в этом окне выберите пункт "Export this symbol" и задайте имя "zvuk". В общем сделайте всё как показано на рисунке.

Теперь если Вы посмотрите клип, то услышите Ваш звук.
Итак, почти половина работы уже сделана, осталось только организовать управление этим звуком. Для решения этой задачи существует множество способов. Мы сделаем по самому, на мой взгляд, распространенному методу, методу "ползунка" т.к. этот метод применяется во многих музыкальных проигрывателях (например, в WinAmp-е).
Создайте новый символ - кнопку и назовите её "polzunok_vol" эта кнопка будет регулятором громкости. Создайте ещё один символ типа Movie Clip, с названием "Polzunok_MC_vol", поместите туда из библиотеки символ "polzunok_vol" и задайте ему такой action:
____________________________
on (press) {
startDrag (this, false, 0, 7, 100, 7);
}
on (release) {
stopDrag ();
}
___

Затем создайте ещё один символ типа Movie Clip и назовите его "shkala_vol" в этом символе нарисуйте прямоугольник, по которому будет ездить наш ползунок. Для правильной работы задайте ему координаты как показано на рисунке

Теперь создайте в этом символе новый слой и поместите туда "polzunok_MC_vol", слой с ползунком должен быть выше слоя со шкалой, поставьте ползунок по центру шкалы и назначьте ему такой action:

onClipEvent (enterFrame) {

}
__________________________________
Этим мы добьёмся того, что звук будет иметь такое же значение эквивалентное значению "Х" ползунка а поскольку он ползает от 0 до 100 вдоль координаты "Х", то значение звука будет соответствующим. Теперь переходите на главную сцену и вставляйте туда символ "shkala_vol". Вот мы и имеем у себя управление громкостью звука.

Теперь организуем балансировку звука между левым и правым динамиками.
Для этого создадим символ - кнопку с названием "polzunok_pan" и нарисуем там ползунок, затем создадим символ Movie Clip с именем "polzunok_MC_pan" и поместим туда наш "polzunok_pan". Зададим ему action:
_____________________________________
on (press) {
startDrag (this, false, -100, 0, 100, 0);
}
on (release) {
stopDrag ();
}
_____________________________________

Теперь создадим ещё один символ - Movie Clip с именем "shkala_pan"
И нарисуем там нашу шкалу в виде прямоугольника с параметрами в точности как показано на рисунке.

В этом же символе создайте ещё один слой и поместите его выше текущего. В этот слой поместите наш ползунок "polzunok_MC_pan" и задайте ему следующий action:
_________________________________

onClipEvent (enterFrame) {
_root.zvuk.setPan(this._x);
}
________________________________

Теперь переходите на главную сцену и вставляйте в неё "shkala_pan".
Посмотрите клип и попробуйте всё потаскать, если всё было сделано правильно, всё будет работать.

Но, как Вы, наверно сами видите, здесь есть небольшие недостатки. Например пользователь не видит цифрового отображения громкости звука или баланса: Давайте предоставим ему такой сервис.

На главную сцену вставьте два динамических текстовых поля. Одно для отображения громкости, другое для баланса. Назовите их "vol" и "pan" соответственно. Сначала займёмся полем "vol".
Переходите в символ "shkala_vol" и там откройте окно action для нашего ползунка и добавьте туда следующий код к уже имеющемуся там коду
_________________________________
s = new Sound(zvuk);
_root.vol = s.getVolume();
________________________________

и того у Вас должно получиться:
___________________________________
onClipEvent (enterFrame) {
_root.zvuk.setVolume(this._x);
s = new Sound(zvuk);
_root.vol = s.getVolume();
}
___________________________________

Теперь пользователь может видеть цифровое значение громкости звука. Передём к организации цифрового отображения баланса. Переходите к символу "shkala_pan" и там добавьте следующий код:
_____________________________________
s = new Sound(zvuk);
_root.pan = s.getPan();
_____________________________________

В итоге должно получиться:
________________________________
onClipEvent (enterFrame) {
_root.zvuk.setPan(this._x);
s = new Sound(zvuk);
_root.pan = s.getPan();
}
_______________________________

Теперь пользователь получает сведения относительно баланса звука. Вот вроде бы и всё, но при просмотре клипа бросается в глаза одна деталь, а именно: кому понравиться, что когда ползунок переходит на левую часть шкалы, мы видим отрицательные числа: Обычно в подобных программах отображаются положительные числа и буква "L" или "R". Давайте попробуем сделать так же. Для этого в символе "shkala_pan" в окне actions для ползунка добавим, точнее лучше заменим существующий код. После замены должно получиться:

__
onClipEvent (enterFrame) {
_root.zvuk.setPan(this._x);
s = new Sound(zvuk);
if (this._x<0) {
_root.pan = -(s.getPan())+"Left";
} else if (this._x>0) {
_root.pan = s.getPan()+"Right";
} else if (this._x = = 0) {
_root.pan = s.getPan();
}
}
_____________________________________________

Немного поясню получившееся. Мы поставили условие, что если значение "Х" ползунка меньше нуля (т.е. баланс смещается влево), то в поле "pan" возвращается значение с минусом (а минус на минус даёт плюс) и помимо этого приписывается строка Left. Ну а если баланс смещается влево, то всё остаётся как есть и ещё приписывается "Right". Ну а если "Х" координата равна нулю, то вообще ничего не приписывается. Теперь мы имеем более привычную форму записи баланса. Таким же способом можно сделать так, чтобы когда громкость была минимальная, выводилось бы, например "OFF" , а при максимальном значении - "MAX". Для этого нужно лишь заменить код у ползунка в символе "shkala_vol" на следующий код:
________________________________________________
onClipEvent (enterFrame) {
_root.zvuk.setVolume(this._x);
s = new Sound(zvuk);
if (this._x == 0) {
_root.vol = "OFF";
} else if (this._x == 100) {
_root.vol = "MAX";
} else {
_root.vol = s.getVolume();
}
}
_____________________________________________

Теперь мы имеем все, что надо для нормального отображения звука и баланса.

Категория гаджетов регуляторы громкости для Windows 7 и 8 включает в себя гаджеты на рабочий стол, выполняющие функцию регулирования звука на компьютере. Установив один из таких гаджетов, вы сможете настраивать звук, а также задавать и сохранять параметры звучания для определенных стилей музыки.

Звук и громкость – понятия субъективные. То, что для вас кажется оптимальным уровнем, вашим коллегам или домочадцам может показаться слишком громким. И наоборот, то, что вы хорошо слышите, находясь непосредственно за компьютером, не всегда доступно людям, которые находятся на определенном расстоянии.

Таким образом, включение, отключение и регулировка звука являются одной из важных сопутствующих функций при работе с компьютером. Однако делать это с помощью клавиатуры или через панель управления не всегда удобно, особенно, если манипуляции с громкостью необходимо осуществлять почти мгновенно. Именно поэтому для повышения комфорта управления звуком целесообразно скачать микшер громкости для Windows 7 и установить его непосредственно на рабочем столе. Управляются такие мини-приложения с помощью клавиш и колесика мыши либо кнопками, размещенными на интерфейсе самого гаджета, что позволяет производить манипуляции со звуком быстро и просто.

Каковы возможности подобных мини-приложений для операционной системы Виндовс 7? Мы постарались собрать в коллекции наиболее разноплановые и мультифункциональные виджеты, чтобы вы смогли без затруднений выбрать подходящий для ваших целей. Самые простые программы позволяют увеличить или уменьшить громкость воспроизведения, включить или отключить звук. Например, если вы устанавливаете на электронном устройстве сигнал для пробуждения или напоминания, будет идеально сочетаться с гаджетом для изменения громкости и отключения звука. Так ваш будильник не поднимет с постели вместе с вами тех домочадцев, которым сегодня нет необходимости вскакивать ни свет, ни заря.

В арсенал более сложных многофункциональных гаджетов добавлены и другие опции. В частности, это регулировка по каналам с помощью достаточно чувствительного двухканального эквалайзера, одинаково продуктивно работающего и с колонками, и с наушниками, анализ звуковых спектров и мониторинг активности динамиков, настройка тональностей в зависимости от музыкального стиля, параметры которой, к тому же, можно сохранять, избежав необходимости повторного настраивания при следующем включении устройства. Также во многих мини-приложениях предусмотрены дополнительные фоновые подложки и красивые элегантные скины, позволяющие подобрать цветовую схему и стиль приложения под специфику профиля вашего рабочего стола.

Кроме того, можно выбрать мультифункциональную утилиту, в которой совмещены регулятор громкости для Windows 7 и яркости экрана, часы, корзина, индикатор уровня заряда батареи, монитор загрузки процессора, заметки, слайды, таймер, менеджер управления операционной системой, быстрый запуск программ и прочие полезные опции. Занимая минимум места и на экране, и на диске, такие программы позволят существенно оптимизировать рабочий процесс и повысить комфорт пребывания пользователя за компьютером, при этом не требуют использования никаких дополнительных настроек.

Где скачать микшер громкости для Windows 7? Не тратьте время на поиски!

Прогулявшись по страницам нашего сайта, вы найдете в обширном и разноплановом структурированном для удобства посетителей каталоге любые гаджеты под операционную систему Виндовс 7, в том числе, и мини-приложения, позволяющие быстро и эффективно управлять качеством и громкостью звука. Единственное, что вам нужно сделать, - выбрать подходящую утилиту, скачать регулятор громкости для Windows 7 и установить его на рабочий стол в любом удобном месте.

Все программы, которые вы видите на нашем ресурсе, бесплатны для скачивания и использования. Мы не предлагаем вам регистрироваться, получать код по СМС, сообщать нам адрес вашего почтового ящика, номер телефона и другие личные данные, поскольку заботимся и об удобстве, и о безопасности, и об экономии времени наших гостей. Вы можете прямо сейчас в любом количестве без дополнительных действий.

Слушать любимую музыку и наслаждаться увлекательными фильмами, прослушивать аудиокниги и смотреть видеоролики, получать полезные знания с помощью видео- или аудиоуроков и совершать другие необходимые действия, связанные со звуком, не мешая при этом тем, кто вас окружает, теперь еще проще: достаточно скачать регулятор громкости для Windows 7 на любое компьютерное устройство, которым вы пользуетесь, и всего за несколько минут оптимизировать процесс управления звуком по собственному усмотрению. Заходите на наш сайт регулярно, пополняйте свой рабочий стол актуальными новинками и превращайте процесс использования всех доступных инструментов Виндвос в необременительное удовольствие!

Работу со звуком в модуле Crt обеспечивают две процедуры:

включение сигнала заданной частоты:

Sound(N:word)

отключения сигнала:

NoSound.

Процедура Sound генерирует звуковые сигналы частотой N,изменяющейся в пределах 37-32767 Гц. Громкость звука не регулируется, сигнал будет звучать до момента его выключения процедурой NoSound.

Для организации паузы в работе программы определена процедура, выполняющая задержку на заданное число миллисекунд:

Delay(N:word).

При выводе звуковых сигналов обычно используются все указанные процедуры вместе.

Uses Crt;

Sound(220); { включения звука с частотой 220}

Delay(300); { пауза на 0.3 сек }

NoSound; { отмена звука}

Используя процедуры Sound, Nosound, Delay оформите вывод на экран музыкального слова " К О Л О Б О К " . Вывод каждой буквы сопроводить звуковым сигналом частотой, соответствующей порядковому номеру символа в кодовой таблице (функция ORD),увеличенному в 100 раз. Время звучания каждой буквы 1 секунда.

Текстовые окна.

Window(x1,y1,x2,y2:byte);

Данная процедура определяет на экране текстовое окно с координатами верхнего левого угла экрана x1,y1, нижнего правого x2,y2. Максимальный размер окна определяется выбранным режимом. Режиму с 80 столбцами соответствует окно (1,1,80,25),режиму с 40 столбцами окно (1,1,40,25). Процедура Window помещает курсор в т.(1,1) установленного окна.

Многие процедуры и функции CRT работают относительно координат текущего окна, включая Window, ClrEol, ClrScr, DelLine , GotoXY , InsLine , WhereX , WhereY и все процедуры ввода/вывода. Координаты текущего окна хранятся соответственно в переменных WindMin и WindMax типа word, и отсчитываются отностительно точки с координатами (0,0), а не (1,1). Младший байт содержит значение координаты Х, а старший байт Y, поэтому координаты верхнего левого угла определяются выражениями:

x1:=Lo(WindMin),

y1:=Hi(WindMax),

координаты правого нижнего:

x2:=Lo(WindMax) ,

y2:=Hi(WindMax).

(* вывод на экран окон произвольного размера *)

(* различного цвета фона *)

Uses crt;

Var x,y:integer;

Randomize;

x:=random(MaxX);

y:=random(MaxY);

Window(x,y,x+random(10),y+random(8)); { определение }

TextbackGround(random(16)); { размера окна }

Delay(100);

ClrScr; { заполнеие фоном }

until KeyPressed;

Вывести изображение российского трехцветного флага в центре экрана размером 30*15. Каждая цветовая полоса задается текстовым окном (ширина 30 позиций, высота 5) и заполняется соответствующим цветом.

Использование клавиатуры.

Клавиатура - это основное средство ввода информации в ПЭВМ, поэтому гибкая обработка сигналов с клавиатуры является важным элементом создания эффективных программ.

В процессе работы с клавиатурой производится анализ кода нажатой клавиши, называемый кодом сканирования. Каждая из клавиш клавиатуры имеет свой уникальный код.

Сдандартная клавиатура имеет три типа клавиш:

символьные (буквы, цифры, знаки арифметических операций, знаки пунктуации и специальные ENTER, ESC, BACKSPACE, TAB);

управляющие (функциональные F1-F10, клавиши перемещения курсора, Alt+<другие клавиши>, Ctrl+<другие клавиши>, Shift+<другие влавиши>).;

сдвига (смена регистов Ctrl,Alt,Shift, фиксации регистров CapsLock,ScrollLock,NumLock, вспомогательные клавиши).

Символьные клавиши генеируют при нажатии код в виде одного значения.

Управляющие клавиши генерируют расширенный код сканирования, состоящий из двух значений. Первое является признаком управляющей клавиши, второе содержит код сканирования.

Клавиши сдвига имеют коды, которые не распознаются средствами Паскаля. Обработка кодов производится на системном уровне.

В модуле Crt определены две дополнительные функции управления клавиатурой: ReadKey и KeyPressed.

KeyPressed:boolean возвращает значение true если на клавиатуре была нажата клавиша, и false в противном случае. При этом введенные символы из буфера клавиатуры не удаляются. Данную функцию можно использовать для завершения цикла по нажатию любой клавиши.

Пример 1.

(* использование функции ReyPressed *)

Uses Crt;

(* заполнение экрана до нажатия любой из клавиш *)

Randomize;

GotoXY(Random(70),Random(50));

write("привет!");

delay(300)

Until KeyPressed;

Readkey:char.

Данная функция предназначена для управления работой клавиатуры и возвращает код нажатой клавиши. Символ соответствующей нажатой клавиши на дисплее не отображается. При использовании клавиш управления функция ReadKey сначала получает значение нулевого символа (#0), следующее обращение к ReadKey возвращает расширенный код клавиши.

Функция ReadKey считывает символ из буфера клавиатуры с одновременным его удалением из буфера или ожидает нажатия какой-либо клавиши.

{ анализ вводимых пользователем клавиш }

Uses Crt;

var ch:char;

write(" Нажмите клавишу:");

ch:=ReadKey;

if ch=#0

then { расширенный код сканирования }

ch:=readkey;

write(" Клавиша ");

case ch of

#59..#68: writeln("функциональная: F1-F10");

#82: writeln(" вставка : Ins");

write(" перемещения курсора");

writeln(" расширенный код = ",ord(ch))

end ; {case}

else writeln(" код символа = ",ord(ch))

until ch=#27 ; { клавиша Esc }

ch:=ReadKey { ожидание нажатия клавиши

для выхода из программы }

В приложении 1 приведена кодовая таблица ПЭВМ и все расширенные коды сканирования.

Используя рассмотренные процедуры разработать программу,которая по нажатию клавиш:

«стрелка вправо и влево» меняет цвет фона (по кругу от 0до 7)

«стрелка вверх и вниз» меняет цвет символов (от 0до 15)

Алфавитно-цифровой клавиатуры воспроизводит данный символ на экран дисплея.

Ecs завершает работу программы и восстанавливает первоначальные параметры цветности.

Если вы ярый меломан, который много сидит за компьютером, то наверняка часто слушаете на нем музыку, у вас установлен классный мультимедиа проигрыватель, который позволяет вам максимально удобно работать с вашей музыкальной коллекцией. Но может ли ваш проигрыватель дать вам возможность удобно и наглядно регулировать громкость? У многих пользователей ноутбуков есть такая возможность. Пользователям же стационарных компьютеров приходится хуже, так как громкость можно регулировать либо с мультимедийной клавиатуры, либо мышкой тыкать в «Регулятор громкости». Но существует еще один весьма неплохой и наглядный способ регулировать громкость с помощью колесика мышки, наведя курсор на панель задач. При этом на рабочем столе будет показываться большой и стильный регулятор, который покажет текущее состояние громкости. Все это можно сделать с помощью утилиты Volume2.

Программа позволяет достаточно гибко настроить регулятор громкости, включая его внешний вид на панели задач и рабочем столе. В настройках можно выбрать несколько вариантов отображения регулятора на рабочем столе вашего компьютера. Стоит заметить, что выглядят они весьма стильно!

Не стоит думать, что на этом возможности программы заканчиваются! Помимо красивого регулятора вы можете менять значения огромного количества самых разнообразных настроек. На вкладке «Основные» вы найдете список устройств, для которых можно изменять громкость, там же можно задать отдельное приложение, в котором следует регулировать громкость.

На вкладке «Системный трей» в Volume2 можно задать внешний вид и настройки индикатора, расположенного в области уведомлений (трее). Тут вы найдете множество самых разнообразных вариантов отображения индикатора, которые красиво меняются при изменении громкости. Главное, при использовании этого индикатора, отключить стандартный, чтобы в области часов был один, а не два индикатора.

В разделе «События мыши» можно настроить поведение мышки на иконке приложения в трее, способ изменения громкости с помощью колесика мышки и изменить ряд других настроек. Например, можно сделать так, чтобы громкость регулировалась колесиком мышки при наведении на заголовок окна или при наведении курсора на рабочий стол. По умолчанию эта настройка стоит в положении «Панелью задач», то есть при стандартных настройках громкость регулируется колесиком мышки при наведении курсора на панель задач.

Помимо управления громкостью программа Volume2 позволяет задавать различные дополнительные возможности, которые к громкости не имеют никакого отношения. Например, можно назначать горячие клавиши не только на управление громкостью, но и на управление яркостью экрана, извлекать диски из CD/DVD привода, а также безопасно извлекать USB-устройства. Еще одной интересной особенностью программы является возможность задавать расписание выполнения различных задач. Можно автоматизировать процесс выключения или снижения уровня громкости в определенное время суток, автоматически запускать приложения в заданное время, а также по расписанию показывать на экране сообщения.

В целом, Volume2 достаточно сильно напичкана самыми разнообразными настройками, которые могут показаться полезными некоторым меломанам. Естественно, программа полностью русифицирована (автор наш с вами соотечественник) и разобраться в настройках не составит труда, если у вас есть на это время и желание кастомизировать свою систему, сделав ее максимально удобной для работы и прослушивания музыки. Работает утилита под операционными системами Windows 7/Vista/XP.

Ко мне обратился человек с просьбой написать программу, которая позволила бы управлять компьютерной мышью при помощи голоса. Тогда я и представить себе не мог, что, практически полностью парализованный человек, который даже не может сам повернуть голову, а может лишь разговаривать, способен развить бурную деятельность, помогая себе и другим жить активной жизнью, получать новые знания и навыки, работать и зарабатывать, общаться с другими людьми по всему свету, участвовать в конкурсе социальных проектов.

Позволю себе привести здесь пару ссылок на сайты, автором и/или идейным вдохновителем которых является этот человек – Александр Макарчук из города Борисов, Беларусь:

Для работы на компьютере Александр использовал программу «Vocal Joystick» - разработку студентов Университета штата Вашингтон, выполненную на деньги Национального Научного Фонда (NSF). См. melodi.ee.washington.edu/vj

Не удержался

Кстати, на сайте университета (http://www.washington.edu/) 90% статей именно про деньги. Трудно найти что-нибудь про научную работу. Вот, например, выдержки с первой страницы: «Том, выпускник университета, раньше питался грибами и с трудом платил за квартиру. Теперь он старший менеджер ИТ-компании и кредитует университет», «Большие Данные помогают бездомным», «Компания обязалась заплатить 5 миллионов долларов за новый учебный корпус».

Это одному мне режет глаз?


Программа была сделана в 2005-2009 годах и хорошо работала на Windows XP. В более свежих версиях Windows программа может зависнуть, что неприемлемо для человека, который не может встать со стула и её перезапустить. Поэтому программу нужно было переделать.

Исходных текстов нет, есть только отдельные публикации, приоткрывающие технологии, на которых она основана (MFCC, MLP – читайте об этом во второй части).

По образу и подобию была написана новая программа (месяца за три).

Собственно, посмотреть, как она работает, можно :

Скачать программу и/или посмотреть исходные коды можно .

Никаких особенных действий для установки программы выполнять не надо, просто щёлкаете на ней, да запускаете. Единственное, в некоторых случаях требуется, чтобы она была запущена от имени администратора (например, при работе с виртуальной клавиатурой “Comfort Keys Pro”):

Пожалуй, стоит упомянуть здесь и о других вещах, которые я ранее делал для того, чтобы можно было управлять компьютером без рук.

Если у вас есть возможность поворачивать голову, то хорошей альтернативой eViacam может послужить гироскоп, крепящийся к голове. Вы получите быстрое и точное позиционирование курсора и независимость от освещения.

Если вы можете двигать только зрачками глаз, то можно использовать трекер направления взгляда и программу к нему (могут быть сложности, если вы носите очки).

Часть II. Как это устроено?

Из опубликованных материалов о программе «Vocal Joystick» было известно, что работает она следующим образом:
  1. Нарезка звукового потока на кадры по 25 миллисекунд с перехлёстом по 10 миллисекунд
  2. Получение 13 кепстральных коэффициентов (MFCC) для каждого кадра
  3. Проверка того, что произносится один из 6 запомненных звуков (4 гласных и 2 согласных) при помощи многослойного персептрона (MLP)
  4. Воплощение найденных звуков в движение/щелчки мыши
Первая задача примечательна лишь тем, что для её решения в реальном времени пришлось вводить в программу три дополнительных потока, так как считывание данных с микрофона, обработка звука, проигрывание звука через звуковую карту происходят асинхронно.

Последняя задача просто реализуется при помощи функции SendInput.

Наибольший же интерес, мне кажется, представляют вторая и третья задачи. Итак.

Задача №2. Получение 13 кепстральных коэффициентов

Если кто не в теме – основная проблема узнавания звуков компьютером заключается в следующем: трудно сравнить два звука, так как две непохожие по очертанию звуковые волны могут звучать похоже с точки зрения человеческого восприятия.

И среди тех, кто занимается распознаванием речи, идёт поиск «философского камня» - набора признаков, которые бы однозначно классифицировали звуковую волну.

Из тех признаков, что доступны широкой публике и описаны в учебниках, наибольшее распространение получили так называемые мел-частотные кепстральные коэффициенты (MFCC).

История их такова, что изначально они предназначались совсем для другого, а именно, для подавления эха в сигнале (познавательную статью на эту тему написали уважаемые Оппенгейм и Шафер, да пребудет радость в домах этих благородных мужей. См. A. V. Oppenheim and R.W. Schafer, “From Frequency to Quefrency: A History of the Cepstrum”).

Но человек устроен так, что он склонен использовать то, что ему лучше знакомо. И тем, кто занимался речевыми сигналами, пришло в голову использовать уже готовое компактное представление сигнала в виде MFCC. Оказалось, что, в общем, работает. (Один мой знакомый, специалист по вентиляционным системам, когда я его спросил, как бы сделать дачную беседку, предложил использовать вентиляционные короба. Просто потому, что их он знал лучше других строительных материалов).

Являются ли MFCC хорошим классификатором для звуков? Я бы не сказал. Один и тот же звук, произнесённый мною в разные микрофоны, попадает в разные области пространства MFCC-коэффициентов, а идеальный классификатор нарисовал бы их рядом. Поэтому, в частности, при смене микрофона вы должны заново обучать программу.

Это всего лишь одна из проекций 13-мерного пространства MFCC в 3-мерное, но и на ней видно, что я имею в виду – красные, фиолетовые и синие точки получены от разных микрофонов: (Plantronix, встроенный массив микрофонов, Jabra), но звук произносился один.

Однако, поскольку ничего лучшего я предложить не могу, также воспользуюсь стандартной методикой – вычислением MFCC-коэффициентов.

Чтобы не ошибиться в реализации, в первых версиях программы в качестве основы был использован код из хорошо известной программы CMU Sphinx, точнее, её реализации на языке C, именующейся pocketsphinx, разработанной в Университете Карнеги-Меллона (мир с ними обоими! (с) Хоттабыч).

Исходные коды pocketsphinx открыты, да вот незадача – если вы их используете, то должны в своей программе (как в исходниках, так и в исполняемом модуле) прописать текст, содержащий, в том числе, следующее:

* This work was supported in part by funding from the Defense Advanced * Research Projects Agency and the National Science Foundation of the * United States of America, and the CMU Sphinx Speech Consortium.
Мне это показалось неприемлемым, и пришлось код переписать. Это сказалось на быстродействии программы (в лучшую сторону, кстати, хотя «читабельность» кода несколько пострадала). Во многом благодаря использованию библиотек “Intel Performance Primitives”, но и сам кое-что оптимизировал, вроде MEL-фильтра. Тем не менее, проверка на тестовых данных показала, что получаемые MFCC-коэффициенты полностью аналогичны тем, что получаются при помощи, например, утилиты sphinx_fe.

В программах sphinxbase вычисление MFCC-коэффициентов производится следующими шагами:

Шаг Функция sphinxbase Суть операции
1 fe_pre_emphasis Из текущего отсчёта вычитается большая часть предыдущего отсчета (например, 0.97 от его значения). Примитивный фильтр, отбрасывающий нижние частоты.
2 fe_hamming_window Окно Хемминга – вносит затухание в начале и конце кадра
3 fe_fft_real Быстрое преобразование Фурье
4 fe_spec2magnitude Из обычного спектра получаем спектр мощности, теряя фазу
5 fe_mel_spec Группируем частоты спектра [например, 256 штук] в 40 кучек, используя MEL-шкалу и весовые коэффициенты
6 fe_mel_cep Берём логарифм и применяем DCT2-преобразование к 40 значениям из предыдущего шага.
Оставляем первые 13 значений результата.
Есть несколько вариантов DCT2 (HTK, legacy, классический), отличающихся константой, на которую мы делим полученные коэффициенты, и особой константой для нулевого коэффициента. Можно выбрать любой вариант, сути это не изменит.

В эти шаги ещё вклиниваются функции, которые позволяют отделить сигнал от шума и от тишины, типа fe_track_snr, fe_vad_hangover, но нам они не нужны, и отвлекаться на них не будем.

Были выполнены следующие замены для шагов по получению MFCC-коэффициентов:

Задача №3. Проверка того, что произносится один из 6 запомненных звуков

В программе-оригинале «Vocal Joystick» для классификации использовался многослойный персептрон (MLP) – нейронная сеть без новомодных наворотов.

Давайте посмотрим, насколько оправдано применение нейронной сети здесь.

Вспомним, что делают нейроны в искусственных нейронных сетях.

Если у нейрона N входов, то нейрон делит N-мерное пространство пополам. Рубит гиперплоскостью наотмашь. При этом в одной половине пространства он срабатывает (выдаёт положительный ответ), а в другой – не срабатывает.

Давайте посмотрим на [практически] самый простой вариант – нейрон с двумя входами. Он, естественно, будет делить пополам двумерное пространство.

Пусть на вход подаются значения X1 и X2, которые нейрон умножает на весовые коэффициенты W1 и W2, и добавляет свободный член C.


Итого, на выходе нейрона (обозначим его за Y) получаем:

Y=X1*W1+X2*W2+C

(опустим пока тонкости про сигмоидальные функции)

Считаем, что нейрон срабатывает, когда Y>0. Прямая, заданная уравнением 0=X1*W1+X2*W2+C как раз и делит пространство на часть, где Y>0, и часть, где Y<0.

Проиллюстрируем сказанное конкретными числами.

Пусть W1=1, W2=1, C=-5;

Теперь посмотрим, как нам организовать нейронную сеть, которая бы срабатывала на некоторой области пространства, условно говоря – пятне, и не срабатывала во всех остальных местах.

Из рисунка видно, что для того, чтобы очертить область в двумерном пространстве, нам потребуется по меньшей мере 3 прямых, то есть 3 связанных с ними нейрона.

Эти три нейрона мы объединим вместе при помощи ещё одного слоя, получив многослойную нейронную сеть (MLP).

А если нам нужно, чтобы нейронная сеть срабатывала в двух областях пространства, то потребуется ещё минимум три нейрона (4,5,6 на рисунках):

И тут уж без третьего слоя не обойтись:

А третий слой – это уже почти Deep Learning…

Теперь обратимся за помощью к ещё одному примеру. Пусть наша нейронная сеть должна выдавать положительный ответ на красных точках, и отрицательный – на синих точках.

Если бы меня попросили отрезать прямыми красное от синего, то я бы сделал это как-то так:

Но нейронная сеть априори не знает, сколько прямых (нейронов) ей понадобится. Этот параметр надо задать перед обучением сети. И делает это человек на основе… интуиции или проб и ошибок.

Если мы выберем слишком мало нейронов в первом слое (три, например), то можем получить вот такую нарезку, которая будет давать много ошибок (ошибочная область заштрихована):

Но даже если число нейронов достаточно, в результате тренировки сеть может «не сойтись», то есть достигнуть некоторого стабильного состояния, далёкого от оптимального, когда процент ошибок будет высок. Как вот здесь, верхняя перекладина улеглась на два горба и никуда с них не уйдёт. А под ней большая область, порождающая ошибки:

Снова, возможность таких случаев зависит от начальных условий обучения и последовательности обучения, то есть от случайных факторов:

- Что ты думаешь, доедет то колесо, если б случилось, в Москву или не доедет?
- А ты как думаешь, сойдётся ента нейронная сеть или не сойдётся?

Есть ещё один неприятный момент, связанный с нейронными сетями. Их «забывчивость».

Если начать скармливать сети только синие точки, и перестать скармливать красные, то она может спокойно отхватить себе кусок красной области, переместив туда свои границы:

Если у нейронных сетей столько недостатков, и человек может провести границы гораздо эффективнее нейронной сети, зачем же их тогда вообще использовать?

А есть одна маленькая, но очень существенная деталь.

Я очень хорошо могу отделить красное сердечко от синего фона отрезками прямых в двумерном пространстве.

Я неплохо смогу отделить плоскостями статую Венеры от окружающего её трёхмерного пространства.

Но в четырёхмерном пространстве я не смогу ничего, извините. А в 13-мерном - тем более.

А вот для нейронной сети размерность пространства препятствием не является. Я посмеивался над ней в пространствах малой размерности, но стоило выйти за пределы обыденного, как она меня легко уделала.

Тем не менее вопрос пока открыт – насколько оправдано применение нейронной сети в данной конкретной задаче, учитывая перечисленные выше недостатки нейронных сетей.

Забудем на секунду, что наши MFCC-коэффициенты находятся в 13-мерном пространстве, и представим, что они двумерные, то есть точки на плоскости. Как в этом случае можно было бы отделить один звук от другого?

Пусть MFCC-точки звука 1 имеют среднеквадратическое отклонение R1, что [грубо] означает, что точки, не слишком далеко отклоняющиеся от среднего, наиболее характерные точки, находятся внутри круга с радиусом R1. Точно так же точки, которым мы доверяем у звука 2 находятся внутри круга с радиусом R2.

Внимание, вопрос: где провести прямую, которая лучше всего отделяла бы звук 1 от звука 2?

Напрашивается ответ: посередине между границами кругов. Возражения есть? Возражений нет.
Исправление: В программе эта граница делит отрезок, соединяющий центры кругов в соотношении R1:R2, так правильнее.

И, наконец, не забудем, что где-то в пространстве есть точка, которая является представлением полной тишины в MFCC-пространстве. Нет, это не 13 нулей, как могло бы показаться. Это одна точка, у которой не может быть среднеквадратического отклонения. И прямые, которыми мы отрежем её от наших трёх звуков, можно провести прямо по границам окружностей:

На рисунке ниже каждому звуку соответствует кусок пространства своего цвета, и мы можем всегда сказать, к какому звуку относится та или иная точка пространства (или не относится ни к какому):

Ну, хорошо, а теперь вспомним, что пространство 13-мерное, и то, что было хорошо рисовать на бумаге, теперь оказывается тем, что не укладывается в человеческом мозгу.

Так, да не так. К счастью, в пространстве любой размерности остаются такие понятия, как точка, прямая, [гипер]плоскость, [гипер]сфера.

Мы повторяем все те же действия и в 13-мерном пространстве: находим дисперсию, определяем радиусы [гипер]сфер, соединяем их центры прямой, рубим её [гипер]плоскостью в точке, равно отдалённой от границ [гипер]сфер.

Никакая нейронная сеть не сможет более правильно отделить один звук от другого.

Здесь, правда, следует сделать оговорку. Всё это справедливо, если информация о звуке – это облако точек, отклоняющихся от среднего одинаково во всех направлениях, то есть хорошо вписывающееся в гиперсферу. Если бы это облако было фигурой сложной формы, например, 13-мерной изогнутой сосиской, то все приведённые выше рассуждения были бы не верны. И возможно, при правильном обучении, нейронная сеть смогла бы показать здесь свои сильные стороны.

Но я бы не рисковал. А применил бы, например, наборы нормальных распределений (GMM), (что, кстати и сделано в CMU Sphinx). Всегда приятнее, когда ты понимаешь, какой конкретно алгоритм привёл к получению результата. А не как в нейронной сети: Оракул, на основе своего многочасового варения бульона из данных для тренировки, повелевает вам принять решение, что запрашиваемый звук – это звук №3. (Меня особенно напрягает, когда нейронной сети пытаются доверить управление автомобилем. Как потом в нестандартной ситуации понять, из-за чего машина повернула влево, а не вправо? Всемогущий Нейрон повелел?).

Но наборы нормальных распределений – это уже отдельная большая тема, которая выходит за рамки этой статьи.

Надеюсь, что статья была полезной, и/или заставила ваши мозговые извилины поскрипеть.