Нейросетовой подход для решения задачи распознавания речи

Применение ИНС в качестве средства распознавания имеет значительные преимущества перед распознаванием с использованием статистического подхода, базирующегося на сравнении с эталоном: при достаточно представительном наборе обучающих примеров ИНС в процессе обучения автоматически выделяет значимые признаки, используемые в дальнейшем при распознавании, незначимые признаки на этапе распознавания отбрасываются и не «зашумляют» систему; при увеличении числа примеров в обучающем множестве затраты памяти и времени на распознавание не увеличиваются; ИНС позволяет разделять классы, образующие в пространстве признаков области сложной формы, в том числе линейно неразделимые и неодносвязные.

Однозначных рекомендаций относительно выбора архитектуры НС для тех или других задач нет, тем не менее для распознавания РС целесообразно использовать сети, предназначенные для задач классификации, среди которых наиболее распространен многослойный персептрон.

Вычислительная мощь многослойных ИНС в значительной степени обусловлена введением в модель нейрона функции активации f (x), результат вычисления которой является выходным сигналом нейрона.Функция активации выбирается таким образом, чтобы обеспечивать возбуждение нейрона в случае, когда взвешенная сумма входных сигналов превышает некоторое пороговое значение. В частности, широко используется гиперболический тангенс:

(3.1)

или сигмоида (логистическая функция):

(3.2)

Теоретически число слоев может быть произвольным, а фактически оно ограничено ресурсами компьютера, на котором обычно реализуется ИНС. Количество нейронов в скрытых слоях напрямую зависит от количества синаптических весов , которое в свою очередь ограничено неравенством:

где – количество нейронов входного слоя; – количество нейронов выходного слоя; – длина обучающей выборки. После выбора количества весов рассчитывается количество нейронов в скрытых слоях. Для двухслойной ИНС оно равно:

(3.3)

Наиболее успешный из современных алгоритмов обучения сети – алгоритм обратного распространения ошибки. Обучение многослойной ИНС по алгоритму обратного распространения ошибки (число слоев, без учета входного, равно L) с прямыми связями минимизирует среднеквадратичное отклонение текущего выхода и состоит из следующих шагов:

1) Инициализация весов и пороговых значений ;

2) Вычисление выходного сигналадля каждого слоя:

а) если j -й нейрон принадлежит первому скрытому слою (k =1), то

, , , (3.4)

где – элемент обучающей выборки ;

б) если j -й нейрон не принадлежит первому скрытому слою (k >1), то

, , , (3.5)

где – число нейронов в k- м слое, k – номер слоя, L – число слоев, – вес связи от i -го нейрона к j -му нейрону на k –м слое в момент времени t, – выход j -го нейрона на k –м слое.

3)Вычисление ошибки ИНС E:

(3.6)

4) Настройка синаптических весов в соответствии с формулой:

, , , (3.7)

где – приращение веса связи , – значение ошибки для j -го нейрона на k –м слое, r – шаг обучения.

а) если j -й нейрон с номером принадлежит выходному слою (k = L), то

, (3.8)

где – желаемый выход j -го нейрона.

б) если j -й нейрон принадлежит скрытому слою (k < L), то

. (3.9)

Этот метод обучения является итеративным, каждая итерация разбивается на четыре этапа: инициализация ИНС; вычисление выходного сигналадля каждого слоя; вычисление ошибки ИНС ; настройка весовых коэффициентов (синаптических весов) и адаптация шага r в зависимости от ошибки Е согласно (3.10):

, (3.10)

где a – параметр, выбираемый эмпирически, – параметр, выбираемый эмпирически и являющийся минимально допустимым значением шага, при достижении которого обучение становится невозможным, QE – динамически настраиваемый параметр:

который изначально инициализируется как QE =10³⁸.

При малом r сходимость алгоритма слишком медленная, при большом r обучение происходит быстрее, но увеличивается опасность паралича сети (процесс обучения может практически замереть). В связи с чем возникает необходимость адаптации размера шага в процессе обучения.

Входными данными этого алгоритма являются наборы векторов признаков , хранящихся в базе данных с указанием номера фонемы i и номера соответствующего фонетического класса l, для которого обучается ИНС.

На рис. 3.1 изображена блок-схема алгоритма обучения ИНС.

1. Инициализация весовых коэффициентов и пороговых значений

3. Вычисление выходного сигнала согласно (3.4)

4.Вычисление выходного сигнала согласно (3.5)

5. Вычисление ошибки НС согласно (3.6)

7. Вычисление значения ошибки согласно (3.8)

8. Вычисление значения ошибки согласно (3.9)

9. Настройка синаптических весов согласно (3.7)

10. Адаптация шага r согласно (3.10)

11.

12.

13.

14.

Для выбора наилучшего набора признаков распознавания фонем из таблицы 1.2программно реализуйте двухслойный персептрон с функциями активации (3.1), (3.2). Количество входных нейронов соответствует размерности вектора признаков, количество выходных нейронов соответствует количеству фонем фонетических классов, максимальное количество нейронов в скрытом слое с учетом равнялось (3.3):

При этом начальное значение шага r выбиралось экспериментально и равнялось 0.05, максимально допустимая среднеквадратичная ошибка ε – 0.005.

{

}

Рис.3.1. Блок-схема алгоритма обучения НС

Содержаниеотчета

Отчетдолженсодержать:

1. Постановкузадачи.

2. Оценкиэффективностиработыклассификаторов (% правильнораспознанныхфонемпокаждомунаборупризнаковраспознавания)ввидетаблицы:

% распознавания

Номеранаборовпризнаковсогласнотабл. 1.2

р1 –GMM

р2 – ИНС с функцией активации (3.1)

р2 – ИНС с функцией активации (3.2)

3. Скриншоты, иллюстрирующие работу программы.

4. Выводы. В выводах необходимо оценить эффективность работы классификатор в целом, а также указать наиболее информативный набор признаков для каждого классификатора.

5. Листинг программы.

6. Приложение к отчету – файл с базами данных, содержащими обучающую выборку и результаты обучения классификаторов.

Лабораторнаяробота№4

Тема: разработка системы распознавания речевых команд на основе DTW-алгоритма.

Цель: научитьсястроитьраспознаватель речевых команд методами динамического программирования, приобрести практические навыки использования алгоритма DTW для распознавания речевых команд малого словаря.

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:

5 6 7 8 9 10 11

Правовое положение сословий в Российском государстве в XVIII веке

Калибры, виды и назначение. Контроль параметров макрогеометрии деталей калибрами

Классификация методов обучения

Примеры решения задач. Определите рентабельность продукции по следующим данным: количество выпущенных изделий за квартал - 1 500 штук

Виды деятельности. Существуют различные классификации видов деятельности:

Показатели движения численности работников. Пример 1,2

Самый сильный аргумент, почему эволюция человека не могла быть