Идентификация но голосу и особенностям речи
Поможем в ✍️ написании учебной работы
Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой

 

Биометрический подход, связанный с идентификацией голоса, удобен в применении. Однако основным и определяющим недостатком этого подхода является низкая точность идентификации. Например, человек с простудой или ларингитом может испытывать трудности при использовании данных систем. Причинами внедрения этих систем являются повсеместное распространение телефонных сетей и практика встраивания микрофонов в компьютеры и периферийные устройства. В качестве недостатков таких систем можно назвать факторы, влияющие на результаты распознавания: помехи в микрофонах, влияние окружающей обстановки на результаты распознавания (шум), ошибки при произнесении, различное эмоциональное состояние проверяемого в момент регистрации эталона и при каждой идентификации, использование разных устройств регистрации при записи эталонов и идентификации, помехи в низкокачественных каналах передачи данных и т. п.

При рассмотрении проблемы аутентификации по голосу важными вопросами с точки зрения безопасности являются следующие:

- Как бороться против использования магнитофонных записей парольных фраз, перехваченных во время установления контакта законного пользователя с аутентификационным терминалом?

- Как защитить систему от злоумышленников, обладающих способностью к имитации голоса, если им удастся узнать парольную фразу?

Ответом на первый вопрос является генерация системой псевдослучайных паролей, которые повторяются вслед за ней пользователем, а также применение комбинированных методов проверки (дополняя вводом идентификационной карточки или цифрового персонального кода).

Ответ на второй вопрос не так однозначен. Человек вырабатывает свое мнение о специфике воспринимаемого голоса путем оценки некоторых его характерных качеств, не обращая внимание при этом на количественную сторону разнообразных мелких компонент речевого сигнала. Автомат же наоборот, не обладая способностью улавливать обобщенную характеристику голоса, свой вывод делает, основываясь на конкретных параметрах речевого сигнала и производя их точный количественный анализ.

Специфическое слуховое восприятие человека приводит к тому, что безупречное воспроизведение профессиональными имитаторами голосов возможно лишь тогда, когда подражаемый субъект характеризуется ярко выраженными особенностями произношения (интонационной картиной, акцентом, темпом речи и т. д.) или тембра (гнусавостью, шепелявостью, картавостью и т. д.). Именно этим следует объяснить тот факт, что даже профессиональные имитаторы оказываются не в состоянии подражать ординарным, не примечательным голосам.

В противоположность людям распознающие автоматы, свободные от субъективного отношения к воспринимаемым образам, производят аутентификацию (распознавание) голосов объективно, на основе строго детерминированных и априори заданных признаков. Обладая «нечеловеческим» критерием оценки схожести голосов, системы воспринимают голос человека через призму своих признаков. Вследствие этого, чем сложнее и «непонятнее» будет совокупность признаков, по которым автомат распознает голос, тем меньше будет вероятность его обмана. В гоже время, несмотря на то, что проблема имитации очень важна и актуальна с практической точки зрения, она все же далека от окончательного решения. Прежде всего до конца не ясен ответ на вопрос, какие именно параметры речевого сигнала наиболее доступны подражанию и какие из них наиболее трудно поддаются ему.

Выбор параметров речевого сигнала способных наилучшим образом описать индивидуальность голоса является, пожалуй, самым важным этапом при построении систем автоматической аутентификации по голосу. Такие параметры сигнала, называемые признаками индивидуальности, помимо эффективности представления информации об особенностях голоса диктора, должны обладать рядом других свойств. Во-первых, они должны быть легко измеряемы и мало зависеть от мешающих факторов окружающей среды (шумов и помех). Во-вторых, они должны быть стабильными во времени. В-третьих, не должны поддаваться имитации.

Постоянно ведутся работы по повышению эффективности систем идентификации по голосу. Известны системы аутентификации по голосу, где применяется метод совместного анализа голоса и мимики, ибо, как оказалось, мимика говорящего характерна только ему и будет отличаться от говорящего те же слова мимики другого человека.

Разрабатываются комбинированные системы, состоящие из блоков идентификации и верификации голоса. При решении задачи идентификации находится ближайший голос (или несколько голосов) из фонотеки, затем в результате решения задачи верификации подтверждается или опровергается принадлежность фонограммы конкретному лицу. Система практически используется при обеспечении безопасности некоторых особо важных объектов.

В последнее время ведутся активные разработки по усовершенствованию и модификации голосовых систем идентификации личности, поиск новых подходов для характеристики человеческой речи, комбинации физиологических и поведенческих факторов.

Задача повышения надежности распознавания может быть решена за счет привлечения грамматической и семантической информации в системах распознавания речи. Для решения этой задачи разработана (при участии экспертов: лингвистов, рядовых носителей языка) модель входного языка, учитывающая особенности их грамматического и семантического поведения (28 основных грамматических классов, около 300 грамматических разрядов слов), ее компьютерное воплощение - лингвистическая база знаний (ЛБЗ) и лингвистический процессор (ЛП). В состав ЛБЗ входят: обширный грамматический словарь - объемом около 100000 единиц; словари словосочетаний; словари униграмм и лексических биграмм; грамматические таблицы и словарь моделей управления. Программы синтактико-семантического анализа, входящие в состав ЛП, обеспечивают: быстрое отсеивание маловероятных вариантов распознавания (локальный анализ), учет обнаруженных при анализе грамматических событий, характеризующих регулярность грамматической структуры и степень грамматичности предложения в целом или отдельных групп (и тем самым возможность выбора в качестве окончательного результата распознавания неграмматичных, но допустимых в речи вариантов). Для решения многокритериальной задачи выбора окончательного варианта были разработаны специальные эвристики метауровня. Лингвистический модуль (ЛБЗ и ЛП) позволяет повысить надежность акустического и фонетического распознавания с 94-95 до 95-97 %.

Уделяется внимание проблемам автоматизированного формирования и сопровождения ЛБЗ систем распознавания речи (для английского и русского языков): построение тезауруса, коррекция словаря лексических n-грамм на основе синтактико-семантической информации и др. Новые методы, как показывают результаты экспериментов, позволяют повысить надежность распознавания еще на 1 %.

Сегодня идентификация по голосу используется для управления доступом в помещения средней степени секретности, например, лаборатории производственных компаний. Лидерами в разработке таких систем являются компании T-Netix, ITT Nuance, Veritel. В системе фирмы Texas Instruments (TI) парольные фразы состояли из 4-словного предложения, причем каждое слово было односложным. Каждая фраза являлась 84 байтами информации. Время аутентификации составляло 5,3 с. Для предотвращения использования заранее записанного на магнитофон пароля система генерировала слова в произвольной последовательности. Общее время проверки на КПП составляло 15 с на одного человека. Для четырех парольных фраз ошибка 1-го рода составила 0,3 %, 2-го рода - 1 %.

Дата: 2019-04-23, просмотров: 140.