ЛИНГВИСТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ПРОГРАММНОГО СИНТЕЗА РЕЧИ
Введение
Важно отметить, что программный синтез речи, построенный с использованием лингвистически обоснованных алгоритмов и правил, является в то же время моделью функционирования звуковой системы языка.
Вместе с тем понятна и прикладная значимость действующих систем автоматического синтеза речи. В частности, для достижения современного уровня преподавания русского языка как иностранного и иностранных языков русскоязычным студентам необходимо использовать современные компьютерные методы обучения с опорой на естественно звучащий автоматический синтез речи. На основе такого синтеза речи могут быть созданы массовые и достаточно дешевые программы и тренажеры, обучающие чтению, т. е. обеспечивающие одновременное овладение графикой изучаемого языка в соотнесении с произносительными нормами. Кроме того, такие тренажеры могут использоваться для исправления произносительного акцента.
Разработка системы, обеспечивающей естественно-речевое общение человека и ЭВМ, во многом облегчает доступ к компьютерной технике для специалистов гуманитарного профиля, в частности, филологов, работающих с текстами. Возможность естественного озвучивания текстов создает психологически комфортную среду для работы на компьютере.
Автоматический анализ и синтез слитной речи является обязательным компонентом систем искуственного интеллекта и необходимым условием развития информационно-справочных систем, т. к. их потенциальным пользователем становится любой человек, имеющий телефон: он может звонить по телефону, запрашивать информацию в обычной речевой форме, и в такой же форме ее получать.
Практическая потребность в создании такого рода систем весьма велика и в социальной сфере, например, как средство социальной реабилитации слепых и слабовидящих. Создание речевого дисплея в виде так называемого “электронного чтеца” кардинально расширяет возможности обучения и интеллектуального обслуживания людей с такого рода физическими недостатками.
Классификация методов автоматического синтеза речи:
1. Метод непосредственного кодирования речевой волны (дискретизация и сжатие) с последующим ее восстановлением. (Цифровое кодирование — восстановление речи.)
2. Формантный или параметрический синтез. (Синтез по правилам.)
3. Цифровое моделирование голосового тракта или синтез, основанный на принципах линейного прогнозирования (КЛП-синтез).
В общепринятых классификациях не упоминается такой метод синтеза, как компиляция (компилятивный синтез). Этот метод, в отличие от синтеза по правилам, оперирует заранее записанными (оцифрованными) участками речи, но, в отличие от методов кодирования-восстановления, позволяет озвучивать произвольный текст, а не заранее заданный словарь или фразарий.
Синтез речи
Многим из вас наверняка доводилось управлять компьютером или смартфоном с помощью голоса. Когда вы говорите Навигатору «Поехали на Гоголя, 25» или произносите в приложении Яндекс поисковый запрос, технология распознавания речи преобразует ваш голос в текстовую команду. Но есть и обратная задача: превратить текст, который есть в распоряжении компьютера, в голос.
Если набор текстов, которые надо озвучить, относительно невелик и в них встречаются одни и те же выражения — как, например, в объявлениях об отправлении и прибытии поездов на вокзале, — достаточно пригласить диктора, записать в студии нужные слова и фразы, а затем собрать из них сообщение. С произвольными текстами, однако, такой подход не работает. Здесь пригодится технология синтеза речи.
В Яндексе для озвучивания текстов используется технология синтеза речи из комплекса Yandex Speechkit. Она, например, позволяет узнать, как произносятся иностранные слова и фразы в Переводчике. Благодаря синтезу речи собственный голос получил и Автопоэт.
Подготовка текста
Задача синтеза речи решается в несколько этапов. Сначала специальный алгоритм подготавливает текст, чтобы роботу было удобно его читать: записывает все числа словами, разворачивает сокращения. Затем текст делится на фразы, то есть на словосочетания с непрерывной интонацией — для этого компьютер ориентируется на знаки препинания и устойчивые конструкции. Для всех слов составляется фонетическая транскрипция.
тобы понять, как читать слово и где поставить в нём ударение, робот сначала обращается к классическим, составленным вручную словарям, которые встроены в систему. Если в нужного слова в словаре нет, компьютер строит транскрипцию самостоятельно — опираясь на правила, заимствованные из академических справочников. Наконец, если обычных правил оказывается недостаточно — а такое случается, ведь любой живой язык постоянно меняется, — он использует статистические правила. Если слово встречалось в корпусе тренировочных текстов, система запомнит, на какой слог в нём обычно делали ударение дикторы.
Дата: 2019-03-06, просмотров: 296.