myTTS – Искусственный голос и синтез речи
March 10, 09 by TracKerБлуждая в просторах интернета, наткнулся на очень интересный ресурс – Русскоязычный форум по технологиям преобразования текста в речь.
myTTS одна из немногих попыток собрания в одном месте всего что касается синтеза речи для русскоязычной публики. Приятно порадовало развитие и создание различных словарей для русскоязычных голосов немногочисленной группой участников ресурса, что сейчас большая редкость, а также участие в обсуждении разработчиков разных программ для синтеза речи различного калибра и применения.
Разнообразие книг в электронном виде, доступных для скачивания в Интернете или распространяемых на CD-дисках намного упрощает как поиск книжек для почитать так и собрание и накопление личной библиотеки довольно солидного объема. Однако если читать эти книги с экрана, то рано или поздно можно посадить зрение. Распечатка текста на принтере для чтения – довольно затратное и хлопотное дело, увеличивающее горы макулатуры. Отличной альтернативой традиционным способам прочтения книг стало их озвучивание с помощью компьютерных чтецов-роботов – и зрение не портится, и руки во время прослушивания можно занять полезным делом. А если записать синтезированную речь в аудиофайл и “кинуть” на переносной MP3-плеер, появится возможность слушать книги вдали от дома, например в поездках. До безобразия удобно, неправда ли?
Так чем же можно озвучивать книги? Для озвучивания книг в электронном виде используют так называемые программы для синтеза речи. Они включают в себя как сами синтезаторы (голосовые движки), так и программы-оболочки или как их еще называют “скринридеры”, организовывающие пользовательский интерфейс для работы с этими движками. На форуме обсуждается огромное колличество софта направленого именно на чтение аудиокниг, а также множество словарей для этого дела.
Дальше я немножко расскажу о доступных движках для синтеза речи, все ссылки на которые, а также словари и “читалки” к ним есть на myTTS.
Для того чтобы синтезировать речь, прежде всего нужен сам синтезатор – движок для синтеза речи Text-To-Speech (TTS) Engine. Движок – это набор программных средств, выполняющих строго определенную задачу (в нашем случае – задачу синтеза речи) и предоставляющих интерфейс для использования его возможностей. Чтобы обеспечить взаимодействие различных прикладных программ между собой и голосовых синтезаторов, Microsoft предложила использовать стандарт SAPI (Speech Application Programming Interface). Почти все речевые движки поддерживают хотя бы одну из версий этого стандартного программного интерфейса для платформы Windows: MS SAPI 4.x или MS SAPI 5.x, а некоторые – сразу две.
С точки зрения разработчика – создание хорошего речевого движка это чрезвычайно сложная, затратная и трудоемкая задача. Поэтому не многие компании берутся за разработку подобных продуктов. Если англоязычными движками в настоящее время занимаются около десятка иностранных компаний, причем весьма успешно, то русскоязычных движков в буквальном смысле – раз, два и обчелся, да и качество синтезируемой ими речи на порядок ниже. Разработки в области синтеза русской речи ведутся как в Украине, так и в странах ближнего зарубежья, но они или являются предметом научных исследований, или находят коммерческое применение – встраиваются в системы управления бытовой техникой, автоматизированные телефонные справочные службы, сотовые телефоны, системы доступа и тому подобное. Что же касается синтеза речи в Украине, то по словам его разработчиков, он нужен в основном крупным организациям, предоставляющим информационные услуги, да и то далеко не всем.
Постовой: Теперь за WebMoney можно заказать пополнение КиевСтар.