Другие языки программирования и технологии
Вопрос по поводу FM-синтеза человеческого голоса.
Посоветуйте литературу, или расскажите, что знаете, по этому вопросу. Хочется написать простенький, но адекватно понимаемый синтезатор TTS, языками владею, а вот принципы создания звука, похожего на человеческий голос, пока не особо представляю. Ну так, очень размыто. Именно FM, то есть синтез по уравнениям, интересует, не по словарю и прочим штукам, собирающим речь из кусочков.
Думаю что по таким неординарным вещам литературу не пишут. Это уже наработки научных сотрудников являющиеся интеллектуальной собственностью компании. И эта хрень собственно является источником денег.
В чистом виде синтеза голоса вообще нет. И у гугла и у эпла те же самые словари, которые воспроизводят части слов, а синтезатор лишь их собирает в целое без щелчков, помех и прочих артефактов, имитируя таким образом синтез речи.
ПЫСЫ
Я немного занимался сведением фонограмм с вокалом. Так вот, человеческий голос в трёхмерной диаграмме выглядит как целый набор звуков на разной частоте. Это похоже на гитару. Вот как у гитары аккорд состоит из нескольких звучащих струн, так же и вокал - это набор ярких линий на разных частотах. Гласная буква А на диаграмме выглядит как шесть-восемь отдельно тонально звучащих областей. Да плюсом туда ещё идут призвуки из носовых пазух, из резонанса в зубах, т. е. человек говорит не голосовыми связками, а всей толщей горла и рта. Как ты это собираешься моделировать уравнениями, я не понимаю.
Если бы у тебя были уравнения синтеза речи, то не составило бы труда подделать вообще любой голос, зная его технические характеристики.
В чистом виде синтеза голоса вообще нет. И у гугла и у эпла те же самые словари, которые воспроизводят части слов, а синтезатор лишь их собирает в целое без щелчков, помех и прочих артефактов, имитируя таким образом синтез речи.
ПЫСЫ
Я немного занимался сведением фонограмм с вокалом. Так вот, человеческий голос в трёхмерной диаграмме выглядит как целый набор звуков на разной частоте. Это похоже на гитару. Вот как у гитары аккорд состоит из нескольких звучащих струн, так же и вокал - это набор ярких линий на разных частотах. Гласная буква А на диаграмме выглядит как шесть-восемь отдельно тонально звучащих областей. Да плюсом туда ещё идут призвуки из носовых пазух, из резонанса в зубах, т. е. человек говорит не голосовыми связками, а всей толщей горла и рта. Как ты это собираешься моделировать уравнениями, я не понимаю.
Если бы у тебя были уравнения синтеза речи, то не составило бы труда подделать вообще любой голос, зная его технические характеристики.
А ничего что, как было отвечено выше, звук, всего лишь колебание воздуха определенной чистоты?
Нужно воспроизвести звук разных частот. Учитывая все прочие звуки.
Нужно воспроизвести звук разных частот. Учитывая все прочие звуки.
Евгений Дымов
Дак вот надо как раз учесть все прочие частоты. Чтоб их учесть, их надо знать. Человеческая речь это не писк R2D2, так просто все частоты не учтешь.
Похожие вопросы
- Вопрос по поводу флешки показывает 8 гигов а фильм на 4 гига не скидывает
- Хочу узнать некоторые вопросы по поводу ЯЗЫКОВ ПРОГРАММИРОВАНИЯ
- Вопрос по поводу профессии программист!
- Здравствуйте!Вот у меня очень серьёзный вопрос по поводу СПАМА на компьютере(Порно-Баннер!).
- Вопрос по поводу Pascal...Нужна помощь!
- Вопрос по поводу пароля..помогите плиз...
- Вопрос по поводу exe файлов
- Вопрос по поводу фотошопа cs5.
- Вопрос по поводу 3d max. Как добавить в видео мои модели из 3d max? Заранее спасибо)
- вопрос по поводу у кого сколько времени рендрит в 3DS Max если можна то ссылку на
а в 1961 году компьютер, спевший Daisy Bell, неплохо вдохновил Артура Кларка.
Тут дурацкая антиспам-система, так что и по тому и по другому есть видео на ютубе.