Cайт переехал
на новый адрес:
projectveka.ru





 
проект ПЕРПЕТУУМ

Распознавание речи. Желаемое и возможное...

Сайт освещает развитие проекта Перпетуум, направленного на разработку технологии распознавания речи с использованием альтернативных методов.

Если попытаться коротко сформулировать основное отличие идей и методов Перпетуум от традиционных решений, то можно сказать так: традиционный подход в значительной степени основан на словаре и построении модели языка, в то время как технология Перпетуум почти целиком базируется на построении модели звуковосприятия. Слово "звуковосприятие" в данном случае наиболее точно отражает суть и масштаб соответствующих процессов, происходящих в рассматриваемой системе.

Теперь более подробно. Распознавание речи чаще всего представляют как процесс, при котором из звукового потока извлекаются слова путем сравнения неких параметров, получаемых из входного сигнала, с образцами, имеющимися в словаре. В частном случае вместо обычного сравнения может применяться более сложный алгоритм, выполняющий ту же функцию - выделение и идентификацию слов в звуковом потоке на основе данных, имеющихся в словаре. Применяются также правила, устанавливающие возможные связи между словами. Считается, что чем больше слов и вариантов их произношения использовано при создании словаря, тем точнее результат. При этом, как правило, упускается из виду еще одно важное направление - построение модели восприятия звуков. Эта тема, почему-то, всерьёз даже не рассматривается. Так что же такое восприятие звуков, и почему созданию модели звуковосприятия стоит уделять особое внимание?

Программные продукты
Щёлкнув по картинке, можно перейти на страницу программных продуктов, созданных в рамках проекта. Программы доступны для скачивания.

Давайте для начала посмотрим, где "прячется" информация, передаваемая в виде устной речи. Голос. Несет ли он полезную информацию? Хоть он и ассоциируется с речью, но почти никакой полезной информации не несет. Голос лишь увеличивает расстояние, на котором нас могут услышать. Им можно, и даже нужно, пренебречь. Мы меняем голос, мы говорим шепотом - содержание сказанного от этого не меняется. Движения органов речевого аппарата - вот где на самом деле начинается кодирование речевой информации. Эти движения оставляют особый след, ... читать дальше ...

В рамках проекта многое уже сделано. Совершенствуется созданное программное обеспечение, которое можно скачать, посетив страницу "Программные продукты".


Любое использование текстовых и графических материалов данного сайта допустимо только при условии их сопровождения ссылками на источник. Авторские права защищены законами РФ. Евгений Котов. 2010г.
Хостинг от uCoz