Санкт-Петербург
Подробная информация напрямую от 100+ приедприятий СПБ

Чего вы не знали о технологиях распознавания речи

Просмотры: 60, Понравилось: 0
Главное изображение

Технология распознавания речи развивается уже более полувека, предоставляя как моменты великой надежды, так и разочарования. Что послужило причиной того, что ASR (автоматическое распознавание речи) сегодня реально используется в коммерческих целях. На что была способна технология в прошлом, задолго до того, как люди узнали о Сири от Apple.

Что такое распознавание речи

Распознавание речи – технология, позволяющая компьютеру или другому устройству интерпретировать человеческую речь, например, в целях транскрипции или в качестве альтернативного метода взаимодействия. Распознавание речи – это процесс, позволяющий преобразовать произнесенные слова и предложения в текст в цифровом виде. Проще говоря, человек произносит фразу, а система на нее реагирует соответственно:

Идея проста, но за ней кроются большие сложности. Ведь письменные системы многих языков мира напрямую не относятся к звучанию записываемых речей – отсутствует четкая связь между отдельными графическими знаками и звуками речи. Знаки соответствуют, например, всем словам и не несут информации о том, из каких звуковых блоков эти слова состоят. Речь не состоит из букв (в отличие от написанного текста), а звучит неразделимо. Когда на диск устройства записывается звучание каждой буквы в отдельности, то при попытке соединить их в речь – ничего не получится. Вот почему программа распознавания речи должна состоять из двух блоков – упрощенно, акустической и лингвистической частей.

Что делают дальше. Основная технология обработки – сжатие речи. Это делается для того, чтобы устранить избыточность и передать по определенному каналу связи или же хранить ее в аудиоархивах. Развитие этой области технологии требует больших финансовых затрат.

История

История данной технологии, прежде всего, отмечает попытки применить различные подходы к предмету. На протяжении десятилетий исследователи приходили к различным методам регистрации языка: через его звучание, структуру, использование статистических данных.

Вспомним начало создания программ ASR с 1950-х до 1990-х годов. Люди были заинтересованы в распознавании и синтезировании речи в течение сотен лет. Но именно в середине двадцатого века создали то, что можно было бы назвать технологией, распознающий человеческий голос. Audrey – один из самых ранних проектов. Системе, созданной исследователями из Bell Laboratories в 1952 году, присвоили английский термин: автоматический распознаватель цифр. Он смог понимать произнесенные цифры путем поиска элементов управления – частотных диапазонов, чего-то вроде голосовых отпечатков пальцев, сущности звука.

В шестидесятые годы IBM разработала Shoebox – систему, понимающую числа и арифметические действия, такие как сложение или суммирование. Более того, она передавала математическую задачу на устройство суммирования, которое рассчитывало и распечатывало результат.

В то же время японские исследователи создали устройство распознавания речи, отличавшее речевые звуки, например, гласные. Другие системы, в свою очередь, смогли оценить структуру высказываний, чтобы определить, когда данное слово может закончиться. Команда из английского университетского колледжа разработала идентификацию четырех гласных и девяти согласных путем анализа фонем – основных единиц звуковой системы языка.

Джон Пирс закрывает копилку

Промышленность постепенно развивалась, хотя и без четко определенного направления. А потом ... катастрофа – публикация в Журнале Акустического Общества Америки. Поворотным моментом стало письмо, написанное в 1969 году Джоном Р. Пирсом – заслуженным инженером международной рекламы. Именно он придумал вездесущий инженерный транзистор и внес вклад в запуск Echo I – первого в мире телекоммуникационного спутника. В 1969 году Пирс уже занимал руководящую должность в Bell Labs, куда вложил значительные средства в развитие технологии распознавания речи.

В открытом письме Пирс прокомментировал свои опасения. Он высказался против обильного безответственного финансирования после WW2 и Sputnik, упрекая сообщество в недостатке научной точности. Он утверждал, что было слишком много бурных экспериментов, связанных с ASR: «Мы все считаем, что есть возможность для научного подхода к данной дисциплине, несмотря на нехватку настоящих ученых, и результатов, похожих на научные». Пирс не был голословным – он приостановил финансирование программ ASR в Bell Labs. Они не были восстановлены, пока он не ушел в отставку в 1971 году.

Хронология развития системы

1952 – Дэвис разработал машину, которая распознает набор из 10 отдельных выражений.

1956 – устройство Олсона и Белара. Использовалось для записи 10 слогов, а в 1961 году – 100 слогов.

1956 – AUDREY – машина распознавания цифр, разработанная в Bell

1960 - разработан метод распознавания трех слов русского языка.

1962 – IBM продемонстрировала машину Shoebox, распознающую 16 английских слов, включая 10 цифр.

1975 – предложение системы Dragon, основанное на свойствах процессов Маркова.

1976 – CMU Harpy – словарь из 1000 слов.

Конец 1970-х – исследование распознавания слитной речи с использованием большого словаря (но не в реальном времени и не в коммерческих целях).

1980-е – словари от нескольких до нескольких тысяч слов.

1990-е – первые продукты массового производства, словари из десятков тысяч слов. Прогресс производительности процессора позволил непрерывное распознавание речи.

2000-е – относительно небольшой прогресс в развитии технологий (по сравнению с предыдущим десятилетием). Словари от десятков до нескольких сотен тысяч слов для решений, зависящих от конкретного говорящего, небольших словарей независимо от говорящего.

2011 – Google словарь для английского – около миллиона различных слов.

Работа систем распознавания речи

Созданные в настоящее время системы основывают свою архитектуру на аналогичных компонентных модулях, которые обрабатывают входные данные согласно указанным правилам:

  1. На первом этапе речевой сигнал подвергается предварительной обработке в связи с тем, что звуковые данные чреваты информационной перегрузкой в виде шума. Эта фаза уменьшает количество ненужной информации. Подготовленные таким образом входные данные подвергаются дальнейшему анализу.
  2. Следующим этапом являются сегментация. Перед началом процесса распознавания речевой сигнал должен быть разделен на небольшие сегменты, то есть на слова, фонемы.
  3. Когда речевой сигнал уже разделен, для того, чтобы различать звуки, извлечь из речевого сигнала соответствующую информацию путем параметризации. Она основана на извлечении характерных признаков этого сигнала, преобразование в векторы признаков, таких как, например амплитуда, мощность, интенсивность, базовая частота.

Подходы и методы, используемые в распознавании речи

В технологии распознавания речи можно выделить три основные категории распознавания:

  1. Подход акустико-фонетический, предполагающий, что фонетические единицы характеризуются рядом характеристик (частота, тональность, тембр). Эти характеристики извлекаются из речевого сигнала и используются, среди прочего, при сегментации речи. Редко используется в коммерческих приложениях.
  2. Метод распознавания образов, включающий 2 этапа:

Важной особенностью такого подхода является то, что он использует хорошо сформулированный математический аппарат и устанавливает последовательные представления закономерностей речи.

  1. Подход, использующий знания, т.е. основанный на искусственном интеллекте. Заключается в механизации процедуры распознавания речи способом, близким к тому, как это делает человек, используя имеющиеся знания.

Разнообразие языков

Из-за недостатков и ограничений, программа распознавания речи требует большой точности. Наиболее важные факторы, влияющие на точность:

Распознавание языка речи – серьезная проблема. Агглютинативные языки (тюркские, финно-угорские, японский) имеют более богатый словарный запас в связи с образованием слов, состоящих в соединении между собой многих морфем. Флективные языки (русский и все славянские, индоевропейская группа), характеризуются относительно свободными шиком предложения и очень богатой морфологической и деривативной системой.

Славянские языки

Большинство систем распознавания речи работают на наиболее распространенных в мире языках, таких как английский, французский, немецкий или японский. Славянские языки продолжают ждать интенсивного развития речевых технологий под их углом зрения. Одна из проблем – гибкая природа славянских языков, которая изменяет основную форму лексических элементов в соответствии с грамматическими, морфологическими и контекстными соотношениями. Они обычно требуют словарей, которые в 10-20 раз больше.

Современные программы

В интернете можно найти много надежных программ распознавания речи для мобильных телефонов. К сожалению, на данный момент они работают только на телефонах BlackBerry и iPhone.

Speak A Message (бесплатная программа) записывает звуковой текст, а затем расшифровывает его. Основные языки – английский, немецкий, испанский и французский, но существует и многоязычная версия.

Отличная и к тому же бесплатная система – Vlingo. Настройка позволяет не только искать контакты и открывать программы голосовыми командами, но и диктовать SMS и электронные письма. Такая технология – настоящее лекарство от переутомления больших пальцев. Программа работает очень эффективно, и с ней не случаются вопиющие ошибки. Vlingo доступна на английском языке, поэтому написание текстов на русском вряд ли получится.

Распознавание русской речи успешно проводит «Горыныч» – дополнение к англоязычной программе Dragon Dictate 2.5. Braina – тоже популярная программа, поддерживающая большое количество языков, включая русский. К сожалению, предназначена только для диктовки.

Разработка системы распознавания речи в течение полувека так и не решила 2 глобальные задачи – достижение 100 % точности при ограниченном наборе команд (для хотя бы одного голоса) и независимое от говорящего распознание слитого языка с нормальным качеством. Сегодня понять одновременную речь нескольких человек не может ни одна программа. Пока – это привилегия человека. Но наука не стоит на месте, возможно, в ближайшее время живые толмачи и авто переводчики окажутся в равных условиях.

Гость
Ваше фото
Рекомендуем вам прочесть