Пример

Prev Next
.
.

  • Главная
    Главная Страница отображения всех блогов сайта
  • Категории
    Категории Страница отображения списка категорий системы блогов сайта.
  • Теги
    Теги Отображает список тегов, которые были использованы в блоге
  • Блоггеры
    Блоггеры Список лучших блоггеров сайта.
  • Авторизация
    Войти Login form


а другие бошад сочту юрия в

Добавлено : Дата: в разделе: Без категории
  • Размер шрифта: Больше Меньше
  • Просмотров: 1793
  • Подписаться на обновления поста
  • Печатать

Я писал статью про распознавание речи и решил потестировать распознавание русского языка программой Google Voice, встроенной в YouTube.
Если открыть ролик и выбрать кнопку «Ещё» - то может появиться опция «Текст видео». (Может и не появиться – это зависит от настроек, которые установил создатель ролика). Я взял ролик, на котором поэт Сергей Гандлевский читает свое стихотворение.

 Я взял ролик, на котором поэт Сергей Гандлевский читает свое стихотворение.

Гандлевский читает в студии (нет посторонних шумов, звучит только голос), читает медленно и четко, не шепелявит и не мямлит, не глотает окончания, он – хороший диктор.  Для любой программы распознавания качество диктора и отсутствие шума – очень важно.

Взяли ролик - Сергей Гандлевский читает свои стихи.




Вот первые два четверостишия – текст стихотворения и его распознанный образ.
Баратынский, Вяземский, Фет и проч.
И валяй цитируй, когда не лень.
Смерть, — одни утверждают, — сплошная ночь,
А другие божатся, что Юрьев день.
В настоящее время близка зима.
В новый год плесну себе коньячку.
Пусть я в общем и целом — мешок дерьма,
Мне еще не скучно хватить снежку…

Результат распознавания:
0:00 баратынский га земли ский fiat и проч (правильно распознано 3 слова из 5)
0:04 и валяется тиру никогда не лень (3 из 6)
0:06 смерть одни утверждают сплошная (4 из 4)
0:09 ночь (1 из 1)
0:10 а другие бошад сочту юрия в день (3 из 6)
0:13 в настоящее время близка тема (4 из 5)
0:17 в новый год присвоив себе коньячку (5 из 6)
0:20 пусть я в общем и целом мешок дерьма (8 из 8)
0:23 мне еще не скучно хватить с ней шкуре (5 из 6)

Всего правильно распознано 36 слов из 47 (включая предлоги), то есть 77%. С одной стороны это не так плохо, с другой –  по распознанному тексту – трудно восстановить образец (кроме 2 строк распознанных точно). Например, что значит «а другие бошад сочту юрия в день» или «и валяется тиру никогда не лень», не зная источник, догадаться трудно. 

Здесь хорошо видно как программа распознавания пытается «дотянуться до слова». Получается не всегда. В частности, программа сбивается и не всегда знает, где закончилось слово – особенно это заметно на длинных словах. «Баратынского» программа «знает» по фамилии, а «Вяземского» - нет - вместо него "га земли ский". (Фета она тоже не знает - ей ближе знаком fiat).

Не удалось распознать редкие слова: кроме фамилий «Вяземский», «Фет», это – «божатся», «плесну», «Юрьев день» , «валяй». А вот слово «дерьма» - программе знакомо.

Словоразделы в русском языке плавающие, то есть силовое ударение не закреплено за первым или последним слогом в слове (как в польском или французском, а это упрощает распознавание). Словораздел в русском языке определяется некоторым интонационным минимумом – когда мы произносим слово, то сначала «поднимаемся» до ударения, а потом «опускаемся», а если ударение на последнем слоге – то интонация круто обрывается вниз к паузе. Дополнительная проблема в том, что слова достаточно длинные (по сравнению, например, с английским), а в длинных словах возникает кроме главного ударения еще и дополнительные повышения голоса. (И с этим связано, то что в продвинутых программах распознавание ориентируется не на отдельные слова, а на целые фразы).

Если взять другие ролики, например, такие, где говорят несколько человек, где разговор происходит не в студии, а на улице, точность распознавания (даже для английской речи, которая на сегодня распознается лучше чем другие) будет заметно ниже. Так для сравнения, я брал чтение во время публичного выступления английским поэтом Дереком Уолкоттом (Derek Walcott) небольшого и очень простого по лексике стихотворения «Love After Love» – количество правильно распознанных слов было не более 30%.

Но «в общем и целом» – такое распознавание уже не пустое место, есть серьезное продвижение.

Комментарии

No post has been created yet.