Watson Speech to Text обзор: лучший сервис транскрипции? обзор

Watson — это компьютерная система IBM для обработки естественного языка. Он поддерживает известный суперкомпьютер, отвечающий на вопросы, а также ряд корпоративных продуктов на основе искусственного интеллекта, включая Watson Speech to Text. В нашем обзоре Watson Speech to Text мы рассмотрим одно из лучших приложений для преобразования текста в текст, идеально подходящее для тех, кто хочет преобразовать звук в текст в масштабе.

Платформа обработки речи Watson доступна в IBM Cloud. Это универсальный инструмент, который можно использовать во многих ситуациях, включая диктовку и транскрипцию конференц-связи. Более того, в отличие от большинства других приложений преобразования речи в текст, он доступен в виде API, что позволяет разработчикам встраивать его в системы голосового управления, среди прочего.

Уотсон Речь в текст: планы и цены

Вы можете использовать Watson Speech to Text для бесплатной обработки до 500 минут аудио в месяц. Если вы хотите конвертировать больше, вам нужно будет платить за каждую минуту звука, а ставка меняется в зависимости от продолжительности обработки звука. Стоимость варьируется от 0,01 до 0,02 долл. США в минуту, при этом требуется дополнительная плата в размере 0,03 долл. США в минуту, если вам требуется IBM Custom Language Model. Доступны также тарифные планы Watson только с премиальными ценами, которые предоставляют доступ к расширенным функциям конфиденциальности данных и гарантиям безотказной работы..

Стоимость услуг Watson для преобразования речи в текст рассчитывается в зависимости от объема контента, который необходимо транскрибировать. (Изображение предоставлено: IBM)

Вы также можете получить доступ к системе Watson Speech to Text через универсальную подписку IBM Cloud. Обработка естественного языка — это всего лишь одно приложение из широкого спектра сервисов искусственного интеллекта, которое вы можете получить через IBM Cloud, так что это хороший вариант для любой организации, которой требуется доступ к высокоскоростным передачам данных, чат-ботам или инструментам преобразования текста в речь.

Уотсон Речь в текст: особенности

Благодаря гибкой интеграции API и других готовых инструментов IBM, служба распознавания речи Watson выходит далеко за рамки базовой транскрипции. Если вы хотите использовать его, например, в контексте обслуживания клиентов, Watson Assistant можно настроить для прямой обработки вопросов на естественном языке или для ответов на запросы по телефону..

В Watson IBM создала многофункциональную платформу обработки естественного языка. (Изображение предоставлено: IBM)

Watson работает с живым звуком на 11 языках и может импортировать звуки в различных предварительно записанных форматах. При потоковой передаче поддержка диагностики в реальном времени означает, что Watson может предложить пользователям приблизиться к микрофону или изменить свою среду. Также впечатляет тот факт, что Watson может различать разных докладчиков в общей беседе благодаря Spear Diarization, функции, которая все еще проходит бета-тестирование..

Уотсон Речь в текст: настройка

Чтобы использовать Watson, первое, что вам нужно сделать, — это создать учетную запись IBM Bluemix. Регистрация бесплатна и безболезненна, требует только адрес электронной почты и пароль. После входа в систему необходимо добавить в свою учетную запись услугу «Речь в текст». На этом этапе вам дадут пару учетных данных, которые вы должны сохранить в своих записях..

Регистрация учетной записи IBM Bluemix необходима для получения доступа к полному набору функций Watson. (Изображение предоставлено: IBM)

После того, как вы это сделали, все становится значительно сложнее. Чтобы получить доступ к Watson, вам нужно добавить эти учетные данные в пакет кода клиентского унифицированного указателя ресурса (cURL) и затем запустить его на своем компьютере. Чтобы точно узнать, какую команду вызывать, ознакомьтесь с этим удобным руководством. В качестве альтернативы, если вы просто хотите увидеть, насколько хорошо работает система Watson, не перепрыгивая через все эти скачки, вы можете попробовать ее на демонстрационном сайте IBM вместо этого..

Уотсон Речь в текст: интерфейс

В отличие от ориентированных на потребителя приложений преобразования голоса в текст, службы Watson предназначены для доступа через API и код, встроенный в другие системы. По этой причине нет реального Ватсона “интерфейс”. Вместо этого к Watson можно получить доступ через три разных интернет-протокола. Это WebSockets, REST API и Watson Developer Cloud.

Watson Speech to Text можно управлять с помощью системы Watson Developer Cloud. (Изображение предоставлено: IBM)

Для управления Watson вам потребуется использовать инструмент командной строки, который подключается к облаку IBM по одному из этих трех маршрутов. Интерфейс, который видит конечный пользователь, взаимодействующий с Watson, должен быть создан кем-то из вашей команды разработчиков отдельно.

Уотсон Речь в текст: производительность

В целом, мы были впечатлены тем, как эта платформа обработки естественного языка обрабатывает реальную речь. Мы использовали Watson для транскрипции записанных нами клипов в различных сложных условиях, а также звуковых фрагментов известных речей на нескольких из 11 поддерживаемых языков Watson..

Мы обнаружили, что Уотсон хорошо выступал с заранее записанной речью. (Изображение предоставлено: IBM)

Хотя для клипов с большим количеством фоновых шумов участились ошибки, в целом Уотсон показал невероятно точные результаты. По нашим тестам мы подсчитали, что непредсказуемые ошибки возникали только в среднем каждые 150 слов. Однако стало ясно, почему функция Waron’s Diarization Speaker остается в бета-тестировании, так как несколько раз во время нашей оценки один голос неправильно обозначался как отдельный оратор..

Уотсон Речь в текст: Поддержка

Ресурсный центр IBM предлагает множество документации, чтобы лучше понять, как применять Watson в вашем конкретном случае использования. Также стоит использовать API-интеграции и SDK, созданные сообществом разработчиков Watson и размещенные на GitHub..

Страница Watson API GitHub является хорошим источником поддержки сервиса Watson Speech to Text. (Изображение предоставлено: IBM)

Если вы не нашли решения своей проблемы там, вы можете обратиться в IBM напрямую, открыв заявку в службу поддержки или связавшись с ними по телефону. Пока вы выбрали один из премиальных пакетов Watson, ваше использование Watson будет защищено соглашением об уровне обслуживания..

Уотсон Речь к тексту: окончательный вердикт

Если в вашей организации есть ноу-хау и ресурсы для правильной интеграции платформы IBM Watson Speech to Text в вашу систему, вы сможете воспользоваться расширенными функциями, такими как диагностика звуковой среды в реальном времени и промежуточные результаты транскрипции. Тем не менее, малые предприятия и организации будут бороться с технической проблемой правильной настройки Watson..

Конкурс

Сервис IBM Watson Speech to Text является прямым конкурентом массовых служб транскрипции Google Cloud Speech-to-Text и Amazon Transcribe. Оба из них значительно дешевле, чем Уотсон, с транскрипцией Google Cloud, например, начиная с $ 0,006 в минуту. Все три службы имеют схожие функции, такие как настраиваемый словарь, но одной функции, которой крайне не хватает в IBM Watson, но которая доступна у обоих конкурентов, является автоматическое распознавание знаков препинания..

Ищете другое решение для подбора текста? Ознакомьтесь с нашим Лучшим руководством по преобразованию текста в текст.