Watson — это компьютерная система IBM для обработки естественного языка. Он поддерживает известный суперкомпьютер, отвечающий на вопросы, а также ряд корпоративных продуктов на основе искусственного интеллекта, включая Watson Speech to Text. В нашем обзоре Watson Speech to Text мы рассмотрим одно из лучших приложений для преобразования текста в текст, идеально подходящее для тех, кто хочет преобразовать звук в текст в масштабе.
Платформа обработки речи Watson доступна в IBM Cloud. Это универсальный инструмент, который можно использовать во многих ситуациях, включая диктовку и транскрипцию конференц-связи. Более того, в отличие от большинства других приложений преобразования речи в текст, он доступен в виде API, что позволяет разработчикам встраивать его в системы голосового управления, среди прочего.
Уотсон Речь в текст: планы и цены
Вы можете использовать Watson Speech to Text для бесплатной обработки до 500 минут аудио в месяц. Если вы хотите конвертировать больше, вам нужно будет платить за каждую минуту звука, а ставка меняется в зависимости от продолжительности обработки звука. Стоимость варьируется от 0,01 до 0,02 долл. США в минуту, при этом требуется дополнительная плата в размере 0,03 долл. США в минуту, если вам требуется IBM Custom Language Model. Доступны также тарифные планы Watson только с премиальными ценами, которые предоставляют доступ к расширенным функциям конфиденциальности данных и гарантиям безотказной работы..
Стоимость услуг Watson для преобразования речи в текст рассчитывается в зависимости от объема контента, который необходимо транскрибировать. (Изображение предоставлено: IBM)
Вы также можете получить доступ к системе Watson Speech to Text через универсальную подписку IBM Cloud. Обработка естественного языка — это всего лишь одно приложение из широкого спектра сервисов искусственного интеллекта, которое вы можете получить через IBM Cloud, так что это хороший вариант для любой организации, которой требуется доступ к высокоскоростным передачам данных, чат-ботам или инструментам преобразования текста в речь.
Уотсон Речь в текст: особенности
Благодаря гибкой интеграции API и других готовых инструментов IBM, служба распознавания речи Watson выходит далеко за рамки базовой транскрипции. Если вы хотите использовать его, например, в контексте обслуживания клиентов, Watson Assistant можно настроить для прямой обработки вопросов на естественном языке или для ответов на запросы по телефону..
В Watson IBM создала многофункциональную платформу обработки естественного языка. (Изображение предоставлено: IBM)
Watson работает с живым звуком на 11 языках и может импортировать звуки в различных предварительно записанных форматах. При потоковой передаче поддержка диагностики в реальном времени означает, что Watson может предложить пользователям приблизиться к микрофону или изменить свою среду. Также впечатляет тот факт, что Watson может различать разных докладчиков в общей беседе благодаря Spear Diarization, функции, которая все еще проходит бета-тестирование..
Уотсон Речь в текст: настройка
Чтобы использовать Watson, первое, что вам нужно сделать, — это создать учетную запись IBM Bluemix. Регистрация бесплатна и безболезненна, требует только адрес электронной почты и пароль. После входа в систему необходимо добавить в свою учетную запись услугу «Речь в текст». На этом этапе вам дадут пару учетных данных, которые вы должны сохранить в своих записях..
Регистрация учетной записи IBM Bluemix необходима для получения доступа к полному набору функций Watson. (Изображение предоставлено: IBM)
После того, как вы это сделали, все становится значительно сложнее. Чтобы получить доступ к Watson, вам нужно добавить эти учетные данные в пакет кода клиентского унифицированного указателя ресурса (cURL) и затем запустить его на своем компьютере. Чтобы точно узнать, какую команду вызывать, ознакомьтесь с этим удобным руководством. В качестве альтернативы, если вы просто хотите увидеть, насколько хорошо работает система Watson, не перепрыгивая через все эти скачки, вы можете попробовать ее на демонстрационном сайте IBM вместо этого..
Уотсон Речь в текст: интерфейс
В отличие от ориентированных на потребителя приложений преобразования голоса в текст, службы Watson предназначены для доступа через API и код, встроенный в другие системы. По этой причине нет реального Ватсона “интерфейс”. Вместо этого к Watson можно получить доступ через три разных интернет-протокола. Это WebSockets, REST API и Watson Developer Cloud.
Watson Speech to Text можно управлять с помощью системы Watson Developer Cloud. (Изображение предоставлено: IBM)
Для управления Watson вам потребуется использовать инструмент командной строки, который подключается к облаку IBM по одному из этих трех маршрутов. Интерфейс, который видит конечный пользователь, взаимодействующий с Watson, должен быть создан кем-то из вашей команды разработчиков отдельно.
Уотсон Речь в текст: производительность
В целом, мы были впечатлены тем, как эта платформа обработки естественного языка обрабатывает реальную речь. Мы использовали Watson для транскрипции записанных нами клипов в различных сложных условиях, а также звуковых фрагментов известных речей на нескольких из 11 поддерживаемых языков Watson..
Мы обнаружили, что Уотсон хорошо выступал с заранее записанной речью. (Изображение предоставлено: IBM)
Хотя для клипов с большим количеством фоновых шумов участились ошибки, в целом Уотсон показал невероятно точные результаты. По нашим тестам мы подсчитали, что непредсказуемые ошибки возникали только в среднем каждые 150 слов. Однако стало ясно, почему функция Waron’s Diarization Speaker остается в бета-тестировании, так как несколько раз во время нашей оценки один голос неправильно обозначался как отдельный оратор..
Уотсон Речь в текст: Поддержка
Ресурсный центр IBM предлагает множество документации, чтобы лучше понять, как применять Watson в вашем конкретном случае использования. Также стоит использовать API-интеграции и SDK, созданные сообществом разработчиков Watson и размещенные на GitHub..
Страница Watson API GitHub является хорошим источником поддержки сервиса Watson Speech to Text. (Изображение предоставлено: IBM)
Если вы не нашли решения своей проблемы там, вы можете обратиться в IBM напрямую, открыв заявку в службу поддержки или связавшись с ними по телефону. Пока вы выбрали один из премиальных пакетов Watson, ваше использование Watson будет защищено соглашением об уровне обслуживания..
Уотсон Речь к тексту: окончательный вердикт
Если в вашей организации есть ноу-хау и ресурсы для правильной интеграции платформы IBM Watson Speech to Text в вашу систему, вы сможете воспользоваться расширенными функциями, такими как диагностика звуковой среды в реальном времени и промежуточные результаты транскрипции. Тем не менее, малые предприятия и организации будут бороться с технической проблемой правильной настройки Watson..
Конкурс
Сервис IBM Watson Speech to Text является прямым конкурентом массовых служб транскрипции Google Cloud Speech-to-Text и Amazon Transcribe. Оба из них значительно дешевле, чем Уотсон, с транскрипцией Google Cloud, например, начиная с $ 0,006 в минуту. Все три службы имеют схожие функции, такие как настраиваемый словарь, но одной функции, которой крайне не хватает в IBM Watson, но которая доступна у обоих конкурентов, является автоматическое распознавание знаков препинания..
Ищете другое решение для подбора текста? Ознакомьтесь с нашим Лучшим руководством по преобразованию текста в текст.