Обзор Microsoft Azure: передовой обзор обработки голоса

Microsoft Azure Speech to Text — одна из самых современных платформ распознавания голоса. Как часть линейки продуктов Microsoft Cognitive Speech Services, она использует алгоритмы глубокого обучения для преодоления низкого качества звука и может адаптироваться к различным стилям речи для точной транскрипции звука. В этом обзоре Microsoft Azure Speech to Text мы подробно рассмотрим этот сервис. 

Стоит отметить, что Microsoft Azure Speech to Text не является традиционным программным обеспечением для удобной диктовки. Вместо этого это платформа, ориентированная на разработчиков, призванная помочь компаниям создавать, тестировать и управлять своими собственными продуктами. Если вы просто хотите транскрибировать пакет аудиофайлов, лучше использовать альтернативные приложения преобразования речи в текст. Взгляните на наше Лучшее программное обеспечение для преобразования текста в текст, чтобы найти лучшие альтернативы..

Microsoft Azure Речь в текст: планы и цены

Используя Microsoft Azure Speech to Text, вы можете бесплатно транслировать до пяти часов аудио и создавать одну собственную модель голоса в месяц. Однако в бесплатном плане одновременно доступен только один одновременный аудио запрос, что означает, что этот вариант не подходит для большинства предприятий..

Оплата речевого сервиса Azure делится на одну секунду. (Изображение предоставлено Microsoft)

Если вы хотите транскрибировать несколько речевых клипов одновременно, вам необходимо перейти на стандартную систему цен Azure. Это стоит 1 доллар в час аудио и поддерживает до 20 одновременных запросов. Дополнительная плата взимается, если вам нужно использовать пользовательскую модель звука или транскрибировать многоканальные звуковые файлы. Эти дополнительные услуги стоят 1,40 долл. США и 2,10 долл. США за час аудио соответственно..

Хотя Microsoft перечисляет свои цены в “за аудио час” формат, как это является отраслевым стандартом, биллинг фактически делится на одну секунду, поэтому вы не будете платить за большее время обработки, чем требуется.

Microsoft Azure Речь в текст: возможности

Ключевой функцией Azure Speech to Text является доступ, который он предоставляет к мощной системе обработки естественного языка Microsoft. За последние несколько лет речевой искусственный интеллект Microsoft достиг нескольких важных вех. Это означает, что теперь он может выполнять задачи, которые ранее были недоступны для службы распознавания речи, такие как точная расшифровка перекрестных разговоров во время разговоров в небольших группах..

Microsoft Azure Speech to Text может интегрироваться с Office 365 для оптимальной точности. (Изображение предоставлено Microsoft)

Azure работает с десятками языков и диалектов и может быть обучен — с помощью пользовательских моделей распознавания речи — чтобы лучше адаптироваться к стилю речи пользователя, шуму фоновой среды и словарному запасу. Если ваша организация уже привержена экосистеме продуктов Microsoft, вы можете использовать пользовательские данные Office 365 для повышения точности распознавания речи для терминов, специфичных для организации. И, что немаловажно, это можно сделать без ущерба для безопасности ваших данных, поскольку Speech to Text можно запускать локально.

Microsoft Azure Речь в текст: настройка

Microsoft Azure был разработан для разработчиков, а не потребителей. Это означает, что его установка является сложной и несколько сложной процедурой, которую лучше оставить кому-то, обладающему большим техническим ноу-хау.. 

Настройка Azure не совсем проста, если у вас нет опыта программирования. (Изображение предоставлено Microsoft)

Самый быстрый способ настроить Azure — это использовать Azure Speech SDK на языке программирования, таком как Java или C ++. Для этого вам необходимо зарегистрировать бесплатную учетную запись Azure и создать пустой проект в среде разработки. Затем вам нужно будет использовать Microsoft Visual Studio и написать короткую программу для инициализации объекта Microsoft SpeechRecognizer.. 

Microsoft Azure Речь в текст: интерфейс

Как и другие платформы массовой транскрипции, Microsoft Azure Speech to Text предназначен для запуска в качестве интерфейса прикладного программирования (API), добавления к программам Office 365 или интеграции в новые платформы и службы. Из-за этого не существует единого интерфейса Azure Speech to Text. То, что увидит конечный пользователь, зависит от того, как Azure Speech to Text была интегрирована.

Онлайн-портал Azure интуитивно понятен и прост в использовании. (Изображение предоставлено Microsoft)

Тем временем разработчик, управляющий Azure, сделает это через онлайн-портал Microsoft Azure, который выглядит современно и легко ориентируется. Поиск страницы ресурса речевых услуг занимает всего несколько минут, и, как только экземпляр добавлен в вашу учетную запись, мониторинг предупреждений и использования можно просматривать в одном окне..

Microsoft Azure Речь в текст: производительность

В рамках нашего обзора речи и текста Microsoft Azure нам было интересно посмотреть, как эта платформа справилась с задачей обработки необработанных голосовых записей, поэтому, как только наша учетная запись Azure была готова к работе, мы загрузили серию клипов с различными уровнями фонового шума. , В целом Azure хорошо поработал над нашими образцами, поскольку в ходе нашей оценки мы увидели всего несколько ошибок..

Включение пользовательской модели речи Azure улучшило нашу точность транскрипции. (Изображение предоставлено Microsoft)

Azure немного боролся при обработке необычных или специальных фраз, таких как названия спортивных команд и научные термины, но это было быстро решено путем включения опции вывода пользовательской модели. Как только мы активировали эту опцию, Azure смог адаптироваться к уникальной лексике и стилю речи, которые мы использовали..

Microsoft Azure Речь в текст: Поддержка

Чтобы узнать, как взаимодействовать с Azure Speech Services SDK с помощью различных языков программирования и интегрировать функции Azure Speech to Text в вашу собственную платформу, вам определенно потребуется помощь. К счастью, Microsoft создала полный каталог учебных материалов для платформы Azure, в котором вы найдете примеры кода и полезные советы. 

Раздел обучения на сайте Azure содержит много полезных ресурсов. (Изображение предоставлено Microsoft)

Кроме того, все клиенты Azure получают бесплатную поддержку для выставления счетов и управления подписками, доступ к которой можно получить через систему заявок. Более подробная поддержка может быть добавлена ​​в ваш аккаунт за регулярную плату, начиная с $ 29 в месяц..

Microsoft Azure Речь в текст: окончательный вердикт

Платформа Azure Speech to Text использует передовые технологии для предоставления практически идеального сервиса транскрипции. Он наиболее подходит для компаний, которые уже вложили средства в экосистему Microsoft Office 365, поскольку пользовательские модели голосовой связи и словарного запаса можно безопасно генерировать из существующего архива документов. Некоторые малые предприятия могут столкнуться с проблемой Azure, так как для правильной настройки требуется внимание квалифицированного разработчика облака Microsoft..

Конкурс

Amazon Transcribe, Google Cloud Speech-to-Text и Watson Speech-Text являются прямыми конкурентами Microsoft Azure. Эти три платформы также способны точно выполнять пакетную транскрипцию в больших объемах. Google Cloud — единственный близкий конкурент, способный работать с большим количеством языков, чем Azure, и при этом он дешевле, при этом стартовый тариф составляет всего 0,006 долл. США в минуту по сравнению с 0,017 долл. США в Azure..

Чтобы найти другие альтернативы Microsoft Azure Speech to Text, ознакомьтесь с нашим Лучшим руководством по преобразованию текста в текст..