Искусственный интеллект распознает ваши эмоции. Hume AI выпустил новую голосовую модель

13 июня 2025
21:00
782
Новая модель голосового взаимодействия EVI 3 от Hume AI привлекла значительное внимание в отрасли благодаря своим выдающимся способностям понимать эмоции и возможности персонализировать опыт. Технология может точно распознавать перемены в речи пользователя, генерировать определенные стили и личности на основе предпочтений пользователя.
Это представляет собой значительный прорыв в области эмоциональной и естественной коммуникации для голосового искусственного интеллекта (ИИ). 


EVI 3 (Empathic Voice Interface 3) был разработан компанией Hume AI как голосовая модель третьего поколения на основе мультимодальных наборов данных. Они интегрируют транскрипции речи, рассуждения и синтез голоса.

По сравнению со своими предшественниками, технология призвана сделать качественный скачок в понимании эмоций, естественности речи и персонализированной адаптации.

Подобно голосовому режиму ChatGPT, EVI 3 оснащен набором заранее запрограммированных голосов искусственного интеллекта. Они отсортированы по личности и описанию персонажа, включая старого комика, лайф-коуча, мудрого волшебника, господина подземелья или философа XVIII века Дэвида Юма.

Модель должна генерировать совершенно новые голоса и настройки личности менее чем за секунду на основе простых текстовых подсказок от пользователей, поддерживать более 30 сложных стилей речи и придавать искусственному интеллекту уникальность личности или эмоции.

Вместо редактирования длинного списка конкретных атрибутов, пользователям достаточно просто описать характеристики желаемого голоса с помощью естественного языка, а остальное сделает ИИ.

«Наша модель может мгновенно генерировать новые голоса и личности, не ограничиваясь лишь несколькими дикторами. Например, пользователи могут говорить любым из более чем 100 000 собственных голосов, которые уже были созданы на нашей платформе для преобразования текста в речь», — заявили создатели.

Скорость вывода контекста составляет всего 300 миллисекунд, что значительно превосходит GPT-4o от OpenAI, сопоставимо с новой технологией Sesame и намного опережает Gemini от Google.

В слепом тесте с 1 720 участниками EVI3 превзошел GPT-4o по семи параметрам, включая эмоциональную экспрессию, естественность, качество голоса, скорость реакции и управление прерываниями. Таким образом, он продемонстрировал непревзойденные преимущества в производительности.

Еще более впечатляет тот факт, что во время разговора в режиме реального времени модель ищет, размышляет и интеллектуально реагирует. 

К примеру, при общении с искусственным интеллектом EVI3 может слушать речь пользователя, одновременно вызывать внешние инструменты для поиска информации и плавно включать ответы в разговор. Это значительно повышает беглость и практичность использования.
ЧИТАЙТЕ ПО ТЕМЕ :