Искусственный интеллект распознает ваши эмоции. Hume AI выпустил новую голосовую модель
13 июня 2025
21:00
782

Новая модель голосового взаимодействия EVI 3 от Hume AI привлекла значительное внимание в отрасли благодаря своим выдающимся способностям понимать эмоции и возможности персонализировать опыт. Технология может точно распознавать перемены в речи пользователя, генерировать определенные стили и личности на основе предпочтений пользователя.
Это представляет собой значительный прорыв в области эмоциональной и естественной коммуникации для голосового искусственного интеллекта (ИИ).
EVI 3 (Empathic Voice Interface 3) был разработан компанией Hume AI как голосовая модель третьего поколения на основе мультимодальных наборов данных. Они интегрируют транскрипции речи, рассуждения и синтез голоса.
По сравнению со своими предшественниками, технология призвана сделать качественный скачок в понимании эмоций, естественности речи и персонализированной адаптации.
Подобно голосовому режиму ChatGPT, EVI 3 оснащен набором заранее запрограммированных голосов искусственного интеллекта. Они отсортированы по личности и описанию персонажа, включая старого комика, лайф-коуча, мудрого волшебника, господина подземелья или философа XVIII века Дэвида Юма.
Модель должна генерировать совершенно новые голоса и настройки личности менее чем за секунду на основе простых текстовых подсказок от пользователей, поддерживать более 30 сложных стилей речи и придавать искусственному интеллекту уникальность личности или эмоции.
Вместо редактирования длинного списка конкретных атрибутов, пользователям достаточно просто описать характеристики желаемого голоса с помощью естественного языка, а остальное сделает ИИ.
«Наша модель может мгновенно генерировать новые голоса и личности, не ограничиваясь лишь несколькими дикторами. Например, пользователи могут говорить любым из более чем 100 000 собственных голосов, которые уже были созданы на нашей платформе для преобразования текста в речь», — заявили создатели.
Скорость вывода контекста составляет всего 300 миллисекунд, что значительно превосходит GPT-4o от OpenAI, сопоставимо с новой технологией Sesame и намного опережает Gemini от Google.
В слепом тесте с 1 720 участниками EVI3 превзошел GPT-4o по семи параметрам, включая эмоциональную экспрессию, естественность, качество голоса, скорость реакции и управление прерываниями. Таким образом, он продемонстрировал непревзойденные преимущества в производительности.
Еще более впечатляет тот факт, что во время разговора в режиме реального времени модель ищет, размышляет и интеллектуально реагирует.
К примеру, при общении с искусственным интеллектом EVI3 может слушать речь пользователя, одновременно вызывать внешние инструменты для поиска информации и плавно включать ответы в разговор. Это значительно повышает беглость и практичность использования.
ЧИТАЙТЕ ПО ТЕМЕ :