Компания представила свою первую автономную модель преобразования речи в текст под названием Scribe, которая поддерживает более 99 языков. Этот шаг позволит компании конкурировать с такими игроками, как Gladia, Speechmatics, AssemblyAI, Deepgram и Whisper от OpenAI.
Scribe от ElevenLabs оперирует более 25 языками с высокой точностью, включая английский, французский, немецкий, хинди, индонезийский, японский, каннада, малаялам, польский, португальский, испанский и вьетнамский.
По данным компании, частота ошибок составляет менее 5%. Для английского языка заявлена точность 97%. Другие языки ранжируются по категориям с высокой (5-10%), хорошей (10-20%) и умеренной (25-50%) частотой ошибок.

В аудиотестах FLEURS и Common Voice модель Scribe показала результаты лучше, чем конкуренты Google Gemini 2.0 Flash и Whisper Large V3. Модель имеет ряд функций, включая выбор дикторского голоса, временные метки на уровне слов для создания точных субтитров и автоматическую разметку звуковых событий, таких как смех аудитории.
Сейчас Scribe работает только с предварительно записанными дорожками. ElevenLabs планирует в ближайшее время выпустить версию с низкой задержкой для работы в режиме реального времени. Это означает, что в текущем виде модель не подходит для транскрипции встреч или создания голосовых заметок.
Стоимость Scribe составляет $0,40 за час транскрибированного аудио. Компания также предоставляет пользователям инструменты для транскрибирования видеоконтента для добавления субтитров.