Сравнение: Наша модель vs Yandex SpeechKit

Одинаковые аудиофайлы, две системы транскрибации

Методология

Наша модель (finetuned)
  • Пунктуация и заглавные буквы
  • Числа цифрами (цены, телефоны)
  • Разделение реплик по смыслу
  • Разметка шумов [noise], [silence], [звук кассы]
  • Адаптирована под аптечную лексику
Yandex SpeechKit (базовая)
  • Сплошной поток без пунктуации
  • Числа прописью
  • Нижний регистр
  • Нет разметки шумов
  • Склеивание слов, смысловые ошибки

file_2026-01-29T14-17-15

Анапа, Владимирская, 114 · 2026-01-29 14:17:15

Диалог с клиентом: продажа Физама + консультация по спрею для горла

→ аудио #1
Наша модель (finetuned)
[noise] Доброта... Циклоферон это просто название... [кашель] Карта бонусная Фитофарм есть у вас? Нет. Нет? Оформить карту бонусную вам? Давайте. [sound_of_typing] Здравствуйте. Здравствуйте. 8 747 464 64 64 Физам. Сколько штук? Давайте шестьдесят который карта вот эта. Карта Фитофарм... А, когда есть... Физам 786 будет стоить за 60 капсул. Пробивать вам? Берете? Да. 6037 получается. [звук кассы] Мне еще... Физам... Да, Физам... [silence] Положила по документации. 786. Бонусная Фитофарм есть у вас? Завести карту? Да не надо. 780... [register_beep] Пожалуйста. [noise] Здравствуйте. Здравствуйте. Подскажите от горла что-нибудь? Таблетки... Рассасывать вам? Или спрей? Секунду. Алло, какие? Так, только этого сейчас нету поставщиков... Ангидак... А просто что-нибудь от горла? Таблетки не помогают уже три дня. Тогда спрей возьмите. Спрей... это взрослому? Взрослому. Взрослому... Значит такой Ангидак будет со скидкой. Вот такой вот хороший будет как Тантум Верде. 399 стоит. Этот будет со скидкой тоже как Тантум Верде. Эффективное. 493 рубля будет этот стоить. Сейчас я скажу, этот 399 будет по цене. Эффективно работает реально. Спрей сильный, хороший. Алло, ты тут? Ангидак? Бонусная карта наша есть, нет? Ангидак. Вот такой тоже хороший. Бензидамин тоже содержит как у Тантум Верде. На него скидка сейчас. А вот тут как у Гексорала тоже хороший. Как Гексорал, либо как Тантум Верде, что помогало? 530. Из этих трех какой самый эффективный будет? Вот такой возьмите, 399 будет стоить и хороший. Три-четыре раза в день брызгайте и все будет хорошо и быстро. Хорошо. Сыну надо что-то брать? Да, сыну надо что брать? Быстрее говори. И ребенку от горла есть что-нибудь? [обрыв]
Yandex SpeechKit
здравствуйте ой физам сколько стоит физам семьсот восемьдесят шесть будет стоить за шестьдесят капсул семьсот восемьдесят шесть бонусная карта есть у вас завести карту семьсот девяносто восемьсот пожалуйста здравствуйте можно от горла что нибудь какие нибудь вам или спрей спрей просто что нибудь от горла таблетки не помогают уже три дня спрей возьмите спрей спрей а это взрослый значит такой он будет со скидкой вот такой вот хороший будет как у тантумов девяносто девять стоит этот будет со скидкой тоже как и тантум верде эффективная четыреста девяносто три рубля будет этот стоит сейчас я скажу это триста девяносто девять будет по цене эффективные работают реально спреи сильные хорошие ангидак вот такой тоже хороший бензидамин тоже содержит как у тантума верде сорала тоже хороший как гексорал либо как тантум верде что помогала пятьсот трех какой самый эффективный вот такой возьмите триста девяносто девять будет стоить хороший три четыре раза в день у ребенка возраст какой два и пять вот такой с годика можно для лечения кожи и что еще можно нет все с трех лет иначе вот это только можно у детей старше одного годика да от нуля от одного вот так все с трех здравствуйте восемьсот восемьдесят семь бонусный фитофат да девятьсот тринадцать по номеру да давайте
Наша модель: пунктуация, заглавные буквы, числа цифрами, разделение реплик. Yandex: сплошной поток без знаков, числа прописью, склеивает слова.
Детальный анализ

Форматирование

Наша модель — заглавные буквы, знаки препинания, логические предложения. Yandex — сплошной поток без структуры.

Фармацевтическая лексика

Наша модель чётко распознала: Физам, Ангидак, Тантум Верде, Гексорал. Yandex: «тантум верде сорала» вместо Гексорала — склеивание слов, смысловые ошибки.

Числа

Наша модель: цены цифрами (399, 493, 786). Yandex: числа прописью («триста девяносто девять») — невозможен автопарсинг.

Резюме

Наша модель выдаёт коммерчески пригодный текст. Yandex требует ручной редактуры — не подходит для бизнес-аналитики.

file_2026-01-29T14-22-15

Анапа, Владимирская, 114 · 2026-01-29 14:22:15

Продажа Эплеренона + фоновый разговор сотрудников о работе

→ аудио #2
Наша модель (finetuned)
[звук кассы] Бежит. Картой платите? Да. Положите карту на терминал, и не берите её пока. Всё, карточку забирайте, чек ваш. Спасибо. Пейте по инструкции, всё будет хорошо. Пожалуйста. [noise] [silence] Там в семьдесят восьмом офисе в количестве пишется. Так, сейчас посмотрю. [noise] А если у нас меньше восьми будет, нас штрафуют? Да, в принципе, должны, если нам говорили, что если меньше восьми... но с учетом того, что шесть лекарств, пока не лекарство... в общем, подождём, что будет. Там говорили две тысячи. Офигеть. А тот блондин пришел с девушкой. Нет, блондин... в туалет или... Да я не знаю, с какой фирмой... этот водитель и девушка была. И он говорит: наш новый водитель. Я думаю, блин, а нечего будет... она будет таскать коробки, это водитель? Они откуда? С Краснодара? А, Виктор? [unintelligible] Вот этот Гранд из Краснодара? Тот, что пришел с девушкой и сказал: вот наш новый водитель. Откуда она будет возить, я спрашиваю? С Краснодара? [unintelligible] Да нам-то никакой... пускай возит, пускай таскает, пускай. Ну нам-то что. [noise] [silence] Здравствуйте. Эплеренон. Эплеренон, да. Хорошо. А дозировка какая у вас? 50. Сейчас я скажу, какие у нас есть. Так, 50... Значит, смотрите: есть под названием Спиро 50 миллиграммов, 1663. И есть Иплерон называется, тоже 50 миллиграммов, тоже 30 штук, испанский, 1500 будет стоить. И всё. Больше нет пятидесятиграммовой. Испанский? Да, Испания. Иплерон называется. 1516, да.
Yandex SpeechKit
держите картой платите да положите карту на терминал и не берите ее пока там по инструкции все будет хорошо пожалуйста короче а если у нас меньше в принципе должны он говорил что если меньше его цена но с учетом того что все таки лекарства ему дали как сухуми там говорили две тысячи офигеть выключи это была он пришел с девушкой да я не знаю с какой фирмы этот водитель и девушка была и он говорит нож новый водитель я думаю блин а ничего будет она будет таскать коробки это водитель они откуда с краснодара вот этот гранд с краснодара тот что пришел с девушкой и сказал вот я вот наш новый водитель откуда она будет возить я спрашиваю с краснодара нам то никакой пускай возит пускай таскает пускай ну нам то что уже не нравится уже не нравится она сегодня вообще не хочу вы что опоздаете а когда опаздывают они стоят хотя нормально учатся все у нее получается какие то грамотные там какие то подарки за первые места здравствуйте а а дозировка какая у вас сейчас я скажу какие у нас есть так пятьдесят значит смотрите есть под названиями спиро пятьдесят миллиграммов тысяча шестьсот шестьдесят три есть и плерон называется тоже пятьдесят миллиграммов тоже тридцать штук испанский тысяча пятьсот будет стоить и все больше нет пятидесяти граммовый да испанский иплерон называется тысяча пятьсот шестнадцать да угу
Наша модель: чётко отделила диалог с клиентом от разговора сотрудников. Yandex: смешал всё в поток, пропустил начало диалога с клиентом.
Детальный анализ

Фармацевтическая лексика

Наша модель чётко распознала: Эплеренон, Спиро, Иплерон. Yandex: пропустил название «Эплеренон», заменив на «а а дозировка»; «Иплерон» → «и плерон».

Фоновые разговоры

Наша модель сработала как «умный» фильтр — сосредоточилась на диалоге с клиентом, минимизировала фоновый шум. Yandex: распознал фоновую речь сотрудников, смешав её с рабочим диалогом в нечитаемую кашу.

Смысловая связность

Наша модель сохраняет логику даже при нечёткой речи. Yandex: фонетические галлюцинации — «сухуми», «нож новый водитель» вместо «наш новый водитель».

Резюме

Наша модель адаптирована под бизнес-задачи: чистый текст, точные названия препаратов, отделение релевантного диалога от шума.