Превратить запись интервью, лекции или созвона в готовый текст можно за минуты. Разберём, чем расшифровывать с доступом из РФ, как не потерять точность и как из транскрипта сразу получить протокол.
Час записи созвона руками расшифровывается за два-три часа — это адовая рутина, на которую жалко жизни. Нейросеть распознавания речи делает то же самое за минуты: загружаешь файл, получаешь текст. Дальше этот текст можно почистить, разбить по спикерам и свести в саммари другой моделью. В этом гайде — какие инструменты реально работают на русском и из России, и как выстроить процесс «звук на входе, готовый документ на выходе».
Что узнаешь из гайда
Часть 1 · Понятие
Главное
Расшифровка (транскрибация) — это перевод устной речи из записи в текст моделью распознавания речи. На входе файл со звуком, на выходе — готовый транскрипт, который можно редактировать и искать по словам.
Технически это задача speech-to-text: модель слушает звуковую дорожку и предсказывает, какие слова в ней звучат. Современные нейросети делают это с точностью выше 90 процентов на чистой записи, а ещё расставляют знаки препинания, понимают разговорный русский и не ломаются на «эээ» и слов-паразитах. Это не та технология, что была пять лет назад: тогда транскрипт надо было переписывать почти заново, теперь — лишь местами поправить.
Где это спасает время на практике: интервью и подкасты (нужен текст под статью), лекции и вебинары (конспект), рабочие созвоны (протокол и задачи), голосовые сообщения (быстро прочитать вместо прослушивания), судебные и врачебные приёмы (документирование). Везде, где есть звук с речью, расшифровка снимает самую тупую часть работы.
Это два противоположных процесса. Расшифровка — голос в текст. Озвучка — наоборот, текст в голос (про неё отдельный гайд про нейросеть для озвучки текста). Если тебе нужен текст из записи — ты здесь. Если нужно озвучить готовый сценарий — тебе в соседний гайд.
Часть 2 · Инструменты
Главное
Три рабочих варианта под русский и доступ из РФ: Whisper (открытый, можно локально), Yandex SpeechKit и SaluteSpeech от Сбера (облачные, без VPN).
| Инструмент | Сильная сторона | Доступ из РФ |
|---|---|---|
| Whisper (OpenAI) | Открыт, точен на шуме и акцентах, работает офлайн | Локально — без ограничений |
| Yandex SpeechKit | Заточен под русский, есть диаризация, облако | Прямой, без VPN |
| SaluteSpeech (Сбер) | Русская речь, интеграция с GigaChat | Прямой, без VPN |
Логика выбора простая. Нужна максимальная приватность и нет лимитов — Whisper локально на своём компьютере, файлы никуда не уходят. Нужно быстро и без возни с установкой — облачный SpeechKit или SaluteSpeech, они работают из России напрямую. Большинству для разовых задач хватит онлайн-сервиса, а тем, кто гоняет десятки часов записей в месяц, выгоднее поднять Whisper у себя.
Важно про приватность
Не загружай в облачные сервисы записи с персональными данными, врачебной или юридической тайной без согласия участников. Для таких записей правильный выбор — локальный Whisper: звук обрабатывается на твоём железе и не покидает компьютер. Это не формальность, а реальный риск утечки.
Часть 3 · Процесс
Главное
Процесс всегда один: подготовить файл → прогнать через модель → почистить текст. Качество результата на 80 процентов зависит от чистоты исходной записи.
Если идёшь через локальный Whisper, это буквально одна команда в терминале. Установил — и гоняешь любые файлы без лимитов и без отправки в облако:
# Ставим один раз (нужен установленный Python)
pip install -U openai-whisper
# Расшифровываем файл моделью large-v3 на русском
# На выходе — .txt, .srt (субтитры) и .vtt рядом с файлом
whisper sozvon.mp3 --model large-v3 --language RussianОблачный путь ещё проще: заходишь в сервис, загружаешь файл, ждёшь, забираешь текст. Но даже в самом удобном сервисе результат портит грязный звук, поэтому перед загрузкой пройдись по короткому чек-листу:
Коротко
whisper файл.mp3 --language Russian, без лимитов и без облака.Часть 4 · Спикеры
Для интервью и созвонов мало просто получить сплошной текст — нужно понимать, кто что сказал. За это отвечает диаризация: модель разделяет дорожку по голосам и помечает реплики «Спикер 1», «Спикер 2». Это поддерживают Yandex SpeechKit и ряд онлайн-сервисов; результат выглядит как диалог в сценарии.
Диаризация не привязывает имена сама — она лишь разделяет голоса. Имена ты подставляешь после, по контексту первых реплик. Если спикеров записывали на разные микрофоны (отдельные дорожки) — расшифруй каждую дорожку отдельно, так разметка получится идеально точной.
Сначала разметь голоса, потом отдай размеченный текст модели — и часовой созвон свернётся в протокол на полстраницы.
Часть 5 · Дальше
Главное
Сырой транскрипт — это сырьё, а не результат. Отдай его языковой модели (ChatGPT, Claude, GigaChat) и попроси свести в то, что реально нужно: саммари, тезисы, задачи.
Связка «распознавание речи плюс языковая модель» и есть настоящая магия. Первая нейросеть превращает звук в текст, вторая — текст в пользу. Готовый промт под протокол созвона:
Вот расшифровка рабочего созвона с разметкой по спикерам.
Сделай из неё протокол:
1. Краткое саммари в 3-4 предложения — о чём договорились.
2. Ключевые решения списком.
3. Задачи в формате: что сделать — кто ответственный — срок.
4. Открытые вопросы, которые остались без ответа.
Пиши по-деловому, без воды. Текст: [вставь транскрипт]Тот же приём работает для статьи из подкаста, конспекта лекции или разбора интервью. Меняется только задание модели. Как формулировать такие промты, чтобы получать чистый результат с первого раза, — в гайде про промты для ChatGPT.
Когда расшифровка не нужна
Если запись короткая и ты слушаешь её один раз — расшифровывать дольше, чем послушать. Если нужна не суть, а интонация и эмоция (например, разбор выступления) — текст её не передаст. И не пытайся расшифровывать музыку или сильно зашумлённый звук: модель выдаст мусор, который править дольше, чем набрать заново.
Пример из жизни
Часовое интервью для статьи: прогнал через Whisper за 4 минуты, разметил спикеров, отдал Claude с промтом «собери черновик статьи по этой беседе». На выходе — готовая болванка текста, которую осталось причесать. Раньше на это уходил весь день.
Коротко
Вопросы
Для русской речи лучше всего работают Whisper от OpenAI (модель large-v3), Yandex SpeechKit и SaluteSpeech от Сбера. Whisper силён на разных акцентах и шумном звуке, SpeechKit и SaluteSpeech заточены под русский и доступны из РФ без обхода блокировок. Точность на чистой записи у всех трёх выше 90 процентов, разница в основном в цене, лимитах и удобстве загрузки файла.
Да, расшифровать аудио в текст можно бесплатно несколькими способами. Whisper открыт и запускается локально на своём компьютере без оплаты, в том числе через бесплатный Google Colab. У облачных сервисов вроде Yandex SpeechKit есть стартовый бесплатный объём, а короткие записи до нескольких минут многие онлайн-инструменты обрабатывают даром. Для длинных файлов и потока удобнее платный тариф или локальный Whisper.
Чтобы разметить, кто что сказал, нужна не просто расшифровка, а диаризация — разделение по голосам. Это умеют сервисы с поддержкой диаризации: они помечают реплики как «Спикер 1», «Спикер 2» и так далее. Дальше транскрипт скидывают в ChatGPT, Claude или GigaChat и просят свести в саммари, тезисы и список задач. Так из часового созвона за пару минут получается готовый протокол.
Самые надёжные форматы для расшифровки — это WAV и MP3 для аудио, MP4 для видео. Перед загрузкой стоит проверить, что речь слышна чётко и фоновый шум не перекрывает голос: на чистой записи точность заметно выше. Очень длинные файлы лучше резать на куски по 20–40 минут, чтобы уложиться в лимиты сервиса и не ждать обработку часами.
Читать дальше
Прикладной материал, разборы и рабочие приёмы — то, чем пользуюсь сам, без воды. Залетай, там самое полезное.
Зайти в Telegram