Час созвона можно за пять минут превратить в текст, протокол с решениями и список задач. Разберём пайплайн по шагам — и где ИИ незаметно подменяет факты.
После каждой встречи кто-то должен сесть и написать: о чём договорились, кто что делает, к какому сроку. Эту рутину почти полностью закрывает ИИ. Но важно понимать, что «расшифровать созвон нейросетью» — это не одна кнопка, а два разных движка под капотом: один переводит звук в текст, второй превращает текст в осмысленный протокол. Если их не разделять, легко выбрать неподходящий инструмент и получить кашу вместо протокола.
Что узнаешь из гайда
Часть 1 · Пайплайн
Главное
Сначала распознавание речи переводит звук в слова, потом языковая модель делает из слов протокол. Это два разных движка, даже если внешне работает один сервис.
Путаница начинается, когда «расшифровку» считают единым действием. На деле тут два независимых этапа. Первый — speech-to-text: модель слушает аудио и выдаёт сырой текст, дословно, со словами-паразитами и обрывками. Второй — осмысление: чат-модель (ChatGPT, Claude, GigaChat) берёт этот сырой текст и превращает в человеческий протокол. Понимание этой границы сразу объясняет, почему встроенная расшифровка Zoom даёт «простыню» без структуры — она делает только первый шаг.
| Шаг | Что делает | Чем |
|---|---|---|
| 1. Звук → текст | Дословная расшифровка речи | Whisper, SaluteSpeech, Zoom |
| 2. Текст → протокол | Саммари, решения, задачи | ChatGPT, Claude, GigaChat |
Если нужна именно расшифровка аудио в чистый текст без протокола — смотрите отдельный разбор в гайде про нейросеть для расшифровки аудио. Здесь же фокус на том, что идёт после расшифровки: как собрать протокол встречи.
Часть 2 · Шаг первый
Главное
Качество протокола на 80% зависит от качества расшифровки, а та — от звука. Близкий микрофон и без перебиваний дают чистый текст почти на любом движке.
Вариантов получить текст несколько. Самый простой — встроенная расшифровка: Zoom, Google Meet и Telegram умеют выдавать стенограмму сами. Самый точный для русского — Whisper (модель large-v3) или российский SaluteSpeech от Сбера. Если встреча уже записана файлом, прогоняете запись через выбранный движок и получаете сырой текст.
Важно про говорящих
Если на встрече несколько человек, ищите расшифровку с диаризацией — разметкой «кто говорит». Без неё текст идёт сплошняком, и на втором шаге ИИ не сможет правильно приписать задачи людям. Большинство встроенных расшифровок Zoom и Meet диаризацию дают; чистый Whisper — нет, нужна надстройка.
Часть 3 · Шаг второй
Главное
Сырую расшифровку отдаём чат-модели и просим три чётких блока: саммари, решения, задачи. Без явной структуры в промте ИИ выдаст невнятный пересказ.
На этом шаге работает любая текстовая модель. Берёте расшифровку (целиком или, если встреча длинная, по частям) и даёте промт с жёсткой структурой. Чем конкретнее формат — тем полезнее результат:
Вот расшифровка рабочей встречи. Сделай протокол.
[РАСШИФРОВКА: вставь текст]
Верни строго три блока:
САММАРИ (3-5 предложений)
— о чём была встреча и к чему в итоге пришли.
РЕШЕНИЯ
— маркированный список того, что РЕШИЛИ (не «обсудили»).
ЗАДАЧИ
— формат: задача — ответственный — срок.
— только то, что прямо прозвучало; не выдумывай.
Если ответственный или срок не назван — пиши «не определён».Ключевая строка — «если не названо, пиши „не определён“». Без неё модель из вежливости додумает срок и фамилию, и протокол начнёт врать. Явное разрешение оставлять пробел делает результат честным.
Хороший протокол отличает «решили» от «обсудили». ИИ путает их по умолчанию — потребуй разделять.
Часть 4 · Action items
Главное
Самое ценное во встрече — это задачи с ответственными. Просите ИИ отдельным проходом собрать их в формате, который можно сразу скопировать в трекер.
После протокола полезно сделать отдельный, узкий проход именно по задачам — чтобы ничего не потерялось между «поговорили» и «занесли в таск-трекер». Промт:
Из этой расшифровки собери только задачи.
[РАСШИФРОВКА: текст]
Формат каждой строки:
[ ] Задача — Ответственный — Срок
Правила:
- одна задача = одна строка;
- если ответственный не назван — «?»;
- если срока нет — «без срока»;
- НЕ добавляй задачи, которых не было в разговоре.Готовый список вставляете в Notion, Trello или любой трекер. Если ведёте задачи в Notion — посмотрите, как его ИИ-ассистент помогает с этим дальше, в гайде про Notion AI.
Коротко
Часть 5 · Границы
Главное
ИИ-протокол — это черновик, требующий сверки. Модель путает, кто что сказал, превращает «надо бы» в «решили» и выдумывает сроки. В протоколах с деньгами это особенно дорого.
Типичные ошибки одинаковы у всех моделей. Во-первых, атрибуция: на сплошной расшифровке без разметки говорящих ИИ приписывает задачу не тому человеку. Во-вторых, усиление: осторожное «давайте подумаем» в протоколе становится твёрдым «решили сделать». В-третьих, галлюцинации сроков: если дату никто не называл, модель может её придумать. Поэтому финальный протокол всегда проходит вашими глазами по записи.
Когда нельзя без проверки
Не рассылайте ИИ-протокол команде или клиенту без вычитки — особенно если в нём обязательства, дедлайны или деньги. Ошибочно приписанная задача или выдуманный срок создают реальный конфликт «я такого не говорил». Для конфиденциальных встреч ещё проверьте, что запись вообще можно загружать в облачный сервис.
Лайфхак сверки
Просите ИИ к каждой задаче и решению дать короткую цитату из расшифровки, на которой оно основано. Это превращает протокол в проверяемый: видите цитату — верите, не видите — повод перепроверить.
Коротко
Вопросы
Сначала получаете текст из аудио или видео встречи через модель распознавания речи (Whisper, встроенная расшифровка Zoom или Telegram, российский SaluteSpeech), а потом отдаёте этот текст в чат-модель, чтобы она сделала протокол. Это два разных шага: распознавание речи переводит звук в слова, а языковая модель уже структурирует их в саммари, решения и задачи. Один сервис может закрывать оба шага, но логика всегда такая.
Для русской речи хорошо работают Whisper (модель large-v3) и российский SaluteSpeech от Сбера — оба уверенно держат русский с его морфологией и склонениями. Встроенная расшифровка в Zoom и Telegram удобна, когда не хочется ничего ставить, но на плохом звуке и при нескольких говорящих она чаще путает слова. Качество расшифровки решает звук: близкий микрофон и без перебивания дают точный текст почти на любом движке.
Дайте модели расшифровку встречи и попросите вернуть три блока: краткое саммари обсуждения, список принятых решений и список задач с ответственными и сроками. В промте важно явно потребовать формат «задача — кто — когда», иначе ИИ свалит всё в общий пересказ. Готовый протокол обязательно сверьте с записью: модель иногда приписывает задачу не тому человеку или придумывает срок, которого не было.
Нет, протокол от ИИ всегда нужно вычитывать перед отправкой команде. Модель хорошо пересказывает общий ход встречи, но путается в деталях: может приписать решение не тому человеку, перепутать «обсудили» и «решили» или выдумать срок, которого никто не называл. Особенно опасно это в протоколах с обязательствами и деньгами — там цена ошибки высокая, поэтому финальную сверку с записью никто не отменял.
Читать дальше
Прикладной материал, разборы и рабочие приёмы — то, чем пользуюсь сам, без воды. Залетай, там самое полезное.
Зайти в Telegram