«Окей, как мне самому собрать Алису?» — на деле это три готовых блока, соединённых в цепочку. Разберём, из чего состоит голосовой ассистент, какие нейросети брать под каждый блок и как собрать рабочий прототип, не написав почти ни строки кода.
Голосовой ассистент кажется чем-то, что под силу только крупным командам: Алиса, Маруся, Siri — за каждой стоят сотни инженеров. Но если вам нужен не конкурент Яндексу, а свой помощник под конкретную задачу — «отвечай на типовые вопросы клиентов голосом» или «озвучивай мои заметки и отвечай на них» — это собирается из готовых кубиков за вечер. Магии нет: есть три сервиса, которые надо соединить в правильном порядке.
Что узнаешь из гайда
Часть 1 · Понятие
Главное
Голосовой ассистент — это программа, которая слушает голос, понимает запрос и отвечает голосом. Свой имеет смысл собирать, когда нужна узкая задача под вас, а не универсальный помощник «на всё».
Готовые ассистенты вроде Алисы хороши тем, что универсальны: погода, музыка, умный дом, болтовня. Но именно из-за универсальности их нельзя заточить под бизнес-сценарий — например, «отвечай голосом на вопросы по моему прайсу» или «проводи голосовой опрос по скрипту». Свой ассистент решает одну задачу, но точно. Это и есть причина его собирать: не повторить Яндекс, а закрыть конкретную дыру.
Типичные сценарии, под которые люди делают своего ассистента: голосовой автоответчик для маленького бизнеса, помощник по базе знаний компании, обучающий тренажёр (диалог на иностранном языке), домашний помощник под умные устройства. Во всех случаях логика одна — три блока, которые мы разберём дальше.
Часть 2 · Устройство
Главное
Любой голосовой ассистент — это цепочка из трёх сервисов: распознавание речи (STT), языковая модель (LLM) и синтез речи (TTS). Звук → текст → ответ → звук.
Разберём по шагам, что происходит, когда вы говорите ассистенту фразу. Каждый шаг — это отдельный готовый сервис, и заменить любой из них можно, не трогая остальные.
Ваш голос
↓ STT (Speech-to-Text) — распознавание речи
Текст вопроса
↓ LLM — нейросеть-мозг придумывает ответ
Текст ответа
↓ TTS (Text-to-Speech) — синтез речи
Голос ассистента| Блок | Что делает | Аббревиатура |
|---|---|---|
| Распознавание | Превращает ваш голос в текст | STT |
| Мозг | Читает текст и придумывает ответ | LLM |
| Озвучка | Текст ответа превращает в голос | TTS |
Эта модульность — главный плюс. Не нравится голос? Меняете только TTS. Ответы скучные? Меняете LLM, остальное не трогаете. Каждый блок — это API: вы отправляете данные на вход и получаете результат, не вникая, как он устроен внутри.
Часть 3 · Инструменты
Главное
Из России без VPN всю цепочку можно собрать на отечественных сервисах: SpeechKit или SaluteSpeech для речи, GigaChat или YandexGPT для мозга. Зарубежные (Whisper, ChatGPT, ElevenLabs) дают качество выше, но требуют доступа.
Под каждый из трёх блоков есть и российские, и зарубежные варианты. Выбор зависит от того, важнее вам доступность без VPN или предельное качество. Вот рабочий расклад:
Whisper от OpenAI — золотой стандарт, работает с русским и запускается даже на своём компьютере бесплатно. Yandex SpeechKit и SaluteSpeech от Сбера — российские, отлично понимают русскую речь и доступны из РФ. Подробнее про расшифровку звука — в гайде про нейросети для расшифровки аудио.
Здесь живёт вся логика ответов. ChatGPT и Claude умнее, но требуют доступа из РФ; GigaChat и YandexGPT работают без VPN и хорошо держат русский. Как выбрать модель под задачу — в разборе топ нейросетей 2026.
ElevenLabs даёт самый живой голос, но платный и зарубежный. SaluteSpeech и SpeechKit озвучивают по-русски естественно и доступны из РФ. Сравнение голосовых движков — в гайде про нейросети для озвучки текста.
Важно
Не смешивайте всё подряд ради «лучшего из каждого». Цепочка целиком на одном вендоре (например, Сбер: SaluteSpeech + GigaChat) проще в подключении — один ключ, одна документация, один счёт. Собирать «Whisper + Claude + ElevenLabs» имеет смысл, когда вы уже понимаете, зачем вам именно это качество.
Часть 4 · Сборка
Главное
Начните с текстового прототипа без голоса: сначала заведите чат-бота, который правильно отвечает текстом, и только потом навесьте на него распознавание и озвучку. Голос — последний шаг, а не первый.
Главная ошибка новичка — сразу гнаться за голосом. Голос — это обёртка; если мозг отвечает плохо, красивая озвучка не спасёт. Поэтому путь такой:
Если хочется не конструктор, а свой код — описывайте задачу словами ИИ-помощнику, и он соберёт скрипт-связку трёх API. Как ставить такие задачи — в гайде про приложение без программирования.
Коротко
Часть 5 · Реальность
Собрать прототип, который слушает и отвечает, — посильно за вечер. Сделать из него надёжный продукт для тысяч пользователей — отдельная инженерная работа: задержки, прерывание речи, шумы, одновременные запросы, биллинг. Это нормально: цель новичка — рабочий прототип под свою задачу, а не замена коммерческому ассистенту.
Прототип «слушает и отвечает» — за вечер. Надёжный продукт для тысяч людей — это уже инженерная работа.
Реалистичный первый проект
Голосовой помощник по вашей базе знаний: вы говорите вопрос, он находит ответ в ваших заметках и озвучивает. Узкая задача, понятная ценность, собирается из трёх блоков. Отличный первый проект — в отличие от «своя Алиса на всё», которая утонет в краевых случаях.
Когда свой не нужен
Если задача — бытовая (погода, таймер, музыка, умный дом), свой ассистент бессмысленен: Алиса и Маруся делают это лучше и бесплатно. Свой оправдан только там, где нужна своя логика и свои данные, которых в готовых ассистентах нет.
Коротко
Вопросы
Да, базового голосового ассистента сегодня реально собрать без кода — на готовых сервисах и конструкторах, где распознавание речи, ИИ-ответ и озвучка уже соединены между собой. Вы настраиваете сценарий и подключаете нейросеть как «мозг», а техническую часть берёт на себя платформа. Полностью свой ассистент с произвольной логикой потребует немного кода, но и его можно писать словами через ИИ-помощника.
Голосовой ассистент — это связка из трёх частей: распознавание речи (звук в текст), языковая модель (придумывает ответ) и синтез речи (текст обратно в голос). Сначала ваш вопрос превращается в текст, потом нейросеть формулирует ответ, и в конце голосовой движок его озвучивает. Понимание этих трёх блоков сразу снимает магию: каждый из них — отдельный готовый сервис, который вы соединяете.
Для распознавания речи берут Whisper или Yandex SpeechKit, для мозга — ChatGPT, Claude, GigaChat или YandexGPT, для озвучки — ElevenLabs, SaluteSpeech или тот же SpeechKit. Из России без VPN удобнее российские сервисы: SpeechKit и SaluteSpeech закрывают речь, GigaChat и YandexGPT — логику ответов. Связку можно собрать целиком на отечественных API.
Для теста и личного использования голосовой ассистент собирается бесплатно или почти бесплатно: у Whisper, GigaChat и SpeechKit есть бесплатные лимиты, которых хватает на эксперименты. Деньги начинаются при потоке запросов — когда ассистент работает на аудиторию и расходует API по тарифу за объём. Для домашнего помощника или прототипа платить, скорее всего, не придётся.
Читать дальше
Прикладной материал, разборы и рабочие приёмы — то, чем пользуюсь сам, без воды. Залетай, там самое полезное.
Зайти в Telegram