Открытый гайд · ИИ-офис

Голосовой ассистентсвоими руками на нейросетях

«Окей, как мне самому собрать Алису?» — на деле это три готовых блока, соединённых в цепочку. Разберём, из чего состоит голосовой ассистент, какие нейросети брать под каждый блок и как собрать рабочий прототип, не написав почти ни строки кода.

@kir.player
~11 минут
июнь 2026

Голосовой ассистент кажется чем-то, что под силу только крупным командам: Алиса, Маруся, Siri — за каждой стоят сотни инженеров. Но если вам нужен не конкурент Яндексу, а свой помощник под конкретную задачу — «отвечай на типовые вопросы клиентов голосом» или «озвучивай мои заметки и отвечай на них» — это собирается из готовых кубиков за вечер. Магии нет: есть три сервиса, которые надо соединить в правильном порядке.

Что узнаешь из гайда

  • Из каких трёх блоков состоит любой голосовой ассистент
  • Какие нейросети закрывают речь, мозг и озвучку — с доступом из РФ
  • Как собрать рабочий прототип почти без кода
  • Где честная граница новичка и сколько это стоит
  • Когда свой ассистент не нужен — берите готовый

Часть 1 · Понятие

Что такое голосовой ассистент и зачем свой

Главное

Голосовой ассистент — это программа, которая слушает голос, понимает запрос и отвечает голосом. Свой имеет смысл собирать, когда нужна узкая задача под вас, а не универсальный помощник «на всё».

Готовые ассистенты вроде Алисы хороши тем, что универсальны: погода, музыка, умный дом, болтовня. Но именно из-за универсальности их нельзя заточить под бизнес-сценарий — например, «отвечай голосом на вопросы по моему прайсу» или «проводи голосовой опрос по скрипту». Свой ассистент решает одну задачу, но точно. Это и есть причина его собирать: не повторить Яндекс, а закрыть конкретную дыру.

Типичные сценарии, под которые люди делают своего ассистента: голосовой автоответчик для маленького бизнеса, помощник по базе знаний компании, обучающий тренажёр (диалог на иностранном языке), домашний помощник под умные устройства. Во всех случаях логика одна — три блока, которые мы разберём дальше.


Часть 2 · Устройство

Три блока: речь → мозг → голос

Главное

Любой голосовой ассистент — это цепочка из трёх сервисов: распознавание речи (STT), языковая модель (LLM) и синтез речи (TTS). Звук → текст → ответ → звук.

Разберём по шагам, что происходит, когда вы говорите ассистенту фразу. Каждый шаг — это отдельный готовый сервис, и заменить любой из них можно, не трогая остальные.

как устроена цепочка
Ваш голос
   ↓  STT (Speech-to-Text) — распознавание речи
Текст вопроса
   ↓  LLM — нейросеть-мозг придумывает ответ
Текст ответа
   ↓  TTS (Text-to-Speech) — синтез речи
Голос ассистента

Что делает каждый блок

БлокЧто делаетАббревиатура
РаспознаваниеПревращает ваш голос в текстSTT
МозгЧитает текст и придумывает ответLLM
ОзвучкаТекст ответа превращает в голосTTS

Эта модульность — главный плюс. Не нравится голос? Меняете только TTS. Ответы скучные? Меняете LLM, остальное не трогаете. Каждый блок — это API: вы отправляете данные на вход и получаете результат, не вникая, как он устроен внутри.


Часть 3 · Инструменты

Какие нейросети брать под каждый блок

Главное

Из России без VPN всю цепочку можно собрать на отечественных сервисах: SpeechKit или SaluteSpeech для речи, GigaChat или YandexGPT для мозга. Зарубежные (Whisper, ChatGPT, ElevenLabs) дают качество выше, но требуют доступа.

Под каждый из трёх блоков есть и российские, и зарубежные варианты. Выбор зависит от того, важнее вам доступность без VPN или предельное качество. Вот рабочий расклад:

Распознавание речи (STT)

Whisper от OpenAI — золотой стандарт, работает с русским и запускается даже на своём компьютере бесплатно. Yandex SpeechKit и SaluteSpeech от Сбера — российские, отлично понимают русскую речь и доступны из РФ. Подробнее про расшифровку звука — в гайде про нейросети для расшифровки аудио.

Мозг (LLM)

Здесь живёт вся логика ответов. ChatGPT и Claude умнее, но требуют доступа из РФ; GigaChat и YandexGPT работают без VPN и хорошо держат русский. Как выбрать модель под задачу — в разборе топ нейросетей 2026.

Озвучка (TTS)

ElevenLabs даёт самый живой голос, но платный и зарубежный. SaluteSpeech и SpeechKit озвучивают по-русски естественно и доступны из РФ. Сравнение голосовых движков — в гайде про нейросети для озвучки текста.

Важно

Не смешивайте всё подряд ради «лучшего из каждого». Цепочка целиком на одном вендоре (например, Сбер: SaluteSpeech + GigaChat) проще в подключении — один ключ, одна документация, один счёт. Собирать «Whisper + Claude + ElevenLabs» имеет смысл, когда вы уже понимаете, зачем вам именно это качество.


Часть 4 · Сборка

Как собрать рабочий прототип

Главное

Начните с текстового прототипа без голоса: сначала заведите чат-бота, который правильно отвечает текстом, и только потом навесьте на него распознавание и озвучку. Голос — последний шаг, а не первый.

Главная ошибка новичка — сразу гнаться за голосом. Голос — это обёртка; если мозг отвечает плохо, красивая озвучка не спасёт. Поэтому путь такой:

  1. Сначала текстовый бот. Соберите чат-бота, который отвечает на ваши вопросы текстом так, как нужно. Это ядро — тот самый «мозг».
  2. Добавьте распознавание. Подключите STT, чтобы вместо набора текста можно было говорить. Голос на входе превращается в тот же текст, что бот уже умеет обрабатывать.
  3. Добавьте озвучку. Навесьте TTS на ответ — теперь бот не пишет, а говорит. Цепочка замкнулась.
  4. Проверьте на реальных фразах. Прогоните 10-15 типовых вопросов вслух. Где ассистент тупит — чините промпт мозга, а не озвучку.

Если хочется не конструктор, а свой код — описывайте задачу словами ИИ-помощнику, и он соберёт скрипт-связку трёх API. Как ставить такие задачи — в гайде про приложение без программирования.

Коротко

  • Сначала текстовый бот с правильными ответами — это ядро.
  • Потом навешиваем распознавание на вход и озвучку на выход.
  • Голос — последний шаг. Качество ассистента живёт в мозге, а не в голосе.

Часть 5 · Реальность

Где честная граница новичка

Собрать прототип, который слушает и отвечает, — посильно за вечер. Сделать из него надёжный продукт для тысяч пользователей — отдельная инженерная работа: задержки, прерывание речи, шумы, одновременные запросы, биллинг. Это нормально: цель новичка — рабочий прототип под свою задачу, а не замена коммерческому ассистенту.

Прототип «слушает и отвечает» — за вечер. Надёжный продукт для тысяч людей — это уже инженерная работа.

Реалистичный первый проект

Голосовой помощник по вашей базе знаний: вы говорите вопрос, он находит ответ в ваших заметках и озвучивает. Узкая задача, понятная ценность, собирается из трёх блоков. Отличный первый проект — в отличие от «своя Алиса на всё», которая утонет в краевых случаях.

Когда свой не нужен

Если задача — бытовая (погода, таймер, музыка, умный дом), свой ассистент бессмысленен: Алиса и Маруся делают это лучше и бесплатно. Свой оправдан только там, где нужна своя логика и свои данные, которых в готовых ассистентах нет.

Коротко

  • Голосовой ассистент = речь → мозг → озвучка, три готовых сервиса в цепочке.
  • Из РФ всё собирается на отечественных API (Сбер, Яндекс) без VPN.
  • Свой нужен под узкую задачу со своими данными — для бытового берите готовый.

Вопросы

Частые вопросы

Можно ли сделать голосового ассистента без программирования?

Да, базового голосового ассистента сегодня реально собрать без кода — на готовых сервисах и конструкторах, где распознавание речи, ИИ-ответ и озвучка уже соединены между собой. Вы настраиваете сценарий и подключаете нейросеть как «мозг», а техническую часть берёт на себя платформа. Полностью свой ассистент с произвольной логикой потребует немного кода, но и его можно писать словами через ИИ-помощника.

Из чего состоит голосовой ассистент?

Голосовой ассистент — это связка из трёх частей: распознавание речи (звук в текст), языковая модель (придумывает ответ) и синтез речи (текст обратно в голос). Сначала ваш вопрос превращается в текст, потом нейросеть формулирует ответ, и в конце голосовой движок его озвучивает. Понимание этих трёх блоков сразу снимает магию: каждый из них — отдельный готовый сервис, который вы соединяете.

Какие нейросети нужны для голосового ассистента?

Для распознавания речи берут Whisper или Yandex SpeechKit, для мозга — ChatGPT, Claude, GigaChat или YandexGPT, для озвучки — ElevenLabs, SaluteSpeech или тот же SpeechKit. Из России без VPN удобнее российские сервисы: SpeechKit и SaluteSpeech закрывают речь, GigaChat и YandexGPT — логику ответов. Связку можно собрать целиком на отечественных API.

Сколько стоит собрать своего голосового ассистента?

Для теста и личного использования голосовой ассистент собирается бесплатно или почти бесплатно: у Whisper, GigaChat и SpeechKit есть бесплатные лимиты, которых хватает на эксперименты. Деньги начинаются при потоке запросов — когда ассистент работает на аудиторию и расходует API по тарифу за объём. Для домашнего помощника или прототипа платить, скорее всего, не придётся.

Читать дальше

Соседние гайды

Telegram про вайбкодинг и ИИ

Прикладной материал, разборы и рабочие приёмы — то, чем пользуюсь сам, без воды. Залетай, там самое полезное.

Зайти в Telegram