llm-evaluation.mdПубличный
llm-evaluation
Оценка качества LLM-приложений и агентов
О скиле
Учит Claude оценивать качество LLM-приложений — как проверить что ваш AI-агент или чат-бот отвечает правильно и стабильно. Скил охватывает бенчмарки для LLM, метрики RAGAS (для оценки RAG-систем), обнаружение галлюцинаций (когда AI выдумывает факты), скоринг качества ответов и построение evaluation pipeline. Также A/B тестирование промптов. Если вы строите AI-продукт — получите объективные метрики вместо ощущений кажется работает. Если ML-инженер — внедрите автоматическую проверку регрессий в AI-поведении. Работает с Claude Code.
Как установить
Установка
Похожие скилы
// продолжай по той же профессии или категорииЧастые вопросы
- Что такое скил «llm-evaluation»?
- Как установить скил «llm-evaluation» в Claude Code?
- Бесплатен ли скил «llm-evaluation»?
Больше вопросов про Agent Skills — общий FAQ маркетплейса