Квантизация нейросетей: как запускать LLM дешевле без сильной потери качества
Квантизация LLM снижает VRAM и стоимость инференса: FP16, INT8, 4-bit, GGUF, AWQ и GPTQ — как выбрать формат и не потерять качество в production.
Квантизация LLM снижает VRAM и стоимость инференса: FP16, INT8, 4-bit, GGUF, AWQ и GPTQ — как выбрать формат и не потерять качество в production.
Evals помогают проверить качество LLM перед запуском в бизнесе: от точности и галлюцинаций до regression tests, RAG-оценки, стоимости, задержки и готовности модели к production.
Статья объясняет, как управлять жизненным циклом LLM в продакшене: версии, тесты, model registry, rollback, мониторинг качества, RAG, логи, инфраструктура и культура LLMOps.
Практическое руководство по cloud-init для VPS: настройка SSH-доступа, пользователей, firewall, пакетов, Docker, обновлений безопасности, мониторинга и базового hardening сервера.
Статья объясняет, как работает PostgreSQL PITR: зачем нужны base backup и WAL-архивы, как настроить восстановление на точку времени, выбрать recovery target, продумать retention и проверить backup на практике.
Разбираем, зачем нужен private container registry, чем отличаются registry:2, GitLab Registry и Harbor, как настроить доступы, сканирование, подписи, retention policy, бэкапы, CI/CD, мониторинг и защиту Docker-образов.
Сравнение Nginx, Caddy и Traefik для VPS, Docker и production: TLS, автосертификаты, Docker labels, performance, observability и практические сценарии выбора.
Разбираем, как bastion host и jump server помогают безопасно организовать SSH-доступ: закрыть прямой вход на серверы, централизовать аудит, управлять ключами и снизить риски.
Как защитить API от дорогих запросов: rate limits, quotas, weighted limits, защита CPU, RAM, GPU и мониторинг перерасхода ресурсов.