Wikilect Flow¶
Wikilect Flow - платформа для запуска AI- и automation-flow с единым API для Telegram, Webhook и веб-чата.
Зачем это бизнесу¶
- Быстрый запуск AI-сценариев без сборки отдельного сервиса под каждый канал.
- Одна flow-логика сразу для нескольких точек входа (сайт, мессенджеры, внешние системы).
- Контроль и масштабирование на уровне tenant.
- Быстрый выход в прод: от пилота до стабильной эксплуатации.
Что можно сделать на базе Wikilect Flow¶
- Запустить чат-ассистента на сайте через JS-widget.
- Принимать события и заявки из CRM/ERP через Webhook.
- Подключить Telegram-бота к существующему flow.
- Собрать единый контур обработки заявок, ответов и авто-действий.
Варианты развертывания¶
1) Cloud (рекомендуется для быстрого старта)¶
Все сервисы запускаются в облаке, а команды фокусируются на сценариях и интеграциях.
Когда подходит:
- Нужно стартовать быстро, без отдельной DevOps-команды.
- Нужен гибкий рост нагрузки и быстрая доставка изменений.
- Нет ограничений на размещение данных вне on-prem контура.
2) On-Premise (для закрытых контуров)¶
Wikilect Flow можно развернуть в вашем инфраструктурном контуре: в ЦОД или приватном облаке.
Когда подходит:
- Есть требования ИБ/комплаенса к размещению данных.
- Нужен полный контроль над сетью, доступами и обновлениями.
- Есть внутренняя команда эксплуатации (DevOps/SRE).
On-Premise: минимальные инфраструктурные требования¶
Требования ниже - ориентир для старта и пилота. Для production-профиля ресурсы подбираются по нагрузке.
| Слой | Минимум (пилот) | Рекомендуемо (production) |
|---|---|---|
| API + Worker + Beat | 2 vCPU, 4 GB RAM | 4-8 vCPU, 8-16 GB RAM |
| PostgreSQL | 2 vCPU, 4 GB RAM, SSD 50+ GB | 4+ vCPU, 8+ GB RAM, SSD 100+ GB, бэкапы |
| Valkey/Redis (очереди) | 1 vCPU, 1-2 GB RAM | 2+ vCPU, 2-4 GB RAM, мониторинг |
| Object Storage (S3) | S3-совместимый storage | S3-совместимый storage + lifecycle/policy |
| Сеть и доступы | HTTPS, доступ сервисов между собой | HTTPS, сегментация сети, secret management |
LLM: cloud и on-premise¶
Wikilect Flow поддерживает обе модели работы с LLM:
- Облачные LLM API (быстрый запуск, минимум инфраструктуры).
- Отдельно развернутые LLM в вашем контуре (on-prem/private cloud, полный контроль над данными и SLA).
Ниже ориентиры для self-hosted LLM. Фактические показатели зависят от железа, квантования, длины контекста, промпта и параллелизма.
Допущение для оценки: средний запрос input 800-1200 токенов, ответ output 200-400 токенов.
| Модель | Ориентир по железу (минимум) | Latency на 1 запрос (TTFT + генерация) | Примерная пропускная способность на 1 инстанс |
|---|---|---|---|
gpt-oss-20b |
1x GPU 24-48 GB VRAM (L4/A10/A100-class), CPU 8+ vCPU, RAM 32+ GB | 2-6 сек | ~20-90 req/min (0.3-1.5 RPS) |
gpt-oss-120b |
2-4x GPU 80 GB VRAM (A100/H100-class), CPU 16+ vCPU, RAM 128+ GB | 5-20 сек | ~3-18 req/min (0.05-0.3 RPS) |
Рекомендация по выбору:
gpt-oss-20b- если важны скорость и стоимость на потоковых B2B-сценариях.gpt-oss-120b- если приоритет качество сложных reasoning-задач и допускается более высокая latency.
Технический стек¶
- Backend API: FastAPI.
- Frontend: Vue.
- Асинхронное выполнение: Celery + Valkey.
- Хранение данных: PostgreSQL.
- Файлы/результаты: S3-совместимое Object Storage.