Wikilect Flow¶

Wikilect Flow - платформа для запуска AI- и automation-flow с единым API для Telegram, Webhook и веб-чата.

Зачем это бизнесу¶

Быстрый запуск AI-сценариев без сборки отдельного сервиса под каждый канал.
Одна flow-логика сразу для нескольких точек входа (сайт, мессенджеры, внешние системы).
Контроль и масштабирование на уровне tenant.
Быстрый выход в прод: от пилота до стабильной эксплуатации.

Все сервисы запускаются в облаке, а команды фокусируются на сценариях и интеграциях.

Когда подходит:

Wikilect Flow можно развернуть в вашем инфраструктурном контуре: в ЦОД или приватном облаке.

Когда подходит:

Требования ниже - ориентир для старта и пилота. Для production-профиля ресурсы подбираются по нагрузке.

Слой	Минимум (пилот)	Рекомендуемо (production)
API + Worker + Beat	2 vCPU, 4 GB RAM	4-8 vCPU, 8-16 GB RAM
PostgreSQL	2 vCPU, 4 GB RAM, SSD 50+ GB	4+ vCPU, 8+ GB RAM, SSD 100+ GB, бэкапы
Valkey/Redis (очереди)	1 vCPU, 1-2 GB RAM	2+ vCPU, 2-4 GB RAM, мониторинг
Object Storage (S3)	S3-совместимый storage	S3-совместимый storage + lifecycle/policy
Сеть и доступы	HTTPS, доступ сервисов между собой	HTTPS, сегментация сети, secret management

Wikilect Flow поддерживает обе модели работы с LLM:

Облачные LLM API (быстрый запуск, минимум инфраструктуры).
Отдельно развернутые LLM в вашем контуре (on-prem/private cloud, полный контроль над данными и SLA).

Ниже ориентиры для self-hosted LLM. Фактические показатели зависят от железа, квантования, длины контекста, промпта и параллелизма.

Допущение для оценки: средний запрос input 800-1200 токенов, ответ output 200-400 токенов.

Модель	Ориентир по железу (минимум)	Latency на 1 запрос (TTFT + генерация)	Примерная пропускная способность на 1 инстанс
`gpt-oss-20b`	1x GPU 24-48 GB VRAM (L4/A10/A100-class), CPU 8+ vCPU, RAM 32+ GB	2-6 сек	~20-90 req/min (0.3-1.5 RPS)
`gpt-oss-120b`	2-4x GPU 80 GB VRAM (A100/H100-class), CPU 16+ vCPU, RAM 128+ GB	5-20 сек	~3-18 req/min (0.05-0.3 RPS)

Рекомендация по выбору:

gpt-oss-20b - если важны скорость и стоимость на потоковых B2B-сценариях.
gpt-oss-120b - если приоритет качество сложных reasoning-задач и допускается более высокая latency.