Wikilect Flow

Wikilect Flow - платформа для запуска AI- и automation-flow с единым API для Telegram, Webhook и веб-чата.

Зачем это бизнесу

  • Быстрый запуск AI-сценариев без сборки отдельного сервиса под каждый канал.
  • Одна flow-логика сразу для нескольких точек входа (сайт, мессенджеры, внешние системы).
  • Контроль и масштабирование на уровне tenant.
  • Быстрый выход в прод: от пилота до стабильной эксплуатации.

Что можно сделать на базе Wikilect Flow

  • Запустить чат-ассистента на сайте через JS-widget.
  • Принимать события и заявки из CRM/ERP через Webhook.
  • Подключить Telegram-бота к существующему flow.
  • Собрать единый контур обработки заявок, ответов и авто-действий.

Варианты развертывания

1) Cloud (рекомендуется для быстрого старта)

Все сервисы запускаются в облаке, а команды фокусируются на сценариях и интеграциях.

Когда подходит:

  • Нужно стартовать быстро, без отдельной DevOps-команды.
  • Нужен гибкий рост нагрузки и быстрая доставка изменений.
  • Нет ограничений на размещение данных вне on-prem контура.

2) On-Premise (для закрытых контуров)

Wikilect Flow можно развернуть в вашем инфраструктурном контуре: в ЦОД или приватном облаке.

Когда подходит:

  • Есть требования ИБ/комплаенса к размещению данных.
  • Нужен полный контроль над сетью, доступами и обновлениями.
  • Есть внутренняя команда эксплуатации (DevOps/SRE).

On-Premise: минимальные инфраструктурные требования

Требования ниже - ориентир для старта и пилота. Для production-профиля ресурсы подбираются по нагрузке.

Слой Минимум (пилот) Рекомендуемо (production)
API + Worker + Beat 2 vCPU, 4 GB RAM 4-8 vCPU, 8-16 GB RAM
PostgreSQL 2 vCPU, 4 GB RAM, SSD 50+ GB 4+ vCPU, 8+ GB RAM, SSD 100+ GB, бэкапы
Valkey/Redis (очереди) 1 vCPU, 1-2 GB RAM 2+ vCPU, 2-4 GB RAM, мониторинг
Object Storage (S3) S3-совместимый storage S3-совместимый storage + lifecycle/policy
Сеть и доступы HTTPS, доступ сервисов между собой HTTPS, сегментация сети, secret management

LLM: cloud и on-premise

Wikilect Flow поддерживает обе модели работы с LLM:

  • Облачные LLM API (быстрый запуск, минимум инфраструктуры).
  • Отдельно развернутые LLM в вашем контуре (on-prem/private cloud, полный контроль над данными и SLA).

Ниже ориентиры для self-hosted LLM. Фактические показатели зависят от железа, квантования, длины контекста, промпта и параллелизма.

Допущение для оценки: средний запрос input 800-1200 токенов, ответ output 200-400 токенов.

Модель Ориентир по железу (минимум) Latency на 1 запрос (TTFT + генерация) Примерная пропускная способность на 1 инстанс
gpt-oss-20b 1x GPU 24-48 GB VRAM (L4/A10/A100-class), CPU 8+ vCPU, RAM 32+ GB 2-6 сек ~20-90 req/min (0.3-1.5 RPS)
gpt-oss-120b 2-4x GPU 80 GB VRAM (A100/H100-class), CPU 16+ vCPU, RAM 128+ GB 5-20 сек ~3-18 req/min (0.05-0.3 RPS)

Рекомендация по выбору:

  • gpt-oss-20b - если важны скорость и стоимость на потоковых B2B-сценариях.
  • gpt-oss-120b - если приоритет качество сложных reasoning-задач и допускается более высокая latency.

Технический стек

  • Backend API: FastAPI.
  • Frontend: Vue.
  • Асинхронное выполнение: Celery + Valkey.
  • Хранение данных: PostgreSQL.
  • Файлы/результаты: S3-совместимое Object Storage.

Быстрый навигатор