ECHO

Платите за AI
в 3 раза меньше

Используете ChatGPT API, Claude или другие AI модели? ЭХО запоминает ответы и отдаёт их мгновенно при повторных запросах.Open Source • Self-hosted

Для чего это?

Решаем важнейшие проблемы AI

Дорого

GPT-5.4 стоит $2.50-$15 за миллион токенов. Одинаковые вопросы — платите каждый раз заново.

Медленно

AI API отвечает 3-10 секунд. Пользователи ждут. Каждый раз. Даже если вопрос уже был.

Повторяется

50-70% запросов одинаковые. Вы платите и ждёте за то, что уже было.

Как это работает?

ЭХО — прокси между вашим приложением и AI API. Запоминает ответы и отдаёт мгновенно.

Запрос

Приложение отправляет запрос. ЭХО проверяет кеш.

Поиск

Нашли похожий? Отдаём из кеша за миллисекунды.

API

Новый запрос? Идём к AI, получаем и сохраняем.

Чего мы добились

Цифры из реальных проектов

50-70%
Попаданий в кеш
Половина всех запросов возвращается из кеша мгновенно, без обращения к AI API
200x
Быстрее
Ответ из кеша приходит за миллисекунды вместо нескольких секунд от API
$5,250
Экономия
На 1 млн токенов GPT-5.4 при 60% cache hit rate. Реальные деньги на масштабе
< 10ms
Время ответа
Кеш отдаёт результат практически мгновенно — пользователи не ждут

Быстрый старт

Три простых шага до запуска

1

Скачайте

wget https://raw.githubusercontent.com/warcorprp-web/echo-trovu.tech/main/docker-compose.yml

Один файл конфигурации Docker Compose

Всё открыто — изучайте
2

Запустите

docker compose up

После появления адресов нажмите D (detach)

Всё работает локально на вашей машине
3

Настройте

http://ваш-ip:8000

Следуйте мастеру настройки в браузере

Ко всем данным доступ только у вас

Техническая информация

Что внутри и как это работает

FastAPI

Современный Python фреймворк для API с автоматической документацией

Redis

In-memory база данных для хранения кеша с LRU eviction

Faiss

Векторная база от Meta* для семантического поиска (IndexIDMap)

Transformers

Модель all-MiniLM-L6-v2 для генерации эмбеддингов

Streaming

Полная поддержка SSE для потоковой передачи ответов

Function Calling

Поддержка tools и function calling из коробки

Temperature

Автоматический пропуск креативных запросов (>1.0)

Безопасность

Защита паролем, сессии, хеширование bcrypt

Совместимость

Работает с любым OpenAI-совместимым API

OpenAI

Полная совместимость

Claude

Бета совместимость

Gemini

Бета совместимость

YandexGPT

Полная совместимость

GigaChat

Нужна прослойка

Другие

OpenRouter, Together AI, Groq, Ollama, LM Studio, vLLM

Документация

Примеры использования и настройка кеширования

Python SDK

Используйте OpenAI SDK, просто измените base_url

client = OpenAI(
  base_url="http://localhost:8000/v1"
)

cURL

Прямые HTTP запросы к API

curl -X POST \
  http://localhost:8000/v1/chat/completions

Streaming

SSE поддержка из коробки

stream = client.chat.completions.create(
  stream=True
)

Temperature 0.0-1.0

Кешируется. Для фактов, кода, документации

"temperature": 0.7

Temperature > 1.0

НЕ кешируется. Для креативных задач

"temperature": 1.5

Threshold 0.85-0.88

Рекомендуемый порог семантического поиска

Настраивается в веб-панели