ECHO — Кеширование AI | Экономия до 70% на GPT и Claude

ECHO

Платите за AI
в 3 раза меньше

Используете ChatGPT API, Claude или другие AI модели? ЭХО запоминает ответы и отдаёт их мгновенно при повторных запросах.Open Source • Self-hosted

Очень быстрый старт Как это работает?

Поддержите проект

ECHO бесплатен. Помогите развитию — любая сумма важна

Поддержать

Для чего это?

Решаем важнейшие проблемы AI

Дорого

GPT-5.4 стоит $2.50-$15 за миллион токенов. Одинаковые вопросы — платите каждый раз заново.

Медленно

AI API отвечает 3-10 секунд. Пользователи ждут. Каждый раз. Даже если вопрос уже был.

Повторяется

50-70% запросов одинаковые. Вы платите и ждёте за то, что уже было.

Как это работает?

ЭХО — прокси между вашим приложением и AI API. Запоминает ответы и отдаёт мгновенно.

Запрос

Приложение отправляет запрос. ЭХО проверяет кеш.

Поиск

Нашли похожий? Отдаём из кеша за миллисекунды.

API

Новый запрос? Идём к AI, получаем и сохраняем.

Чего мы добились

Цифры из реальных проектов

50-70%

Попаданий в кеш

Половина всех запросов возвращается из кеша мгновенно, без обращения к AI API

200x

Быстрее

Ответ из кеша приходит за миллисекунды вместо нескольких секунд от API

$5,250

Экономия

На 1 млн токенов GPT-5.4 при 60% cache hit rate. Реальные деньги на масштабе

< 10ms

Время ответа

Кеш отдаёт результат практически мгновенно — пользователи не ждут

Быстрый старт

Три простых шага до запуска

Скачайте

wget https://raw.githubusercontent.com/warcorprp-web/echo-trovu.tech/main/docker-compose.yml

Один файл конфигурации Docker Compose

Всё открыто — изучайте

Запустите

docker compose up

После появления адресов нажмите D (detach)

Всё работает локально на вашей машине

Настройте

http://ваш-ip:8000

Следуйте мастеру настройки в браузере

Ко всем данным доступ только у вас

Техническая информация

Что внутри и как это работает

FastAPI

Современный Python фреймворк для API с автоматической документацией

Redis

In-memory база данных для хранения кеша с LRU eviction

Faiss

Векторная база от Meta^* для семантического поиска (IndexIDMap)

Transformers

Модель all-MiniLM-L6-v2 для генерации эмбеддингов

Streaming

Полная поддержка SSE для потоковой передачи ответов

Function Calling

Поддержка tools и function calling из коробки

Temperature

Автоматический пропуск креативных запросов (>1.0)

Безопасность

Защита паролем, сессии, хеширование bcrypt

Совместимость

Работает с любым OpenAI-совместимым API

OpenAI

Полная совместимость

Claude

Бета совместимость

Gemini

Бета совместимость

YandexGPT

Полная совместимость

GigaChat

Нужна прослойка

Другие

OpenRouter, Together AI, Groq, Ollama, LM Studio, vLLM

Документация

Примеры использования и настройка кеширования

Python SDK

Используйте OpenAI SDK, просто измените base_url

client = OpenAI(
  base_url="http://localhost:8000/v1"
)

cURL

Прямые HTTP запросы к API

curl -X POST \
  http://localhost:8000/v1/chat/completions

Streaming

SSE поддержка из коробки

stream = client.chat.completions.create(
  stream=True
)

Temperature 0.0-1.0

Кешируется. Для фактов, кода, документации

"temperature": 0.7

Temperature > 1.0

НЕ кешируется. Для креативных задач

"temperature": 1.5

Threshold 0.85-0.88

Рекомендуемый порог семантического поиска

Настраивается в веб-панели

Платите за AIв 3 раза меньше

Для чего это?

Дорого

Медленно

Повторяется

Как это работает?

Запрос

Поиск

API

Чего мы добились

Быстрый старт

Скачайте

Запустите

Настройте

Техническая информация

FastAPI

Redis

Faiss

Transformers

Streaming

Function Calling

Temperature

Безопасность

Совместимость

OpenAI

Claude

Gemini

YandexGPT

GigaChat

Другие

Документация

Python SDK

cURL

Streaming

Temperature 0.0-1.0

Temperature > 1.0

Threshold 0.85-0.88

Платите за AI
в 3 раза меньше