For LLM builders & prompt engineers

Лаборатория для
LLM Builders

Прототипируешь Claude / GPT / Gemini API ежедневно? Tab-per-model split-pane, Claude Code в соседней вкладке, voice для system prompt experiments, prepaid ключи к 6+ провайдерам через единый интерфейс. Не платишь за простой облачного IDE пока ждёшь tokens — платишь только Anthropic / OpenAI напрямую.

🧠 6+ LLM в split-pane ⚡ Claude Code рядом 🎤 Voice prompts 🔑 Bring your own keys 📊 Token usage tracking
Fellodesk для AI-инженера — desktop с Claude Code Opus 4.7 и виджетами в Dock
Desktop — Claude Code Opus 4.7 готов к работе, FileManager для curl / openai-cli скриптов, Dock с микрофоном для voice-prompt experiments, мульти-юзер табы для shared experiments.
Fellodesk Brain widget — Claude Opus 4.7 token usage, 5-hour limit и weekly budget
Brain widget — real-time token usage Claude Opus 4.7: 22 minutes session, 32% использовано, 5-hour limit 3%, weekly 50%. Видишь burn rate, не превышаешь лимит.

Почему AI-инженеру это окупается

  • Built-in Claude Code + Claude API без переключения. Tab 1 — Code Agent работает в твоём репо, Tab 2 — direct API для тестов system prompts.
  • Сравнивай 3+ LLM в split-pane. Open в одной сессии Claude Sonnet 4.6, GPT-4o, Gemini 2.5 Pro — запускаешь один промпт во все три параллельно, сравниваешь.
  • Прототип → prod через одно окно. Тестируешь промпт в curl-таб, валидируешь через pytest, push в GitHub — без выхода из браузера.
  • Voice как input для system prompt experiments. Диктуешь длинные prompts голосом <1 сек — Whisper понимает технический жаргон и mixed RU/EN.
  • Тратишь только на actual tokens. Не на простаивающий cloud IDE ($25/мес Replit) — наш $30/мес = инфра + tokens напрямую через твой Anthropic/OpenAI ключ.
  • Bring Your Own Keys. Anthropic, OpenAI, OpenRouter, Mistral, Gemini, Groq — храним в твоём изолированном container, прямые запросы в обход нашего сервера.
  • Token usage dashboard. Видишь сколько потратил на каждый эксперимент, какая модель экономнее, какой prompt дороже — выбираешь оптимум для prod.
Что внутри

Сделано для тех кто пишет prompts профессионально

AI-engineering — это не только train/fine-tune. 80% работы — это эксперименты с промптами, замеры качества и сравнение моделей. Мы оптимизировали каждый шаг.

🧠

Multi-LLM split-pane

Три модели в трёх tmux-panes, один input — три параллельных ответа. Сравниваешь latency, качество, token cost за один запрос.

  • Claude Opus / Sonnet / Haiku
  • GPT-4o, o1, o1-mini, o3
  • Gemini 2.5 Pro / Flash
  • Llama 3, Mistral, DeepSeek через OpenRouter

Claude Code agent

Тот же agent что Anthropic выпустил для CLI — но в браузере, с tmux-persistence и shared sessions. Работает прямо над твоими промпт-файлами.

  • Opus / Sonnet / Haiku — переключение per-tab
  • max_5x prepaid через Pro subscription Claude
  • Read/Edit/Bash tools работают над файлами
  • Multi-tab agent с разными ролями
🎤

Voice prompt input

Длинный system prompt быстрее продиктовать чем напечатать. Push-to-talk Whisper, <1 сек, RU/EN/mixed. Дико ускоряет итерации.

  • Whisper large-v3 для технического словаря
  • Авто-вставка в активный pane
  • History всех voice-промптов с replay
  • Swipe-lock для long-form (5+ мин)
📊

Token & cost tracking

Каждый запрос логируется: модель, input/output tokens, $-стоимость. Дайджест по дню / неделе — какой эксперимент сколько съел.

  • Per-experiment cost breakdown
  • Compare-mode: $1 эксперимент = N запросов
  • Budget alerts при достижении лимита
  • Export в CSV для финансового учёта
🧪

Prompt evals

Встроенный evaluator: загружаешь test cases (JSONL) → каждый prompt прогоняется против всех → видишь pass-rate и regression.

  • JSONL test cases input / expected
  • LLM-as-judge или regex / exact match
  • Diff между двумя версиями prompt
  • Регресс-алерты при изменении prompt
🔬

Embeddings playground

Qdrant локально + UI для семантического поиска. Загружаешь datasets, экспериментируешь с chunks size / embedding models.

  • OpenAI text-embedding-3 small/large
  • Cohere embed v3, Voyage AI
  • Локальные BGE / E5 через HF
  • Vector inspect & similarity scoring
Workflow

Реальный день AI-инженера

Не теория — типичный сценарий prompt-engineer'а работающего над production-агентом.

10:00 — Hypothesis

Клиент жалуется что bot путает intent. Открываешь логи в Tab 1:

  • 📊 Анализируешь 200 fails из last_week.jsonl
  • 🎤 «найди закономерность в этих fails» → Claude
  • 💡 Hypothesis: «модель путает refund vs cancel»
  • 📝 Записал в notes/exp_2026_05_11.md

11:30 — Split test

Открываешь split-pane 3 моделей с improved prompt:

  • 📺 Pane 1: Claude Sonnet 4.6
  • 📺 Pane 2: GPT-4o
  • 📺 Pane 3: Gemini 2.5 Pro
  • 🧪 Один script гоняет 50 test cases во все три

14:00 — Results

Через час видишь результаты:

  • ✅ Claude: 46/50 pass · $0.42 · avg 2.1s
  • ✅ GPT-4o: 44/50 pass · $0.55 · avg 1.8s
  • ✅ Gemini: 41/50 pass · $0.18 · avg 1.4s
  • 🏆 Выбор: Claude (точность важнее $)

17:00 — Deploy

Победивший prompt едет в prod:

  • 🎤 «обнови prompt в bot.py, push в master»
  • ✅ Claude Code: commit · tests pass · pushed
  • 🔔 CI deploy on staging → green
  • 📊 Token usage today: $4.12 (норма)
Pricing

Один эксперимент = окупаемость месяца

$30/мес — это меньше одного A/B-теста с GPT-4o. Экономишь часы на копи-пейсте между OpenAI Playground, Anthropic Console и localhost.

Trial

Для оценки

$0 / 7 дней
  • Полный функционал
  • 1 проект, 4ч/день
  • Bring your own keys
  • Без приоритета поддержки
Начать trial

Team

До 3 AI-инженеров

$80 / месяц
  • Всё из Pro × 3 seats
  • Shared prompt library
  • Pair-prompting через shared tmux
  • Team eval dashboard
  • Approval workflow для prod prompts
  • Slack / Discord integration
Связаться
FAQ

Часто спрашивают

Не нашёл ответ? Напиши в Telegram @coscosang.

Чем это отличается от OpenAI Playground / Anthropic Console?

Playground и Console — single-model UI без split-pane, без сохранения экспериментов как git-commits, без интеграции с твоим кодом. Здесь — три модели рядом, prompt как файл в репо, Claude Code дописывает eval-скрипты сам.

Bring your own keys — где они хранятся?

В env-переменных твоего изолированного контейнера. Только у тебя. Прямые запросы в Anthropic / OpenAI идут с твоего контейнера к их серверам, минуя нас. Мы не видим tokens и не логируем prompts.

Multi-LLM split — это правда работает быстро?

Да — параллельные async-запросы. Если три провайдера живы — получаешь все три ответа за время самого медленного. На fail одного — два других не блочатся. Прогон 50 test cases через 3 модели — ~3 минуты на нормальных endpoints.

Prompt evals — как работают?

JSONL-файл с полями input и expected. Eval-runner прогоняет каждый input через current prompt, сравнивает output с expected (regex / exact match / LLM-as-judge). Выдаёт pass-rate, diff с prev version, regression алерт. Git-friendly.

Self-host? Можно поднять у себя?

Да, ядро под MIT. git clone && bash scripts/server/wt_installer.sh — поднимется через 5 минут на любой VPS. Multi-LLM модуль (split-pane + evals) — closed source, $200/год self-hosted license. Подписка на managed cloud дешевле если нужен один человек.

Embeddings playground — что внутри?

Qdrant локально (embedded) + UI: загружаешь dataset, выбираешь embedding model, chunking strategy → видишь similarity matrix, можешь поиграть с queries. Поддерживает OpenAI text-embedding-3, Cohere embed v3, Voyage AI, локальные BGE / E5 через HF transformers.