하나의 API로
모든 LLM을 자동 라우팅.

Claude · Gemini · Qwen · Llama · DeepSeek · Mistral 등
여러 인기 모델들을 단일 엔드포인트로 호출합니다.
최적 경로로 자동 라우팅하고, 장애 시 즉시 폴백합니다.

POST /v1/chat/completions
// 1. Single endpoint, any provider — OpenAI 호환 const res = await client.chat.completions.create({ model: "cafe24/auto", // or "claude-sonnet-4-6" messages: [{ role: "user", content: "..." }] })
// → routed to openai/gpt-4o-mini in 940ms res.model → "gpt-4o-mini-2024-07-18" res.extra_fields.provider → ⚡ openai res.extra_fields.resolved_model_used → "gpt-4o-mini" res.extra_fields.latency → 940 // 토큰·원화 비용은 자동 집계 → 대시보드/사용량에서 확인
100+
지원 모델
15+
지원 모델 패밀리
Multi
멀티 Provider 라우팅
Auto
자동 Fallback
Claude
Gemini
Qwen
Llama
DeepSeek
GLM
Gemma
Seed
Nemotron
Mistral
GPT-OSS
MiMo
Kimi
Hunyuan
Phi
Step
MiniMax
Ling
MythoMax
Claude
Gemini
Qwen
Llama
DeepSeek
GLM
Gemma
Seed
Nemotron
Mistral
GPT-OSS
MiMo
Kimi
Hunyuan
Phi
Step
MiniMax
Ling
MythoMax

LLM 운영, 이제는 한 번에 가능합니다!

SDK 파편화, 단가 변동성, Provider 장애 - 이 모든 것을 한 곳에서 관리할 수 있습니다.

Provider마다 다른 SDK
Claude, Gemini, Qwen, Llama, DeepSeek...
각각의 API 명세 · 재시도 로직 · 스트리밍 포맷을
전부 학습하고 유지해야 합니다
OpenAI 호환 단일 API로 모든 모델 호출
모델 단가 천차만별
비싼 모델만 쓰면 비용 부담, 저렴한 모델은 품질 부족.
작업 · 트래픽에 따라 최적 모델은 매번 달라집니다
Auto Router가 비용·지연 기준으로 자동 분배
Provider 장애 = 서비스 중단
특정 Provider의 일시 장애로 서비스 전체가
멈출 수 있습니다. 단일 Provider 의존은 SLA
리스크입니다
Auto Fallback이 즉시 다른 프로바이더로 전환

데모가 아닌, 프로덕션을 위한 설계.

비용·성능·안정성을 동시에 만족시키는 통합 LLM 인프라.

Auto Router

4가지 전략 기반으로 가장 효율적인 모델·Provider에 자동 분배합니다. 요청 단위 오버라이드와 화이트리스트 관리를 지원합니다.

price
96
latency
78
throughput
62
balanced
84
Auto Fallback

장애·타임아웃 시 사전 정의된 대체 경로로 즉시 전환합니다. 실패한 호출은 과금되지 않습니다.

qwen3-72b
llama-3.3-70b
deepseek-v3
100+ Models, 1 SDK

Claude, Gemini, Qwen, Llama, DeepSeek, Mistral, MiniMax 등 — 주요 패밀리를 동일한 호출로 사용합니다.

claude-sonnet-4-6
gemini-3.1-pro
qwen3-72b
llama-3.3
deepseek-v3
glm-4.5
크레딧 종량제

약정 없이 충전한 만큼만 사용합니다. 잔여 크레딧 관리는 단순하게, 자동 충전과 세금계산서 발행도 지원합니다.

₩6,840+₩10,000 충전
used 32%auto-recharge
BYOK

보유 중인 LLM 모델 키를 그대로 등록합니다. BYOK 모드로 비용을 직접 통제할 수 있습니다.

OOpenAI · sk-...active
AAnthropic · sk-ant-...active
BGoogle · AIzaSy...active
Privacy & 거버넌스

로그 및 모델에 전달되는 데이터의 민감 정보 자동 마스킹을 제공합니다.

PII Mask 적용
로그 마스킹
모델 전달 데이터 마스킹
Realtime Dashboard

요청·비용·토큰 추이, 모델별 비용 비중, 성공/실패 비율을 한 화면에서 확인합니다. 요청 단위 상세 로그까지 제공합니다.

requests / 24h
128.4k +12%
cost / 24h
₩64,200 −8%
Playground & 비교 테스트

모델을 코드 없이 테스트합니다. 서비스에 가장 적합한 모델을 선택할 수 있습니다.

qwen3-72bFASTEST
TTFT286ms
throughput148 t/s
cost₩16
llama-3.3-70b
TTFT412ms
throughput92 t/s
cost₩24
Preset

Primary 모델, System Prompt, Sampling, 다단계 Fallback 체인을 하나로 묶어 저장합니다. 호출은 한 줄, 조정은 콘솔에서. 코드 재배포 ZERO.

# 호출은 단 한 줄 client.chat(   model=@preset/cs-bot,   messages=msgs, )
cs-bot
primaryqwen3-72b
fallbackllama-3.3deepseek-v3mistral-large
temp0.3 · top_p 0.9
block✕ azure · ✕ groq
Managed Cache

Semantic Cache를 통해 LLM 호출 자체를 스킵해 토큰 비용을 절감하고, 응답은 ms 단위로 반환합니다.

Q"환불 처리는 어떻게 하나요?"
SEMANTIC HIT0 tokens · 8ms
Q"환불은 어떻게 받나요?"
SEMANTIC HIT0 tokens · 6ms
Q"교환 정책 알려줘"
MISS → LLM1,247 tokens · 1.4s

요금제 없이 사용한 만큼만

약정·구독 없는 단순한 종량제입니다. 충전한 크레딧만큼만 차감됩니다.

가입 즉시 무료 크레딧 제공
0원 기본요금

크레딧 종량제
충전한 만큼만 사용 · 약정 없음

지금 시작하기
모델별 단가 보기

토큰 단가는 모델·Provider별로 상이합니다. Models 페이지에서 확인하세요.

한 번의 요청, 최적 경로로 자동 라우팅

Your API Key sk-cafe24-* Embed Chat Vision Image LLM Router Cafe24 preset applied auto routing... Chat Vision Embed Image Chat Vision Chat Vision Chat Vision Embed Image Chat Provider A model-a1 model-a1-pro model-a1-mini Provider B model-b1 model-b1-fast model-b2 Provider C model-c1 model-c1-flash model-c0 Provider D model-d-l model-d-m model-d-s Provider E model-e2 model-e2-hs model-e2.5
step.01

Single request

OpenAI 호환 형식으로 단일 엔드포인트에 호출합니다.

POST /v1/chat/completions
step.02

Router engine

비용·지연·이중화·정책을 평가해 후보 모델을 점수화합니다.

strategy=balanced
step.03

Dispatch + fallback

최적 모델로 dispatch합니다. 실패 시 다음 후보로 자동 전환합니다.

routed → qwen3-72b
step.04

Unified response

표준화된 응답과 비용·지연·trace 메타데이터를 함께 반환합니다.

cost: ₩4.20 · 412ms

이런 분들께 추천합니다

스타트업부터 엔터프라이즈까지, AI 서비스를 운영하는 모든 곳을 위해.

AI 챗봇 · 고객 응대 어시스턴트

단일 Provider 장애로 챗봇이 멈추는 상황을 방지합니다. 응답 실패가 감지되면 대체 프로바이더로 자동 폴백되어 24/7 무중단 운영을 보장합니다.

쇼핑몰 · 운영 자동화

상품 설명, 리뷰 요약, 고객 문의 분류 — 작업별 최적 모델이 자동 선택되어 운영 비용을 절감합니다.

개발자 · SaaS 빌더

모델 교체 시 코드 수정은 ZERO. 단일 OpenAI 호환 API로 모든 모델에 접근합니다.

콘텐츠 · 마케팅

요약·번역·카피 생성을 작업별 최적 비용 모델에 자동 분배합니다.

엔터프라이즈 · 금융

거버넌스 옵션을 기본 탑재하여 컴플라이언스 요구사항을 충족합니다.

교육 · 연구

여러 모델의 응답 품질을 코드 없이 Playground에서 즉시 비교합니다.

자주 묻는 질문

코드 수정 없이 모델만 교체,
더 빠르게 출시하세요

시작하기 개발 문서 보기