2026년 4월 갱신 · 모델 20개 · 제공사 8곳

LLM API 가격 계산기

Claude Opus 4.7, GPT-5, Gemini 2.5 Pro, Llama, DeepSeek 등 실제 API 비용 한 번에 비교. 캐시 반영, 워크로드 프리셋, 가입 없이 무료.

#1 저가🗺️Llama 4 Scout$0.11/$0.34/1M
#2 저가💨Gemini 2.5 Flash-Lite$0.1/$0.4/1M
#3 저가💠GPT-4o mini$0.15/$0.6/1M
워크로드 프리셋
50100K
5020K
1001.0M
60%
💨
Gemini 2.5 Flash-Lite
최저가
Google · $0.1/$0.4 100만 토큰당 · 1.0M 컨텍스트
$1.13
월 비용 · $0.00011 요청당
입력 : 출력 29% : 71%절약 $190.27
🗺️
Llama 4 Scout
오픈
Meta (via Groq) · $0.11/$0.34 100만 토큰당 · 10.0M 컨텍스트
$1.34
월 비용 · $0.00013 요청당
입력 : 출력 49% : 51%+19% 최저가 대비
💠
GPT-4o mini
OpenAI · $0.15/$0.6 100만 토큰당 · 128K 컨텍스트
$1.83
월 비용 · $0.00018 요청당
입력 : 출력 34% : 66%+62% 최저가 대비
🐋
DeepSeek V3.1
오픈
DeepSeek · $0.27/$1.1 100만 토큰당 · 128K 컨텍스트
$3.10
월 비용 · $0.00031 요청당
입력 : 출력 29% : 71%+174% 최저가 대비
GPT-5 mini
OpenAI · $0.25/$2 100만 토큰당 · 400K 컨텍스트
$4.71
월 비용 · $0.00047 요청당
입력 : 출력 15% : 85%+317% 최저가 대비
🦙
Llama 3.3 70B
오픈
Meta (via Groq) · $0.59/$0.79 100만 토큰당 · 128K 컨텍스트
$5.12
월 비용 · $0.00051 요청당
입력 : 출력 69% : 31%+353% 최저가 대비
Gemini 2.5 Flash
Google · $0.3/$2.5 100만 토큰당 · 1.0M 컨텍스트
$5.99
월 비용 · $0.00060 요청당
입력 : 출력 17% : 83%+430% 최저가 대비
🀄
Qwen3 72B
오픈
Alibaba · $0.5/$1.5 100만 토큰당 · 128K 컨텍스트
$6.00
월 비용 · $0.00060 요청당
입력 : 출력 50% : 50%+431% 최저가 대비
🧮
DeepSeek R1
오픈
DeepSeek · $0.55/$2.19 100만 토큰당 · 128K 컨텍스트
$6.20
월 비용 · $0.00062 요청당
입력 : 출력 29% : 71%+449% 최저가 대비
🎯
o4-mini
OpenAI · $1.1/$4.4 100만 토큰당 · 200K 컨텍스트
$12.43
월 비용 · $0.00124 요청당
입력 : 출력 29% : 71%+1000% 최저가 대비
🌸
Claude Haiku 4.5
Anthropic · $1/$5 100만 토큰당 · 200K 컨텍스트
$12.76
월 비용 · $0.00128 요청당
입력 : 출력 22% : 78%+1029% 최저가 대비
🚀
GPT-4.1
OpenAI · $2/$8 100만 토큰당 · 1.0M 컨텍스트
$22.60
월 비용 · $0.00226 요청당
입력 : 출력 29% : 71%+1900% 최저가 대비
🌬️
Mistral Large 2
오픈
Mistral · $2/$6 100만 토큰당 · 128K 컨텍스트
$24.00
월 비용 · $0.00240 요청당
입력 : 출력 50% : 50%+2024% 최저가 대비
🔷
Gemini 2.5 Pro
Google · $1.25/$10 100만 토큰당 · 2.0M 컨텍스트
$24.12
월 비용 · $0.00241 요청당
입력 : 출력 17% : 83%+2034% 최저가 대비
🎨
GPT-4o
OpenAI · $2.5/$10 100만 토큰당 · 128K 컨텍스트
$30.50
월 비용 · $0.00305 요청당
입력 : 출력 34% : 66%+2599% 최저가 대비
🎻
Claude Sonnet 4.6
Anthropic · $3/$15 100만 토큰당 · 200K 컨텍스트
$38.28
월 비용 · $0.00383 요청당
입력 : 출력 22% : 78%+3288% 최저가 대비
🦅
Grok 4
xAI · $5/$15 100만 토큰당 · 256K 컨텍스트
$46.50
월 비용 · $0.00465 요청당
입력 : 출력 35% : 65%+4015% 최저가 대비
🌌
GPT-5
OpenAI · $10/$30 100만 토큰당 · 400K 컨텍스트
$93.00
월 비용 · $0.00930 요청당
입력 : 출력 35% : 65%+8130% 최저가 대비
🧩
o3
OpenAI · $10/$40 100만 토큰당 · 200K 컨텍스트
$113
월 비용 · $0.011 요청당
입력 : 출력 29% : 71%+9900% 최저가 대비
🧠
Claude Opus 4.7
Anthropic · $15/$75 100만 토큰당 · 200K 컨텍스트
$191
월 비용 · $0.019 요청당
입력 : 출력 22% : 78%+16838% 최저가 대비

LLM API 토큰당 얼마?

2026년 4월 기준 프로덕션 LLM API는 100만 토큰당 입력 $0.10~$15, 출력 $0.40~$75 범위. 캐시 입력은 정가 입력의 10-50%. 요청당 입력 600 / 출력 200 토큰 챗봇이 Gemini 2.5 Flash-Lite에선 1만 요청에 $2 미만, 캐시 없는 Claude Opus 4.7이면 같은 워크로드가 약 $225. 캐싱, 배치, 모델 라우팅이 비용 제어 3대 레버.

최저가 프로덕션
💨 Gemini 2.5 Flash-Lite · $0.10 / $0.40
최저가 프론티어
🔷 Gemini 2.5 Pro · $1.25 / $10
코딩 최강
🧠 Claude Opus 4.7 · $15 / $75

자주 묻는 질문

2026년 4월 기준 가장 저렴한 LLM API는?

범용 LLM 중 가장 저렴한 것은 Google Gemini 2.5 Flash-Lite로 100만 토큰당 입력 $0.10 / 출력 $0.40. GPT-4o mini가 $0.15 / $0.60으로 근소한 차로 뒤. 프로덕션급 티어에선 DeepSeek V3.1이 $0.27 / $1.10으로 최저. 프론티어 급에선 Gemini 2.5 Pro가 $1.25 / $10으로 GPT-5($10/$30)와 Claude Opus 4.7($15/$75)을 압도.

LLM API 비용 계산법은?

(요청당 입력 토큰 × 요청 수 × 100만 토큰당 입력가 ÷ 1,000,000) + (요청당 출력 × 요청 수 × 100만 토큰당 출력가 ÷ 1,000,000). 캐시 쓸 부분엔 캐시 입력가 적용. 영어 기준 ~4 문자 = 1 토큰, 단어 1개 ≈ 1.3 토큰. 추론 모델(o3, Claude extended thinking)은 안 보이는 추론 토큰까지 과금해서 실효 출력 비용 5-20배 됨.

Claude Opus 4.7 API 가격은?

Claude Opus 4.7은 100만 토큰당 입력 $15, 출력 $75, 캐시 입력 $1.50. 첫 캐시 쓰기 호출엔 25% 가산. 10% 캐시 레이트는 프론티어 모델 중 가장 공격적 — 프롬프트 프리픽스 재사용하는 워크로드에 특히 유리.

GPT-5 토큰당 비용은?

2026년 4월 기준 GPT-5은 100만 토큰당 입력 $10, 출력 $30, 캐시 입력 $2.50. GPT-5 mini는 $0.25 / $2로 훨씬 저렴. OpenAI는 동일 프리픽스 자동 캐싱 — Anthropic의 cache_control 플래그와 달리 수동 설정 불필요.

Gemini 2.5 Pro가 Claude Sonnet 4.6보다 싼가?

대부분 워크로드에서 맞음. Gemini 2.5 Pro $1.25 / $10, Sonnet 4.6 $3 / $15. 컨텍스트도 2M vs 200K, 캐시 입력가 $0.31 vs $0.30. 다만 툴 사용 안정성, 에이전트 코딩, 지시 따르기는 Sonnet 승 — 코딩 에이전트나 복잡 워크플로우엔 프리미엄 값어치.

프롬프트 캐싱은 얼마나 절약되나?

프롬프트 캐싱은 프리픽스를 제공사 서버에 저장해서 반복 요청을 할인된 가격으로 재사용. Anthropic은 정가 입력의 10%, OpenAI는 25-50%, Google은 25% + 저장비. 안정된 2-5K 토큰 시스템 프롬프트 반복 사용하는 프로덕션 챗봇은 보통 총 입력 비용 60-80% 절감.

추론 토큰은 뭐고 비용에 어떻게 영향?

추론 토큰(OpenAI o-시리즈)과 extended thinking 토큰(Anthropic)은 모델이 답 내기 전에 내부적으로 쓰는 출력 토큰. API가 반환하진 않지만 출력 토큰으로 과금. o3에선 200단어 짧은 답이 추론 토큰 5K-50K 숨기고 있어서 실효 출력 비용 5-20배 될 수 있음. max_tokens 상한 필수.

LLM API 비용 줄이는 방법?

영향 큰 5가지: (1) 시스템 프롬프트와 툴 정의에 프롬프트 캐싱 켜기. (2) 툴 스키마 다이어트 — 요청별 불필요한 툴 빼기. (3) max_tokens 엄격히 제한. (4) 앞단에 분류기 하나 붙여서 쉬운 요청은 작은 모델로 라우팅. (5) 유저 대면 아닌 작업엔 Batch API (Anthropic·OpenAI·Google 모두 50% 할인).

DeepSeek이 OpenAI보다 싼가?

항상은 아님. DeepSeek V3.1 $0.27/$1.10은 GPT-4o mini $0.15/$0.60보다 입력 2배 싸지만 출력은 더 비쌈. 추론 워크로드는 DeepSeek R1 $0.55/$2.19가 o4-mini $1.10/$4.40의 절반, o3 대비 훨씬 저렴. DeepSeek은 오픈 웨이트라서 자체 호스팅 가능 — OpenAI는 불가.

가장 큰 컨텍스트 윈도우는 어떤 LLM?

Gemini 2.5 Pro가 2M 토큰(엔터프라이즈), 표준 1M. GPT-4.1이 1M. GPT-5는 400K. Claude 전 모델 200K. Llama 4 Scout은 스펙상 10M이지만 1M 넘으면 정확도 하락. 200K 넘는 문서엔 Gemini 2.5 Pro나 GPT-4.1이 유일한 실전 선택.

오픈소스 LLM 셀프 호스팅이 API보다 싼가?

비용만이면 보통 아님. Groq의 Llama 3.3 70B($0.59/$0.79)도 Gemini Flash-Lite($0.10/$0.40)나 GPT-4o mini($0.15/$0.60) 못 이김. H100 시간당 $2 자체 호스팅은 GPU 100% 가동 시 손익분기 — 현실에선 거의 불가능. 오픈 웨이트는 데이터 거주지·파인튜닝·초저지연에 쓰는 거지 순수 비용 아님.

Anthropic Batch API 할인은?

Anthropic Batch API는 입출력 모두 50% 할인, 24시간 내 결과. 모든 Claude 모델 지원. OpenAI·Google도 동일 50% 배치 할인. 평가, 오프라인 분류, 블로그 콘텐츠 생성, 데이터 보강 등 유저 대면 아닌 작업에 최적.

컨텍스트 윈도우가 가격에 영향?

컨텍스트 윈도우는 한도지 가격 드라이버 아님 — 실제 보낸 토큰만 과금, 빈 공간 값 안 냄. 2M 컨텍스트 모델이 1K 프롬프트에 128K 컨텍스트 모델보다 비싸지 않음. 때로 큰 윈도우가 높은 토큰가와 함께 오지만, Gemini 2.5 Pro는 제일 큰 윈도우에 최저가 중 하나 — 일반 규칙은 아님.

LLM 청구서가 왜 자꾸 늘어나?

흔한 용의자: (1) 툴 정의가 매 호출마다 입력 토큰 부풀림 — 15-툴 에이전트는 요청당 3-5K 추가. (2) 매 턴 히스토리 재전송 — 20턴 대화는 첫 턴의 ~55배. (3) max_tokens 안 정해서 모델이 주절거림. (4) JSON 모드 실패 재시도. (5) 이미지 입력이 각 1500-3000 토큰. 캐싱이 대부분 해결.

챗봇 돌리기 가장 싼 방법?

Gemini 2.5 Flash-Lite + 공격적 프롬프트 캐싱. 월 1만 대화, 턴당 입력 600 / 출력 200, 시스템 프롬프트 4K 캐시 기준 월 $10 미만. GPT-4o mini는 ~$15/월 근접. DeepSeek V3.1은 $20-40. 프론티어는 10-30배 — 단순 고객 챗봇엔 거의 무의미.