Question 1

2026년 4월 기준 가장 저렴한 LLM API는?

Accepted Answer

범용 LLM 중 가장 저렴한 것은 Google Gemini 2.5 Flash-Lite로 100만 토큰당 입력 $0.10 / 출력 $0.40. GPT-4o mini가 $0.15 / $0.60으로 근소한 차로 뒤. 프로덕션급 티어에선 DeepSeek V3.1이 $0.27 / $1.10으로 최저. 프론티어 급에선 Gemini 2.5 Pro가 $1.25 / $10으로 GPT-5($10/$30)와 Claude Opus 4.7($15/$75)을 압도.

Question 2

LLM API 비용 계산법은?

Accepted Answer

(요청당 입력 토큰 × 요청 수 × 100만 토큰당 입력가 ÷ 1,000,000) + (요청당 출력 × 요청 수 × 100만 토큰당 출력가 ÷ 1,000,000). 캐시 쓸 부분엔 캐시 입력가 적용. 영어 기준 ~4 문자 = 1 토큰, 단어 1개 ≈ 1.3 토큰. 추론 모델(o3, Claude extended thinking)은 안 보이는 추론 토큰까지 과금해서 실효 출력 비용 5-20배 됨.

Question 3

Claude Opus 4.7 API 가격은?

Accepted Answer

Claude Opus 4.7은 100만 토큰당 입력 $15, 출력 $75, 캐시 입력 $1.50. 첫 캐시 쓰기 호출엔 25% 가산. 10% 캐시 레이트는 프론티어 모델 중 가장 공격적 — 프롬프트 프리픽스 재사용하는 워크로드에 특히 유리.

Question 4

GPT-5 토큰당 비용은?

Accepted Answer

2026년 4월 기준 GPT-5은 100만 토큰당 입력 $10, 출력 $30, 캐시 입력 $2.50. GPT-5 mini는 $0.25 / $2로 훨씬 저렴. OpenAI는 동일 프리픽스 자동 캐싱 — Anthropic의 cache_control 플래그와 달리 수동 설정 불필요.

Question 5

Gemini 2.5 Pro가 Claude Sonnet 4.6보다 싼가?

Accepted Answer

대부분 워크로드에서 맞음. Gemini 2.5 Pro $1.25 / $10, Sonnet 4.6 $3 / $15. 컨텍스트도 2M vs 200K, 캐시 입력가 $0.31 vs $0.30. 다만 툴 사용 안정성, 에이전트 코딩, 지시 따르기는 Sonnet 승 — 코딩 에이전트나 복잡 워크플로우엔 프리미엄 값어치.

Question 6

프롬프트 캐싱은 얼마나 절약되나?

Accepted Answer

프롬프트 캐싱은 프리픽스를 제공사 서버에 저장해서 반복 요청을 할인된 가격으로 재사용. Anthropic은 정가 입력의 10%, OpenAI는 25-50%, Google은 25% + 저장비. 안정된 2-5K 토큰 시스템 프롬프트 반복 사용하는 프로덕션 챗봇은 보통 총 입력 비용 60-80% 절감.

Question 7

추론 토큰은 뭐고 비용에 어떻게 영향?

Accepted Answer

추론 토큰(OpenAI o-시리즈)과 extended thinking 토큰(Anthropic)은 모델이 답 내기 전에 내부적으로 쓰는 출력 토큰. API가 반환하진 않지만 출력 토큰으로 과금. o3에선 200단어 짧은 답이 추론 토큰 5K-50K 숨기고 있어서 실효 출력 비용 5-20배 될 수 있음. max_tokens 상한 필수.

Question 8

LLM API 비용 줄이는 방법?

Accepted Answer

영향 큰 5가지: (1) 시스템 프롬프트와 툴 정의에 프롬프트 캐싱 켜기. (2) 툴 스키마 다이어트 — 요청별 불필요한 툴 빼기. (3) max_tokens 엄격히 제한. (4) 앞단에 분류기 하나 붙여서 쉬운 요청은 작은 모델로 라우팅. (5) 유저 대면 아닌 작업엔 Batch API (Anthropic·OpenAI·Google 모두 50% 할인).

Question 9

DeepSeek이 OpenAI보다 싼가?

Accepted Answer

항상은 아님. DeepSeek V3.1 $0.27/$1.10은 GPT-4o mini $0.15/$0.60보다 입력 2배 싸지만 출력은 더 비쌈. 추론 워크로드는 DeepSeek R1 $0.55/$2.19가 o4-mini $1.10/$4.40의 절반, o3 대비 훨씬 저렴. DeepSeek은 오픈 웨이트라서 자체 호스팅 가능 — OpenAI는 불가.

Question 10

가장 큰 컨텍스트 윈도우는 어떤 LLM?

Accepted Answer

Gemini 2.5 Pro가 2M 토큰(엔터프라이즈), 표준 1M. GPT-4.1이 1M. GPT-5는 400K. Claude 전 모델 200K. Llama 4 Scout은 스펙상 10M이지만 1M 넘으면 정확도 하락. 200K 넘는 문서엔 Gemini 2.5 Pro나 GPT-4.1이 유일한 실전 선택.

Question 11

오픈소스 LLM 셀프 호스팅이 API보다 싼가?

Accepted Answer

비용만이면 보통 아님. Groq의 Llama 3.3 70B($0.59/$0.79)도 Gemini Flash-Lite($0.10/$0.40)나 GPT-4o mini($0.15/$0.60) 못 이김. H100 시간당 $2 자체 호스팅은 GPU 100% 가동 시 손익분기 — 현실에선 거의 불가능. 오픈 웨이트는 데이터 거주지·파인튜닝·초저지연에 쓰는 거지 순수 비용 아님.

Question 12

Anthropic Batch API 할인은?

Accepted Answer

Anthropic Batch API는 입출력 모두 50% 할인, 24시간 내 결과. 모든 Claude 모델 지원. OpenAI·Google도 동일 50% 배치 할인. 평가, 오프라인 분류, 블로그 콘텐츠 생성, 데이터 보강 등 유저 대면 아닌 작업에 최적.

Question 13

컨텍스트 윈도우가 가격에 영향?

Accepted Answer

컨텍스트 윈도우는 한도지 가격 드라이버 아님 — 실제 보낸 토큰만 과금, 빈 공간 값 안 냄. 2M 컨텍스트 모델이 1K 프롬프트에 128K 컨텍스트 모델보다 비싸지 않음. 때로 큰 윈도우가 높은 토큰가와 함께 오지만, Gemini 2.5 Pro는 제일 큰 윈도우에 최저가 중 하나 — 일반 규칙은 아님.

Question 14

LLM 청구서가 왜 자꾸 늘어나?

Accepted Answer

흔한 용의자: (1) 툴 정의가 매 호출마다 입력 토큰 부풀림 — 15-툴 에이전트는 요청당 3-5K 추가. (2) 매 턴 히스토리 재전송 — 20턴 대화는 첫 턴의 ~55배. (3) max_tokens 안 정해서 모델이 주절거림. (4) JSON 모드 실패 재시도. (5) 이미지 입력이 각 1500-3000 토큰. 캐싱이 대부분 해결.

Question 15

챗봇 돌리기 가장 싼 방법?

Accepted Answer

Gemini 2.5 Flash-Lite + 공격적 프롬프트 캐싱. 월 1만 대화, 턴당 입력 600 / 출력 200, 시스템 프롬프트 4K 캐시 기준 월 $10 미만. GPT-4o mini는 ~$15/월 근접. DeepSeek V3.1은 $20-40. 프론티어는 10-30배 — 단순 고객 챗봇엔 거의 무의미.

LLM API 가격 계산기

LLM API 토큰당 얼마?

📖 최근 글

🎯 가이드

⚖️ 모델 비교

자주 묻는 질문