Community실험 리포트2025년 12월 4일

LLM API 비용 새는 곳 체크리스트 (본인용 메모)

임

임도윤

@rag_master

LLM API 비용 새는 곳, 매번 같은 데서 줄줄 새서 본인용 체크리스트로 박아둠. 38만원 나오던 거 9만원대까지 내린 항목 순서대로. 위에서부터 효과 큼.

전 요청을 최상위 모델에 때려박는 게 디폴트 함정. 분류·추출 같은 단순 작업은 트래픽의 절반 이상인 경우가 많은데 그걸 다 비싼 모델로 돌리고 있음.

model = "claude-haiku" if is_simple(task) else "claude-sonnet"

is_simple은 룰 기반으로 시작해도 충분. 라우팅 자체를 LLM으로 하면 그게 또 비용이라 본말전도.

출력 토큰은 안 박아두면 모델이 신날 때 길게 뱉음. 그게 다 돈.

system 프롬프트 + few-shot이 2천 토큰쯤 되는데 매 요청 풀로 보내고 있으면 입력 비용 누수.

위 셋 다 해도 엉뚱한 데서 새면 의미 없음. 엔드포인트별로 누가 토큰을 먹는지 안 보고 있으면 그게 근본.

이거 붙이고 나서 진짜 범인 나왔는데, 검색 자동완성이 전체 비용의 40%를 먹고 있었음. 원인은 LLM이 아니라 디바운스 누락 — 타자 한 글자마다 호출이 나가고 있었던 거. debounce(300ms) 한 줄로 끝.

const search = debounce((q) => callLLM(q), 300)

비용 항목이 모델 단가처럼 보여도 실제론 프론트 코드인 경우가 흔함. 그래서 4번부터. 측정 없이 1~3번부터 손대면 엉뚱한 데 시간 날림. 측정부터.

이 글에 대한 Q&A