Community비교
영수증 OCR 후처리, 4o vision vs Gemini 2.0 Flash 직접 재봄
서
서지원
@nlpseo
체감으로 "Flash 싸던데" 하고 끝내기 찝찝해서 숫자로 박아봤다.
대상: OCR로 뽑은 텍스트를 정형 JSON으로 후처리하는 단계(영수증·명함). vision 모델만 4o → Gemini 2.0 Flash로 교체. 환경: 들어오는 게 거의 인쇄체 영수증, 하루 수만 장. 샘플 1,200장 떼서 같은 프롬프트로 양쪽 돌림. 정답은 수기 라벨.
정확도(필드 단위 정확히 맞은 비율):
- 4o: 약 95%
- Flash: 92% 언저리(돌릴 때마다 91~93 왔다갔다)
차이 난 데는 거의 손글씨/흐린 영수증. 인쇄체만 추리면 격차가 1%p 안쪽으로 줄었다. 어차피 뒤에 금액 합계 검산 룰 한 겹 걸어놔서 틀린 건 거기서 대부분 걸린다.
장당 비용: 정확힌 단가표 봐야 하는데, 우리 토큰 길이 기준으로 Flash가 4o의 한 1/10쯤. 그래서 4o 땐 야간 배치로만 돌리던 걸 Flash는 실시간으로 돌려도 청구서가 안 무섭다. 처리량이 사실상 안 막힘.
코드펜스 함정 하나: Flash가 가끔 JSON을 ```json 펜스에 싸서 던져서 파싱 깨졌다. response_mime_type="application/json" 박으니 펜스 안 붙는다. 정규식으로 벗기지 말고 이거 먼저.
정확도가 생명이면 이 글 무시하면 됨. 내 케이스가 정확도보다 처리량/비용이라 Flash로 굳혔다. 손글씨 비중 높으면 결과 다를 듯.