AI News
구글 Gemini 3.1 Flash-Lite GA 출시 – 가격, 속도, 벤치마크 총정리
Gemini 3 시리즈 최저가 모델이 프로덕션에 올라왔다
구글 Gemini 3.1 Flash-Lite, 정식(GA) 출시 – 핵심 요약
구글이 2026년 5월 7일 Gemini 3.1 Flash-Lite를 정식(GA) 출시했습니다. 입력 100만 토큰당 $0.25, 출력 $1.50이며, 첫 토큰 응답 시간(TTFAT)은 이전 세대 대비 2.5배 빨라졌습니다.
3월 프리뷰 공개 이후 약 2개월 만에 프로덕션 레벨로 올라온 모델입니다. Gemini 3 시리즈 안에서 가장 저렴하면서도, 구글 자체 벤치마크 11개 중 6개에서 동급 경쟁 모델(GPT-5 mini, Claude 4.5 Haiku)을 넘는 점수를 기록했다고 합니다.
제가 보기에, 이번 구글 Gemini 3.1 Flash-Lite GA 출시에서 읽어야 할 부분은 가격표 자체보다 구글이 보내는 신호입니다. 가장 싼 모델로도 벤치마크에서 밀리지 않는다는 걸 수치로 보여주려는 시도이고, 그만큼 '경량 모델의 품질 바닥'이 한 단계 올라간 셈입니다. API 대량 호출이 필요한 개발자라면 비용 계산을 다시 해볼 만한 가격대입니다.
프리뷰에서 GA까지 – 2개월간의 전환 과정
Gemini 3.1 Flash-Lite는 2026년 3월 3일 프리뷰로 공개됐고, 5월 7일 GA로 전환됐습니다.
프리뷰 기간에는 Google AI Studio와 Vertex AI에서 개발자 대상 테스트가 진행됐습니다. GA 전환과 함께 모델 ID가 `gemini-3.1-flash-lite`로 확정됐고, 프리뷰 버전(`gemini-3.1-flash-lite-preview`)은 5월 11일부터 deprecated 처리됩니다.
여기서 볼 부분은 일정입니다. 프리뷰 종료까지 사흘밖에 남지 않았으므로, 현재 프리뷰 모델을 쓰고 있다면 모델 ID 교체가 급합니다. Vertex AI 사용자는 엔드포인트 설정과 서비스 계정 권한도 같이 확인해두는 게 좋습니다.
GA 버전부터는 기존 두 플랫폼에 더해 Gemini Enterprise Agent Platform에서도 접근할 수 있게 됐습니다.
가격·속도·벤치마크 – 경쟁 모델과 직접 비교
입력 토큰 기준으로 Claude 4.5 Haiku의 1/4, GPT-5 mini의 약 60% 가격입니다. GPQA Diamond에서는 86.9%로 GPT-5 mini(82.3%)를 상회합니다.
| 모델 | 입력 ($/1M 토큰) | 출력 ($/1M 토큰) | GPQA Diamond | 출력 속도 |
|---|---|---|---|---|
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | 86.9% | 381 t/s |
| Gemini 2.5 Flash | $0.30 | $2.50 | – | 232 t/s |
| Claude 4.5 Haiku | $1.00 | $5.00 | 73.0% | – |
| GPT-5 mini | $0.40 | $1.60 | 82.3% | – |
Gemini 2.5 Flash 대비 입력 17%, 출력 40% 저렴해졌습니다. Artificial Analysis 측정 기준 출력 속도는 381 t/s로, 2.5 Flash(232 t/s) 대비 64% 빠릅니다.
다만 숫자만 놓고 모델을 고르면 실수할 수 있습니다. 위 벤치마크는 구글 발표 기준이며 독립 검증 결과와 차이가 날 수 있고, MMMU-Pro 76.8%나 LiveCodeBench 72.0% 같은 다른 지표에서는 모델별 격차가 달라집니다. 결국 자기 태스크에 대해 직접 A/B 테스트를 돌려보는 게 가장 확실합니다.
고볼륨 워크로드에서 비용 구조가 달라지는 지점
대량 API 호출 워크로드에서 토큰 비용을 기존 대비 40~75%까지 줄일 수 있는 현실적인 선택지가 생겼습니다.
Flash-Lite의 실질적 무대는 한 번에 수만~수십만 건의 요청을 처리하는 고볼륨 파이프라인입니다. 텍스트 분류, 실시간 번역, 콘텐츠 모더레이션, 에이전트 서브 태스크 호출 같은 작업이 전형적인 적용 대상입니다.
구체적인 사례도 있습니다. 투자은행 OffDeal은 Zoom 통화 중 실시간 리서치와 데이터 조회를 수행하는 AI 에이전트 'Archie'를 Flash-Lite로 구동하고 있다고 구글이 GA 발표에서 소개했습니다. 에이전틱 워크플로에서 도구 호출(tool calling) 정밀도가 프로덕션 수준이라는 피드백이 함께 언급됐습니다.
반면 복잡한 멀티스텝 추론이나 수백 줄 이상의 코드 생성에는 Gemini 3.1 Flash나 Pro가 여전히 더 낫습니다. 싸다고 무조건 쓰는 것이 아니라, 태스크별로 모델을 나눠 붙이는 게 실무에서는 훨씬 합리적입니다.
Thinking Level 조절 – 속도와 품질 사이의 균형 잡기
Flash-Lite는 Thinking level을 minimal, low, medium, high 4단계로 조절할 수 있습니다. 태스크 복잡도에 따라 응답 품질과 속도를 직접 제어할 수 있는 기능입니다.
minimal로 설정하면 내부 사고 과정을 최소화해서 속도가 극대화됩니다. high로 올리면 추론 품질이 올라가는 대신 응답 시간이 길어집니다.
고볼륨 파이프라인에서 이 기능이 실질적으로 유용한 이유는, 태스크별로 thinking 수준을 다르게 걸 수 있기 때문입니다. 단순 분류에는 minimal, 요약에는 medium 같은 식으로 분리하면 전체 비용을 추가로 낮출 수 있습니다.
> 다만 Thinking level을 올렸을 때 thinking 토큰이 별도로 과금되는지는 아직 명확하게 공개되지 않았습니다. 실무 도입 전에 소량 테스트로 청구서를 먼저 확인하십시오.
Gemini 3.1 Flash-Lite 사용법 – 첫 API 호출까지
Google AI Studio에서 API 키를 발급받고, 모델 ID `gemini-3.1-flash-lite`를 지정하면 바로 사용할 수 있습니다.
사용 경로는 크게 세 가지입니다.
- Google AI Studio – 가장 빠른 시작 경로입니다. 무료 API 키 발급 후 즉시 테스트할 수 있습니다.
- Vertex AI – 엔터프라이즈 보안, SLA, 데이터 거버넌스가 필요한 경우에 적합합니다. Google Cloud 프로젝트에서 Vertex AI API를 활성화하고 서비스 계정으로 인증합니다.
- OpenRouter – 멀티 모델 라우팅이 필요하거나 기존에 OpenRouter를 사용 중이라면 모델 ID만 교체하면 됩니다.
Python 기준으로는 `google-genai` SDK를 설치한 뒤 `client.models.generate_content(model='gemini-3.1-flash-lite', ...)` 형태로 호출합니다. 처음 테스트할 때는 짧은 텍스트 분류 요청을 보내보면 TTFAT 차이를 바로 체감할 수 있습니다. 컨텍스트 윈도우 100만 토큰, 최대 출력 64K 토큰이므로 긴 문서 처리도 가능합니다.
한계와 주의사항 – 실무 도입 전 확인할 것들
한국어 전용 벤치마크는 공식 발표된 바 없습니다. 복잡한 추론 작업에는 상위 모델이 여전히 필요합니다.
한국어 성능 – MMMLU 다국어 점수 88.9%가 참고 지표이지만, 한국어만 따로 평가한 공식 벤치마크는 없습니다. 한국어 품질이 특별히 우수하다고 볼 근거가 현재로서는 없으므로, 본인 워크로드에서 직접 품질을 확인하는 수밖에 없습니다.
GA 직후 안정성 – rate limit 정책이 프리뷰와 달라질 수 있습니다. 프로덕션 트래픽을 붙이기 전에 쿼터와 SLA 조건을 반드시 확인하십시오.
Thinking 토큰 과금 – Thinking level을 올리면 내부 사고 토큰이 발생하는데, 이게 별도 과금인지 포함인지가 명확하지 않습니다. 소량 테스트 후 청구서를 확인하는 것이 안전합니다.
프리뷰 모델 종료 – `gemini-3.1-flash-lite-preview`는 5월 11일 deprecated 예정입니다. 아직 프리뷰를 쓰고 있다면 이번 주 안에 교체해야 합니다.
참고로, 위의 가격 정보는 모두 2026년 5월 7일 기준이며 구글 정책에 따라 변경될 수 있습니다.
자주 묻는 질문
Q. Gemini 3.1 Flash-Lite 가격은 얼마입니까?
A. 입력 100만 토큰당 $0.25, 출력 100만 토큰당 $1.50입니다. Gemini 2.5 Flash 대비 입력 17%, 출력 40% 저렴하고, Claude 4.5 Haiku($1.00/$5.00) 대비 약 1/4 수준입니다. 2026년 5월 7일 기준 가격이며 변경될 수 있습니다.
Q. GA 버전과 프리뷰 버전의 차이점은 무엇입니까?
A. 모델 ID가 gemini-3.1-flash-lite로 확정됐고, Vertex AI에서 프로덕션 SLA가 적용됩니다. 프리뷰 모델(gemini-3.1-flash-lite-preview)은 5월 11일부터 deprecated 처리되므로, 현재 프리뷰를 사용 중이라면 즉시 모델 ID를 교체해야 합니다.
Q. 어떤 워크로드에 Flash-Lite가 적합합니까?
A. 대량 텍스트 분류, 실시간 번역, 콘텐츠 모더레이션, 에이전트 서브태스크 호출 등 고볼륨·저지연 작업에 최적화되어 있습니다. 복잡한 멀티스텝 추론이나 수백 줄 이상의 코드 생성에는 Gemini 3.1 Flash 또는 Pro가 더 적합합니다.
Q. Gemini 2.5 Flash에서 마이그레이션할 때 주의할 점은?
A. 모델 ID를 gemini-3.1-flash-lite로 변경하고, Thinking level 파라미터가 추가됐으므로 기본값을 확인해야 합니다. 입출력 포맷은 호환되지만, 응답 스타일이나 정밀도가 달라질 수 있으므로 기존 프롬프트로 소량 테스트를 먼저 돌려보는 것을 권장합니다.
Q. Gemini 3.1 Flash-Lite의 한국어 성능은 어떻습니까?
A. MMMLU 다국어 점수 88.9%가 참고 지표이지만, 한국어만 따로 평가한 공식 벤치마크는 공개되지 않았습니다. 한국어 워크로드에서 사용할 경우, 본인의 태스크에 대해 직접 품질 테스트를 거치는 것이 가장 확실합니다.
참조 링크
- Gemini 3.1 Flash Lite: Our most cost-effective AI model yet — 구글 공식 블로그 모델 소개 및 벤치마크 공개
- Gemini 3.1 Flash-Lite is now generally available — GA 정식 출시 공식 발표, 기업 사례(OffDeal Archie) 포함
- Gemini 3.1 Flash-Lite – Vertex AI Documentation — 모델 스펙, 모델 ID, API 사용법 공식 기술 문서
- Gemini 3.1 Flash-Lite Model Card — DeepMind 공식 모델 카드, 아키텍처·능력·제한사항
- Gemini Developer API Pricing — 공식 가격 정책 페이지
- Gemini 3.1 Flash-Lite Preview – Intelligence, Performance & Price Analysis — 독립 측정 기준 출력 속도 381 t/s 등 성능 분석
- Gemini 3.1 Flash Lite vs 2.5 Flash: Speed, Cost & Benchmarks (2026) — Gemini 2.5 Flash 대비 가격·속도·벤치마크 상세 비교
- Gemini 3.1 Flash-Lite: Cheapest AI Beats GPT-5 Mini — GPT-5 mini 대비 가격·벤치마크 비교 분석