본문 바로가기

AI UPDATES

구글 Gemini 3.1 Flash-Lite 정식 출시 – 토큰당 $0.25, 2.5배 빠른 최저가 모델

 

구글 Gemini 3.1 Flash-Lite GA 출시 – 가격, 속도, 벤치마크 총정리

Gemini 3 시리즈 최저가 모델이 프로덕션에 올라왔다

구글 Gemini 3.1 Flash-Lite 정식 출시 (GA)
 

구글 Gemini 3.1 Flash-Lite, 정식(GA) 출시 – 핵심 요약

 

구글이 2026년 5월 7일 Gemini 3.1 Flash-Lite를 정식(GA) 출시했습니다. 입력 100만 토큰당 $0.25, 출력 $1.50이며, 첫 토큰 응답 시간(TTFAT)은 이전 세대 대비 2.5배 빨라졌습니다.

3월 프리뷰 공개 이후 약 2개월 만에 프로덕션 레벨로 올라온 모델입니다. Gemini 3 시리즈 안에서 가장 저렴하면서도, 구글 자체 벤치마크 11개 중 6개에서 동급 경쟁 모델(GPT-5 mini, Claude 4.5 Haiku)을 넘는 점수를 기록했다고 합니다.

제가 보기에, 이번 구글 Gemini 3.1 Flash-Lite GA 출시에서 읽어야 할 부분은 가격표 자체보다 구글이 보내는 신호입니다. 가장 싼 모델로도 벤치마크에서 밀리지 않는다는 걸 수치로 보여주려는 시도이고, 그만큼 '경량 모델의 품질 바닥'이 한 단계 올라간 셈입니다. API 대량 호출이 필요한 개발자라면 비용 계산을 다시 해볼 만한 가격대입니다.

 
서버랙이 줄지어 선 데이터센터 복도를 정면에서 촬영한 장면. 좌우 서버에서 푸른 LED 표시등이 점등되어 있고, 복도 끝에서 백색광이 들어온다. 로고나 텍스트 없이 하드웨어와 조명만으로 구성된 실사 사진 톤.
 

프리뷰에서 GA까지 – 2개월간의 전환 과정

 

Gemini 3.1 Flash-Lite는 2026년 3월 3일 프리뷰로 공개됐고, 5월 7일 GA로 전환됐습니다.

프리뷰 기간에는 Google AI Studio와 Vertex AI에서 개발자 대상 테스트가 진행됐습니다. GA 전환과 함께 모델 ID가 `gemini-3.1-flash-lite`로 확정됐고, 프리뷰 버전(`gemini-3.1-flash-lite-preview`)은 5월 11일부터 deprecated 처리됩니다.

여기서 볼 부분은 일정입니다. 프리뷰 종료까지 사흘밖에 남지 않았으므로, 현재 프리뷰 모델을 쓰고 있다면 모델 ID 교체가 급합니다. Vertex AI 사용자는 엔드포인트 설정과 서비스 계정 권한도 같이 확인해두는 게 좋습니다.

GA 버전부터는 기존 두 플랫폼에 더해 Gemini Enterprise Agent Platform에서도 접근할 수 있게 됐습니다.

 

가격·속도·벤치마크 – 경쟁 모델과 직접 비교

 

입력 토큰 기준으로 Claude 4.5 Haiku의 1/4, GPT-5 mini의 약 60% 가격입니다. GPQA Diamond에서는 86.9%로 GPT-5 mini(82.3%)를 상회합니다.

모델 입력 ($/1M 토큰) 출력 ($/1M 토큰) GPQA Diamond 출력 속도
Gemini 3.1 Flash-Lite $0.25 $1.50 86.9% 381 t/s
Gemini 2.5 Flash $0.30 $2.50 232 t/s
Claude 4.5 Haiku $1.00 $5.00 73.0%
GPT-5 mini $0.40 $1.60 82.3%

Gemini 2.5 Flash 대비 입력 17%, 출력 40% 저렴해졌습니다. Artificial Analysis 측정 기준 출력 속도는 381 t/s로, 2.5 Flash(232 t/s) 대비 64% 빠릅니다.

다만 숫자만 놓고 모델을 고르면 실수할 수 있습니다. 위 벤치마크는 구글 발표 기준이며 독립 검증 결과와 차이가 날 수 있고, MMMU-Pro 76.8%나 LiveCodeBench 72.0% 같은 다른 지표에서는 모델별 격차가 달라집니다. 결국 자기 태스크에 대해 직접 A/B 테스트를 돌려보는 게 가장 확실합니다.

 
경쟁 모델 4종(Gemini 3.1 Flash-Lite, Gemini 2.5 Flash, Claude 4.5 Haiku, GPT-5 mini)의 가격과 벤치마크를 비교하는 깔끔한 인포그래픽 차트. 다크 배경에 색상 코드로 모델별 구분.
 

고볼륨 워크로드에서 비용 구조가 달라지는 지점

 

대량 API 호출 워크로드에서 토큰 비용을 기존 대비 40~75%까지 줄일 수 있는 현실적인 선택지가 생겼습니다.

Flash-Lite의 실질적 무대는 한 번에 수만~수십만 건의 요청을 처리하는 고볼륨 파이프라인입니다. 텍스트 분류, 실시간 번역, 콘텐츠 모더레이션, 에이전트 서브 태스크 호출 같은 작업이 전형적인 적용 대상입니다.

구체적인 사례도 있습니다. 투자은행 OffDeal은 Zoom 통화 중 실시간 리서치와 데이터 조회를 수행하는 AI 에이전트 'Archie'를 Flash-Lite로 구동하고 있다고 구글이 GA 발표에서 소개했습니다. 에이전틱 워크플로에서 도구 호출(tool calling) 정밀도가 프로덕션 수준이라는 피드백이 함께 언급됐습니다.

반면 복잡한 멀티스텝 추론이나 수백 줄 이상의 코드 생성에는 Gemini 3.1 Flash나 Pro가 여전히 더 낫습니다. 싸다고 무조건 쓰는 것이 아니라, 태스크별로 모델을 나눠 붙이는 게 실무에서는 훨씬 합리적입니다.

 

Thinking Level 조절 – 속도와 품질 사이의 균형 잡기

 

Flash-Lite는 Thinking level을 minimal, low, medium, high 4단계로 조절할 수 있습니다. 태스크 복잡도에 따라 응답 품질과 속도를 직접 제어할 수 있는 기능입니다.

minimal로 설정하면 내부 사고 과정을 최소화해서 속도가 극대화됩니다. high로 올리면 추론 품질이 올라가는 대신 응답 시간이 길어집니다.

고볼륨 파이프라인에서 이 기능이 실질적으로 유용한 이유는, 태스크별로 thinking 수준을 다르게 걸 수 있기 때문입니다. 단순 분류에는 minimal, 요약에는 medium 같은 식으로 분리하면 전체 비용을 추가로 낮출 수 있습니다.

> 다만 Thinking level을 올렸을 때 thinking 토큰이 별도로 과금되는지는 아직 명확하게 공개되지 않았습니다. 실무 도입 전에 소량 테스트로 청구서를 먼저 확인하십시오.

 

Gemini 3.1 Flash-Lite 사용법 – 첫 API 호출까지

 

Google AI Studio에서 API 키를 발급받고, 모델 ID `gemini-3.1-flash-lite`를 지정하면 바로 사용할 수 있습니다.

사용 경로는 크게 세 가지입니다.

  • Google AI Studio – 가장 빠른 시작 경로입니다. 무료 API 키 발급 후 즉시 테스트할 수 있습니다.
  • Vertex AI – 엔터프라이즈 보안, SLA, 데이터 거버넌스가 필요한 경우에 적합합니다. Google Cloud 프로젝트에서 Vertex AI API를 활성화하고 서비스 계정으로 인증합니다.
  • OpenRouter – 멀티 모델 라우팅이 필요하거나 기존에 OpenRouter를 사용 중이라면 모델 ID만 교체하면 됩니다.

Python 기준으로는 `google-genai` SDK를 설치한 뒤 `client.models.generate_content(model='gemini-3.1-flash-lite', ...)` 형태로 호출합니다. 처음 테스트할 때는 짧은 텍스트 분류 요청을 보내보면 TTFAT 차이를 바로 체감할 수 있습니다. 컨텍스트 윈도우 100만 토큰, 최대 출력 64K 토큰이므로 긴 문서 처리도 가능합니다.

 
 
 

한계와 주의사항 – 실무 도입 전 확인할 것들

 

한국어 전용 벤치마크는 공식 발표된 바 없습니다. 복잡한 추론 작업에는 상위 모델이 여전히 필요합니다.

한국어 성능 – MMMLU 다국어 점수 88.9%가 참고 지표이지만, 한국어만 따로 평가한 공식 벤치마크는 없습니다. 한국어 품질이 특별히 우수하다고 볼 근거가 현재로서는 없으므로, 본인 워크로드에서 직접 품질을 확인하는 수밖에 없습니다.

GA 직후 안정성 – rate limit 정책이 프리뷰와 달라질 수 있습니다. 프로덕션 트래픽을 붙이기 전에 쿼터와 SLA 조건을 반드시 확인하십시오.

Thinking 토큰 과금 – Thinking level을 올리면 내부 사고 토큰이 발생하는데, 이게 별도 과금인지 포함인지가 명확하지 않습니다. 소량 테스트 후 청구서를 확인하는 것이 안전합니다.

프리뷰 모델 종료 – `gemini-3.1-flash-lite-preview`는 5월 11일 deprecated 예정입니다. 아직 프리뷰를 쓰고 있다면 이번 주 안에 교체해야 합니다.

참고로, 위의 가격 정보는 모두 2026년 5월 7일 기준이며 구글 정책에 따라 변경될 수 있습니다.

 

자주 묻는 질문

 

Q. Gemini 3.1 Flash-Lite 가격은 얼마입니까?
A. 입력 100만 토큰당 $0.25, 출력 100만 토큰당 $1.50입니다. Gemini 2.5 Flash 대비 입력 17%, 출력 40% 저렴하고, Claude 4.5 Haiku($1.00/$5.00) 대비 약 1/4 수준입니다. 2026년 5월 7일 기준 가격이며 변경될 수 있습니다.

Q. GA 버전과 프리뷰 버전의 차이점은 무엇입니까?
A. 모델 ID가 gemini-3.1-flash-lite로 확정됐고, Vertex AI에서 프로덕션 SLA가 적용됩니다. 프리뷰 모델(gemini-3.1-flash-lite-preview)은 5월 11일부터 deprecated 처리되므로, 현재 프리뷰를 사용 중이라면 즉시 모델 ID를 교체해야 합니다.

Q. 어떤 워크로드에 Flash-Lite가 적합합니까?
A. 대량 텍스트 분류, 실시간 번역, 콘텐츠 모더레이션, 에이전트 서브태스크 호출 등 고볼륨·저지연 작업에 최적화되어 있습니다. 복잡한 멀티스텝 추론이나 수백 줄 이상의 코드 생성에는 Gemini 3.1 Flash 또는 Pro가 더 적합합니다.

Q. Gemini 2.5 Flash에서 마이그레이션할 때 주의할 점은?
A. 모델 ID를 gemini-3.1-flash-lite로 변경하고, Thinking level 파라미터가 추가됐으므로 기본값을 확인해야 합니다. 입출력 포맷은 호환되지만, 응답 스타일이나 정밀도가 달라질 수 있으므로 기존 프롬프트로 소량 테스트를 먼저 돌려보는 것을 권장합니다.

Q. Gemini 3.1 Flash-Lite의 한국어 성능은 어떻습니까?
A. MMMLU 다국어 점수 88.9%가 참고 지표이지만, 한국어만 따로 평가한 공식 벤치마크는 공개되지 않았습니다. 한국어 워크로드에서 사용할 경우, 본인의 태스크에 대해 직접 품질 테스트를 거치는 것이 가장 확실합니다.

참조 링크

 
구글 Gemini 3.1 Flash-Lite 정식 출시 (GA) 이 글은 실제 사례를 바탕으로 작성되었습니다