본문 바로가기

AI UPDATES

GPT Realtime 2 번역 모델, OpenAI 실시간 음성 AI 3종 출시 총정리

 

OpenAI 실시간 음성 AI 3종 출시 총정리 - GPT-Realtime-2, 동시통역, Whisper STT

GPT-5급 추론 음성 대화, 70개 언어 동시통역, 초저지연 스트리밍 전사 — 가격·한국어 지원·기업 사례까지

OpenAI GPT-Realtime-2, Translate, Whisper 음성 모델 3종 출시
 

OpenAI 실시간 음성 AI 3종, 무엇이 달라졌나

 

OpenAI가 2026년 5월 7일 Realtime API에 GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper 3개 모델을 동시에 정식 출시했습니다.

세 개를 한꺼번에 낸 이유가 있습니다. 추론하는 음성 대화(Realtime-2), 실시간 동시통역(Translate), 초저지연 음성 전사(Whisper)는 각각 별도 파이프라인이지만, 조합하면 하나의 음성 에이전트 스택으로 작동합니다. Realtime API 자체도 이번에 베타를 졸업하고 정식(GA) 상태가 됐습니다.

제가 이번 발표에서 가장 먼저 확인한 부분은 GPT Realtime 2 번역 모델의 한국어 지원 여부였습니다. GPT-Realtime-Translate의 13개 출력 언어에 한국어가 포함되어 있습니다. OpenAI 공식 Cookbook 번역 가이드에서 직접 확인한 내용입니다.

 
OpenAI Realtime API 3종 모델(GPT-Realtime-2, Translate, Whisper)을 3열로 배치한 비교 다이어그램. 각 모델의 핵심 역할(추론/통역/전사), 입출력 모달리티, 분당 가격을 아이콘과 짧은 텍스트로 표현. 밝은 배경에 모델별 색상 구분.
 

GPT-Realtime-2: 음성으로 생각하는 AI

 

GPT-Realtime-2는 GPT-5급 추론 능력을 갖춘 실시간 음성 대화 모델입니다. 컨텍스트 윈도우가 기존 32K에서 128K 토큰으로 4배 늘었고, 추론 노력을 5단계로 조절할 수 있습니다.

전작 GPT-Realtime-1.5와 벤치마크를 비교하면 차이가 뚜렷합니다. Big Bench Audio 정확도가 96.6%로 15.2%p 올랐고, 지시 유지율은 36.7%에서 70.8%로 거의 두 배. 복잡한 맥락을 유지하면서 지시를 따르는 능력이 전작과는 다른 수준입니다.

개발자가 직접 신경 써야 할 부분은 reasoning effort(추론 노력) 5단계 설정입니다.

단계 첫 오디오 지연 용도
minimal ~0.6초 단순 안내, 인사
low (기본값) ~1.12초 일반 대화
medium ~1.5초 중간 복잡도 요청
high ~2.33초 복잡한 추론 필요
xhigh 더 김 최고 정확도 필요 시

한국 사용자 입장에서 볼 부분은, low가 기본값이라는 점입니다. 대부분의 콜센터 시나리오라면 low면 충분하고, 복잡한 예약 변경이나 멀티스텝 처리가 필요한 경우에만 high로 올리면 됩니다.

병렬 도구 호출(parallel tool calling)도 추가됐습니다. 음성 대화 중 여러 도구를 동시에 호출하면서, 대기 시간에는 "확인해볼게요" 같은 짧은 발화(preamble)를 자동으로 끼워 넣습니다. 사람이 잠깐 생각할 때 하는 추임새를 흉내 내는 건데, 이 작은 디테일이 체감 품질에 꽤 큰 차이를 만듭니다.

입력은 텍스트, 오디오, 이미지를 모두 받고, 출력은 텍스트와 오디오입니다. 비디오 입력은 아직 안 되며, 지식 컷오프는 2024년 9월 30일입니다.

 

실시간 동시통역 Translate — 한국어 출력 확인

 

GPT-Realtime-Translate는 70개 이상의 입력 언어를 한국어 포함 13개 출력 언어로 실시간 통역하는 전용 스트리밍 모델입니다. 가격은 분당 $0.034입니다.

13개 출력 언어 목록을 먼저 정리합니다. 영어, 스페인어, 포르투갈어, 프랑스어, 일본어, 러시아어, 중국어, 독일어, 한국어, 힌디어, 인도네시아어, 베트남어, 이탈리아어. 한국어로 통역 출력이 가능합니다.

GPT-4o 같은 범용 모델에 '이거 번역해줘'라고 시키는 것과는 설계가 근본적으로 다릅니다. 대화 상태를 관리하지 않고 순수 통역만 수행합니다. 도구 호출이나 `response.create()`도 쓸 수 없는 대신, 턴 기반 대기 없이 연속 오디오 스트림을 처리합니다. 상대방이 말하는 도중에도 통역이 끊기지 않고 이어집니다.

연결 방식은 두 가지입니다.

  • WebRTC: 브라우저에서 직접 연결. 프론트엔드 앱에 적합
  • WebSocket: 서버 사이드 또는 텔레포니 시스템용. 24kHz PCM16 오디오 포맷

공식 문서에서 소개하는 통역 아키텍처 패턴도 세 가지입니다. Listen-Along(한 방향 통역, 회의 참관자용), Conversational(양방향 1:1 대화), Group Rooms(다자간 회의). 콜센터라면 Conversational, 국제 웨비나라면 Listen-Along이 맞습니다.

여기서 볼 부분은 한국어 통역 품질입니다. 지원 언어 목록에 포함된 것과 실제 전문 용어·구어체 처리 품질은 별개인데, 아직 한국어 통역에 대한 공식 벤치마크가 공개되지 않았습니다. 프로덕션 적용 전에 자체 테스트는 필수입니다.

 
GPT-Realtime-Translate의 3가지 통역 아키텍처 패턴(Listen-Along, Conversational, Group Rooms)을 시각화한 다이어그램. 화살표로 음성 입출력 방향 표시, 패턴별 사용 시나리오 레이블 포함.
 

Whisper가 스트리밍이 됐다 — 기존 API와의 차이

 

GPT-Realtime-Whisper는 초저지연 스트리밍 음성-텍스트 전사 모델로, 가격은 분당 $0.017입니다. 기존 Whisper API의 배치 전사와 달리 발화와 동시에 텍스트를 출력합니다.

기존 Whisper API와의 핵심 차이는 스트리밍입니다. 녹음 파일을 올리고 결과를 기다리는 배치 방식이 아니라, 말하는 동안 실시간으로 텍스트가 나옵니다. 지연 설정을 조절해서 빠른 부분 출력과 높은 전사 정확도 사이에서 균형을 잡을 수 있습니다.

이 모델이 가장 빛나는 조합은 GPT-Realtime-Translate와의 병행 사용입니다. 통역된 오디오와 함께 원본 언어 전사 텍스트를 동시에 뽑을 수 있어서, 라이브 캡션이나 규제 준수용 통화 녹취, 다국어 파이프라인에서 바로 활용 가능합니다.

시간당으로 환산하면 약 $1.02. 24시간 가동해도 하루 $24.48 수준이라 상시 전사 용도로도 부담이 크지 않습니다.

 

3종 모델 가격 비교: 분당, 시간당 얼마인가

 

GPT-Realtime-2는 토큰 기반 과금으로 오디오 입력 $32/1M 토큰·출력 $64/1M 토큰이며, Translate는 분당 $0.034, Whisper는 분당 $0.017입니다.

GPT Realtime 2 번역 모델 3종은 과금 체계가 서로 다릅니다. 직접 비교하려면 단위를 맞춰야 합니다.

모델 과금 단위 비용 시간당 환산
GPT-Realtime-2 (오디오 입력) 토큰 $32/1M 토큰 ~$1.15/h
GPT-Realtime-2 (오디오 출력) 토큰 $64/1M 토큰 ~$4.61/h
GPT-Realtime-2 (텍스트 입력) 토큰 $4/1M 토큰 -
GPT-Realtime-2 (텍스트 출력) 토큰 $24/1M 토큰 -
GPT-Realtime-2 (캐시 입력) 토큰 $0.40/1M 토큰 -
GPT-Realtime-Translate $0.034/min ~$2.04/h
GPT-Realtime-Whisper $0.017/min ~$1.02/h

GPT-Realtime-2의 시간당 수치는 연속 대화 기준 추정입니다. 실제 비용은 대화 밀도에 따라 크게 달라지니 참고용으로만 보시기 바랍니다.

> Translate와 Whisper를 동시에 돌려도 시간당 약 $3.06입니다. 전문 통역사 시간당 비용과 비교하면 자릿수가 다르고, 24시간 무중단 가동이 가능하다는 점이 근본적 차이입니다.

캐시 입력 가격($0.40/1M 토큰)은 일반 오디오 입력($32)의 1/80 수준입니다. 시스템 프롬프트나 반복 컨텍스트를 재사용하는 시나리오에서 비용 절감 효과가 큽니다.

 
 
 

기업은 이미 쓰고 있다 — Zillow, Deutsche Telekom 사례

 

Zillow는 GPT-Realtime-2 도입 후 통화 성공률이 69%에서 95%로 26%p 올랐고, BolnaAI는 GPT Realtime Translate 번역 모델로 힌디·타밀·텔루구어 단어 오류율을 12.5% 줄였습니다.

Zillow 사례부터 보겠습니다. 부동산 문의 전화에 음성 AI를 적용했는데, 기존 모델에서는 통화 성공률이 69%에 그쳤습니다. GPT-Realtime-2로 교체한 뒤 95%까지 올라갔습니다. 추론 능력 향상과 인터럽트 처리 개선이 실제 통화 품질에 직접 반영된 결과입니다.

BolnaAI는 인도 시장에서 힌디어, 타밀어, 텔루구어 통역에 Translate 모델을 적용해 단어 오류율(WER)을 12.5% 낮췄습니다. 범용 모델이 약한 언어에서 전용 GPT Realtime 2 번역 모델의 차이가 선명하게 드러난 사례입니다.

이 밖에 Priceline은 여행자 현지 통역에, Deutsche Telekom은 다국어 고객 상담에 각각 테스트 중이며, Vimeo도 파트너사로 합류했습니다. Microsoft Azure Foundry에서도 같은 날 동일 3종 모델을 종량제(Global Standard)로 배포하기 시작했습니다.

 

개발자 시작 가이드: Playground에서 프로덕션까지

 

OpenAI Playground Realtime 탭에서 바로 테스트할 수 있으며, 프로덕션에서는 WebRTC(브라우저)와 WebSocket(서버/텔레포니) 중 선택합니다.

GPT Realtime 2 번역 모델 3종을 가장 빨리 써보는 방법은 OpenAI Playground의 Realtime 탭입니다. API 키만 있으면 별도 인프라 없이 직접 테스트해볼 수 있습니다.

프로덕션으로 넘어갈 때는 전송 방식을 결정해야 합니다.

  • WebRTC: 브라우저에서 직접 연결. 프론트엔드 앱에 적합
  • WebSocket: 서버 사이드 또는 텔레포니 시스템용. Translate 모델은 24kHz PCM16 오디오 포맷

실제로 확인할 부분은, Realtime API가 일반적인 REST API 호출과 다르다는 점입니다. WebSocket 또는 WebRTC 연결을 유지해야 하므로, 기존 HTTP 요청-응답 패턴으로 설계된 서버라면 인프라 변경이 필요합니다. GitHub의 OpenAI Cookbook에 Translate 모델 통합 가이드가 이미 공개되어 있으니, 공식 가이드에서 Listen-Along, Conversational, Group Rooms 세 가지 아키텍처 패턴과 예제를 확인하시기 바랍니다.

 
 
 

실무 도입 전 알아둘 제한사항 6가지

 

한국어 통역 품질 벤치마크 미공개, ChatGPT 음성 채팅 적용 시기 미정, WebSocket/WebRTC 인프라 필요, 비디오 입력 미지원입니다.

GPT Realtime 2 번역 모델을 실무에 넣으려면, 다음 여섯 가지를 먼저 짚어야 합니다.

1. 한국어 통역 품질: Translate의 출력 언어에 한국어가 포함되어 있지만, 전문 용어나 구어체 처리에 대한 공식 벤치마크는 아직 없습니다. 직접 테스트 없이 프로덕션에 넣는 건 위험합니다.

2. ChatGPT 음성 채팅 적용: GPT-Realtime-2가 ChatGPT의 음성 대화에 언제 반영되는지는 미정입니다. 현재는 API 전용.

3. 인프라 요건: REST API가 아닙니다. WebSocket 또는 WebRTC 연결 유지가 필요하고, 기존 서버 아키텍처에 따라 추가 구성이 들어갑니다.

4. 비디오 미지원: 텍스트+오디오+이미지 입력은 가능하지만, 비디오 스트림은 처리하지 못합니다.

5. 지식 컷오프: 2024년 9월 30일 기준. 최신 정보가 필요하면 도구 호출로 외부 데이터를 가져와야 합니다.

6. 비용 추정 주의: GPT-Realtime-2는 토큰 단위 과금이라 대화 밀도에 따라 비용 편차가 큽니다. 앞서 정리한 시간당 환산은 연속 대화 기준 추정치입니다.

한국 개발자 입장에서 가장 먼저 검증해야 할 부분은 1번(한국어 통역 품질)과 3번(인프라 요건)입니다. 나머지는 문서를 읽으면 바로 파악되지만, 이 두 가지는 직접 돌려봐야 알 수 있는 영역입니다.

 

자주 묻는 질문

 

Q. GPT-Realtime-Translate는 한국어를 지원하나요?
A. 네. 70개 이상의 입력 언어를 13개 출력 언어로 통역하는데, 한국어가 13개 출력 언어에 포함되어 있습니다. OpenAI Cookbook 번역 가이드에서 직접 확인할 수 있습니다. 다만 한국어 통역 품질에 대한 공식 벤치마크는 아직 공개되지 않았으므로, 프로덕션 적용 전에 직접 테스트를 권합니다.

Q. GPT-Realtime-2와 기존 GPT-Realtime-1.5의 가장 큰 차이는 무엇인가요?
A. 컨텍스트 윈도우가 32K에서 128K 토큰으로 4배 늘었고, reasoning effort를 5단계(minimal~xhigh)로 조절할 수 있습니다. 벤치마크 기준으로 Big Bench Audio 정확도 96.6%(+15.2%p), 지시 유지율 70.8%(기존 36.7%)로 복잡한 요청 처리 능력이 크게 향상됐습니다. 병렬 도구 호출도 새로 지원합니다.

Q. Realtime API 3종 모델 가격은 각각 얼마인가요?
A. GPT-Realtime-2는 토큰 기반 과금으로 오디오 입력 $32/1M 토큰, 오디오 출력 $64/1M 토큰입니다. GPT-Realtime-Translate는 분당 $0.034(시간당 약 $2.04), GPT-Realtime-Whisper는 분당 $0.017(시간당 약 $1.02)입니다.

Q. GPT-Realtime-Whisper는 기존 Whisper API와 어떻게 다른가요?
A. 가장 큰 차이는 스트리밍 지원입니다. 기존 Whisper API는 녹음 파일을 업로드해서 결과를 받는 배치 방식인 반면, GPT-Realtime-Whisper는 말하는 동안 실시간으로 텍스트가 출력됩니다. GPT-Realtime-Translate와 동시에 사용해서 원본 전사와 통역을 함께 제공할 수도 있습니다.

Q. ChatGPT 음성 대화에도 GPT-Realtime-2가 적용되나요?
A. 아직 발표되지 않았습니다. 2026년 5월 7일 기준으로 GPT-Realtime-2는 API 전용으로 공개됐으며, ChatGPT 앱의 음성 채팅에 언제 반영될지는 OpenAI가 별도로 안내하지 않은 상태입니다.

참조 링크

 
OpenAI GPT-Realtime-2, Translate, Whisper 음성 모델 3종 출시 이 글은 실제 사례를 바탕으로 작성되었습니다