본문 바로가기

AI UPDATES

딥시크 V4 프리뷰 출시 — 1.6T 파라미터 오픈소스, GPT-5.5 대비 최대 97% 저렴한 API

 

딥시크 V4 프리뷰 공개: 1.6T 파라미터, 100만 토큰, 오픈소스

V4-Pro·V4-Flash MoE 모델 스펙, 가격, 사용법 정리

DeepSeek V4-Pro / V4-Flash 프리뷰 공개
 

딥시크 V4 프리뷰, 무엇이 달라졌나

 

2026년 4월 24일, 중국 AI 기업 딥시크가 V4-Pro(1.6T 파라미터)와 V4-Flash(284B)를 프리뷰로 공개했습니다. MIT 라이선스 오픈소스이며, API와 웹 채팅 모두 즉시 사용할 수 있습니다.

GPT-5.5가 발표된 바로 다음 날 등장했습니다. 의도적 타이밍인지는 알 수 없지만, 업계에서는 직접 경쟁 구도로 해석하는 분위기입니다. TechCrunch는 이번 딥시크 V4 프리뷰 출시를 두고 "프론티어 모델과의 격차를 좁힌 모델"이라고 보도했고요.

이번 릴리스에서 제가 눈여겨본 건 세 가지입니다. 100만 토큰 컨텍스트, GPT-5.5 대비 최대 97% 저렴한 API 가격, 그리고 MIT 라이선스 오픈소스. V3 시리즈가 한국에서 큰 관심을 받았던 만큼, V4도 국내 개발자와 AI 관심층 사이에서 빠르게 퍼지고 있습니다.

다만 아직 프리뷰입니다. 최종 릴리스에서 스펙이나 벤치마크 수치가 바뀔 수 있으니, 지금 나온 숫자를 확정으로 받아들이지는 마세요.

 
노트북 화면에 AI 모델 벤치마크 비교 차트가 띄워진 개발자 책상. 화면 옆으로 코드 에디터 창이 함께 보이고, 자연광이 들어오는 작업 환경.
 

출시부터 할인 종료까지: 딥시크 V4 타임라인

 

4월 23일 GPT-5.5 발표 직후, 4월 24일 딥시크 V4 프리뷰가 공개되었습니다. 5월 31일까지 V4-Pro 75% 할인이 적용됩니다.

날짜 이벤트
4/23 OpenAI GPT-5.5 공식 발표
4/24 DeepSeek V4-Pro·V4-Flash 프리뷰 공개, Hugging Face 가중치 릴리스
4/26 입력 캐시 히트 가격 기존 대비 1/10로 인하 (V4-Flash 캐시 히트 $0.014/1M)
~5/31 V4-Pro 75% 할인 프로모션 종료 예정
~7/24 레거시 모델(deepseek-chat, deepseek-reasoner) 서비스 종료 예정

한국 사용자 입장에서는 5월 31일 할인 종료 일정이 중요합니다. V4-Pro API를 테스트할 계획이라면, 할인 기간 안에 시작하는 편이 비용 면에서 유리하고요.

기존 deepseek-chat이나 deepseek-reasoner API를 쓰고 있다면, 7월 24일 서비스 종료 전까지 V4 시리즈로 마이그레이션 계획을 세워두는 게 좋습니다.

 

V4-Pro와 V4-Flash, 어떤 모델을 써야 할까

 

V4-Pro는 최고 성능이 필요한 복잡한 작업에, V4-Flash는 빠른 응답과 낮은 비용이 우선인 작업에 적합합니다. 두 모델 모두 100만 토큰 컨텍스트와 Thinking/Non-Thinking 듀얼 모드를 지원합니다.

항목 V4-Pro V4-Flash
총 파라미터 1.6T 284B
활성 파라미터 (MoE) 49B 13B
컨텍스트 길이 100만 토큰 100만 토큰
최대 출력 384K 토큰 384K 토큰
입력 가격 $1.74/1M (할인 시 $0.44) $0.14/1M
출력 가격 $3.48/1M (할인 시 $0.87) $0.28/1M
적합한 용도 고난이도 코딩, 심층 분석, 에이전트 대화, 분류, 요약, 대량 처리

100만 토큰은 약 75만 단어, 소설 10권 분량에 해당합니다. 코드베이스 전체를 한 번에 입력하거나, 긴 보고서를 통째로 분석하는 작업에서 실질적인 차이가 나는 수치입니다.

결국 자신의 주 사용 시나리오가 기준이 됩니다. 코딩 에이전트나 긴 문서 분석처럼 정확도가 중요하면 Pro를, 챗봇이나 분류 같은 대량 처리 작업이라면 Flash가 비용 효율적입니다. 처음 써보는 분이라면 V4-Flash로 시작하고, 품질이 부족하다고 느낄 때만 Pro로 올리는 방식이 합리적입니다.

 
V4-Pro와 V4-Flash 두 모델의 핵심 스펙(파라미터, 활성 파라미터, 컨텍스트 길이, 가격)을 나란히 비교하는 깔끔한 인포그래픽. 진한 남색과 청록색 배경.
 

추론 비용 73% 절감, CSA+HCA 아키텍처가 바꾼 것

 

딥시크 V4는 CSA(Compressed Sparse Attention)와 HCA(Heavily Compressed Attention)를 결합한 하이브리드 어텐션 구조를 도입해, V3.2 대비 추론 연산량(FLOPs)을 73% 줄이고 KV캐시를 90% 절감했습니다.

쉽게 비유하면, 기존 모델이 책 전체를 매번 처음부터 다시 읽어야 했다면, V4는 핵심 단락만 골라 읽는 방식입니다. 100만 토큰이라는 긴 입력을 처리하면서도 연산 비용을 크게 낮출 수 있는 이유가 여기에 있습니다.

여기에 Manifold-Constrained Hyper-Connections(mHC)라는 기법으로 레이어 간 신호 전달을 안정화했고, MoE 전문가 파라미터에는 FP4, 나머지에는 FP8 정밀도를 적용해 메모리 효율도 높였습니다. 기존 MoE 구조에서 약점이던 학습 불안정성을 개선한 부분입니다.

다만 이 효율화가 모든 작업에서 같은 품질을 보장하지는 않습니다. 특히 100만 토큰을 실제로 꽉 채워 쓰는 시나리오에서 품질이 어떤지는, 사용자 피드백이 더 쌓여야 판단할 수 있는 영역입니다.

 

GPT-5.5·Claude 대비 성능과 가격, 수치로 비교

 

코딩 벤치마크에서 V4-Pro는 Claude Opus 4.6을 일부 앞서고, SWE-bench에서는 거의 동등합니다. 가격은 GPT-5.5 대비 최대 97% 저렴합니다. 다만 에이전틱·지식 태스크에서는 GPT-5.5가 우위라는 점도 함께 봐야 합니다.

벤치마크 비교 (프리뷰 기준, 최종 수치 변동 가능)

벤치마크 V4-Pro Claude Opus 4.6 비고
LiveCodeBench 93.5% 88.8% 코딩 벤치마크
SWE-bench Verified 80.6% 80.8% 실제 소프트웨어 엔지니어링
GPQA Diamond 90.1% 대학원 수준 과학 문제
Codeforces 3206 경쟁 프로그래밍
Terminal-Bench 2.0 67.9% 터미널 환경 작업

VentureBeat는 V4를 "프론티어 모델의 1/6 비용으로 근접한 성능"이라고 평가했습니다. 코딩과 수학에서는 확실히 경쟁력 있는 수치이지만, GPT-5.5가 강점을 보이는 에이전틱 작업이나 복합 지식 태스크에서는 격차가 있습니다. 정리하면, "어떤 작업을 시키느냐"에 따라 유불리가 갈린다는 뜻입니다.

API 가격 비교

모델 입력 (1M 토큰) 출력 (1M 토큰)
V4-Flash $0.14 $0.28
V4-Pro (할인 적용, ~5/31) $0.44 $0.87
V4-Pro (정가) $1.74 $3.48
GPT-5.5 $5.00 $30.00

> API 호출량이 많은 프로젝트일수록 이 가격 차이가 체감됩니다. V4-Flash 출력 가격은 GPT-5.5의 1/100 수준이라, 대량 처리 파이프라인에서는 비용 구조 자체가 달라집니다.

 
V4-Pro, V4-Flash, GPT-5.5 세 모델의 API 입력·출력 가격을 로그 스케일 막대 그래프로 나란히 비교. V4-Flash의 압도적 가격 차이가 시각적으로 드러나는 구성. 배경은 흰색, 막대 색상은 남색·청록·주황 계열.
 

딥시크 V4, 지금 바로 사용하는 방법

 

chat.deepseek.com에서 웹 브라우저로 바로 체험할 수 있습니다. API는 OpenAI ChatCompletions 형식과 호환되어, 기존 코드의 엔드포인트와 모델명만 바꾸면 됩니다.

웹 채팅: chat.deepseek.com에 접속하면 별도 설정 없이 V4 모델을 사용할 수 있습니다. 성능을 가장 빠르게 확인하는 방법이기도 합니다.

API 연동: OpenAI SDK를 쓰고 있다면 base URL을 `https://api.deepseek.com`으로, 모델명을 `deepseek-ai/DeepSeek-V4-Pro` 또는 `deepseek-ai/DeepSeek-V4-Flash`로 바꾸면 됩니다. Anthropic API 형식도 호환되고, Claude Code, OpenClaw, OpenCode 등 주요 에이전트 도구와의 통합에 최적화되었다고 공식 문서에 명시되어 있습니다.

Thinking/Non-Thinking 듀얼 모드: 복잡한 문제를 단계적으로 풀 때는 Thinking 모드를, 빠른 응답이 필요할 때는 Non-Thinking 모드를 쓸 수 있습니다. API 파라미터 하나로 전환 가능합니다.

오픈소스 셀프호스팅: MIT 라이선스이므로 가중치 다운로드·수정·상업 사용 모두 자유입니다. 다만 1.6T 파라미터 모델을 직접 돌리려면 대규모 GPU 클러스터가 필요합니다. 솔직히 대부분의 개인 개발자에게는 API가 현실적인 선택입니다.

 

보안 이슈와 한국 정부 대응, 알아야 할 것들

 

한국 정부 주요 부처는 내부 네트워크에서 딥시크 접속을 제한하고 있으며, 개인정보보호위원회는 데이터 처리 방식에 대해 질의서를 발송한 상태입니다.

개인 사용자가 chat.deepseek.com이나 API를 이용하는 것 자체는 제한되지 않습니다. 규제 대상은 주로 정부 기관과 공공 부문입니다.

여기서 짚고 넘어갈 점은, 입력 데이터가 딥시크 서버(중국 소재)를 거친다는 사실입니다. 민감한 업무 데이터나 개인정보를 포함하는 프롬프트를 넣을 때는 신중하게 판단해야 합니다. 이건 딥시크만의 문제가 아니라, 외부 API를 사용하는 모든 서비스에 해당되는 부분이기도 하고요.

데이터 주권이 중요한 조직이라면 오픈소스 가중치를 내려받아 셀프호스팅하는 방법이 있지만, 앞서 말한 대로 1.6T 규모의 인프라 비용이 상당합니다. 현실적으로는 민감 데이터를 제외한 일반 작업에 API를 활용하고, 핵심 데이터는 내부 모델로 처리하는 혼합 전략이 가장 실용적입니다. 제가 보기에는, 이 부분은 딥시크에 국한된 고민이 아니라 외부 AI API를 쓰는 모든 팀이 한 번쯤 정리해둘 문제입니다.

 

자주 묻는 질문

 

Q. 딥시크 V4란 무엇인가요?
A. 2026년 4월 24일 공개된 딥시크의 차세대 AI 모델입니다. V4-Pro(1.6T 파라미터)와 V4-Flash(284B) 두 가지 MoE 모델로 구성되며, 100만 토큰 컨텍스트를 지원합니다. MIT 라이선스 오픈소스로 공개되었습니다.

Q. V4-Pro와 V4-Flash 중 어떤 걸 써야 하나요?
A. 복잡한 코딩이나 심층 분석이 필요하면 V4-Pro, 일상 대화나 대량 처리 작업이면 V4-Flash가 적합합니다. 비용 차이가 크므로, Flash로 먼저 테스트한 뒤 품질이 부족할 때만 Pro로 올리는 것을 권장합니다.

Q. 딥시크 V4 API 가격은 얼마인가요?
A. V4-Flash는 입력 $0.14/1M 토큰, 출력 $0.28/1M 토큰입니다. V4-Pro는 정가 기준 입력 $1.74, 출력 $3.48이고, 2026년 5월 31일까지 75% 할인이 적용됩니다(할인가 $0.44/$0.87). 할인 종료 후 가격이 크게 달라지므로 기간을 확인하세요.

Q. GPT-5.5와 비교하면 성능이 어떤가요?
A. 코딩 벤치마크(LiveCodeBench 93.5%)에서는 경쟁력 있는 수치를 보여주지만, 에이전틱 작업이나 복합 지식 태스크에서는 GPT-5.5가 우위입니다. 전체적으로 능가한다고 단정할 수 없으며, 프리뷰 단계이므로 최종 성능은 변동 가능합니다.

Q. 한국어 성능은 괜찮나요?
A. V4의 한국어 성능에 대한 공식 벤치마크 데이터는 아직 공개되지 않았습니다. chat.deepseek.com에서 직접 테스트해 보는 것이 현재로서는 가장 정확한 확인 방법입니다.

Q. 오픈소스라 직접 서버에 올릴 수 있나요?
A. MIT 라이선스이므로 다운로드·수정·상업 사용 모두 자유입니다. 다만 V4-Pro(1.6T)를 호스팅하려면 대규모 GPU 클러스터가 필요해서, 개인이나 소규모 팀은 API 사용이 현실적입니다. V4-Flash(284B)도 일반 GPU 한두 장으로는 어렵습니다.

Q. 보안 문제는 없나요?
A. 한국 정부 주요 부처는 내부 네트워크에서 딥시크 접속을 제한하고 있습니다. 개인 사용은 자유이나, 민감 데이터를 포함하는 프롬프트는 신중하게 판단해야 합니다. 데이터 주권이 중요하면 오픈소스 가중치를 활용한 셀프호스팅도 선택지입니다.

DeepSeek V4-Pro / V4-Flash 프리뷰 공개 이 글은 실제 사례를 바탕으로 작성되었습니다