GPT-5.4 출시 — 5.3 나온 지 이틀 만에, OpenAI가 쏟아내는 속도의 의미

Table of Contents

한 줄 요약

OpenAI가 GPT-5.3 Instant 출시 이틀 만에 GPT-5.4를 공개했다. 컨텍스트 100만 토큰, 네이티브 컴퓨터 조작, 토큰 47% 절감, 44개 직종 실무에서 사무직을 83% 확률로 이기는 모델. 감성 챗봇에서 완전히 방향을 틀어 “AI가 실제로 업무를 대신하는” 시대를 정면으로 밀고 있다.

무엇이 나왔나

GPT-5.4는 세 가지 버전으로 출시됐다.

GPT-5.4 Thinking: ChatGPT Plus($20/월), Team, Pro 구독자 대상. GPT-5.2 Thinking을 대체하며, 5.2는 3개월 후 종료
GPT-5.4 Pro: ChatGPT Pro($200/월)와 Enterprise 전용. 가장 복잡한 작업용
Free 유저: 자동 라우팅으로 일부 쿼리에서 접근 가능

API에서는 gpt-5.4(Thinking)와 gpt-5.4-pro로 사용할 수 있고, Codex에서도 동시 배포됐다.

핵심 변화 6가지

1. 컨텍스트 윈도우 100만 토큰

OpenAI 역대 최대. GPT-5.3의 40만 토큰에서 2.5배 늘었다. 책 한 권, 대규모 코드베이스, 수 분기 재무 데이터를 한 번에 넣고 작업할 수 있는 수준이다.

단, 가격 구조에 함정이 있다. 인풋이 272,000 토큰을 넘으면 토큰당 비용이 2배로 뛴다. Google Gemini 3.1 Pro는 200만 토큰 컨텍스트를 더 낮은 기본 가격에 제공하고 있어서, 대용량 컨텍스트가 필요한 경우 Google 쪽이 가성비가 좋을 수 있다.

2. 네이티브 컴퓨터 사용 — 메인 모델 최초

GPT-5.4는 OpenAI가 출시한 범용 모델 중 처음으로 네이티브 컴퓨터 사용 기능을 탑재했다. Playwright 코드로 브라우저를 조작하거나, 스크린샷을 보고 직접 마우스·키보드 명령을 내릴 수 있다.

벤치마크 성적이 의미 있다.

벤치마크	GPT-5.4	GPT-5.2	인간
OSWorld-Verified (데스크톱 조작)	75.0%	47.3%	72.4%
WebArena-Verified (웹 상호작용)	67.3%	65.4%	–
Online-Mind2Web (스크린샷 기반)	92.8%	–	–

OSWorld에서 인간 성능(72.4%)을 넘긴 건 처음이다. AI가 컴퓨터 앞에 앉아서 사람보다 빠르고 정확하게 소프트웨어를 조작할 수 있다는 뜻이다.

개발자는 커스텀 확인 정책(confirmation policy)을 설정해서 안전 수준을 조절할 수 있다. 위험한 작업 전에 사람의 승인을 요구하게 만들 수도 있고, 자율 실행을 허용할 수도 있다.

3. 토큰 47% 절감 — Tool Search

GPT-5.4는 Tool Search라는 새로운 시스템을 도입했다. 기존에는 API 호출 시 사용 가능한 모든 도구의 정의를 프롬프트에 넣어야 했다. 도구가 많으면 수만 토큰이 매 요청마다 소모됐다.

Tool Search는 도구 목록만 가볍게 전달하고, 모델이 실제로 필요할 때만 해당 도구의 정의를 검색해서 가져온다. Scale의 MCP Atlas 벤치마크에서 36개 MCP 서버, 250개 태스크 기준으로 정확도는 동일하면서 토큰 사용량을 47% 줄였다.

에이전트 시스템을 만드는 개발자에게는 비용과 속도 양쪽에서 직접적인 효과가 있다.

4. 할루시네이션 33% 감소

사용자가 사실 오류를 신고한 프롬프트를 대상으로 테스트한 결과, 개별 주장(claim) 단위에서 오류 확률이 GPT-5.2 대비 33% 낮아졌고, 응답 전체 기준으로도 오류가 포함될 확률이 18% 줄었다.

BrowseComp(웹에서 찾기 어려운 정보를 끈질기게 검색하는 능력)에서도 GPT-5.2 대비 17%p 향상됐고, GPT-5.4 Pro는 89.3%로 최고 성적을 기록했다.

5. 사무직을 이기기 시작했다

GDPval — OpenAI가 미국 GDP 상위 9개 산업, 44개 직종의 실무 태스크를 기반으로 만든 벤치마크에서 GPT-5.4는 83%의 비교에서 현직 전문가를 이기거나 동등한 성과를 냈다. GPT-5.2는 70.9%였다.

세부 성적이 더 구체적이다.

스프레드시트 모델링 (주니어 IB 애널리스트 수준): 87.3% (GPT-5.2: 68.4%)
투자은행 업무 내부 벤치마크: 88.0% (GPT-5: 43.7%)
프레젠테이션: 인간 평가자의 68%가 GPT-5.2보다 GPT-5.4의 결과물을 선호

Walleye Capital의 Daniel Swiecki는 내부 금융·엑셀 평가에서 정확도가 30%p 향상됐다고 보고했다. DCF 분석, 비교 분석, 시나리오 분석 같은 주니어 애널리스트의 루틴 업무를 AI가 대체하기 시작했다는 뜻이다.

6. Excel·Google Sheets 직접 통합

OpenAI for Financial Services라는 이름으로 금융 특화 제품군이 함께 출시됐다.

ChatGPT for Excel and Google Sheets (베타): 스프레드시트 셀 안에서 직접 ChatGPT가 작동. 재무 모델 구축·분석·업데이트를 기존 수식과 구조 위에서 수행
ChatGPT 앱 연동: FactSet, MSCI, Third Bridge, Moody’s와 통합. 시장 데이터, 기업 데이터, 내부 데이터를 하나의 워크플로우로 합침
재사용 가능한 Skills: 어닝스 프리뷰, 비교분석, DCF, 투자 메모 작성 등 반복 업무를 스킬로 만들어 재사용

Anthropic의 Claude for Financial Services, Cowork과 정면 경쟁하는 구도다.

API 가격

모델	인풋 (1M 토큰)	아웃풋 (1M 토큰)
GPT-5.4 Thinking	$2.50	$15
GPT-5.4 Pro	$30	$180

Batch + Flex: 절반 가격
Priority processing: 2배 가격
인풋 272,000 토큰 초과 시: 2배 가격

Pro는 시장에서 가장 비싼 모델 중 하나다. OpenAI의 논리는 “더 복잡한 작업을 더 적은 토큰으로 해결하니까 총비용은 낮다”는 건데, 실제로 그렇게 되는지는 사용 패턴에 따라 다를 것이다.

GPT-5 시리즈 — 레딧이 말해주는 것

벤치마크만 보면 GPT-5.4는 압도적이다. 하지만 GPT-5 시리즈의 역사는 벤치마크와 사용자 반응이 반대로 갔다는 걸 보여준다.

GPT-5.0 (2025년 8월): “horrible” 제목의 레딧 글이 6,000 추천, 2,300 댓글. 4o 복구 청원에 3,000명 서명. Polymarket에서 OpenAI 신뢰도가 75%에서 14%로 한 시간 만에 추락. 결국 OpenAI가 4o를 Plus 유저에게 복원.

GPT-5.1 (2025년 11월): 레딧 AMA가 1,300 다운보트. “왜 4o를 돌려달라고 해야 하느냐”가 가장 많이 추천된 질문.

GPT-5.2 (2025년 12월): “boring, robotic, 역대 최악.” “5와 5.1의 나쁜 점만 모아놨다.” 레딧 분석 결과 GPT-5 관련 논의의 70%가 부정적 감성.

패턴이 명확하다. 벤치마크는 올라가는데 사용자 만족도는 내려갔다. 핵심 불만은 두 가지였다. 하나는 성격이 “차갑고 기업적”이 됐다는 것, 다른 하나는 안전 필터가 너무 강해서 정상적인 질문도 거부한다는 것.

GPT-5.4는 이 불만에 대해 흥미로운 방향을 택했다. 감성 챗봇 경쟁을 포기하고, 업무용 AI로 방향을 완전히 틀었다. “사람처럼 대화하는 AI” 대신 “사람 대신 일하는 AI”를 만들겠다는 선언이다.

#QuitGPT와 경쟁 구도

GPT-5.4 출시와 동시에 OpenAI는 다른 전선에서도 싸우고 있다. 미 국방부(Pentagon) 계약을 둘러싼 논란으로 #QuitGPT 운동이 확산되면서 70만 명이 ChatGPT 구독을 취소했다는 보도가 나왔다. Anthropic CEO가 공개적으로 비판하는 상황까지 벌어졌다.

경쟁사들의 움직임도 빠르다.

Anthropic Claude: Opus 4.6 출시, Cowork(데스크톱 자동화), Claude for Financial Services
Google Gemini: 3.1 Pro(200만 토큰 컨텍스트), Flash-Lite(저가 모델)
Claude·Gemini로의 이탈 가속: Tom’s Guide는 “ChatGPT를 끊고 Claude와 Gemini로 옮겼다”는 시리즈를 여러 편 발행

OpenAI가 5.3 출시 이틀 만에 5.4를 내놓은 건, 제품 완성도보다 속도를 우선한 선택으로 읽힌다. GPT-5 시리즈 내내 반복된 “벤치마크는 좋은데 사용자가 불만”이라는 패턴이 5.4에서도 반복될지가 관건이다.

누가 써야 하나

개발자/에이전트 빌더: 네이티브 컴퓨터 사용 + Tool Search + 100만 토큰. 에이전트 시스템을 만드는 사람에게는 현재 가장 완성도 높은 도구. 특히 Tool Search의 47% 토큰 절감은 대규모 에이전트의 비용 구조를 바꿀 수 있다.

금융 전문가: Excel/Sheets 통합 + FactSet/MSCI/Moody’s 연동 + IB 벤치마크 88%. 주니어 레벨의 스프레드시트 작업과 보고서 초안을 AI가 처리하는 시대가 열리고 있다.

일반 사용자: 솔직히 체감 차이가 크지 않을 수 있다. 5.3 Instant가 이틀 전에 “자연스러운 대화”를 개선했는데, 5.4는 그쪽이 아니라 업무 특화다. 일상 대화 용도라면 5.3 Instant가 오히려 나을 수 있다.

핵심 질문

GPT-5.4의 진짜 의미는 기술이 아니라 방향 전환에 있다.

OpenAI는 “AI 친구” 시장에서 “AI 사무직” 시장으로 무게중심을 옮기고 있다. 컴퓨터를 직접 조작하고, 엑셀에서 재무 모델을 만들고, 44개 직종의 실무를 83% 확률로 사람보다 잘 한다는 벤치마크를 전면에 내세운 건 그래서다.

이 방향이 맞다면 ChatGPT의 경쟁 상대는 Claude나 Gemini가 아니라 사무직 노동 시장 그 자체가 된다. 그리고 그 시장이 반응하는 속도는 레딧 댓글보다 훨씬 느리고, 훨씬 무겁다.