LLM2026년 5월 27일ELOUNGE

GPT-4o 네이티브 이미지 생성: ChatGPT 이미지 2.0 뜯어보기

ELOUNGE

2025년 3월, ChatGPT의 이미지 생성 방식이 조용하지만 구조적으로 바뀌었다. 새 모델을 얹은 것처럼 보이지만 내부적으로는 파이프라인 자체가 달라졌다. DALL-E 3를 별도로 호출하던 구조에서, GPT-4o가 이미지를 직접 출력하는 구조로 전환된 것이다. 실제로 써보면 차이가 느껴지는 부분이 몇 가지 있어 정리해둔다.

DALL-E 3와 무엇이 다른가

기존 ChatGPT 이미지 생성은 단계가 명확했다. GPT-4o가 사용자 요청을 받아 DALL-E 3에 전달할 프롬프트로 변환하고, DALL-E 3가 그 프롬프트로 이미지를 생성했다. 두 모델이 직렬로 이어진 구조다.

GPT-4o 네이티브 이미지 생성(이하 이미지 2.0으로 통칭)은 이 구조를 바꿨다. GPT-4o가 텍스트와 이미지 토큰을 함께 처리하면서 이미지를 직접 출력한다. 중간 프롬프트 변환 단계가 없으니, 대화 컨텍스트가 이미지 생성에 훨씬 밀접하게 반영된다.

결과로 눈에 띄게 달라진 점:

대화 흐름 유지: "아까 만든 이미지에서 배경만 바다로 바꿔줘" 같은 맥락 참조가 자연스러워졌다.
텍스트 렌더링: 이미지 안에 영문·한글 텍스트를 정확하게 넣는 능력이 이전 대비 확연히 좋아졌다. DALL-E 3에서 악명 높던 글자 뭉개짐이 대폭 줄었다.
세밀한 지시 따르기: "왼쪽 상단에 작은 빨간 점 하나"처럼 위치·크기·색상을 조합한 복잡한 요청의 정확도가 높아졌다.

텍스트 렌더링 — 가장 두드러진 변화

이전 DALL-E 기반 시스템에서 이미지 내 텍스트는 거의 믿을 수 없었다. 영문 단어조차 철자가 틀리거나 글자가 섞이는 경우가 잦았고, 한글은 대부분 의미 없는 형태로 뭉개졌다.

이미지 2.0은 이 부분에서 가장 눈에 띄는 개선을 보인다. 짧은 문구나 레이블은 꽤 정확하게 렌더링된다. 다만 긴 문장이나 특수문자가 많은 경우엔 여전히 오류가 나오므로, 텍스트가 핵심인 디자인 작업에는 검수가 필요하다는 점은 변함없다.

실무에서 유용한 케이스:

UI 목업에 버튼 레이블이나 헤더를 직접 넣기
인포그래픽 초안에 짧은 수치·항목명 삽입
SNS 카드 이미지에 슬로건 초안 배치

완성 결과물에 바로 쓰기보다는, 디자이너와의 초안 커뮤니케이션 단계에서 시간을 아끼는 용도로 접근하는 게 현실적이다.

이미지 편집과 멀티턴 일관성

이미지 2.0에서 새로 강조된 기능 중 하나가 인페인팅 방식의 편집이다. 생성된 이미지에서 특정 영역을 지정하거나 자연어로 부분 변경을 요청하면, 나머지 영역은 유지하면서 해당 부분만 바꿔준다.

"이 이미지에서 인물의 옷 색상만 파란색으로 바꿔줘"
"배경을 도시에서 숲으로 교체해줘. 인물 포즈는 그대로."

이 두 요청은 DALL-E 3 시절엔 전체를 다시 생성하거나, 별도 편집 API를 호출해야 했다. 이미지 2.0은 이 흐름이 채팅창 안에서 이어진다.

단, 멀티턴 편집에서 요소 일관성은 아직 완전하지 않다. 인물 얼굴이나 특정 오브젝트를 여러 번 수정하다 보면 원래 의도와 다르게 바뀌는 경우가 생긴다. 수정 횟수가 많아질수록 누적 오염이 쌓인다는 감각으로 접근하는 게 현실적이다.

개발자 관점 — API에서 달라진 것

ChatGPT UI 이야기만 하면 반쪽이다. API로 이미지 생성을 써온 개발자 입장에서 달라지는 것들:

gpt-4o 모델에서 이미지 출력을 직접 받을 수 있게 됐다. 글 쓰는 시점 기준으로 엔드포인트와 파라미터 구조는 OpenAI 공식 문서를 확인하는 게 맞다. 변경 속도가 빠른 영역이다.
DALL-E 3 API는 별도로 유지되므로, 기존 통합을 당장 바꿀 필요는 없다.
텍스트·이미지 혼합 출력을 한 번의 API 호출로 처리할 수 있게 된 점이 에이전트 파이프라인 설계에서 유용하다. 이전엔 텍스트 응답과 이미지 응답을 별도 호출로 조립해야 했다.

함정 — 알고 들어가면 좋은 것들

생성 속도는 DALL-E 3보다 느리다. 네이티브 멀티모달 처리를 하는 만큼 응답 대기가 길다. 빠른 이터레이션이 필요한 상황이면 여전히 DALL-E 3 API가 나을 수 있다.
출력 해상도 제한이 있다. 글 쓰는 시점 기준으로 최대 해상도가 일부 전문 이미지 생성 모델보다 낮다. 인쇄물용 고해상도 결과물이 필요하다면 대안을 검토해야 한다.
이미지에도 할루시네이션이 있다. 텍스트 LLM이 없는 사실을 만들어내듯, 이미지에서도 요청하지 않은 요소가 추가되거나 미묘하게 왜곡된 결과가 나온다. 기술 도해나 정밀한 다이어그램에는 특히 주의가 필요하다.

마무리

ChatGPT 이미지 2.0이 이전과 가장 다른 건 "이미지를 더 잘 만든다"가 아니라, 텍스트와 이미지 생성이 하나의 컨텍스트 안에서 이어진다는 점이다. 이것이 만들어내는 차이는 단발 이미지 생성보다 멀티턴 작업에서 더 크게 드러난다.

아직 전문 이미지 생성 모델(Midjourney, Flux 계열 등)을 전면 대체하는 수준은 아니다. 하지만 개발·기획 단계의 빠른 시각화, 대화 기반 편집 이터레이션, API 파이프라인 단순화 측면에서는 명확한 강점이 생겼다. 텍스트와 이미지가 자주 교차하는 에이전트 파이프라인을 설계하고 있다면, 한번 테스트해볼 가치가 있다.

모든 글로 돌아가기