상세 컨텐츠

본문 제목

경쟁하는 줄 알았는데 합쳐지고 있었다, AI 코딩 도구 3파전의 진짜 현재

AI

by 테크브리프 2026. 4. 19. 14:15

본문

불과 2주 사이에 AI 코딩 도구 업계에서 세 가지 큰 움직임이 연달아 터졌다. 3월 말 오픈AI(OpenAI)가 깃허브(GitHub)에 codex-plugin-cc를 공개해 자사 도구 코덱스(Codex)를 경쟁사 앤트로픽(Anthropic)의 클로드 코드(Claude Code) 안에서 실행할 수 있게 만들었다. 4월 2일 커서(Cursor)가 버전 3을 출시하면서 에이전트 병렬 관리용 전용 인터페이스를 전면에 내세웠다. 4월 16일 오픈AI가 코덱스를 대대적으로 업데이트해 맥OS 백그라운드 제어와 다중 에이전트 병렬을 추가했다. 처음엔 3파전 경쟁처럼 보였지만 자세히 보면 세 도구가 서로 얹히고 호환되며 하나의 스택으로 녹아들고 있다.

4월 16일 오픈AI가 쏘아올린 코덱스 대대적 업데이트

4월 16일 오픈AI는 코덱스에 상당한 양의 신규 기능을 한 번에 쏟아냈다. 가장 눈에 띄는 변화는 코덱스가 맥OS 데스크톱에서 백그라운드로 작동할 수 있게 된 점이다. 화면의 커서가 스스로 클릭하고 타이핑하면서 여러 에이전트가 사용자의 작업을 방해하지 않고 동시에 일을 처리한다. 테크크런치(TechCrunch)는 이 기능이 지난달 앤트로픽이 맥과 데스크톱 원격 제어 기능을 추가한 직후 나온 반격이라고 해석했다.

다중 에이전트 워크플로의 공식 지원도 함께 추가됐다. 기존에는 단일 AI 인스턴스가 작업을 순차적으로 처리했다면 이제는 여러 특화 에이전트가 작성, 디버깅, 테스트 작업을 병렬로 수행한다. 지속 메모리도 도입됐다. 코덱스가 세션을 넘나들며 컨텍스트를 유지하고 사용자 선호를 기억해 장기 프로젝트를 이어갈 수 있다.

새로 공개된 플러그인은 90개 이상이다. 아틀라시안 로보(Atlassian Rovo), 서클CI(CircleCI), 코드래빗(CodeRabbit), 깃랩 이슈(GitLab Issues), 마이크로소프트 스위트(Microsoft Suite), 데이터브릭스의 네온(Neon by Databricks), 리모션(Remotion), 렌더(Render), 슈퍼파워스(Superpowers)가 포함됐다. 이 플러그인들은 스킬, 앱 통합, MCP(Model Context Protocol) 서버를 결합한 형태로 코덱스에 외부 도구 맥락을 끌어오는 창구가 된다.

더 뉴 스택(The New Stack) 집계에 따르면 코덱스 주간 활성 사용자는 한 달 사이 200만 명에서 300만 명으로 늘었다. 업데이트 시점이 묘하다는 반응이 개발자 커뮤니티에서 바로 나왔다. 클로드 코드가 기업 현장에서 사실상 기본 도구로 자리 잡던 상황에서 나온 반격이었기 때문이다.

경쟁이 아니라 합류, 3월 말 codex-plugin-cc의 의미

코덱스 업데이트 자체보다 더 주목할 사건은 그보다 약 2주 반 앞서 있었다. 3월 말 오픈AI는 깃허브에 codex-plugin-cc라는 저장소를 공개했다. cc는 클로드 코드(Claude Code)의 약자다. 이 플러그인은 클로드 코드의 터미널 환경 안에서 코덱스를 실행할 수 있게 해준다.

경쟁사 제품 안에서 자사 도구를 돌리게 만든 결정은 업계에서도 예상 밖이었다. 디 인포메이션(The Information)은 4월 초 "코덱스와 클로드 코드가 함께 작동할 수 있다"는 제목으로 이 흐름을 정리하며 선도 AI 코딩 도구를 만드는 회사들이 평화로운 공존의 이점을 배우고 있다고 평가했다.

해석은 두 갈래로 나뉜다. 하나는 오픈AI가 클로드 코드의 사용자층이 이미 너무 커져서 완전히 이기기보다 그 안에 얹히는 전략이 현실적이라는 판단이다. 다른 하나는 개발자 워크플로 자체가 이미 여러 도구를 섞어 쓰는 쪽으로 이동했기 때문에 단일 도구 독점 전략이 유효하지 않다는 판단이다. 어느 해석이 맞든 결과는 같다. 세 도구가 서로를 참조하고 얹히는 관계로 재편됐다.

4월 2일 커서 버전 3 글래스, 에이전트 오케스트레이션의 탄생

이 흐름을 가장 또렷하게 드러낸 사건이 4월 2일 커서 버전 3 출시다. 내부 코드명 글래스(Glass)로 개발된 이 버전은 2023년 애니스피어(Anysphere)가 제품을 처음 출시한 이후 가장 큰 인터페이스 개편이었다. 기존 컴포저(Composer) 패널을 완전히 덜어내고 그 자리에 에이전트 윈도우(Agents Window)라는 독립 인터페이스를 새로 짜 넣었다.

에이전트 윈도우의 핵심은 여러 AI 에이전트를 병렬로 관리하는 것이다. 로컬 머신, 깃 워크트리(worktree), 클라우드 샌드박스에 걸쳐 여러 에이전트를 하나의 사이드바에서 운영할 수 있다. 에이전트 탭(Agent Tabs) 기능으로 여러 대화를 나란히 띄워 볼 수 있고, /best-of-n 커맨드로 동일한 프롬프트를 여러 모델에 격리된 워크트리에서 동시에 보내 결과를 비교할 수 있다. 내장 브라우저에 UI 요소를 직접 주석 달 수 있는 디자인 모드(Design Mode)도 추가됐다.

세션 이동도 매끄러워졌다. 로컬에서 작업하던 에이전트 세션을 클라우드로 넘겨 밤새 실행시키고 아침에 로컬로 다시 끌고 와 이어서 반복할 수 있다. 노트북을 닫아도 작업이 중단되지 않는다. 커서가 자체 개발한 코딩 모델 컴포저 2(Composer 2)는 터미널-벤치 2.0(Terminal-Bench 2.0)에서 61.7점을 기록해 클로드 오푸스 4.6(Claude Opus 4.6)의 58.0점을 앞섰다. GPT-5.4의 75.1점에는 못 미쳤지만 자체 모델이 앤트로픽 모델을 제쳤다는 기록은 의미가 있었다.

커서 버전 3의 방향성은 한 문장으로 요약된다. 개발자 역할을 "AI와 짝 프로그래밍"에서 "작은 엔지니어링 팀을 지휘하는 오케스트레이터"로 바꾼다는 것이다. 애니스피어는 3월 기준 500억 달러 밸류에이션으로 신규 투자 유치 논의 중이라고 알려졌고 오픈AI의 인수 제안을 거절했다. 2026년 초 기준 연 반복 매출 20억 달러를 돌파한 상태다.

세 도구의 역할 분담이 고착화되고 있다

2026년 4월 기준 세 도구는 서로 경쟁하기보다 역할이 나뉘고 있다. 클로드 코드는 터미널 우선 자율 작업에 강하다. 전체 코드베이스를 통째로 읽고 전체 맥락에서 추론하는 능력이 대규모 리팩토링에 유리하다. 커서는 에디터 중심의 외과적 편집과 시각적 맥락 활용에 강하다. 사용자가 보고 있는 화면을 AI가 함께 인지하는 구도가 UI 작업에 유용하다. 코덱스는 오픈AI 생태계와의 연동과 광범위한 플러그인 확장성에 강하다.

이 차이는 컨텍스트 관리 방식에서 가장 두드러진다. 에디터 우선 대 터미널 우선이라는 겉보기 구분보다 실제로 중요한 건 컨텍스트 윈도우 관리 전략이다. 클로드 코드는 자동 컴팩션(compaction)으로 세션 이력을 자동 요약하고, 리캡(recap) 기능으로 끊어졌던 세션에 다시 들어왔을 때 방향을 잡아준다. 커서 버전 3는 자체 요약(self-summarization)이라는 기술을 도입해 컨텍스트 5000 토큰 이상 누적된 이력을 약 1000 토큰으로 압축한다. 강화학습(RL) 리워드가 압축 단계를 포함하도록 학습해 무엇을 남기고 무엇을 버릴지 모델이 스스로 배우는 구조다. 커서는 이 방식으로 컴팩션 오류를 50% 줄였다고 공개했다.

코덱스는 지난 업데이트로 세션 간 지속 메모리를 추가하면서 장기 컨텍스트 관리에 본격 진입했다. 세 도구 모두 모델 컨텍스트 프로토콜(Model Context Protocol, MCP)을 지원하고 외부 도구 연결을 열어뒀다. MCP가 공통 표준으로 자리 잡은 덕에 세 도구 간 상호 운용이 가능해졌다.

클로드 코드가 46% "most loved"인 이유

프래그매틱 엔지니어(Pragmatic Engineer)가 2026년 2월 소프트웨어 엔지니어 906명을 대상으로 진행한 설문에서 클로드 코드가 가장 많이 쓰이는 AI 코딩 도구로 집계됐고, 응답자의 46%가 가장 선호하는 도구로 꼽았다. 세미애널리시스(SemiAnalysis) 추정에 따르면 클로드 코드는 2026년 3월 기준 전체 공개 깃허브 커밋의 약 4%를 차지하고 있으며 연말까지 20%에 도달할 것으로 예측됐다. 애널리스트 추정 연간 반복 매출은 2026년 3월 기준 25억 달러를 넘어섰다. 앤트로픽은 공식 공시에서 이 수치를 확인해주지는 않았다.

클로드 코드가 이 위치에 오른 이유로 자주 꼽히는 것은 강한 모델이 아니라 강한 통제 스택이다. 앤트로픽은 프로젝트 지시사항, 스킬, MCP 도구, 훅(hook), 서브에이전트(subagent)를 별도 레이어로 분리해서 제공한다. 개발자가 모든 것을 프롬프트에 욱여넣는 대신 각 계층에 역할을 나눠 배치할 수 있다. 훅 시스템은 SessionStart, UserPromptSubmit, PreToolUse, PostToolUse, PermissionRequest, SubagentStart, SubagentStop, TaskCreated, TaskCompleted 같은 이벤트에 사용자 로직을 끼워 넣을 수 있게 한다.

이 구조가 어제 다룬 하네스 엔지니어링(Harness Engineering)의 실제 구현이다. 하네스는 AI 모델을 감싸는 런타임 제약 시스템인데 클로드 코드의 레이어 분리와 훅 아키텍처가 그 구조를 기본 지원한다. 개발자가 AI를 "영리한 인턴"이 아니라 "차근차근 길들일 수 있는 도구"로 인식하게 만든 설계라는 평가가 붙었다.

앤트로픽은 4월 들어 플랫폼 레이어 투자를 쏟아냈다. 4월 8일 클로드 매니지드 에이전트(Claude Managed Agents) 공개 베타 출시, 4월 9일 어드바이저(Advisor) 도구 출시, 같은 4월 9일 클로드 코워크(Claude Cowork) 일반 출시. 코워크는 격리된 VM에서 로컬 파일과 MCP 통합에 접근할 수 있는 데스크톱 지식 작업용 제품이다. CLI 단에서만 상호작용하는 사용자도 이런 플랫폼 레이어 투자의 혜택을 받는다.

개발자들이 세 도구를 섞어 쓰는 방식

2026년 4월 현재 실전에서 자주 보이는 패턴은 세 도구를 계층별로 섞어 쓰는 방식이다. 커서 에이전트 윈도우를 오케스트레이션 레이어로 쓰면서 그 안에서 클로드 코드와 코덱스를 각각 다른 워크트리에 붙이는 방식이 대표적이다. /best-of-n 커맨드로 동일한 작업을 두 모델에 동시에 보내 결과를 비교하는 워크플로도 정착 중이다.

또 다른 패턴은 터미널에서 클로드 코드를 기본 드라이버로 삼고 거기에 codex-plugin-cc로 코덱스를 보조 호출해 특정 작업에 오픈AI 모델의 강점을 끌어오는 구조다. 장기 리팩토링은 클로드 코드에 맡기고 프론트엔드 디자인 반복은 커서 디자인 모드에 맡기는 작업 분할도 일반적이다.

기업 환경에서는 세 도구가 경쟁이 아니라 보완 관계로 배치되는 사례가 늘고 있다. 더 뉴 스택은 4월 16일 기사에서 스포티파이(Spotify) 엔지니어링 팀의 에이전틱 우선 개발 방식을 다뤘다. 각 도구의 강점이 확실히 다르기 때문에 하나만 고르면 조직 전체 생산성이 떨어진다는 문제 인식이 기업들 사이에서 퍼지고 있다.

시장 지표로 본 3파전의 현재

세 회사의 매출과 성장 궤적을 겹쳐 보면 경쟁 구도가 더 선명해진다. 클로드 코드는 추정 연매출 25억 달러 이상, 커서는 연 반복 매출 20억 달러 돌파, 코덱스는 주간 활성 사용자 300만 명이다. 커서는 AI 코딩 도구 시장의 약 25%를 점유한 것으로 평가되고 이 점유율은 버전 3 출시 이후 더 올라갈 가능성이 크다.

모델 성능 벤치마크에서는 GPT-5.4가 터미널-벤치 2.0 75.1점으로 최고점을 유지하고 있다. 커서 컴포저 2가 61.7점, 앤트로픽 클로드 오푸스 4.6이 58.0점으로 뒤를 쫓고 있다. 단 벤치마크 수치가 실제 개발 생산성과 일치하지 않는다는 반론도 존재한다. 프래그매틱 엔지니어 설문에서 개발자 선호도 1위가 클로드 코드였던 이유는 모델 점수가 아니라 통제 스택 설계에 있었기 때문이다.

커서의 전략적 과제는 방어선이다. 클로드 코드와 코덱스는 각각 앤트로픽과 오픈AI의 플래그십 모델을 뒤에 두고 있다. 커서의 모델 불가지론 접근은 사용자가 클로드, GPT, 컴포저 사이를 자유롭게 전환하게 해주지만 결과적으로 사용자가 커서 안에서 클로드를 돌리는 선택을 할 때마다 앤트로픽에 사용량이 흘러가는 구조가 된다. 컴포저 2가 계속 자체 경쟁력을 유지해야 이 모순이 풀린다.

2026년 후반 전망과 한계

앞으로 2026년 후반을 좌우할 변수는 크게 세 갈래다. 하나는 모델 성능 격차의 향방이다. GPT-5.4가 벤치마크 1위를 유지하는 가운데 앤트로픽의 차세대 모델과 커서 컴포저의 다음 버전이 얼마나 따라붙느냐가 중요하다. 또 다른 갈래는 플랫폼 레이어의 확장이다. 클로드 코워크 같은 데스크톱 지식 작업 영역, 코덱스의 맥OS 백그라운드 제어 같은 운영체제 수준 통합이 얼마나 빠르게 표준으로 자리 잡느냐다. 마지막 갈래는 기업 시장의 도구 선택이다. 개별 개발자의 선호와 기업의 표준 도구 선택은 다르게 움직인다.

한계도 분명하다. AI 생성 코드의 보안 취약점 45%, 코드 중복 48% 증가 같은 숫자가 여전히 남아 있다. 세 도구가 합쳐진다고 해서 이런 구조적 문제가 사라지는 것은 아니다. 도구 간 상호 운용이 늘어나면 공격 표면도 함께 넓어진다. 한 도구의 취약점이 다른 도구까지 전염될 여지가 생긴다.

바이브 코딩(Vibe Coding)에서 하네스 엔지니어링으로의 이동이 필요한 이유가 여기서 다시 드러난다. 도구가 강력해지고 도구 간 연결이 복잡해질수록 통제 스택의 중요도는 올라간다. 2026년 현재 AI 코딩 도구 3파전은 모델 경쟁에서 스택 경쟁으로, 스택 경쟁에서 오케스트레이션 경쟁으로 옮겨 왔다. 세 도구가 하나로 합쳐지는 흐름은 그 다음 국면이 이미 시작됐다는 뜻이다.

정리

4월 2일 커서 버전 3 글래스 출시, 3월 말 codex-plugin-cc 공개, 4월 16일 코덱스 대대적 업데이트가 2주 사이에 연달아 터지면서 AI 코딩 도구 3파전이 경쟁 구도에서 융합 구도로 이동했다. 클로드 코드는 터미널 우선 자율 작업과 통제 스택 설계로 46% 개발자 선호도를 얻었고, 커서는 에이전트 오케스트레이션 레이어로 포지션을 잡았고, 코덱스는 오픈AI 생태계 확장과 맥OS 백그라운드 제어로 영역을 넓혔다. 세 도구가 공통으로 MCP를 지원하면서 상호 운용이 가능해졌고 실전에서는 계층별로 섞어 쓰는 워크플로가 늘고 있다. 모델 성능 벤치마크와 개발자 선호도가 일치하지 않는 현상은 2026년 AI 코딩 시장에서 모델이 전부가 아니라는 사실을 다시 확인시킨다. 어제 다룬 하네스 엔지니어링이 이 모든 변화의 바탕 설계다. 도구가 합쳐질수록 통제 스택이 더 중요해진다.

관련글 더보기