2026년 3월에 Claude Code에 정확히 무슨 변화가 있었나요?

2026년 2월 9일 '어댑티브 싱킹(Adaptive Thinking)'이 기본 기능으로 도입되었고, 3월 초에는 기본 effort 등급이 high에서 medium으로 조용히 낮아졌습니다. 두 변화가 겹치면서 모델이 자체 판단으로 사고 토큰을 덜 쓰게 되었고, 답변이 짧아지거나 사실과 다른 내용을 자신 있게 내놓는 현상이 늘었습니다. Claude Code 창시자 Boris Cherny도 이 문제를 해커뉴스에서 공식 인정했습니다. 다만 Anthropic은 4월 7일 기본값을 다시 high로 되돌려, 현재(2026년 6월)는 대부분 정상화된 상태입니다. 어댑티브 싱킹 자체는 지금도 기본으로 켜져 있어 가끔 사고를 건너뛸 수 있습니다.

/effort 등급(low/medium/high/xhigh/max)은 각각 언제 쓰나요?

현재 effort 등급은 모델에 따라 다릅니다. Opus 4.7·4.8과 Fable 5는 low·medium·high·xhigh·max를 모두 지원하고, Opus 4.6과 Sonnet 4.6은 low·medium·high·max를 지원합니다. low는 단순 조회나 파일 이동처럼 생각이 거의 필요 없는 일에 씁니다. medium은 토큰을 아끼는 절충값입니다. high는 현재 기본값으로 리팩토링·버그 원인 분석·다단계 설정처럼 균형이 필요한 작업에 적합합니다(2026년 3월 이전의 원래 기본값이자 4월 7일 복구된 값). xhigh는 high보다 더 깊은 추론이 필요할 때 쓰며 Opus 4.7에서는 이게 기본값입니다. max는 토큰 제한 없이 가장 깊게 생각하지만 과잉 사고가 날 수 있어 아키텍처 설계·복잡한 디버깅 같은 고난도 과제에만 켜는 것이 효율적입니다. 참고로 /effort auto는 현재 모델의 기본 등급으로 되돌리는 명령입니다.

ultrathink 키워드는 effort 설정을 대체하나요, 아니면 추가로 쓰나요?

둘은 역할이 다릅니다. /effort는 세션 전체의 사고 감도를 정하는 지속 설정이고, ultrathink는 해당 프롬프트 한 번에만 '더 깊이 생각하라'는 지시를 덧붙이는 일회성 키워드입니다. 예전에는 ultrathink가 최대 31,999 토큰의 고정 상한을 여는 방식이었지만, 현재(2026년 6월) 공식 문서 기준으로는 API에 전달되는 effort 등급은 그대로 두고 in-context 지시만 추가하는 방식으로 바뀌었습니다. 실측에서는 /effort low 상태에서도 프롬프트에 ultrathink를 한 단어 추가한 것만으로 속 생각 분량이 약 10배 늘어났습니다. think, think hard 같은 비슷한 표현은 키워드로 인식되지 않으니 정확히 ultrathink를 써야 합니다. 일상은 effort로 기본 감도를 조절하고, 난제에만 ultrathink를 붙이는 방식이 권장됩니다.

CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING은 무조건 켜는 게 좋은가요?

아닙니다. 이 환경변수는 어댑티브 싱킹의 자동 절감 동작을 끄고 /effort에 해당하는 고정 사고 예산을 매번 그대로 쓰게 합니다. 장점은 답변 일관성이 크게 올라가고 '정확한 형태의 헛소리'가 줄어든다는 점이고, 단점은 쉬운 질문에도 고정 예산이 들어가기 때문에 구독 토큰 소모가 증가한다는 점입니다. 또한 중요한 제약이 있습니다. 이 설정은 Opus 4.6과 Sonnet 4.6에서만 작동하고, 항상 어댑티브로 동작하는 Opus 4.7·4.8과 Fable 5에는 적용되지 않습니다. 최신 Opus를 쓰고 있다면 이 변수는 무시되므로, 대신 /effort를 high·xhigh·max로 올리고 난제에 ultrathink를 붙이는 방식이 현실적입니다. 헛소리를 여러 번 겪어 신뢰도가 토큰 비용보다 중요해진 단계에서 (지원되는 모델에 한해) 켜는 것이 합리적입니다.

/effort 설정을 세션마다 다시 치지 않고 기본값으로 고정할 수 있나요?

가능합니다. 프로젝트별로 다른 값을 쓰려면 해당 폴더의 CLAUDE.md에 기본 effort를 명시하거나, 터미널 alias에 --effort 플래그를 넣어 둘 수 있습니다. 예를 들어 ~/.zshrc에 alias cch='claude --effort high' 같이 적어두면 cch라는 명령어로 언제나 high로 시작됩니다. 더 영구적으로는 설정 파일의 effortLevel 항목에 low·medium·high·xhigh 중 하나를 적어두거나, CLAUDE_CODE_EFFORT_LEVEL 환경변수를 쓰는 방법도 있습니다(max와 ultracode는 세션 한정이라 여기엔 넣을 수 없습니다). 참고로 어댑티브 싱킹 자체를 끄는 CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1은 Opus 4.6·Sonnet 4.6에서만 적용됩니다.

클로드 코드가 요즘 왜 허술해졌을까요? — effort와 ultrathink 실측 가이드

AI 한입

검색어를 입력하세요

오늘도 AI 한입 하세요 🍊

새 아티클이 발행되면 이메일로 알려드릴게요.

클로드 코드가 요즘 왜 허술해졌을까요? — effort와 ultrathink 실측 가이드 | AI한입

Claude가 터미널 앞에서 흐리멍텅한 표정으로 "음... a3f21bc 커밋이요" 같은 허술한 답을 내뱉는 장면 — 2026년 3월 이후 체감되는 답변 품질 저하의 시각화

요즘 클로드 코드를 자주 쓰시는 분들 사이에서 이런 푸념이 조용히 돌고 있습니다.

"요즘 클로드가 좀 이상해요. 존재하지도 않는 커밋 해시를 알려주고, 설치되지도 않은 패키지를 추천해요. 예전엔 이러지 않았던 것 같은데..."

저도 비슷한 경험을 했습니다. 분명 어제까지만 해도 믿고 맡기던 에이전트인데, 어느 순간부터 답변이 짧아지고 단정적이 되고, 가끔 확인해보면 명백히 틀린 사실을 자신 있게 내뱉고 있었습니다. 제 프롬프트가 문제인 줄 알고 이것저것 바꿔봐도 달라지지 않았습니다.

요즘 체감하는 3가지 증상 — 답변이 짧아짐 · 말투가 단정적 · 자신 있게 틀림

알고 보니 이건 제 탓이 아니었습니다. 2026년 2~3월 사이에 클로드 코드의 기본 설정이 조용히 바뀌었고, 그 여파로 모델이 "알아서 생각 깊이를 줄이는" 상황이 광범위하게 발생하고 있었습니다.

이 글에서는 다음 세 가지를 이야기하겠습니다. 무엇이 바뀌었는지, 제가 직접 같은 질문을 여러 설정으로 돌려본 실측 데이터로 그 차이가 얼마나 큰지, 그리고 지금 당장 답변 품질을 되살리는 구체적인 설정법입니다. 읽고 나시면 상황에 따라 "사고 강도" 설정과 특별 키워드 하나를 자신 있게 골라 쓰실 수 있게 됩니다.

먼저, 2026년 6월 업데이트 (이 글을 새로 손봤습니다) 이 글이 다루는 "기본값이 조용히 낮아진" 사건은 2026년 2~4월에 벌어진 일입니다. Anthropic은 4월 7일 기본 effort를 다시 high로 되돌렸고(Opus 4.7은 xhigh), 지금은 그때의 급격한 품질 저하가 상당 부분 정상화됐습니다. 그러니 "지금도 클로드가 멍청하다"는 건 더 이상 사실이 아닙니다. 그런데도 이 글을 남겨둔 이유가 있습니다. 어댑티브 싱킹은 지금도 기본으로 켜져 있고, 가끔 사고를 건너뛰는 성질 자체는 사라지지 않았습니다. 게다가 Opus 4.7 이후 최신 모델은 항상 어댑티브로만 동작합니다. 즉 "생각 강도를 모델에 맡길지, 내가 직접 통제할지"를 고를 줄 아는 건 지금도 유효한 기술입니다. 아래 내용은 그 통제법입니다. (모든 동작은 Claude Code v2.1.170 / 2026-06-10 공식 문서 기준으로 갱신했습니다.)

이 글은 이런 분께 개발자가 아니어도 따라올 수 있도록 썼습니다. 클로드 코드에 명령어를 한두 번 쳐본 적이 있고, 답변 품질이 이상해진 걸 느끼고 계시다면 이 글 한 편으로 충분합니다. 복잡한 커맨드라인 지식은 필요 없습니다. 대화창에 슬래시(/)로 시작하는 짧은 명령어를 치는 법만 아시면 됩니다.

클로드 코드가 처음이라면 이 글은 터미널에서 claude를 쳐본 경험이 있는 분 기준입니다. 설치와 첫 대화가 아직이라면 아래 글을 먼저 읽고 오시는 게 좋습니다. 👉 Claude Code, 처음 시작할 때 이것만 따라하세요

범인은 '어댑티브 싱킹'입니다

모델이 알아서 생각을 줄이는 기능, 문제는 가끔 '0'이 된다는 점

어댑티브 싱킹을 의인화한 장면 — Claude가 질문을 받아들고 "이건 쉬워 보이니까 생각 안 해도 되겠지?"라며 뇌를 꺼버리는 순간

우선 클로드 코드의 "생각"이 어떻게 작동하는지부터 짚어야 합니다.

클로드는 답하기 전에 속으로 먼저 "생각"을 합니다. 사람이 어려운 문제를 받았을 때 머릿속에서 "음, 이건 A 방식으로 풀까, B로 풀까..."를 굴려보는 과정이 있는 것처럼, 클로드도 답을 내놓기 전에 내부적으로 일종의 메모지에 추론 과정을 써봅니다. 이 메모지가 바로 속 생각 토큰(thinking tokens)이고, 클로드 코드에서는 이걸 "확장 사고(Extended Thinking)"라고 부릅니다.

속 생각 토큰이 뭔가요 클로드가 답변을 내기 전에 내부적으로 굴리는 사고 과정입니다. 사용자 눈엔 안 보이지만 토큰(요금 단위)은 실제로 소모되고, 답변의 정확도에 직결됩니다. 더 깊은 원리와 다른 토큰(입력/출력)과의 차이는 토큰 글에서 자세히 다뤘습니다. 👉 클로드 코드, 왜 이렇게 빨리 리밋 걸리죠? — 토큰 사용량 확인하고 아끼는 법

문제는 이 "생각을 얼마나 깊게 할지"를 누가 정하느냐입니다.

2026년 2월 9일까지는 방식이 단순했습니다. 사용자가 /effort high처럼 고정 강도를 정해두면, 클로드는 매 질문마다 무조건 그만큼 생각했습니다. 짧은 질문이든 긴 질문이든 동일한 사고 예산을 받았습니다.

그런데 그날, Anthropic은 조용히 어댑티브 싱킹(Adaptive Thinking)이라는 기능을 기본으로 켰습니다. 한 줄로 요약하면 이렇습니다.

"이제부터 Claude가 질문을 보고, '이건 깊이 생각할 만한 문제인지 아닌지'를 스스로 판단해서 사고 토큰을 할당한다."

이론은 그럴듯합니다. 쉬운 질문에 깊이 생각하면 낭비고, 어려운 질문에만 깊이 파고들면 효율이 좋으니까요. 그런데 현실에서는 두 가지 함정이 생겼습니다.

첫 번째 함정. 2026년 3월 초, Anthropic은 기본 effort 등급을 high에서 medium으로 조용히 낮췄습니다. 공식 릴리즈 노트에는 강조되지 않았고, 대부분 사용자는 바뀐 줄도 모르고 그대로 썼습니다. 결과적으로 전 세계 클로드 코드 사용자가 한순간에 한 단계 낮은 기본값을 쓰게 된 겁니다. 다만 이 기본값 저하는 약 한 달 뒤인 2026년 4월 7일에 다시 high로 복구됐습니다. 그래서 지금 기본값을 따로 건드리지 않으셨다면 여러분은 이미 high에 계십니다. 아래 이어지는 실측은 그 사이 medium이 기본이던 시기에 기록한 데이터입니다.

2026년 상반기 어댑티브 싱킹 사건 타임라인 — 2월 9일 어댑티브 싱킹 기본 도입, 3월 초 기본 effort 저하(high→medium), 4월 7일 기본값 복구(→high)

두 번째 함정. 어댑티브 싱킹이 가끔 사고 토큰을 0으로 할당합니다. "이건 간단한 질문이네"라고 모델이 오판하면 아예 속 생각을 건너뛰고 바로 답을 내버립니다. 이렇게 되면 답이 확신에 차 있지만 근거는 없는 상태가 됩니다. 실제로 AMD의 한 엔지니어가 6,852개 세션을 분석해 본 결과, 2026년 2월 이후 모델의 추론량이 평균 67% 감소했다고 합니다. 클로드 코드 창시자인 Boris Cherny도 해커뉴스에서 "맞다, 이 문제는 실제로 존재한다"고 인정했습니다.

어댑티브 싱킹이 작동하는 순간 — 생각의 전구가 거의 꺼진 상태로 답변이 나가는 장면

이 두 가지가 겹치면서 나타난 대표적인 증상이 "정확한 형태의 헛소리"입니다. 모양새는 완벽한데 알맹이가 가짜인 답이 이 시기부터 부쩍 늘었습니다.

같은 구조의 헛소리 세 가지 — 가짜 수치가 섞인 보고서 요약, 존재하지 않는 참고 논문, 엑셀에 없는 함수 이름

예시 몇 가지를 구체적으로 옮기면 이런 식입니다.

긴 보고서를 요약해달라고 했더니 원본에는 없던 "3분기 영업이익 12% 증가" 같은 그럴듯한 수치를 끼워 넣어서 돌려줍니다. 숫자 하나가 마치 원문에서 뽑아온 것처럼 자연스럽게 섞여 있기 때문에, 독자가 원본과 대조하지 않으면 눈치채기 어렵습니다.

"이 주제 관련 참고 논문 3편 추천해줘" 했더니 실제로는 존재하지 않는 논문 제목과 저자 이름을 진짜처럼 만들어 냅니다. 저자 이름과 발표 연도, 학술지 이름까지 꽤 그럴듯하게 조합해서 내놓기 때문에 구글에서 찾아보기 전까지는 진짜처럼 보입니다.

엑셀에서 "여러 시트를 한 번에 합치는 함수 이름"을 물었는데, 엑셀에 실제로 없는 함수를 자신 있게 알려줍니다. 문법도 일반 엑셀 함수 규칙에 맞게 예쁘게 써주기 때문에 독자가 그대로 복사해서 시트에 붙여 넣기 전까지는 의심하기 어렵습니다.

세 경우 모두 공통점이 있습니다. "생각을 한 번만 했으면 걸러낼 수 있는 실수"인데, 생각 자체를 건너뛰면서 그대로 나와버린 겁니다. 즉 답변이 허술해진 건 모델이 멍청해져서가 아니라, 머리를 쓰지 않도록 기본 설정이 바뀌었기 때문입니다.

AI가 왜 자신 있게 틀리는지, 더 근본적으로 "머리를 덜 쓰면 헛소리가 나온다"는 이 현상은 클로드 코드만의 이야기가 아닙니다. AI가 그럴듯한 거짓을 자신 있게 내놓는 더 근본적인 원리는 아래 글에서 따로 풀었습니다. 👉 당신의 AI가 멍청한 이유

증거: 같은 질문, effort만 바꿔봤습니다

직접 돌린 실측 수치

먼저 간단한 설명부터 드리겠습니다. /effort는 클로드 코드 대화창에서 칠 수 있는 슬래시 명령어입니다. 대화창에서 /effort high처럼 슬래시 뒤에 원하는 등급을 붙여 치면, 그때부터 그 세션의 "기본 사고 강도"가 바뀝니다. 등급은 다음과 같습니다.

등급	한 줄 설명
`low`	사고를 거의 건너뛰고 빠르게 답만 냅니다.
`medium`	토큰을 아끼는 절충값. 2~4월 한때 기본값이었습니다.
`high`	현재 기본값. 토큰과 지능의 균형. 2026년 3월 이전의 원래 기본값이자 4월 7일 복구된 값.
`xhigh`	`high`보다 한 단계 더 깊게 추론합니다(토큰도 더 씁니다). Opus 4.7·4.8과 Fable 5에서만 제공되고, Opus 4.7에서는 이게 기본값입니다. 그 아래 모델에서는 자동으로 `high`로 처리됩니다.
`max`	상한선을 최대로 엽니다. 토큰 제한 없이 가장 깊게 생각하지만 '과잉 사고'가 날 수 있어 과제를 봐가며 씁니다.

참고 — auto와 ultracode /effort auto는 "어댑티브에 맡기는 등급"이 아니라, 정확히는 현재 모델의 기본 등급으로 되돌리는 명령입니다. 그리고 /effort 메뉴에는 ultracode라는 항목도 있는데, 이건 effort 등급이라기보다 클로드 코드의 별도 설정입니다 — 모델에는 xhigh를 보내면서, 큰 작업은 여러 단계로 쪼개 처리하게 합니다(세션 한정, 고급 사용자용).

/effort 뒤 스페이스를 누르면 뜨는 단계별 자동완성 힌트 — low·medium·high(현재 기본값)·xhigh·max가 터미널에 펼쳐진 모습

대화창에서 /effort까지만 치고 스페이스 한 칸 넣으면, 위 등급들이 자동완성 힌트로 함께 떠오릅니다(low·medium·high·xhigh·max, 그리고 ultracode). 원하는 등급을 이어서 치고 엔터를 누르면 그때부터 적용됩니다.

프롬프트에 /effort를 치는 순간 여러 옵션이 자동완성으로 펼쳐지는 장면

한 가지 알아두실 점이 있습니다. low·medium·high·xhigh는 한 번 정해두면 세션을 껐다 켜도 유지되지만, max만은 "지금 이 세션에서만" 적용되고 터미널을 새로 열면 기본값으로 돌아옵니다(환경변수로 지정한 경우는 예외). max는 "필요할 때 잠깐 최대로 여는 비상 단계"라는 성격이라 그렇습니다.

max 다이얼이 최대로 돌아가 코랄 오렌지 할로가 퍼지는 확정 장면 일러스트

그럼 "내가 지금 어떤 등급에 있는지"는 어떻게 확인할까요? 두 가지 방법이 있습니다. 첫째, 대화창에서 인자 없이 /effort만 치고 엔터를 누르면 현재 등급을 보여주는 인터랙티브 슬라이더가 열립니다. 좌우 방향키로 그 자리에서 등급을 바꿀 수도 있습니다. 둘째, 더 간단하게는 화면의 로고·스피너 옆에 항상 "with high effort"처럼 현재 등급이 표시되니, 굳이 명령어를 치지 않아도 한눈에 확인됩니다.

질문 하나 던지면 답변 패널이 뜨면서 현재 설정 상태를 알려주는 로봇 일러스트

이 글의 실측에서는 위 등급 중 네 개(low, medium, high, max)를 비교했습니다. xhigh는 측정 당시 환경에 없던 등급이라 제외했고, "클로드가 알아서 사고량을 정하게 맡긴 상태"(어댑티브 싱킹이 그대로 작동하는 상태)는 이 글이 문제 삼는 바로 그 동작이라, 별도 등급으로 측정하지 않고 "한때 많은 분이 이 상태에 있었다"는 기본 맥락으로만 다루겠습니다.

"말로만 그렇다"로 넘어가지 않기 위해, 같은 질문 하나를 이 네 등급으로 한 번씩 직접 돌려봤습니다. 질문은 너무 쉽지도 너무 어렵지도 않은 "어떤 개념을 설명해달라"는 중간 난이도의 과제 하나로 고정했습니다.

그리고 매 호출마다 다음 세 가지를 기록했습니다.

클로드가 속으로 몇 글자나 생각했는지 (속 생각 분량)
답변 길이는 얼마나 차이 나는지
응답이 돌아오기까지의 시간은 얼마인지

각 호출은 완전히 새로운 대화 세션에서 진행해서 이전 대화 내용이 섞이지 않게 했습니다. 속 생각 분량은 어댑티브 싱킹 때문에 매번 달라질 수 있는 값인데, 클로드 코드는 이 "속으로 한 생각"을 필요할 때 눈으로 확인할 수 있는 기능을 제공합니다. 덕분에 추정이 아닌 실측이 가능했습니다.

같은 질문 하나를 네 개의 effort 등급으로 한 번씩 돌리는 실측 설정 — 매 호출마다 thinking block 글자수·출력 토큰·응답 시간을 기록

네 등급 실측 결과 표 — low에서는 속 생각 0회·0자, max에서는 출력 토큰 777로 +71% 증가, 응답 시간은 +44%

결과를 표로 정리하면 이렇습니다. 소수점 대신 실측 숫자를 그대로 옮겼습니다.

effort 등급	속 생각 블록	속 생각 분량	출력 토큰	응답 시간
`low`	0회	0자	455	9.6초
`medium`	1회	86자	678	12.4초
`high`	1회	159자	666	13.2초
`max`	1회	181자	777	13.9초

이 표에서 가장 먼저 눈에 띄는 건 첫 번째 줄입니다. /effort low에서는 속 생각이 0회, 즉 한 글자도 생각하지 않고 바로 답변을 뽑았습니다. 앞 섹션에서 말씀드린 "사고 토큰이 0이 되는 순간"이 여기서 그대로 재현된 겁니다. 답변 길이도 455 토큰으로 다른 등급보다 30% 이상 짧았습니다. 그만큼 세부 설명도 빠져 있었습니다.

반대로 max로 올리면 출력 토큰이 777까지 늘어납니다. low 대비 71% 증가입니다. 속 생각 분량도 0자에서 181자로 벌어집니다. 응답 시간은 9.6초에서 13.9초로 44% 증가했지만, 그 대가로 답변이 훨씬 더 풍부해집니다. 쉽게 말해, effort는 "정확도와 속도를 맞바꾸는 슬라이더"인 겁니다.

속 생각 분량(0 → 86 → 159 → 181자)과 출력 토큰(455 → 678 → 666 → 777)을 막대그래프로 나란히 시각화 — low에서만 속 생각이 바닥을 치고 있는 구조

그런데 흥미로운 예외가 있었습니다. "1+1은?" 같은 아주 사소한 질문은 /effort max로 돌려도 속 생각이 0회였습니다. 출력 토큰은 단 5개, 응답 시간은 3초. 이건 어댑티브 싱킹이 정상 작동한 경우입니다. 모델이 "이건 생각할 거리가 없는 질문"이라고 판단해서 사고를 건너뛴 겁니다.

여기서 중요한 결론이 하나 나옵니다.

/effort max는 "무조건 깊이 생각해라"가 아니라, "필요하면 깊이 생각해도 된다"는 상한선일 뿐입니다. 모델이 필요 없다고 판단하면 max여도 생각을 건너뜁니다.

어댑티브 싱킹을 완전히 우회해서 "진짜로 매번 깊이 생각하게 만들고 싶을 때"는 다른 방법이 필요합니다. 바로 다음에 다루겠습니다.

ultrathink 한 단어가 사고량을 10배 늘립니다

프롬프트에 단어 하나만 추가하면 effort를 무력화한다

/effort는 세션 전체의 "기본 사고 강도"를 정하는 설정입니다. 반면 클로드 코드에는 이번 한 번의 대화만 강제로 깊이 생각하게 만드는 마법 단어도 있습니다. 바로 ultrathink입니다.

사용법은 놀라울 정도로 단순합니다. 슬래시 명령어도, 설정 파일 수정도 필요 없습니다. 평소처럼 질문을 치는 그 문장 안에 ultrathink라는 단어를 하나 끼워 넣기만 하면 됩니다. 예를 들어 이렇게요.

ultrathink 내년 상반기 우리 팀 예산안을 짜줘. 작년 실적과 이번 신규 프로젝트 2건까지 고려해서.

단어 위치는 앞이든 중간이든 어디든 괜찮습니다. 클로드 코드는 이 단어가 질문 어딘가에 들어 있는 걸 감지하면, 그 한 번의 대화에만 사고 예산을 최대로 열어주는 특수 신호로 해석합니다. 다음 질문부터는 자동으로 원래 설정대로 돌아갑니다. 매번 /effort를 다시 치지 않아도 되는 셈입니다.

질문 한가운데에서 ultrathink라는 단어만 코랄 오렌지 할로로 빛나며 그 위로 확장 사고 전구가 켜지는 장면

클로드 코드는 질문 안에 ultrathink가 들어 있으면 이걸 키워드로 인식해서, 그 한 번의 답변에 "더 깊이 생각하라"는 지시를 속으로 덧붙입니다(공식 문서 표현). 한 가지 덧붙이면, 한때는 이 단어가 화면에서 무지개색으로 하이라이트되는 시각 효과가 있었지만 이 연출은 이후 제거됐습니다. 다만 키워드 인식 자체는 그대로 작동하니 기능엔 영향이 없습니다. 그리고 주의할 점 — think, think hard, think more 같은 비슷한 표현은 키워드로 인식되지 않고 그냥 일반 텍스트로 처리됩니다. 깊은 사고를 켜고 싶다면 정확히 ultrathink라고 쓰셔야 합니다.

Dracula 테마의 터미널에 "ultrathink 내년 예산안..." 질문을 치는 순간 그 한 번의 답변에 더 깊은 확장 사고가 켜지는 모습

"에이, 단어 하나로 얼마나 달라지겠어"라고 생각하실 수 있습니다. 그래서 이것도 직접 측정해봤습니다. 두 번의 호출 모두 /effort low로 고정했고, 질문도 완전히 동일합니다.

프롬프트	속 생각 분량	출력 토큰	응답 시간
"내년 상반기 우리 팀 예산안을 짜줘"	19자	831	15.7초
"ultrathink 내년 상반기 우리 팀 예산안을 짜줘"	197자	1,028	20.3초

같은 질문, 같은 effort인데 결과가 이렇게 달라졌습니다.

속 생각 분량: 19자 → 197자. 정확히 10.4배 증가.
출력 토큰: +24%.
응답 시간: +29%.

가장 의미심장한 대목은 첫 번째 줄입니다. 원래 /effort low는 앞 섹션에서 봤듯이 속 생각을 거의 건너뛰는 설정입니다. 그런데 질문에 ultrathink가 한 번 등장하는 것만으로 low 설정을 무력화하고 깊은 사고 모드가 켜졌습니다. 실제 생각 내용도 "예산안은 단순 표만 뽑으면 안 되겠다. 작년 실적 대비, 고정비·변동비 구분, 계절성까지 따로 짚어야겠다" 같은, 제가 원하던 수준의 고민이 들어가 있었습니다.

여기서 한 가지 바로잡을 점이 있습니다. 예전 클로드 코드에서는 ultrathink가 "최대 31,999개의 사고 토큰"이라는 고정 상한을 여는 신호였습니다. 그런데 2026년 6월 현재 공식 문서 기준으로는 동작이 달라졌습니다. 지금 ultrathink는 토큰 상한을 직접 늘리는 게 아니라, 그 한 번의 답변에만 "더 깊이 생각하라"는 지시를 속으로 끼워 넣는 방식입니다. API로 전달되는 effort 등급 자체는 바뀌지 않습니다(공식 문서: "adds an in-context instruction. The effort level sent to the API is unchanged"). 그래도 실측에서 보셨듯 체감 사고량은 분명히 늘어납니다 — 모델에게 "이번엔 대충 넘기지 말라"고 명시적으로 신호를 주기 때문입니다.

비용에 대한 솔직한 경고 ultrathink는 공짜가 아닙니다. 사고 토큰도 결국 구독 한도를 깎아 먹습니다. 일상 작업마다 붙이면 한 주치 예산이 반나절에 바닥날 수 있습니다. "이건 진짜 어려운 문제다" 싶을 때만, 프리미엄 아이템처럼 아껴서 쓰는 게 맞습니다.

사고가 진짜 돌아가는지 실시간으로 확인하는 법

Reticulating 줄의 "thought for Xs"

"ultrathink 같은 설정이 정말로 뭔가 하고 있는 건지, 아니면 그냥 플라시보인지" 의심이 드실 수 있습니다. 다행히 클로드 코드는 이걸 실시간으로 눈에 보이는 숫자로 보여줍니다. 질문을 던지면 화면 아래쪽에 이런 줄이 뜹니다.

Reticulating... (52s · 5.1k tokens · thought for 12s)

세 숫자의 의미는 각각 이렇습니다.

표시	의미
`52s`	질문을 보낸 뒤 지금까지 경과한 시간
`5.1k tokens`	지금까지 쓰인 토큰(질문 + 답변 + 사고 전부 합산)
`thought for 12s`	클로드가 순수 사고에 쓴 누적 시간

셋 중 핵심은 세 번째입니다. 이 숫자가 실시간으로 올라가면 확장 사고가 지금 돌아가고 있다는 뜻이고, 0초 또는 1초에서 멈춘 채 움직이지 않으면 사고를 건너뛴 상태라는 뜻입니다. 제가 앞에서 /effort low로 속 생각이 0회 찍혔다고 말씀드렸던 바로 그 상황입니다.

클로드가 답하기 전 머릿속 메모지에 추론 과정을 써보는 모습 — 속 생각은 사용자 눈엔 안 보이지만 실제로 돌아가는 과정

한 가지 주의할 점이 있습니다. 클로드가 파일을 읽거나 명령어를 돌리는 "도구 호출" 구간은 thought for에 포함되지 않습니다. 그래서 파일을 여러 개 읽으며 일하는 중간에 이 줄을 보면 thought for 1s처럼 낮아 보일 수 있는데, 그건 사고가 부족해서가 아니라 "지금은 사고 대신 파일을 읽는 중"이기 때문입니다. 순수하게 머리로만 풀어야 하는 질문(예: 퍼즐, 계획 수립, 요약)에서 이 숫자를 보시면 더 명확하게 쌓이는 걸 관찰하실 수 있습니다.

이 숫자를 이용하면 팩트체크가 됩니다. 예를 들어 제가 직접 퍼즐 하나(농부·늑대·양·양배추 강 건너기)로 /effort max 조건에서 ultrathink 유무만 바꿔 재측정해봤습니다.

조건	누적 사고 글자수	답변 토큰	소요 시간
`/effort max` (ultrathink 없음)	283자	1,286	28.3초
`/effort max` + `ultrathink`	1,789자 (6.3배)	3,126 (2.4배)	58.3초 (2.1배)

같은 질문, 같은 effort, 같은 세션 구성인데 ultrathink 한 단어만 추가한 쪽이 속 생각을 6.3배 더 썼습니다. 답변도 훨씬 풍부해졌고, 시간도 두 배 이상 걸렸습니다. 이게 "정말 작동하는 설정"의 모양새입니다. 의심이 드실 때마다 이 숫자를 직접 보시면 플라시보냐 아니냐가 바로 판가름납니다.

복잡한 질문에서 max는 얼마나 다른가

진짜 어려운 과제를 주면 차이가 벌어진다

앞의 중간 난이도 질문에서는 low와 max의 출력 차이가 30~70% 정도였습니다. 그렇다면 진짜로 복잡한 과제를 주면 어떻게 될까요? 같은 실측을 "여러 조건을 고려해서 처음부터 끝까지 기획해달라"는 수준의 질문으로 다시 돌려봤습니다. 길고 복잡한 계획 수립 과제를 하나 만들어서, 제약 조건을 여럿 걸고 단계별로 설명하라고 요청하는 형태입니다.

복잡한 TODO 앱 아키텍처 설계 질문을 low와 max로 각각 돌렸을 때의 thinking 분량(164자 vs 536자)과 출력 토큰(1,728 vs 3,219)을 Before/After로 비교하는 시각자료

effort 등급	속 생각 분량	출력 토큰	응답 시간
`low`	164자	1,728	29.4초
`max`	536자	3,219	42.3초

숫자가 한 번에 벌어집니다. 속 생각은 3.3배(+227%), 출력은 +86%, 응답 시간은 +44% 늘어났습니다. 단순히 양만 늘어난 게 아닙니다. max 응답은 단계별 일정, 예상 리스크, 담당자 역할 분담, 중간 점검 포인트, 실패 시 대비책까지 실제로 바로 회의에 들고 갈 수 있는 수준으로 구체적으로 내려왔습니다. low 응답은 같은 주제를 다루긴 했지만 "큰 목차 세 줄" 수준의 개괄 요약에 그쳤습니다.

요약하면 이렇습니다.

쉬운 질문: effort를 올려도 차이가 거의 없다 (어댑티브 싱킹이 알아서 건너뜀).
중간 질문: 30~70% 정도 차이.
어려운 질문: 2~3배, 경우에 따라 그 이상.

effort는 "모든 질문을 무겁게 만드는 슬라이더"가 아니라, "필요한 순간에만 바닥을 깊게 파주는 설정"에 가깝습니다.

답변 품질을 되살리는 3단 설정

지금 당장 적용할 수 있는 실전 가이드

여기까지 왔으면 이제 선택지는 명확합니다. 정답은 "무조건 max"가 아니라, 상황에 맞게 단계를 조절하는 습관입니다. 저는 지금 아래 세 가지 조합을 상황별로 쓰고 있습니다.

상황별 클로드 코드 설정 3단 플랜을 다이어그램으로 정리 — 일상 작업(medium 기본값), 꼼꼼한 분석(high), 큰 기획·고난도(max + ultrathink)

1단계. 일상 작업: 기본값 그대로

새 파일 생성, 간단한 수정, 명령어 실행, 로그 해석. 이런 건 굳이 사고를 깊게 할 필요가 없습니다. 기본값(현재 high) 그대로 두는 게 가장 효율적입니다. 4월 7일 복구 이후 기본값이 다시 high라, 따로 안 건드리셨다면 이미 여기에 계십니다. 쉬운 질문은 어차피 모델이 알아서 생각을 건너뜁니다. 리밋 관리에도 이쪽이 유리합니다.

2단계. 꼼꼼한 분석이 필요한 작업: effort 한 단계 더

긴 문서의 구조를 처음부터 다시 짜야 할 때, 원인을 모르겠는 이상 동작을 추적해야 할 때, "이 긴 회의록에서 숨겨진 쟁점 다 뽑아줘" 같이 한 단계 깊은 독해가 필요한 상황에서는 기본값보다 한 단계 올립니다. 기본값이 이미 high이므로, 여기서 더 올리려면 /effort xhigh를 칩니다. 다만 xhigh는 Opus 4.7·4.8과 Fable 5에서만 제공되고(그 아래 모델에선 자동으로 high로 처리), 쓰는 모델이 그 이하라면 이 단계는 사실상 기본값 high로 충분합니다. 그래도 부족하면 곧장 다음 단계(max)로 넘어가시면 됩니다.

3단계. 큰 기획·고난도 의사결정: effort max + ultrathink

정말로 깊은 사고가 필요할 때는 두 개를 조합합니다. 먼저 /effort max로 세션 상한선을 최대로 열어두고, 그 안에서 진짜 어려운 질문에만 질문 문장에 ultrathink를 붙입니다.

/effort max

그리고 실제 질문은 이렇게 칩니다.

ultrathink 우리 팀 업무 프로세스를 처음부터 다시 설계해줘.
현재 3명이 각자 다른 방식으로 일하고 있고, 커뮤니케이션 비용이 크고,
신규 입사자가 적응하는 데 한 달 이상 걸리는 상황이야.
역할 분담, 회의 구조, 문서 흐름, 인수인계 방식까지 단계별로 짚어줘.

max 혼자만 켜면 어댑티브 싱킹이 중간에 판단을 개입시키지만, 여기에 ultrathink 단어가 얹히면 "이 한 번만큼은 사고 예산을 아끼지 말라"는 신호가 같이 전달됩니다. 두 설정이 만나는 지점에서 2026년 2월 이전의 그 "깊이 생각하는 클로드"가 되살아납니다.

최후의 카드: 어댑티브 싱킹 완전 비활성화

위 세 단계로도 여전히 답변이 들쭉날쭉하다면, 마지막 카드가 한 장 남아 있습니다. 어댑티브 싱킹 자체를 꺼버리는 설정입니다.

이 마지막 카드는 슬래시 명령어로는 바꿀 수 없고, 터미널의 "환경변수"라는 설정을 한 줄 추가해야 합니다. 환경변수는 "이 컴퓨터의 터미널을 열 때마다 기본으로 켜두고 싶은 값"을 적어두는 곳이라고 생각하시면 됩니다. Mac을 쓰시면 아래 순서를 그대로 따라하시면 됩니다.

~/.zshrc 파일에 CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1 한 줄을 추가하고 source ~/.zshrc를 쳐서 적용하는 3단계 터미널 장면

1단계. 터미널을 열고 다음 한 줄을 칩니다.

nano ~/.zshrc

여기서 ~/.zshrc는 "내 홈 폴더 안에 숨겨져 있는, 터미널을 열 때마다 자동으로 읽히는 설정 파일"의 이름입니다. nano는 터미널 안에서 파일을 편집할 수 있게 해주는 아주 단순한 편집기입니다. 이 한 줄을 치면 그 설정 파일이 터미널 안에서 열립니다.

2단계. 열린 파일의 맨 아래에 다음 한 줄을 추가한 뒤, Ctrl+O(저장)와 Ctrl+X(나가기)를 차례로 누릅니다.

export CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1

3단계. 설정 파일에 적어둔 값을 지금 이 터미널에 바로 반영하려면 아래 한 줄을 더 칩니다. 새 터미널을 열면 자동으로 적용되므로, 이 단계는 건너뛰셔도 무방합니다.

source ~/.zshrc

이 한 줄짜리 환경변수가 하는 일은 한 문장으로 요약됩니다. 앞으로 클로드 코드가 "이 질문은 사고가 필요 없어 보인다"라고 판단해서 사고를 건너뛰는 일을 완전히 막습니다. 대신 /effort 설정에 해당하는 고정 사고 예산을 매번 그대로 사용합니다. Boris Cherny가 해커뉴스에서 직접 "헛소리를 가장 빠르게 줄이는 한 줄짜리 조치"라고 언급한 바로 그 설정입니다.

단, 이 설정은 매 호출의 비용을 늘립니다. 쉬운 질문에도 고정 예산이 들어가기 때문에 구독 한도가 조금 더 빨리 소진됩니다. 그래서 "헛소리 때문에 너무 자주 당해서 토큰보다 신뢰가 더 소중해진 단계"에 도달했을 때 켜시는 걸 추천드립니다. 그 전까지는 /effort만 올리고 써보시는 게 먼저입니다.

중요 — 최신 모델에서는 이 카드가 통하지 않습니다 CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING은 Opus 4.6과 Sonnet 4.6에서만 작동합니다. Opus 4.7·4.8과 Fable 5는 항상 어댑티브 사고로만 동작하도록 바뀌어서, 이 환경변수를 켜도 무시됩니다(공식 문서에 명시돼 있습니다). 만약 최신 Opus를 쓰고 계신다면 이 '최후의 카드'는 선택지에서 빠집니다. 대신 /effort를 high·xhigh·max로 올리고, 난제마다 질문에 ultrathink를 붙이는 게 현실적인 통제 수단입니다.

매번 /effort high를 치는 게 귀찮다면 프로젝트 폴더의 CLAUDE.md나 전역 설정에 기본 effort를 명시해두면, 새 세션을 열 때마다 자동으로 적용됩니다. 프로젝트별로 다른 기본값을 쓰는 방법도 여기서 같이 다뤘습니다. 👉 클로드 코드에게 매번 설명하기 귀찮다면 — CLAUDE.md 설정법 매번 똑같은 걸 묻는 게 귀찮은 또 다른 지점, "이거 실행해도 돼요?"라는 권한 확인도 한 번에 끌 수 있습니다. 👉 클로드 코드 매번 Yes 묻는 거 끄는 법 — 권한 자동 허용 완벽 설정

정리하면

이 글의 핵심 메시지 3줄을 정리한 아웃트로 일러스트 — 1) 허술한 답은 당신 탓이 아니다, 2) effort는 슬라이더이고 ultrathink는 비상 스위치다, 3) 환경변수 한 줄이 최후의 카드다

이 글에서 다룬 내용을 세 줄로 압축하면 이렇습니다.

첫째, 한때 클로드가 허술해졌던 건 사용자 탓이 아니었습니다. 2026년 3월 기본 effort가 medium으로 낮아졌고, 어댑티브 싱킹이 때때로 사고 토큰을 0으로 할당하면서 "정확한 형태의 헛소리"가 늘었습니다. Boris Cherny도 이 현상을 공식 인정했고, Anthropic은 4월 7일 기본값을 다시 high로 되돌렸습니다. 지금은 그때만큼 심하지 않지만, 어댑티브 싱킹 자체는 여전히 켜져 있어서 가끔 사고를 건너뛸 수 있습니다.

둘째, /effort는 상한선을 여는 슬라이더이고, ultrathink는 비상 스위치입니다. 같은 질문에서 effort low와 max는 속 생각을 0자에서 181자까지, 출력을 +71%까지 벌릴 수 있었습니다. 복잡한 아키텍처 설계 과제에서는 속 생각 +227%, 출력 +86%까지 차이가 났습니다. 난제에 부딪혔을 때 ultrathink 단어 하나로 사고량을 10배 늘리는 것도 같은 맥락입니다.

셋째, 헛소리가 반복된다면 환경변수 한 줄이 최후의 카드입니다. CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1을 ~/.zshrc에 적어두면, 모델이 임의로 사고를 건너뛰는 동작이 멈춥니다. 비용이 약간 늘어나는 대신 답변의 신뢰도가 돌아옵니다. 단, 이 카드는 Opus 4.6·Sonnet 4.6에서만 통하고, 항상 어댑티브로 동작하는 최신 Opus 4.7·4.8과 Fable 5에는 적용되지 않습니다.

클로드 코드는 여전히 강력한 도구입니다. 다만 기본값만으로는 그 강력함이 일관되게 나오지 않는 시기가 있었습니다. 이 글의 설정을 손에 익혀두시면, 그 일관성을 다시 직접 통제하실 수 있습니다.

토큰 한도가 너무 빨리 차는 게 걱정이시라면, 이 글에서 다룬 "사고 토큰"은 사실 전체 토큰 소모의 한 조각일 뿐입니다. 스크린샷·MCP·대화 누적까지 포함한 전체 그림은 아래 글에서 다뤘습니다.

👉 클로드 코드, 왜 이렇게 빨리 리밋 걸리죠? — 토큰 사용량 확인하고 아끼는 법

클로드 코드가 요즘 왜 허술해졌을까요? — effort와 ultrathink 실측 가이드

이 글을 읽기 전에

자주 묻는 질문

댓글

연관 글

클로드 코드 매번 Yes 묻는 거 끄는 법 — 권한 자동 허용 완벽 설정

클로드 코드 이전 대화, 이어서 하는 법

Claude Code, 처음 시작할 때 이것만 따라하세요

클로드 코드 스킬·커맨드·에이전트·팀, 언제 뭘 써야 하나 (사용법 정리)

Claude Code로 업무 자동화하기: 링크 100개 5분 만에 정리

클로드 코드, 왜 이렇게 빨리 리밋 걸리죠? — 토큰 사용량 확인하고 아끼는 법

클로드 코드에게 매번 설명하기 귀찮다면 — CLAUDE.md 설정법

클로드 코드 스킬(Claude Code Skill) 만드는 법 — 반복 업무를 한 단어로 끝내기

ChatGPT vs Claude, 뭐가 다를까?

Claude Code, 똑같은 프롬프트 매번 치는 게 귀찮다면 — 슬래시 커맨드와 스킬 만드는 법

범인은 '어댑티브 싱킹'입니다

증거: 같은 질문, effort만 바꿔봤습니다

ultrathink 한 단어가 사고량을 10배 늘립니다

사고가 진짜 돌아가는지 실시간으로 확인하는 법

복잡한 질문에서 max는 얼마나 다른가

답변 품질을 되살리는 3단 설정

1단계. 일상 작업: 기본값 그대로

2단계. 꼼꼼한 분석이 필요한 작업: effort 한 단계 더

3단계. 큰 기획·고난도 의사결정: effort max + ultrathink

최후의 카드: 어댑티브 싱킹 완전 비활성화

정리하면

클로드 코드가 요즘 왜 허술해졌을까요? — effort와 ultrathink 실측 가이드

이 글을 읽기 전에

자주 묻는 질문

Q.2026년 3월에 Claude Code에 정확히 무슨 변화가 있었나요?

Q./effort 등급(low/medium/high/xhigh/max)은 각각 언제 쓰나요?

Q.ultrathink 키워드는 effort 설정을 대체하나요, 아니면 추가로 쓰나요?

Q.CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING은 무조건 켜는 게 좋은가요?

Q./effort 설정을 세션마다 다시 치지 않고 기본값으로 고정할 수 있나요?

댓글

연관 글

클로드 코드 매번 Yes 묻는 거 끄는 법 — 권한 자동 허용 완벽 설정

클로드 코드 이전 대화, 이어서 하는 법

Claude Code, 처음 시작할 때 이것만 따라하세요

클로드 코드 스킬·커맨드·에이전트·팀, 언제 뭘 써야 하나 (사용법 정리)

Claude Code로 업무 자동화하기: 링크 100개 5분 만에 정리

클로드 코드, 왜 이렇게 빨리 리밋 걸리죠? — 토큰 사용량 확인하고 아끼는 법

클로드 코드에게 매번 설명하기 귀찮다면 — CLAUDE.md 설정법

클로드 코드 스킬(Claude Code Skill) 만드는 법 — 반복 업무를 한 단어로 끝내기

ChatGPT vs Claude, 뭐가 다를까?

Claude Code, 똑같은 프롬프트 매번 치는 게 귀찮다면 — 슬래시 커맨드와 스킬 만드는 법

범인은 '어댑티브 싱킹'입니다

증거: 같은 질문, effort만 바꿔봤습니다

ultrathink 한 단어가 사고량을 10배 늘립니다

사고가 진짜 돌아가는지 실시간으로 확인하는 법

복잡한 질문에서 max는 얼마나 다른가

답변 품질을 되살리는 3단 설정

1단계. 일상 작업: 기본값 그대로

2단계. 꼼꼼한 분석이 필요한 작업: effort 한 단계 더

3단계. 큰 기획·고난도 의사결정: effort max + ultrathink

최후의 카드: 어댑티브 싱킹 완전 비활성화

정리하면