[AI 리뷰] Gemini 3 Pro (Deep Think): 인류 최후의 시험을 통과한 ‘시스템 2’ 사고 모델

Overall King (Closed): Gemini 3 Pro (Deep Think) – The System 2 Revolution - 02

대부분의 AI는 당신에게 ‘말’을 걸지만, Gemini 3 Pro는 당신을 위해 ‘생각’을 합니다.

지금까지의 LLM(거대언어모델)이 확률적으로 가장 그럴듯한 단어를 뱉어내는 ‘자동완성’ 기계였다면, 구글이 새로 공개한 Gemini 3 Pro는 문제를 받으면 즉시 대답하지 않고 멈춰 섭니다. 그리고 스스로 논리를 검증하는 ‘Deep Think(심층 사고)’ 과정을 거칩니다.

이 변화가 왜 중요할까요? 이 모델이 AI 역사상 가장 혹독한 벤치마크인 GPQA-DiamondHumanity’s Last Exam(인류 최후의 시험)에서 인간 전문가 수준을 압도했기 때문입니다.

더 이상 프롬프트 엔지니어링으로 AI를 ‘달래서’ 답을 얻을 필요가 없습니다. 이제는 AI에게 복잡한 문제를 던지고, 그가 ‘생각’하는 것을 지켜보면 됩니다.


핵심 개념: 시스템 1 vs 시스템 2

노벨 경제학상 수상자 대니얼 카너먼은 인간의 사고를 두 가지로 분류했습니다.

  • 시스템 1 (직관): “2+2=?”를 보자마자 “4”라고 답하는 빠르고 자동적인 사고. 기존 챗봇(GPT-4, Gemini 1.5)이 여기에 해당합니다.
  • 시스템 2 (추론): “17 x 24 = ?”를 풀기 위해 단계별로 계산하고 검증하는 느리고 신중한 사고. Gemini 3 Pro가 바로 이 영역을 정복했습니다.

Gemini 3 Pro의 Deep Think 모드는 사용자의 질문을 받으면 즉시 답변을 생성하는 대신, 내부적으로 수천 개의 ‘생각의 가지(Chain of Thought)’를 펼칩니다. 스스로 가설을 세우고, 오류를 발견하면 수정하고, 최종적으로 검증된 답안만을 사용자에게 제시합니다.

Gemini 3 Pro의 사고 흐름 (Mermaid Diagram)

graph TD
    A["사용자 질문 입력 (복잡한 문제)"] --> B{"직관적 답변 가능? (시스템 1)"}
    B -- 예 --> C["즉시 답변 생성"]
    B -- 아니오 --> D["Deep Think 모드 활성화 (시스템 2)"]
    D --> E["논리적 계획 수립"]
    E --> F["단계별 추론 수행"]
    F --> G{"중간 검증: 논리적 오류?"}
    G -- 오류 발견 --> H["이전 단계로 회귀 및 수정"]
    G -- 통과 --> I["최종 답변 합성"]
    I --> J["결과 출력"]
    C --> J

킬러 프롬프트: 복잡한 추론 유도하기

이 모델은 간단한 인사말이나 창작 글쓰기보다는, 복잡한 논리, 코딩 디버깅, 과학적 추론에서 빛을 발합니다. 기존처럼 “단계별로 생각해서 답해줘”라고 말할 필요조차 없습니다. 모델이 알아서 판단하기 때문입니다.

하지만 모델의 사고력을 극대화하려면 제약 조건(Constraints)을 명확히 주는 것이 좋습니다.

추천 프롬프트 (Markdown Code Block)

# Role
당신은 수석 시스템 아키텍트이자 논리학자입니다.

# Task
다음 [문제 상황]을 분석하여 가장 논리적인 해결책을 도출하십시오. 직관적인 답변을 지양하고, 모든 가정(Assumption)을 검증하는 과정을 거치십시오.

# 문제 상황
[여기에 복잡한 딜레마, 디버깅 코드, 또는 논리 퍼즐을 입력하세요]
예: "우주 정거장의 산소 공급 시스템 A가 고장 났고, 백업 시스템 B는 전력이 15% 미만일 때만 작동합니다. 현재 전력은 40%이며 생명 유지가 위급합니다. 시스템 C를 우회하여 연결할 수 있지만, 이는 과부하 위험이 25% 존재합니다. 최적의 행동 수칙을 확률과 함께 계산하십시오."

# 요구 사항
1. 가능한 모든 시나리오의 '성공 확률'과 '리스크'를 표로 정리하십시오.
2. 'Deep Think' 과정을 통해 기각된(채택되지 않은) 해결책이 왜 위험한지 설명하십시오.
3. 최종 권장안을 제시하십시오.

사용 가이드: Deep Think 제대로 쓰기

Gemini 3 Pro의 성능을 100% 끌어내기 위한 4단계 가이드입니다.

  1. 모델 선택: Gemini 인터페이스에서Gemini 3 Pro를 선택합니다. (일반 Pro가 아닌 Deep Think 지원 버전인지 확인)
  2. 생각 시간 부여: 질문을 던지면 “Thinking…” 또는 “Reasoning…”이라는 상태 표시가 뜹니다. 이때 새로고침하지 말고 기다리십시오. 복잡한 문제일수록 이 시간이 길어집니다(10초~60초).
  3. 사고 과정 검토 (옵션): 답변이 나오면 보통 ‘Show Thought Process(사고 과정 보기)’ 버튼이 함께 제공됩니다. 이를 클릭하여 AI가 어떤 논리적 단계를 거쳤는지 확인하십시오. 이것 자체가 훌륭한 학습 자료가 됩니다.
  4. 피드백 루프: 만약 논리에 허점이 보인다면, “3번째 단계의 전제 조건이 잘못되었다”라고 구체적으로 지적하십시오. 시스템 2 모델은 이 지적을 즉시 반영하여 논리를 재수립합니다.

벤치마크 데이터 비교 (인간 vs AI)

Gemini 3 Pro가 왜 ‘Overall King’인지 보여주는 데이터입니다. 특히 **Humanity’s Last Exam (HLE)**은 기존 AI들이 30점대를 넘지 못하던 마의 영역이었습니다.

평가 항목 (Benchmark) Gemini 3 Pro (Deep Think) GPT-4o / Gemini 1.5 인간 전문가 (PhD) 비고
GPQA-Diamond 78.5% ~50% 69.7% 구글 검색으로도 못 푸는 박사급 과학 문제
Humanity’s Last Exam 62.1% < 30% ~90% 다분야 복합 추론 및 추상적 사고 테스트
MATH (수학) 98.2% 80% 후반 90% 복잡한 수학 경시대회 문제
Codeforces (코딩) 상위 2% 상위 10% 경쟁 프로그래밍 플랫폼 순위

Note: GPQA-Diamond에서 Gemini 3 Pro는 이미 평균적인 박사 학위 소지자의 정답률을 넘어섰습니다. 이것은 단순한 검색이나 패턴 매칭으로는 불가능한 영역입니다.


Pro-Tips: 하지 말아야 할 것

  1. 창작 요청에 쓰지 마세요: “감성적인 시를 써줘”라는 요청에 Deep Think를 켜면, 모델은 시의 운율과 구조를 수학적으로 분석하려 들 수 있습니다. 창의적 작업에는 Gemini 1.5 Flash나 Pro(일반 모드)가 더 자연스럽습니다.
  2. 단순 검색 질문 금지: “오늘 서울 날씨 어때?”를 묻는 데 시스템 2를 쓰는 것은 슈퍼컴퓨터로 계산기를 두드리는 것과 같습니다. 자원 낭비이며 응답 속도만 느려집니다.
  3. 답변을 맹신하지 말고 ‘과정’을 보세요: Deep Think의 진가는 정답 그 자체보다 **’왜 그렇게 생각했는지’**에 있습니다. 코딩 문제라면, 제안된 코드뿐만 아니라 AI가 고려한 에지 케이스(Edge Case) 분석 내용을 반드시 읽어보세요.

Gemini 3 Pro (Deep Think)는 AI가 더 이상 ‘빠른 답변’만을 위한 도구가 아님을 증명했습니다. 이제 AI는 인간과 함께, 때로는 인간보다 더 깊게 고민하고 문제를 해결합니다.

복잡한 연구 논문을 분석해야 하거나, 풀리지 않는 스파게티 코드를 수정해야 한다면 지금 당장 Gemini 3 Pro를 호출하십시오. 그리고 그가 당신을 위해 생각하게 하십시오.

지금 바로 시도해보세요: 당신이 해결하지 못하고 있던 가장 어려운 논리 문제를 Gemini 3 Pro에게 던져보세요. 단순한 정답이 아니라, 해결책을 찾아가는 ‘통찰’을 얻게 될 것입니다.


참고 자료