IT/etc

Gemini 2.5 Pro vs GPT vs Claude — "나를 이해하는 AI"는 누구인가?

심량 2025. 5. 15. 17:00

GPT, Claude, Gemini. 이름은 익숙하지만, 실제로 써보면 이해 방식도 반응 방식도 제각각입니다. 이 글은 세 모델이 사용자의 의도를 어떻게 파악하고, 어떤 식으로 반응·구현하는지를 실제 사용 경험을 바탕으로 비교한 기록입니다.

 

세간의 평가

아래는 실제 사용자들의 리뷰, 문서/미디어 입력 성능 테스트, 실사용 코드 흐름 등 다양한 평가 항목을 정리한 요약입니다. 단순 응답 품질을 넘어서 실행력과 맥락 대응, 자료 처리 성향까지 함께 포함합니다.

  • GPT: 전체 대화 흐름을 비교적 자연스럽게 유지하며, 설정한 문맥을 중심으로 정리하는 능력이 뛰어남. 문서 응답, PDF 처리 등에서 정보 밀도와 응답 흐름이 안정적이라는 평이 많음.
  • Claude: 실행 중심 대화에 강하며, 코드 응답에서 부가적 처리까지 챙겨주는 경우가 많음. 다만 텍스트 응답은 간결하고 중립적이라 감정 맥락 전달은 약하다는 의견이 있음.
  • Gemini: 요점 추출과 정리는 빠르지만, 이미지·PDF·표 등 미디어 입력에 대해 설명 중심으로 반응하며 흐름 재구성은 부족하다는 의견. 긴 문서 요약은 강하지만 대화 확장은 제한적이라는 평가.

🤖 AI의 이해력과 맥락 반응력

세 모델이 사용자의 말을 어떻게 해석하고 대화 흐름을 얼마나 자연스럽게 이어가는지에 대한 체감 비교입니다. 각 항목은 실제 사용자가 경험한 내용을 중심으로 정리했습니다.

🟦 GPT-4 (Plus)

  • 사용자의 의도를 짚으려는 태도가 분명히 보입니다. 단순한 요청에도 '혹시 이런 걸 원한 건가요?' 같은 반응이 따라오기도 하죠.
  • 하지만 그걸 넘어서 자발적으로 확장해주는 능력은 부족합니다. 기본 요청 범위에서 벗어나는 행동은 적습니다.
  • 초기에 입력한 조건이나 예시 톤에 고착되는 경향도 강합니다.

🟨 Claude

  • Claude는 사용자의 의도를 충분히 반영해 구현하며, 필요한 주변 요소들도 알아서 챙겨주는 인상입니다.
    코드 작업에서는 특히, 요청하지 않아도 예외 처리나 경로 검사 같은 부수 요소들을 포함해주는 경우가 많았습니다.
  • 응답 텍스트는 건조한 편이지만, 코드에는 생각이 들어간 느낌이 있습니다.

🟥 Gemini 2.5 Pro

  • Gemini는 사용자의 말을 정리하고 요약하는 데는 정확했지만,
    그 요약을 바탕으로 다시 흐름을 이어가거나, 의도를 깊이 파고들지는 않았습니다.
  • “핵심만 뽑아낸다”는 강점이 있지만, “맥락을 엮어낸다”는 쪽에서는 아쉬움이 있었습니다.
  • 게다가 Pro 는 심층 연구(deep research) 기능을 사용하면 느으으립니다. 뭐 이건 gpt 도 마찬가지긴 합니다만..

🧠 코드 작성력 비교

코드를 단순히 만들어주는 수준을 넘어, 실제로 실행 가능한 흐름을 얼마나 충실하게 구성하는지 기준으로 비교합니다. 아래는 SWE-Bench 기준 정량 평가 결과와, 각 모델 사용 경험에 기반한 정성 평가입니다. Claude는 부가적인 처리까지 챙기는 경향이 있었고, GPT는 구성은 단정하지만 추가 요청 없이는 빠지는 요소가 많았고, Gemini는 설명 위주의 코드가 많아 실사용과의 간극이 느껴졌습니다.

📊 SWE-Bench 기준 정확도

  • Claude 3 Opus (Anthropic 기준, 2024년 측정): 약 71%
  • GPT-4 (Original, 2023년 OpenAI 기준): 약 67%
  • Gemini 2.5 Pro (Google DeepMind, 2024년 공개 수치): 약 63.8% ※ 참고 수치이며 실제 체감과 다를 수 있음
    ※ 위 내용은 gpt 가 검색해서 찾은 내용이고 최근의 평가는 https://www.swebench.com/?utm_source=chatgpt.com 를 참고하시기 바랍니다.

GPT

  • 깔끔한 코드 스타일이 장점입니다.
  • Claude가 토큰 제한으로 작업하다 이어서 작업을 GPT로 넘기는 경우가 많습니다. GPT는 긴 문맥을 안정적으로 이어받지만, 보조 함수나 예외 처리는 기본 구현에 포함되지 않는 경우가 많습니다.
  • excel 파일 작업 등을 진행할 때, 언급한 요청은 구현하지만 excel 파싱 코드가 빠진다던지, 헤더 파싱이 나사가 빠진 경우가 잦았습니다.
  • 결론은... 초등학생에게 상세하게 방향을 지도해주듯이 보모 모드로 지시(프롬프트)를 자알 노오력해서 작성해야 좋은 결과를 스트레스 줄이고 얻습니다. 버벅일 때는 직접 수정하고 캔버스에 붙여넣어서 그걸 기준으로 작업하라고 지시하는게 효율적일 수도 있습니다.

Claude

  • 완성도 높은 흐름을 먼저 짜주는 경향이 강합니다. 대략적인 기능 단위로 요청해도 전체 흐름을 먼저 설계해주는 편이며, 세부 분기나 예외 처리까지 포함된 경우도 많았습니다.
  • 입력/출력 제한(클로드에서 토큰으로 인용됨)이 너무 짧습니다. 수정 요청 몇 번 하다 보면 사용량 제한 때문에 3시간 이상 기다려야 합니다. 성능은 만족스러운데 서비스가 짜다고 생각하시면 됩니다. 제일 비싼 버전은 안써봐서 모르겠지만, 가장 싼 유료 버전을 써도 별차이가 없었습니다.
    쓰시다 보면 '계속' 이나 'continue' 연타를 누르고 있는 자신을 보게 될 수 있습니다. 너무 번거롭습니다. 그래서 한동안 열심히 쓰다가 지금은 구독을 취소한 상태입니다.

Gemini

  • 코드는 아직 직접 사용해보지 못했지만, SWE-Bench 수치상으로는 준수하고, 설명 위주 출력 특성상 문서 구조화 요청에 적합해 보입니다. 벤치마크 상으로는 준수하나, 설명 중심 출력 경향상 실사용과 차이가 있을 가능성이 있습니다.

💬 마무리하며

GPT를 비롯한 여러 AI를 만지작거리다 보니,
어느새 이런 얘기까지 꺼내게 됐네요.

누군가는 "오 이거 나도 느꼈는데" 할 수 있고,
누군가는 그냥 조용히 창을 닫았을지도 모르죠.

저는 이렇게 써봤습니다.
여러분은 어떻게 쓰시나요?