ML | DL/LLM 아는척좀 해보자

Gemini 알고 아는 척 좀 해보자 – 1편: Google의 최신 AI, Gemini 2.X 완전 정리

Leeys 2025. 9. 17. 08:58
반응형

회의에서 누가 “Gemini 2.5 Pro 써봤어?” 하고 묻는데 대답 못 해봤다면?
오늘 글 하나면 Gemini 2.X 시리즈를 깔끔히 정리하고,
GPT-5와 비교해서 뭐가 다른지 자신 있게 말할 수 있습니다.


Gemini 2.X, 뭐가 다르길래?

Gemini 설명 중

 

 

Google DeepMind는 Gemini 2.5 Pro, Gemini 2.5 Flash, Gemini 2.0 Flash, Flash-Lite까지
네 가지 모델로 구성된 최신 AI 제품군을 발표했습니다.
공통점은 모두 네이티브 멀티모달, 긴 컨텍스트(1M 토큰), 에이전트 기능 지원입니다.
즉, 텍스트·이미지·오디오·비디오·코드까지 한 번에 이해하고,
복잡한 문제를 단계별로 풀어낼 수 있다는 뜻입니다.


모델별 특징 – “Pro는 똑똑, Flash는 빠름”

  • Gemini 2.5 Pro
    • 가장 강력한 모델, frontier 코딩·추론 벤치마크 SoTA
    • 최대 3시간 분량의 비디오를 이해하고 요약 가능
    • Thinking 모델로, 응답 전 추가 계산을 수행해 정확도 ↑
  • Gemini 2.5 Flash
    • Pro보다 가볍지만 빠른 응답, 저렴한 비용
    • 품질·비용·레이턴시를 균형 있게 맞출 때 사용
  • Gemini 2.0 Flash
    • 일상적인 작업 전용, “non-thinking” 모델
    • 번역·간단한 Q&A·검색에 최적
  • Gemini 2.0 Flash-Lite
    • 가장 빠르고 저렴, 대규모 트래픽 처리용

아는 척 포인트:
“Gemini는 Pro로 ‘깊게 생각하는’ 작업, Flash로 ‘빠른 처리’ 작업을 나눌 수 있어요.”


아키텍처: MoE 기반 멀티모달 뇌

Gemini 2.5는 Sparse Mixture-of-Experts 트랜스포머를 사용합니다.
입력 토큰마다 일부 전문가만 활성화해 계산 효율을 극대화합니다.
즉, 모델은 거대하지만 토큰당 연산량은 줄어 속도와 비용을 분리할 수 있습니다.

멀티모달은 “붙여 놓은 기능”이 아니라 네이티브로 설계되어,
텍스트 + 비디오 + 이미지 + 오디오 입력을 동시에 처리하고 상호 참조할 수 있습니다.


데이터셋 & 훈련 인프라

  • 데이터: 2025년 1월까지의 웹, 코드, 이미지, 오디오, 비디오
  • 훈련: Google TPUv5p 8960칩 Pods, 대규모 병렬 학습
  • 안정성 기능: Slice-Granularity Elasticity → TPU 일부 장애 시 자동 복구
  • 품질 강화: 인간 피드백 + RL 강화학습 → 사실성·지시 따르기 능력 개선

Thinking 모델: 응답 전 ‘잠깐 생각하기’

Gemini 2.5 Pro는 질문을 받고 바로 대답하지 않습니다.
추론 시간에 수천~수만 번의 forward pass를 돌려 “사고 단계”를 거친 뒤 답변을 만듭니다.
사용자는 Thinking Budget을 설정해 “더 깊게 생각할수록 비용↑, 정확도↑”의 균형을 맞출 수 있습니다.


정량적 성능 – 벤치마크 SOTA

  • 코딩: SWE-bench Verified, Aider Polyglot 등에서 1.5 대비 대폭 개선
  • 수학/추론: AIME 2025, GPQA에서 상위권
  • 멀티모달: MMMU, VideoMMMU 등에서 최고 점수
  • 긴 컨텍스트: 128k ~ 1M 토큰 입력에서도 SoTA 성능 유지

활용 사례

  • Gemini Plays Pokémon: 장기 계획·추론 능력 시연 (게임 퍼즐 해결)
  • PDF → 드라마 연습 도구 변환: 대본 읽어주고 대화 시뮬레이션
  • 사진 → 추천 시스템: 책장 사진 → 도서 추천
  • Google 제품 통합: AI Overviews, NotebookLM, Project Astra, Jules 등

아는 척 포인트:
“Gemini는 Google 생태계와 통합이 강점이라, 검색·Workspace·Android에서 바로 활용됩니다.”


안전성·보안 강화

  • 과도한 거부(over-refusal) 문제 개선 → 더 많은 질문에 답변
  • 자동화된 레드팀·외부 평가 → 위험 능력 테스트
  • 프라이버시 보호 → 장문 기억 비율 크게 감소
  • 보안 강화 → 프롬프트 인젝션 공격 저항성 향상

오늘의 정리

  • Gemini 2.5 Pro = Google의 “생각하는 AI”
  • 1M 토큰 컨텍스트 + 멀티모달 + 네이티브 도구 사용
  • MoE 아키텍처로 속도·비용 최적화
  • Google 검색·Workspace·Deep Research와 긴밀히 연결
  • 안전성 강화로 실제 제품에 더 잘 녹아드는 모델

 

아래는 다른 LLM 모델 입니다!

 

https://machineindeep.tistory.com/101

 

DeepSeek 알고 아는 척 좀 해보자 – 단편: 671B 파라미터의 괴물, DeepSeek-V3

“요즘 오픈소스 LLM 중에 핫한 게 뭐야?”바로 그 중 하나 DeepSeek-V3입니다.이 글 하나로 DeepSeek-V3의 핵심 설계와 특징을 한 번에 이해해 봅시다.모델 개요 DeepSeek-AI는 총 671B 파라미터를 가진 초대

machineindeep.tistory.com

 

https://machineindeep.tistory.com/102

 

Claude 3 알고 아는 척 좀 해보자 – 단편: Opus·Sonnet·Haiku, 새로운 AI 비서 삼형제

“GPT-5랑 Gemini 얘기만 하다가 Claude는 뭐야?”“Claude는 글 잘 쓰는 AI 아니야?”이제는 아닙니다. Anthropic의 Claude 3 모델 패밀리는단순히 글 잘 쓰는 챗봇을 넘어서 멀티모달 reasoning 모델로 진화했

machineindeep.tistory.com

 

https://machineindeep.tistory.com/97

 

GPT-5 알고 아는 척 좀 해보자 – 1편: 처음 보는 사람도 5분 만에 이해하는 GPT-5

GPT-5가 드디어 등장했습니다.AI 커뮤니티에서 가장 많이 들리는 말은 “이번엔 진짜 한 단계 진화했다”는 것.그런데 구체적으로 뭐가 달라졌는지, 실제 업무에서 어떤 의미가 있는지 궁금하신

machineindeep.tistory.com

 

 

 

 

출처 : https://arxiv.org/abs/2507.06261

반응형