Gemini 알고 아는 척 좀 해보자 – 1편: Google의 최신 AI, Gemini 2.X 완전 정리

ML | DL/LLM 아는척좀 해보자

Gemini 알고 아는 척 좀 해보자 – 1편: Google의 최신 AI, Gemini 2.X 완전 정리

Leeys 2025. 9. 17. 08:58

회의에서 누가 “Gemini 2.5 Pro 써봤어?” 하고 묻는데 대답 못 해봤다면?
오늘 글 하나면 Gemini 2.X 시리즈를 깔끔히 정리하고,
GPT-5와 비교해서 뭐가 다른지 자신 있게 말할 수 있습니다.

Gemini 2.X, 뭐가 다르길래?

Google DeepMind는 Gemini 2.5 Pro, Gemini 2.5 Flash, Gemini 2.0 Flash, Flash-Lite까지
네 가지 모델로 구성된 최신 AI 제품군을 발표했습니다.
공통점은 모두 네이티브 멀티모달, 긴 컨텍스트(1M 토큰), 에이전트 기능 지원입니다.
즉, 텍스트·이미지·오디오·비디오·코드까지 한 번에 이해하고,
복잡한 문제를 단계별로 풀어낼 수 있다는 뜻입니다.

모델별 특징 – “Pro는 똑똑, Flash는 빠름”

Gemini 2.5 Pro
- 가장 강력한 모델, frontier 코딩·추론 벤치마크 SoTA
- 최대 3시간 분량의 비디오를 이해하고 요약 가능
- Thinking 모델로, 응답 전 추가 계산을 수행해 정확도 ↑
Gemini 2.5 Flash
- Pro보다 가볍지만 빠른 응답, 저렴한 비용
- 품질·비용·레이턴시를 균형 있게 맞출 때 사용
Gemini 2.0 Flash
- 일상적인 작업 전용, “non-thinking” 모델
- 번역·간단한 Q&A·검색에 최적
Gemini 2.0 Flash-Lite
- 가장 빠르고 저렴, 대규모 트래픽 처리용

아는 척 포인트:
“Gemini는 Pro로 ‘깊게 생각하는’ 작업, Flash로 ‘빠른 처리’ 작업을 나눌 수 있어요.”

아키텍처: MoE 기반 멀티모달 뇌

Gemini 2.5는 Sparse Mixture-of-Experts 트랜스포머를 사용합니다.
입력 토큰마다 일부 전문가만 활성화해 계산 효율을 극대화합니다.
즉, 모델은 거대하지만 토큰당 연산량은 줄어 속도와 비용을 분리할 수 있습니다.

멀티모달은 “붙여 놓은 기능”이 아니라 네이티브로 설계되어,
텍스트 + 비디오 + 이미지 + 오디오 입력을 동시에 처리하고 상호 참조할 수 있습니다.

데이터셋 & 훈련 인프라

데이터: 2025년 1월까지의 웹, 코드, 이미지, 오디오, 비디오
훈련: Google TPUv5p 8960칩 Pods, 대규모 병렬 학습
안정성 기능: Slice-Granularity Elasticity → TPU 일부 장애 시 자동 복구
품질 강화: 인간 피드백 + RL 강화학습 → 사실성·지시 따르기 능력 개선

Thinking 모델: 응답 전 ‘잠깐 생각하기’

Gemini 2.5 Pro는 질문을 받고 바로 대답하지 않습니다.
추론 시간에 수천~수만 번의 forward pass를 돌려 “사고 단계”를 거친 뒤 답변을 만듭니다.
사용자는 Thinking Budget을 설정해 “더 깊게 생각할수록 비용↑, 정확도↑”의 균형을 맞출 수 있습니다.

정량적 성능 – 벤치마크 SOTA

코딩: SWE-bench Verified, Aider Polyglot 등에서 1.5 대비 대폭 개선
수학/추론: AIME 2025, GPQA에서 상위권
멀티모달: MMMU, VideoMMMU 등에서 최고 점수
긴 컨텍스트: 128k ~ 1M 토큰 입력에서도 SoTA 성능 유지

활용 사례

Gemini Plays Pokémon: 장기 계획·추론 능력 시연 (게임 퍼즐 해결)
PDF → 드라마 연습 도구 변환: 대본 읽어주고 대화 시뮬레이션
사진 → 추천 시스템: 책장 사진 → 도서 추천
Google 제품 통합: AI Overviews, NotebookLM, Project Astra, Jules 등

아는 척 포인트:
“Gemini는 Google 생태계와 통합이 강점이라, 검색·Workspace·Android에서 바로 활용됩니다.”

안전성·보안 강화

과도한 거부(over-refusal) 문제 개선 → 더 많은 질문에 답변
자동화된 레드팀·외부 평가 → 위험 능력 테스트
프라이버시 보호 → 장문 기억 비율 크게 감소
보안 강화 → 프롬프트 인젝션 공격 저항성 향상

오늘의 정리

Gemini 2.5 Pro = Google의 “생각하는 AI”
1M 토큰 컨텍스트 + 멀티모달 + 네이티브 도구 사용
MoE 아키텍처로 속도·비용 최적화
Google 검색·Workspace·Deep Research와 긴밀히 연결
안전성 강화로 실제 제품에 더 잘 녹아드는 모델

아래는 다른 LLM 모델 입니다!

https://machineindeep.tistory.com/101

DeepSeek 알고 아는 척 좀 해보자 – 단편: 671B 파라미터의 괴물, DeepSeek-V3

“요즘 오픈소스 LLM 중에 핫한 게 뭐야?”바로 그 중 하나 DeepSeek-V3입니다.이 글 하나로 DeepSeek-V3의 핵심 설계와 특징을 한 번에 이해해 봅시다.모델 개요 DeepSeek-AI는 총 671B 파라미터를 가진 초대

machineindeep.tistory.com

https://machineindeep.tistory.com/102

Claude 3 알고 아는 척 좀 해보자 – 단편: Opus·Sonnet·Haiku, 새로운 AI 비서 삼형제

“GPT-5랑 Gemini 얘기만 하다가 Claude는 뭐야?”“Claude는 글 잘 쓰는 AI 아니야?”이제는 아닙니다. Anthropic의 Claude 3 모델 패밀리는단순히 글 잘 쓰는 챗봇을 넘어서 멀티모달 reasoning 모델로 진화했

machineindeep.tistory.com

https://machineindeep.tistory.com/97

GPT-5 알고 아는 척 좀 해보자 – 1편: 처음 보는 사람도 5분 만에 이해하는 GPT-5

GPT-5가 드디어 등장했습니다.AI 커뮤니티에서 가장 많이 들리는 말은 “이번엔 진짜 한 단계 진화했다”는 것.그런데 구체적으로 뭐가 달라졌는지, 실제 업무에서 어떤 의미가 있는지 궁금하신

machineindeep.tistory.com

출처 : https://arxiv.org/abs/2507.06261

저작자표시 (새창열림)

'ML | DL > LLM 아는척좀 해보자' 카테고리의 다른 글

Claude 3 알고 아는 척 좀 해보자 – 단편: Opus·Sonnet·Haiku, 새로운 AI 비서 삼형제 (1)	2025.09.17
DeepSeek 알고 아는 척 좀 해보자 – 단편: 671B 파라미터의 괴물, DeepSeek-V3 (1)	2025.09.17
GPT-5 알고 아는 척 좀 해보자 – 3편: 내부 아키텍처 & 설계 뜯어보기 (1)	2025.09.16
GPT-5 알고 아는 척 좀 해보자 – 2편: 다른 프런티어 LLM들과의 비교 & 남은 과제 (1)	2025.09.16
GPT-5 알고 아는 척 좀 해보자 – 1편: 처음 보는 사람도 5분 만에 이해하는 GPT-5 (2)	2025.09.16

현재글Gemini 알고 아는 척 좀 해보자 – 1편: Google의 최신 AI, Gemini 2.X 완전 정리

나의 공부기록

Computer Vision 분야에 관심이 있습니다.

CNN, machinelearning, gemini, LoRa, 머신러닝, tensorflow, tensorrt, GPT, 딥러닝, VLM, pytorch, deepseek, llm, Quantization, ONNX, Python, MLOps, DL, 데이터분석, ML,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

나의 공부기록