반응형

GPT 8

Claude 3 알고 아는 척 좀 해보자 – 단편: Opus·Sonnet·Haiku, 새로운 AI 비서 삼형제

“GPT-5랑 Gemini 얘기만 하다가 Claude는 뭐야?”“Claude는 글 잘 쓰는 AI 아니야?”이제는 아닙니다. Anthropic의 Claude 3 모델 패밀리는단순히 글 잘 쓰는 챗봇을 넘어서 멀티모달 reasoning 모델로 진화했습니다.이번 글에서는 Claude 3의 모델 구성, 성능, 비전 기능, 안전성, 그리고GPT-5·Gemini와 어떤 점에서 다른지까지 깊게 들어가 보겠습니다.모델 패밀리 – Opus, Sonnet, Haiku Claude 3 모델은 3가지 버전으로 제공됩니다:Claude 3 Opus가장 강력한 모델.복잡한 수학, 추론, 장문 분석, 코딩에서 최고 성능을 보여줍니다.GPQA, MMLU 같은 까다로운 벤치마크에서 SOTA(State-of-the-Art) 달성.Clau..

DeepSeek 알고 아는 척 좀 해보자 – 단편: 671B 파라미터의 괴물, DeepSeek-V3

“요즘 오픈소스 LLM 중에 핫한 게 뭐야?”바로 그 중 하나 DeepSeek-V3입니다.이 글 하나로 DeepSeek-V3의 핵심 설계와 특징을 한 번에 이해해 봅시다.모델 개요 DeepSeek-AI는 총 671B 파라미터를 가진 초대형 Mixture-of-Experts (MoE) 언어 모델 DeepSeek-V3를 공개했습니다.이 중 토큰당 활성화되는 파라미터는 37B로, 거대한 모델임에도 효율적인 추론과 비용 절감이 가능합니다.이 모델은 이전 세대 DeepSeek-V2에서 검증된 기술을 발전시켜:Multi-head Latent Attention (MLA) → 메모리·속도 최적화DeepSeekMoE 아키텍처 → 전문가 라우팅을 통한 계산 효율성 극대화Multi-Token Prediction (MTP)..

Gemini 알고 아는 척 좀 해보자 – 1편: Google의 최신 AI, Gemini 2.X 완전 정리

회의에서 누가 “Gemini 2.5 Pro 써봤어?” 하고 묻는데 대답 못 해봤다면?오늘 글 하나면 Gemini 2.X 시리즈를 깔끔히 정리하고,GPT-5와 비교해서 뭐가 다른지 자신 있게 말할 수 있습니다.Gemini 2.X, 뭐가 다르길래? Google DeepMind는 Gemini 2.5 Pro, Gemini 2.5 Flash, Gemini 2.0 Flash, Flash-Lite까지네 가지 모델로 구성된 최신 AI 제품군을 발표했습니다.공통점은 모두 네이티브 멀티모달, 긴 컨텍스트(1M 토큰), 에이전트 기능 지원입니다.즉, 텍스트·이미지·오디오·비디오·코드까지 한 번에 이해하고,복잡한 문제를 단계별로 풀어낼 수 있다는 뜻입니다.모델별 특징 – “Pro는 똑똑, Flash는 빠름”Gemini 2...

GPT-5 알고 아는 척 좀 해보자 – 1편: 처음 보는 사람도 5분 만에 이해하는 GPT-5

GPT-5가 드디어 등장했습니다.AI 커뮤니티에서 가장 많이 들리는 말은 “이번엔 진짜 한 단계 진화했다”는 것.그런데 구체적으로 뭐가 달라졌는지, 실제 업무에서 어떤 의미가 있는지 궁금하신 분들 많죠?오늘은 OpenAI가 공개한 GPT-5 시스템 카드를 바탕으로회의에서, 팀 브리핑에서, 심지어 술자리에서 “나 GPT-5 좀 아는 사람” 소리를 들을 수 있을 정도로 깊이 정리해 보겠습니다.GPT-5 = 라우팅 듀오 (gpt-5-main + gpt-5-thinking)GPT-5의 가장 큰 변화는 듀얼 모델 구조입니다.이전 모델들(GPT-4o, o3)은 단일 모델이었지만, GPT-5는 두 모델이 짝을 이루어 돌아갑니다.gpt-5-main빠르고 저렴일상 질의, 간단한 작업에 최적화Latency(응답속도)가 매..

5분 컷 논문 리뷰: 작은 LLM이 Gemini Pro를 이겼다고? – Deep Research 데이터 합성 끝판왕, InfoSeek

" OPEN DATA SYNTHESIS FOR DEEP RESEARCH "논문을 요약한 내용 입니다.연구 배경 & 문제의식대규모 언어 모델(LLM)은 이제 단순한 사실 회상(fact recall)을 넘어서,하위 문제 분해 → 다단계 추론 → 다중 출처 증거 통합까지 요구되는“Deep Research” 작업으로 확장되고 있습니다.하지만 기존 벤치마크는 이런 복잡성을 제대로 포착하지 못하고,최근 합성 데이터셋들도 단축키 추론(shortcut reasoning)이나 지식 누출(knowledge leakage) 문제,혹은 깊이(depth)가 부족한 경우가 많습니다.논문은 이를 해결하기 위해 **Deep Research 문제를 HCSP(Hierarchical Constraint Satisfaction Proble..

5분 컷 논문 리뷰: 왜 언어 모델은 환각을 일으킬까?

Why Language Models Hallucinate논문을 요악한 내용 입니다.연구 배경 & 문제의식LLM이 생성하는 **환각(hallucination)**은 실제 응용에서 가장 큰 문제 중 하나입니다.환각이란 모르면서 아는 척하고, 그럴듯하지만 사실과 다른 응답을 내놓는 현상입니다.이 논문은 환각을 “모델의 실수”로만 보지 않고,훈련·평가 절차 자체가 ‘추측’을 보상하도록 설계된 구조적 문제라고 분석합니다.즉, LLM은 “모른다”라고 말하는 것보다 “틀려도 찍는다”가 더 높은 점수를 받기 때문에학습과정에서 점점 자신감 있는 추측을 하도록 진화한다는 것이 핵심 주장입니다.환각의 통계적 원인 (Pretraining 단계)저자들은 환각을 이진 분류 문제로 환원해 설명합니다.훈련 데이터는 (+) 유효 출력..

대규모 모델 학습·추론 최적화 시리즈 4편: FSDP · ZeRO · DeepSpeed

"단일 GPU로는 불가능한 대형 모델, 어떻게 학습할까?"FSDP, ZeRO, DeepSpeed는 모델 파라미터와 optimizer state를 여러 GPU에 분산해거대한 모델을 효율적으로 학습할 수 있도록 해줍니다. 문제 정의: 대규모 모델 학습의 한계모델 파라미터 수 → 수십억 이상 (GPT-3, LLaMA 등)GPU 메모리 한계로 모델 전체 weight조차 올릴 수 없음Optimizer state (Adam: m, v 벡터)까지 고려하면 메모리 3~4배 필요데이터 병렬만으로는 한계 → 파라미터 분산 병렬(Sharding) 필요ZeRO (Zero Redundancy Optimizer)ZeRO는 모델 학습 시 중복 저장되는 상태를 GPU마다 나누어 저장합니다.Stage 1: Optimizer stat..

대규모 모델 학습·추론 최적화 시리즈 1편: Mixed Precision Training (AMP)

"학습 속도를 2배 이상 올리고, VRAM도 절약할 수 있다?"Mixed Precision Training은 FP16/BF16과 FP32를 적절히 섞어 쓰는 학습 기법입니다. Mixed Precision Training이란?기존 딥러닝 학습은 모든 연산을 FP32(32-bit float)로 수행했습니다.하지만 FP16(16-bit float) 연산은 속도가 더 빠르고, 메모리 사용량도 절반입니다.Mixed Precision Training은 다음을 결합합니다:FP16/BF16로 대부분의 연산 (행렬 곱, convolution 등)FP32로 중요한 부분 (loss 계산, weight update, scale 유지)결과:성능 거의 그대로 유지 + 속도 1.5~3배 향상 + 메모리 절감왜 필요한가?대규모 모..

반응형