반응형

llm 14

Claude 3 알고 아는 척 좀 해보자 – 단편: Opus·Sonnet·Haiku, 새로운 AI 비서 삼형제

“GPT-5랑 Gemini 얘기만 하다가 Claude는 뭐야?”“Claude는 글 잘 쓰는 AI 아니야?”이제는 아닙니다. Anthropic의 Claude 3 모델 패밀리는단순히 글 잘 쓰는 챗봇을 넘어서 멀티모달 reasoning 모델로 진화했습니다.이번 글에서는 Claude 3의 모델 구성, 성능, 비전 기능, 안전성, 그리고GPT-5·Gemini와 어떤 점에서 다른지까지 깊게 들어가 보겠습니다.모델 패밀리 – Opus, Sonnet, Haiku Claude 3 모델은 3가지 버전으로 제공됩니다:Claude 3 Opus가장 강력한 모델.복잡한 수학, 추론, 장문 분석, 코딩에서 최고 성능을 보여줍니다.GPQA, MMLU 같은 까다로운 벤치마크에서 SOTA(State-of-the-Art) 달성.Clau..

DeepSeek 알고 아는 척 좀 해보자 – 단편: 671B 파라미터의 괴물, DeepSeek-V3

“요즘 오픈소스 LLM 중에 핫한 게 뭐야?”바로 그 중 하나 DeepSeek-V3입니다.이 글 하나로 DeepSeek-V3의 핵심 설계와 특징을 한 번에 이해해 봅시다.모델 개요 DeepSeek-AI는 총 671B 파라미터를 가진 초대형 Mixture-of-Experts (MoE) 언어 모델 DeepSeek-V3를 공개했습니다.이 중 토큰당 활성화되는 파라미터는 37B로, 거대한 모델임에도 효율적인 추론과 비용 절감이 가능합니다.이 모델은 이전 세대 DeepSeek-V2에서 검증된 기술을 발전시켜:Multi-head Latent Attention (MLA) → 메모리·속도 최적화DeepSeekMoE 아키텍처 → 전문가 라우팅을 통한 계산 효율성 극대화Multi-Token Prediction (MTP)..

Gemini 알고 아는 척 좀 해보자 – 1편: Google의 최신 AI, Gemini 2.X 완전 정리

회의에서 누가 “Gemini 2.5 Pro 써봤어?” 하고 묻는데 대답 못 해봤다면?오늘 글 하나면 Gemini 2.X 시리즈를 깔끔히 정리하고,GPT-5와 비교해서 뭐가 다른지 자신 있게 말할 수 있습니다.Gemini 2.X, 뭐가 다르길래? Google DeepMind는 Gemini 2.5 Pro, Gemini 2.5 Flash, Gemini 2.0 Flash, Flash-Lite까지네 가지 모델로 구성된 최신 AI 제품군을 발표했습니다.공통점은 모두 네이티브 멀티모달, 긴 컨텍스트(1M 토큰), 에이전트 기능 지원입니다.즉, 텍스트·이미지·오디오·비디오·코드까지 한 번에 이해하고,복잡한 문제를 단계별로 풀어낼 수 있다는 뜻입니다.모델별 특징 – “Pro는 똑똑, Flash는 빠름”Gemini 2...

GPT-5 알고 아는 척 좀 해보자 – 1편: 처음 보는 사람도 5분 만에 이해하는 GPT-5

GPT-5가 드디어 등장했습니다.AI 커뮤니티에서 가장 많이 들리는 말은 “이번엔 진짜 한 단계 진화했다”는 것.그런데 구체적으로 뭐가 달라졌는지, 실제 업무에서 어떤 의미가 있는지 궁금하신 분들 많죠?오늘은 OpenAI가 공개한 GPT-5 시스템 카드를 바탕으로회의에서, 팀 브리핑에서, 심지어 술자리에서 “나 GPT-5 좀 아는 사람” 소리를 들을 수 있을 정도로 깊이 정리해 보겠습니다.GPT-5 = 라우팅 듀오 (gpt-5-main + gpt-5-thinking)GPT-5의 가장 큰 변화는 듀얼 모델 구조입니다.이전 모델들(GPT-4o, o3)은 단일 모델이었지만, GPT-5는 두 모델이 짝을 이루어 돌아갑니다.gpt-5-main빠르고 저렴일상 질의, 간단한 작업에 최적화Latency(응답속도)가 매..

5분 컷 논문 리뷰: 작은 LLM이 Gemini Pro를 이겼다고? – Deep Research 데이터 합성 끝판왕, InfoSeek

" OPEN DATA SYNTHESIS FOR DEEP RESEARCH "논문을 요약한 내용 입니다.연구 배경 & 문제의식대규모 언어 모델(LLM)은 이제 단순한 사실 회상(fact recall)을 넘어서,하위 문제 분해 → 다단계 추론 → 다중 출처 증거 통합까지 요구되는“Deep Research” 작업으로 확장되고 있습니다.하지만 기존 벤치마크는 이런 복잡성을 제대로 포착하지 못하고,최근 합성 데이터셋들도 단축키 추론(shortcut reasoning)이나 지식 누출(knowledge leakage) 문제,혹은 깊이(depth)가 부족한 경우가 많습니다.논문은 이를 해결하기 위해 **Deep Research 문제를 HCSP(Hierarchical Constraint Satisfaction Proble..

5분 컷 논문 리뷰: IntrEx – L2 학습자 참여도(Engagement) 모델링을 위한 대규모 교육 대화 데이터셋

IntrEx: A Dataset for Modeling Engagement in Educational Conversations위 논문을 요약한 내용 입니다. 연구 배경 & 문제의식 제2외국어 학습(second-language acquisition) 환경에서 *학습자 참여(engagement)*는 학습 효과와 직결되는 핵심 지표입니다.하지만 지금까지의 연구는 텍스트의 흥미도(interestingness) 자체에만 초점을 맞추었고,대화(conversation) 속에서 어떤 언어적 특징이 참여를 유도하는지에 대해서는 거의 알려지지 않았습니다.이번 논문은 이를 해결하기 위해교사-학생 대화의 흐름 속에서 참여도를 정량화한 IntrEx 데이터셋을 제안합니다.IntrEx는 interestingness와 expecte..

5분 컷 논문 리뷰: 왜 언어 모델은 환각을 일으킬까?

Why Language Models Hallucinate논문을 요악한 내용 입니다.연구 배경 & 문제의식LLM이 생성하는 **환각(hallucination)**은 실제 응용에서 가장 큰 문제 중 하나입니다.환각이란 모르면서 아는 척하고, 그럴듯하지만 사실과 다른 응답을 내놓는 현상입니다.이 논문은 환각을 “모델의 실수”로만 보지 않고,훈련·평가 절차 자체가 ‘추측’을 보상하도록 설계된 구조적 문제라고 분석합니다.즉, LLM은 “모른다”라고 말하는 것보다 “틀려도 찍는다”가 더 높은 점수를 받기 때문에학습과정에서 점점 자신감 있는 추측을 하도록 진화한다는 것이 핵심 주장입니다.환각의 통계적 원인 (Pretraining 단계)저자들은 환각을 이진 분류 문제로 환원해 설명합니다.훈련 데이터는 (+) 유효 출력..

5분 컷 논문 리뷰: Easy Dataset – 비정형 문서를 LLM 학습 데이터로 바꾸는 통합 파이프라인

Easy Dataset: A Unified and Extensible Framework for Synthesizing LLMFine-Tuning Data from Unstructured Document논문을 요약한 내용 입니다. 왜 Easy Dataset인가?최근 대규모 언어 모델(LLM)의 도메인 적응(domain adaptation) 수요가 폭발적으로 증가하고 있습니다.의료, 금융, 법률, 제조 등 각 산업마다 전문 지식이 필요한데,이런 지식은 대부분 비정형 문서에 담겨 있고, 데이터셋으로 바로 쓰기 어렵습니다.기존 접근은PDF → OCR → 텍스트 추출 → 수동 QA 작성 → 모델 학습이런 식으로 비효율적이고, 사람 손이 많이 갔습니다.Easy Dataset은 이 과정을 엔드투엔드 자동화하면서사용자..

5분 컷 논문 리뷰: VLM-R1 – R1 스타일 RL로 시각적 추론 강화하기

VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model논문의 내용을 요약한 것 입니다. 연구 배경 & 목표 최근 DeepSeek-R1 등 규칙 기반 보상(rule-based reward)을 활용한 RL이LLM의 추론 능력을 극적으로 향상시킨 사례가 나오면서,“이걸 VLM에도 적용하면 시각적 추론도 좋아질까?”라는 질문이 생겼습니다.논문 VLM-R1은 이 질문에 답하기 위해R1-style RL을 Vision-Language Model(VLM)에 적용하는 전용 프레임워크를 제안하고,REC(Referring Expression Comprehension)와 OVD(Open-Vocabulary Object Detection) 태스크에서RL의..

5분 컷 논문 리뷰: Are VLMs Ready for Autonomous Driving?

Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspective논문의 내용을 요약한 것 입니다.연구 배경 & 문제의식 자율주행 시스템에 VLM(Vision-Language Model)을 적용하려면 신뢰성이 핵심입니다.하지만 지금까지의 연구는 “VLM이 자율주행 시나리오에서 해석 가능한 의사결정을 제공할 것”이라는 가정만 있었을 뿐,시각적 근거가 얼마나 탄탄한지 체계적으로 검증하지 않았습니다.이 논문은 DriveBench라는 새로운 벤치마크 데이터셋을 만들어,VLM이 실제 주행에서 얼마나 믿을 만한 답변을 내놓는지 평가합니다.DriveBench: 데이터셋 & 벤치마크구성:총 1..

반응형