반응형

전체 글 134

딥러닝은 이런 Task도 한다! – 7편: 생성 AI, 이제 AI가 창작자가 되다

한때 AI는 사람의 질문에 ‘대답하는’ 수준에서 머물렀습니다.하지만 이제는 전혀 존재하지 않던 새로운 것들을 만들어내는 존재가 되었죠.그림을 그리고, 영상을 만들고, 음악을 작곡하고, 3D 모델까지 생성하는 시대가 왔습니다.이번 편에서는 생성(Generative) AI가 열어준 새로운 세상과,실제로 사람들이 현업에서 어떻게 활용하고 있는지를 자세히 살펴보겠습니다.이미지 생성 – 디자이너가 한 명 더 생긴 느낌이미지 생성은 생성 AI의 대표 주자입니다.처음에는 GAN(Generative Adversarial Network)이 등장해그림 같지 않은 이미지를 억지로 만들어내던 시절이 있었죠.요즘은 Diffusion 모델 덕분에실사 같은 품질의 이미지를 원하는 스타일로 뽑아낼 수 있습니다.현업에서는 이게 진짜 ..

딥러닝은 이런 Task도 한다! – 6편: 3D · Geometry · Depth, AI가 공간을 이해할 때 생기는 마법

사람은 태어나자마자 3D 세상에서 살기 시작합니다.앞뒤 거리감, 물체의 크기, 움직임의 방향을 자연스럽게 인지하죠.그런데 AI 모델은 원래 2D 데이터(평면 이미지)만 보고 학습하던 시절이 있었습니다.이제는 AI가 깊이(depth)와 기하학(geometry)까지 학습하면서진짜 세상을 이해할 수 있게 되었습니다.이번 편에서는 이 3D/Geometry/Depth 관련 Task들을 하나씩 소개합니다.1. Depth Estimation – 평면 이미지에서 깊이 뽑아내기깊이 추정은 카메라 한 대로 찍은 평면 사진에서“이 물체는 가깝고, 저 물체는 멀다”를 계산하는 기술입니다.이걸 잘하면 단순 사진이 아니라 3D 장면 복원이 가능해집니다.📌 활용 예시스마트폰 인물 사진 → 배경 블러 (가까운 사람만 선명하게)AR..

딥러닝은 이런 Task도 한다! – 5편: 오디오 & 멀티모달, 이제 AI는 듣고 보고 말한다

텍스트만 이해하는 AI는 이제 구세대입니다.요즘 AI는 귀로 듣고, 눈으로 보고, 입으로 말합니다.회의실에서 나오는 대화를 실시간으로 받아 적고,블로그 글을 자연스러운 목소리로 읽어주고,유튜브 영상을 몇 분 만에 요약해 주죠.이번 편에서는 오디오와 멀티모달, 즉 사람처럼 감각을 통합해서 이해하는 AI의 세계를 깊이 들어가 보겠습니다. 회의록을 자동으로 만들어주는 STT (Speech-to-Text)솔직히 말해 회의 끝나고 회의록 쓰는 건 누구에게나 귀찮은 일입니다.저도 예전엔 1시간 회의 들으면서 중요한 부분만 받아적고,끝나고 다시 녹음 들어보면서 정리하고… 그렇게 하루가 다 갔던 적도 많아요.STT 모델을 붙여 보니까 완전히 달라졌습니다.회의 중에 노트북 화면에 자막처럼 대화가 실시간으로 뜨고,회의가 ..

딥러닝은 이런 Task도 한다! – 4편: 산업 & 이상 탐지

하루에도 수천, 수만 개의 제품이 쏟아져 나오는 공장,24시간 멈추지 않는 CCTV 모니터링,사람이 일일이 보고 점검하기에는 불가능에 가까운 데이터량 속에서AI가 이제 ‘현장 관리자’ 역할을 하기 시작했습니다.이번 편에서는 공장, 보안, 품질관리 같은 현실 산업 현장에서 쓰이는 AI Task들을 조금 더 깊게 파헤쳐 보겠습니다. Anomaly Detection – “정상”이 뭔지부터 배우는 AI산업 현장에서 “이상”을 정의하는 건 생각보다 쉽지 않습니다.불량은 종류가 다양하고, 모양도 제각각이기 때문이죠.그래서 Anomaly Detection은 대부분 비지도 학습(unsupervised learning) 방식으로정상 데이터만 가지고 학습하고, 정상과 다른 패턴이 나타나면그걸 이상으로 판단합니다.예를 들어..

딥러닝은 이런 Task도 한다! – 3편: 사람 중심 Task

카메라가 사람 얼굴을 인식하는 건 이제 너무 당연한 세상이 되었죠.하지만 요즘 AI는 단순히 “사람이 있다/없다” 수준에서 멈추지 않습니다.사람이 지금 어떤 동작을 하고 있는지, 어떤 감정을 느끼고 있는지,나아가 이 사람이 어디로 가고 있는지까지 예측합니다.이번 편에서는 사람을 이해하는 AI, 즉 “Human-centric AI”의 여러 가지 Task들을 이야기해 보겠습니다.1. Pose Estimation – 사람 몸의 좌표를 데이터로 바꾸다Pose Estimation은 사람의 관절 위치를 예측해서머리, 어깨, 팔꿈치, 손목, 무릎, 발목 등 주요 지점을 찍어내고이 점들을 선으로 연결해 뼈대(skeleton) 형태로 표현하는 기술입니다.2D Pose Estimation은 한 장의 이미지에서 x, y 좌..

딥러닝은 이런 Task도 한다! – 2편: 비디오 & Tracking

사진은 한 순간을 담지만, 비디오는 이야기를 담습니다.한 장면 한 장면이 이어져 시간이라는 흐름을 만들고, 그 안에서 무수한 이벤트가 벌어지죠.그래서 비디오를 이해한다는 건 단순히 “이미지를 여러 장 본다” 이상의 일입니다.AI가 이 시간의 흐름을 이해하기 시작하면서, 자율주행부터 CCTV 보안, 스포츠 분석, 심지어 유튜브 챕터 생성까지완전히 새로운 세상이 열렸습니다.오늘은 이 “움직임을 이해하는 AI”가 어떤 일을 하는지, 조금 천천히 깊이 들어가 보겠습니다. Action Recognition – “이 사람, 지금 뭐 하고 있지?”가장 기초적인 작업은 영상 속 사람이나 사물이 무슨 행동을 하고 있는지 분류하는 겁니다.예를 들어 사람이 걷고 있는지, 뛰는지, 앉아 있는지, 박수를 치는지… 이런 것들이죠..

딥러닝은 이런 Task도 한다! – 1편: 이미지 복원 & 향상

사진을 찍었는데 노이즈가 심하거나 흔들려서 망했다고 생각한 적 있나요?아니면 오래된 흑백 사진을 컬러로 되살리고 싶었던 적은요?사실 우리가 매일 보는 선명한 사진과 영상 뒤에는,이런 문제를 해결해주는 딥러닝 모델들이 숨어 있습니다.오늘은 “이미지를 살려내고 더 멋지게 만드는” 딥러닝 세계를 제대로 파헤쳐 보겠습니다. 1. Image Denoising – 노이즈 없는 세상을 향해스마트폰으로 밤에 사진 찍어보면, 자글자글한 노이즈가 눈에 띄죠.예전에는 필터로 사진 전체를 부드럽게 만드는 방식이 주였는데,이러면 노이즈도 사라지지만 세부 디테일까지 사라져 버렸습니다.딥러닝은 여기서 한 단계 더 나아갑니다.CNN이나 Transformer 기반 모델은 “노이즈만” 골라서 없애고,피사체의 중요한 질감은 그대로 살려줍..

Claude 3 알고 아는 척 좀 해보자 – 단편: Opus·Sonnet·Haiku, 새로운 AI 비서 삼형제

“GPT-5랑 Gemini 얘기만 하다가 Claude는 뭐야?”“Claude는 글 잘 쓰는 AI 아니야?”이제는 아닙니다. Anthropic의 Claude 3 모델 패밀리는단순히 글 잘 쓰는 챗봇을 넘어서 멀티모달 reasoning 모델로 진화했습니다.이번 글에서는 Claude 3의 모델 구성, 성능, 비전 기능, 안전성, 그리고GPT-5·Gemini와 어떤 점에서 다른지까지 깊게 들어가 보겠습니다.모델 패밀리 – Opus, Sonnet, Haiku Claude 3 모델은 3가지 버전으로 제공됩니다:Claude 3 Opus가장 강력한 모델.복잡한 수학, 추론, 장문 분석, 코딩에서 최고 성능을 보여줍니다.GPQA, MMLU 같은 까다로운 벤치마크에서 SOTA(State-of-the-Art) 달성.Clau..

DeepSeek 알고 아는 척 좀 해보자 – 단편: 671B 파라미터의 괴물, DeepSeek-V3

“요즘 오픈소스 LLM 중에 핫한 게 뭐야?”바로 그 중 하나 DeepSeek-V3입니다.이 글 하나로 DeepSeek-V3의 핵심 설계와 특징을 한 번에 이해해 봅시다.모델 개요 DeepSeek-AI는 총 671B 파라미터를 가진 초대형 Mixture-of-Experts (MoE) 언어 모델 DeepSeek-V3를 공개했습니다.이 중 토큰당 활성화되는 파라미터는 37B로, 거대한 모델임에도 효율적인 추론과 비용 절감이 가능합니다.이 모델은 이전 세대 DeepSeek-V2에서 검증된 기술을 발전시켜:Multi-head Latent Attention (MLA) → 메모리·속도 최적화DeepSeekMoE 아키텍처 → 전문가 라우팅을 통한 계산 효율성 극대화Multi-Token Prediction (MTP)..

Gemini 알고 아는 척 좀 해보자 – 1편: Google의 최신 AI, Gemini 2.X 완전 정리

회의에서 누가 “Gemini 2.5 Pro 써봤어?” 하고 묻는데 대답 못 해봤다면?오늘 글 하나면 Gemini 2.X 시리즈를 깔끔히 정리하고,GPT-5와 비교해서 뭐가 다른지 자신 있게 말할 수 있습니다.Gemini 2.X, 뭐가 다르길래? Google DeepMind는 Gemini 2.5 Pro, Gemini 2.5 Flash, Gemini 2.0 Flash, Flash-Lite까지네 가지 모델로 구성된 최신 AI 제품군을 발표했습니다.공통점은 모두 네이티브 멀티모달, 긴 컨텍스트(1M 토큰), 에이전트 기능 지원입니다.즉, 텍스트·이미지·오디오·비디오·코드까지 한 번에 이해하고,복잡한 문제를 단계별로 풀어낼 수 있다는 뜻입니다.모델별 특징 – “Pro는 똑똑, Flash는 빠름”Gemini 2...

반응형