ML | DL/딥러닝은 무슨 일을 할 수 있을까?

딥러닝은 이런 Task도 한다! – 2편: 비디오 & Tracking

Leeys 2025. 9. 17. 17:22
반응형

사진은 한 순간을 담지만, 비디오는 이야기를 담습니다.
한 장면 한 장면이 이어져 시간이라는 흐름을 만들고, 그 안에서 무수한 이벤트가 벌어지죠.
그래서 비디오를 이해한다는 건 단순히 “이미지를 여러 장 본다” 이상의 일입니다.
AI가 이 시간의 흐름을 이해하기 시작하면서, 자율주행부터 CCTV 보안, 스포츠 분석, 심지어 유튜브 챕터 생성까지
완전히 새로운 세상이 열렸습니다.
오늘은 이 “움직임을 이해하는 AI”가 어떤 일을 하는지, 조금 천천히 깊이 들어가 보겠습니다.

 Action Recognition – “이 사람, 지금 뭐 하고 있지?”

가장 기초적인 작업은 영상 속 사람이나 사물이 무슨 행동을 하고 있는지 분류하는 겁니다.
예를 들어 사람이 걷고 있는지, 뛰는지, 앉아 있는지, 박수를 치는지… 이런 것들이죠.

사실 이건 생각보다 만만한 문제가 아닙니다.
한 프레임만 보고는 판단이 잘 안 되는 경우가 많거든요.
예를 들어 누군가 점프하려고 무릎을 굽힌 순간만 딱 잘라 보면 앉은 건지 점프하려는 건지 알기 어렵습니다.
그래서 딥러닝 모델은 프레임의 흐름까지 함께 보고,
시간적으로 어떤 패턴이 있는지를 학습합니다.

☕️ 제가 예전에 한 프로젝트에서는 농구 경기 영상을 학습시켜서
“슛 순간”을 자동으로 찾아내는 모델을 만들었는데,
슛하기 직전에 팔이 올라가는 그 짧은 움직임을 모델이 잡아내는 걸 보고 감탄했던 기억이 있습니다.


Temporal Action Detection – “언제 시작하고 끝났을까?”

행동을 아는 것도 중요하지만, 그게 언제 일어났는지 아는 건 또 다른 문제입니다.
보안 카메라 영상을 24시간 통째로 돌려보면서 “여기서 사람 쓰러졌습니다”라고 찾는 건 너무 비효율적이죠.

Temporal Detection 모델은 영상 전체에서
“이때부터 쓰러짐 시작, 여기서 끝”이라고 구간을 잘라 줍니다.
덕분에 수 시간짜리 영상을 단 몇 초만 확인해도 됩니다.

🛡 예시: 실제 보안 시스템에서

  • 이상 행동 구간만 자동으로 클립 생성
  • 작업자 안전 모니터링: 추락·충돌 시점 자동 알람

Video Object Tracking – “이 사람은 프레임 넘어가도 계속 따라가야지”

Tracking은 진짜 비디오 AI의 꽃입니다.
여기서는 단순히 "사람 있음"이 아니라, 같은 사람임을 계속 알아보는 게 중요합니다.

카메라 각도가 바뀌거나, 사람이 잠깐 가려졌다가 다시 나타나도
ID가 유지돼야 합니다.
이게 안 되면 사람 1명이 영상에 3명으로 잡히는 황당한 일이 생기죠.

🚗 활용:

  • 자율주행: 앞차와 보행자를 구분해 충돌 방지
  • 쇼핑몰 CCTV: 고객 동선 파악
  • 드론: 특정 인물만 계속 추적

Multi-Object Tracking (MOT) – “열 명도 헷갈리지 마!”

Tracking 대상이 여러 개로 늘어나면 난이도가 폭발적으로 올라갑니다.
사람들이 서로 교차하고, 가려지고, 옷도 비슷하게 입고 있으면
모델이 헷갈리기 쉽습니다.
그래서 요즘은 DeepSORT, ByteTrack 같은 강력한 MOT 알고리즘이 등장해서
이 문제를 꽤 잘 해결합니다.


Video Denoising & Deblurring – 한 장이 아니라 연속으로 깨끗해야 해

사진 한 장만 깨끗해도 되는 Denoising보다
영상 노이즈 제거는 훨씬 까다롭습니다.
앞뒤 프레임이 연결돼야 자연스럽기 때문에
한 프레임만 보고 노이즈를 지우면 깜빡이는 것처럼 보이거든요.

딥러닝 모델은 여러 프레임을 동시에 보고
“이 픽셀이 노이즈인지 아닌지”를 더 확실히 구분합니다.
결과는 훨씬 안정적이고, 장면 전환에도 자연스럽습니다.


Video Prediction & Summarization – “앞으로 무슨 일이 일어날까?”

AI는 이제 비디오를 단순히 보는 걸 넘어서
다음에 무슨 일이 일어날지 예측하기도 합니다.
예를 들어 도로 상황을 보고 사고 가능성을 미리 알려주거나,
스포츠 경기에서 이 공격이 득점으로 이어질 확률을 계산할 수도 있죠.

그리고 Summarization은 긴 영상을 짧게 요약해 줍니다.
두 시간짜리 회의 영상을 5분짜리 하이라이트로 만들어 주는 식입니다.
유튜브 자동 챕터 생성도 여기에 가까운 기술입니다.


오늘의 정리

비디오 이해는 시간의 흐름을 이해하는 AI라고 생각하면 됩니다.
딥러닝이 프레임을 하나씩 보던 시절을 지나,
이제는 시간축 전체를 보고 “누가 언제 뭘 했는지”를 알려주는 단계까지 왔습니다.

자율주행, 보안, 산업 안전, 스포츠 분석, 영상 편집 자동화 등
AI가 활약할 무대는 점점 더 넓어지고 있습니다.
앞으로는 영상 속 사건을 실시간으로 인지하고
즉시 대응하는 시스템이 점점 더 많아질 겁니다.

 

다음 편은 사람 중심 Task 입니다!

 

https://machineindeep.tistory.com/105

 

딥러닝은 이런 Task도 한다! – 3편: 사람 중심 Task

카메라가 사람 얼굴을 인식하는 건 이제 너무 당연한 세상이 되었죠.하지만 요즘 AI는 단순히 “사람이 있다/없다” 수준에서 멈추지 않습니다.사람이 지금 어떤 동작을 하고 있는지, 어떤 감정

machineindeep.tistory.com

 

반응형