ML | DL/딥러닝은 무슨 일을 할 수 있을까?

딥러닝은 이런 Task도 한다! – 5편: 오디오 & 멀티모달, 이제 AI는 듣고 보고 말한다

Leeys 2025. 9. 17. 18:23
반응형

텍스트만 이해하는 AI는 이제 구세대입니다.
요즘 AI는 귀로 듣고, 눈으로 보고, 입으로 말합니다.
회의실에서 나오는 대화를 실시간으로 받아 적고,
블로그 글을 자연스러운 목소리로 읽어주고,
유튜브 영상을 몇 분 만에 요약해 주죠.
이번 편에서는 오디오와 멀티모달, 즉 사람처럼 감각을 통합해서 이해하는 AI의 세계를 깊이 들어가 보겠습니다.


 

회의록을 자동으로 만들어주는 STT (Speech-to-Text)

솔직히 말해 회의 끝나고 회의록 쓰는 건 누구에게나 귀찮은 일입니다.
저도 예전엔 1시간 회의 들으면서 중요한 부분만 받아적고,
끝나고 다시 녹음 들어보면서 정리하고… 그렇게 하루가 다 갔던 적도 많아요.

STT 모델을 붙여 보니까 완전히 달라졌습니다.
회의 중에 노트북 화면에 자막처럼 대화가 실시간으로 뜨고,
회의가 끝나자마자 회의록 초안이 이메일로 와있어요.
물론 100% 완벽하진 않아서, 전문 용어나 고유명사 정도는 사람이 수정해야 하지만
‘기록’이라는 단순 반복 작업에서 해방되는 건 정말 큰 차이입니다.

활용 예시:

  • 유튜브 자동 자막 생성
  • 고객센터 통화 스크립트 기록
  • 교육 강의 녹취 → 강의노트 자동 제작

글을 사람처럼 읽어주는 TTS (Text-to-Speech)

반대로 TTS는 글자를 소리로 바꿔 줍니다.
옛날에는 로봇 같은 기계음이었지만 요즘은 진짜 사람 목소리랑 거의 구분이 안 됩니다.
심지어 감정까지 넣어 읽어줄 수 있어요.
“밝고 명랑하게”, “차분하게”, “강조해서” 같은 스타일 조절도 가능합니다.

저는 블로그 글을 TTS로 변환해 팟캐스트처럼 들어보는데,
출퇴근길에 이어폰으로 제 글을 들으면서 수정할 부분을 체크할 수 있어서 아주 편합니다.
청각 중심으로 글을 다시 접하면 문장의 리듬도 더 잘 느껴지더라고요.

활용 예시:

  • 오디오북 자동 제작
  • 시각장애인용 정보 안내
  • 스마트 스피커 뉴스 브리핑

회의에서 누가 말했는지까지 구분하는 화자 분리 (Speaker Diarization)

회의 녹음 파일 들어보면, 누가 말했는지 구분 안 되고
“이게 팀장님 말씀이었나? 개발자 의견이었나?” 헷갈린 적 많으시죠?
Speaker Diarization 모델은 그걸 자동으로 구분해 줍니다.
결과물이 이렇게 나옵니다

 

[PM] 일정 다시 확인 부탁드립니다. 
[개발자] 네, 이번 주까지 반영할게요.
 
 

이렇게 정리되면 회의록을 읽는 사람 입장에서도
누가 어떤 발언을 했는지 한눈에 파악됩니다.
회의 참석 못한 사람에게 공유할 때도 훨씬 친절하죠.


소리만 듣고 무슨 소린지 맞히는 Audio Classification

AI가 소리만 듣고 “이건 개 짖는 소리”, “이건 유리 깨지는 소리” 라고 맞히는 기술입니다.
이거 산업 현장에서 정말 유용합니다.
기계가 내는 소리 패턴만 분석해도 고장을 미리 예측할 수 있고,
보안 시스템은 유리창 깨지는 소리만 듣고도 경보를 울릴 수 있거든요.

심지어 의료 쪽에서는 기침 소리만 듣고
폐 질환 가능성을 점검하는 연구도 진행되고 있습니다.
소리가 사실 꽤 많은 정보를 담고 있다는 걸 깨닫게 되죠.


텍스트 + 이미지 + 오디오까지 이해하는 멀티모달 모델

멀티모달 모델은 말 그대로 여러 감각을 동시에 처리합니다.
이미지 속 차트를 읽고 텍스트 설명까지 붙이고,
영상 속 대화를 텍스트로 변환하고 요약까지 해 줍니다.

최근에는 PDF 한 권을 통째로 넣어도
본문, 표, 이미지 설명까지 모두 이해하고
“이 문서의 핵심 내용을 정리해 줘” 하면 챕터별 요약까지 해줍니다.
심지어 유튜브 영상을 넣으면
“이 영상에서 5분 20초 부분에서 무슨 내용 나와?” 하고 물어볼 수도 있어요.

활용 예시:

  • 회의 영상 + 슬라이드 + 대화 → 한 번에 요약
  • 제품 사진 + 설명 → 자동 상품 페이지 생성
  • 비디오 + 음성 → 학습 자료 챕터 분할

오늘의 정리

오디오 & 멀티모달 Task는 단순히 “글”을 넘어
사람처럼 귀로 듣고, 눈으로 보고, 맥락을 종합하는 AI를 만듭니다.
이제 회의록 작성, 영상 편집, 오디오북 제작 같은
시간 많이 잡아먹던 작업들을 훨씬 빠르게 할 수 있고,
AI가 점점 사람의 협력자처럼 느껴집니다.


다음 편 예고

다음 6편은 3D·Geometry·Depth 편으로 넘어갑니다.
AI가 세상을 입체적으로 이해하는 기술,
3D 포즈 추정, 깊이 예측, SLAM, NeRF 등을 소개할 예정입니다.
공간을 이해하는 AI가 자율주행, 로보틱스, AR/VR을 어떻게 발전시키는지 이야기해 보겠습니다.

 

 

https://machineindeep.tistory.com/108

 

딥러닝은 이런 Task도 한다! – 6편: 3D · Geometry · Depth, AI가 공간을 이해할 때 생기는 마법

사람은 태어나자마자 3D 세상에서 살기 시작합니다.앞뒤 거리감, 물체의 크기, 움직임의 방향을 자연스럽게 인지하죠.그런데 AI 모델은 원래 2D 데이터(평면 이미지)만 보고 학습하던 시절이 있었

machineindeep.tistory.com

 

반응형