텍스트만 이해하는 AI는 이제 구세대입니다.요즘 AI는 귀로 듣고, 눈으로 보고, 입으로 말합니다.회의실에서 나오는 대화를 실시간으로 받아 적고,블로그 글을 자연스러운 목소리로 읽어주고,유튜브 영상을 몇 분 만에 요약해 주죠.이번 편에서는 오디오와 멀티모달, 즉 사람처럼 감각을 통합해서 이해하는 AI의 세계를 깊이 들어가 보겠습니다. 회의록을 자동으로 만들어주는 STT (Speech-to-Text)솔직히 말해 회의 끝나고 회의록 쓰는 건 누구에게나 귀찮은 일입니다.저도 예전엔 1시간 회의 들으면서 중요한 부분만 받아적고,끝나고 다시 녹음 들어보면서 정리하고… 그렇게 하루가 다 갔던 적도 많아요.STT 모델을 붙여 보니까 완전히 달라졌습니다.회의 중에 노트북 화면에 자막처럼 대화가 실시간으로 뜨고,회의가 ..