반응형 반응형 IMAGE TO TEXT1 반응형 CLIP(Contrastive Language-Image Pre-Training) 논문 리뷰 introduce 이번에 소개할 CLIP 모델은 OpenAI가 개발한 인공지능 기술로, "Contrastive Language–Image Pre-training"의 약자입니다. 이 모델은 대량의 이미지와 텍스트 데이터를 함께 학습함으로써, 이미지를 설명하는 텍스트를 이해하고, 반대로 텍스트로부터 이미지 내용을 예측할 수 있는 있으며, 강력한 zero-shot 능력을 가지고 있습니다. Abstract 기존의 최신 기술(SOTA) 컴퓨터 비전 태스크들은 지정된 클래스 카테고리에서만 훈련이 가능했습니다. 이러한 방식은 각각의 비전 태스크마다 새로운 레이블 데이터를 추가해야 했기 때문에, 일반화와 유용성에 제한을 받았습니다. 이미지에 대한 텍스트를 직접 학습하는 것은 더 많은 훈련 자원 을 활용할 수 있게 하므.. 2024. 4. 11. 이전 1 다음 반응형