본문 바로가기

classification2

CLIP(Contrastive Language-Image Pre-Training) 논문 리뷰 introduce 이번에 소개할 CLIP 모델은 OpenAI가 개발한 인공지능 기술로, "Contrastive Language–Image Pre-training"의 약자입니다. 이 모델은 대량의 이미지와 텍스트 데이터를 함께 학습함으로써, 이미지를 설명하는 텍스트를 이해하고, 반대로 텍스트로부터 이미지 내용을 예측할 수 있는 있으며, 강력한 zero-shot 능력을 가지고 있습니다. Abstract 기존의 최신 기술(SOTA) 컴퓨터 비전 태스크들은 지정된 클래스 카테고리에서만 훈련이 가능했습니다. 이러한 방식은 각각의 비전 태스크마다 새로운 레이블 데이터를 추가해야 했기 때문에, 일반화와 유용성에 제한을 받았습니다. 이미지에 대한 텍스트를 직접 학습하는 것은 더 많은 훈련 자원 을 활용할 수 있게 하므.. 2024. 4. 11.

ml5 PoseNet KNN Classification 사용방법 PoseNet은 실시간 인간 포즈 추정을 허용하는 기계 학습 모델이다. 단일 포즈 또는 다중 포즈를 추정하는 데 사용할 수 있다. 즉, 이미지/비디오에서 한 사람만 감지할 수 있는 알고리즘 버전과 이미지/비디오에서 여러 사람을 감지할 수 있는 하나의 버전이 있다. KNN은 원래 데이터셋에서 새로운 데이터가 들어왔을 때 가장 가까운 k개를 찾아 분류를 하는 모델 이다. 두개의 모델을 이용해 만들어진 프레임워크인 ml5는 사람의 포즈를 구분하고 해당 데이터를 저장해서 classification을 할 수 있다. 준비물은 자신을 찍을 수 있는 캠코더만 준비하면 된다. 해당 주소로 접속한다. https://editor.p5js.org/ml5/sketches/KNNClassification_PoseNet p5.js.. 2022. 3. 17.

이전 1 다음

티스토리툴바