VLM 이란?
VLM (Vision-Language Model) 은 컴퓨터 비전(이미지 이해)과 자연어 처리(텍스트 이해)를 결합하여 이미지와 텍스트를 동시에 처리하고 이해할 수 있는 모델VLM은 이미지와 텍스트 간의 상호작용을 학습하기 위해 설계되었으며, 이미지 캡셔닝, 시각적 질문 답변, 이미지-텍스트 검색 등과 같은 멀티모달 작업에서 주로 사용,대표적인 VLM으로는 CLIP, DALL-E, Flamingo, BLIP, ViLT 등이 있으며, 이들은 이미지와 텍스트 데이터로 사전 학습되어 서로 다른 모달리티 간의 관계를 학습하고 이해하는 능력을 갖춤장점:멀티모달 이해: 이미지와 텍스트의 상관관계를 학습하여 복합적인 입력을 이해하고 응답다양한 애플리케이션: 이미지 캡셔닝, 비주얼 검색, 콘텐츠 생성 등 다양한 응용 ..
더보기