본 글은 이준석 교수님의 강의를 듣고 정리한 내용입니다.Multimodality원래 통계학에서 나오는 단어로 예를 들어 분포가 있을 때 분포 하나하나 mode가 있는데 여러 분포가 있으면 multimodal이라고 합니다.인공지능에서는 음성, 이미지, 비디오, 텍스트와 같은 다양한 형태의 데이터들이 multimodal이라고 할 수 있습니다.Examples of visual-text multimodal tasks- Text-based image/video retrieval(search)- Image/video Captioning- Visual Question and Answering- Spatial localization- Temporal localization Image CaptioningNCENce는 기..