'Multimodal' 태그의 글 목록

Multimodal 2

[NeurIPS 2019] ViLBERT Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

Motivation기존에는 Vision modal과 language modal을 같이 한 번에 학습하는 single stream 구조가 많았습니다.이 경우 각 modal뿐 아니라 두 modal에 대한 관계도 잘 학습하기 어려웠고 visual grounding이 필요한 task에 대해서 성능이 좋지 않았습니다. 그래서 이 paper에서는 각각의 modal를 잘 학습하고 두 modal의 관계 또한 잘 학습하여 visual grounding이 필요한 task를 잘하는 모델을 만드는 것이 목표입니다. 또한 이러한 visual grounding이 pretrain이 가능하고 transfer learning도 가능하다는 점을 보여줍니다.Approach첫 번째로 보면 visual stream과 language stre..

Paper review 2025.03.24

[Deep learning] Multi-Modal learning Part1

본 글은 이준석 교수님의 강의를 듣고 정리한 내용입니다.Multimodality원래 통계학에서 나오는 단어로 예를 들어 분포가 있을 때 분포 하나하나 mode가 있는데 여러 분포가 있으면 multimodal이라고 합니다.인공지능에서는 음성, 이미지, 비디오, 텍스트와 같은 다양한 형태의 데이터들이 multimodal이라고 할 수 있습니다.Examples of visual-text multimodal tasks- Text-based image/video retrieval(search)- Image/video Captioning- Visual Question and Answering- Spatial localization- Temporal localization Image CaptioningNCENce는 기..

Machine learning & Deep learning 2025.02.27

ysk1m 님의 블로그

ysk1m 님의 블로그 입니다.

딥러닝, contrastive learning, 뉴립스, sql, Ridge regression, Generative Model, 트랜스포머, k-Fold, transformer, Linear Regression, 인공지능, confounding effect, Structured Prediction, C++, Machine Learning, 머신러닝, Multimodal, NeurIPS, AI, Overfitting,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Multimodal 2

티스토리툴바