ysk1m 님의 블로그

  • 홈
  • 태그
  • 방명록

vision-and-language tasks 1

[NeurIPS 2019] ViLBERT Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

Motivation기존에는 Vision modal과 language modal을 같이 한 번에 학습하는 single stream 구조가 많았습니다.이 경우 각 modal뿐 아니라 두 modal에 대한 관계도 잘 학습하기 어려웠고 visual grounding이 필요한 task에 대해서 성능이 좋지 않았습니다. 그래서 이 paper에서는 각각의 modal를 잘 학습하고 두 modal의 관계 또한 잘 학습하여 visual grounding이 필요한 task를 잘하는 모델을 만드는 것이 목표입니다. 또한 이러한 visual grounding이 pretrain이 가능하고 transfer learning도 가능하다는 점을 보여줍니다.Approach첫 번째로 보면 visual stream과 language stre..

Paper review 2025.03.24
이전
1
다음
더보기
프로필사진

ysk1m 님의 블로그

ysk1m 님의 블로그 입니다.

  • 분류 전체보기 (51)
    • Paper review (4)
    • Leet code test (1)
    • Machine learning & Deep lea.. (24)
    • Math (0)
    • 자료구조 및 알고리즘 (0)
    • Computing (18)
    • Diffusion (4)

Tag

sql, 딥러닝, Linear Regression, Overfitting, 머신러닝, Generative Model, 뉴립스, Ridge regression, Structured Prediction, AI, transformer, C++, contrastive learning, k-Fold, 인공지능, Machine Learning, Multimodal, confounding effect, NeurIPS, 트랜스포머,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/06   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바