ysk1m 님의 블로그

  • 홈
  • 태그
  • 방명록

2025/02/28 1

[Deep learning] Multi-Modal learning Part2

part 1에서는 image-text 관련 모델을 중점적으로 보았다면 이번 part에서는 video-text와 관련된 모델을 살펴보겠습니다.이번 글도 이준석 교수님 강의를 요약해 보았습니다.Video BERTVL-BERT와 비슷한 구조로 영상의 ASR(text) 데이터와 1.5초 간격으로 샘플링된 프레임을 입력으로 넣어줍니다.text가 아닌 뒷부분 데이터(영상)에 대해서 어떻게 학습할지 고민해야 됩니다.VL-Bert는 image를 object detection을 하여 하나하나 넣어줬습니다. 동영상의 경우 모든 프레임에 대해 object detection을 하기는 힘든데요. 그것을 해결하기 위해 Video tokenization을 합니다. 이는 프레임을 정확히 labeling 하는 것이 아닌 frame별로..

Machine learning & Deep learning 2025.02.28
이전
1
다음
더보기
프로필사진

ysk1m 님의 블로그

ysk1m 님의 블로그 입니다.

  • 분류 전체보기 (51)
    • Paper review (4)
    • Leet code test (1)
    • Machine learning & Deep lea.. (24)
    • Math (0)
    • 자료구조 및 알고리즘 (0)
    • Computing (18)
    • Diffusion (4)

Tag

Ridge regression, 인공지능, Linear Regression, Structured Prediction, k-Fold, 머신러닝, transformer, confounding effect, sql, NeurIPS, 딥러닝, 뉴립스, C++, contrastive learning, Generative Model, Multimodal, Overfitting, AI, 트랜스포머, Machine Learning,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/02   »
일 월 화 수 목 금 토
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바