딥러닝 5

[Diffusion] Generative Models 1 (PixelRNN/CNN, VAE)

이번 글은 이준석 교수님의 Generative Models 1 강의를 참고하여 공부한 내용입니다. Generative Modeling어떤 데이터를 생성하는 probability distribution이 존재한다는 가정하에 이 probability distribution \(P_{model}\)을 예측하는 것입니다.어떤 new data \(x\)에 대해 우리가 예측한 \(P_{model}\)을 이용하여 새로운 \(P_{model}(x)\)을 생성하는 것입니다. Generate을 하는 방법은 2가지가 있습니다. 첫 번째는 Explicit density estimation으로 \(P_{model}\)을 수식적으로 예측하여 이용하는 것입니다. 두 번째는 Implicit density estimation으로  \..

Diffusion 2025.03.02

[Deep learning] Multi-Modal learning Part1

본 글은 이준석 교수님의 강의를 듣고 정리한 내용입니다.Multimodality원래 통계학에서 나오는 단어로 예를 들어 분포가 있을 때 분포 하나하나 mode가 있는데 여러 분포가 있으면 multimodal이라고 합니다.인공지능에서는 음성, 이미지, 비디오, 텍스트와 같은 다양한 형태의 데이터들이 multimodal이라고 할 수 있습니다.Examples of visual-text multimodal tasks- Text-based image/video retrieval(search)- Image/video Captioning- Visual Question and Answering- Spatial localization- Temporal localization Image CaptioningNCENce는 기..

[Deep learning] Transformer 자세히 공부한 것..

저번 글은 Tranformer의 원리에 대해 간단하게 알아봤다면 이번 글은 학습이 어떻게 이뤄지고 어떻게 응용될 수 있는지에 대해 자세하게 공부해 보겠습니다. Self-Attention 또는 Attention에 대해 잘 모르신다면 제 전 글을 읽어보시고 이 글을 읽는 것을 추천드려요!!ㅎㅎ https://ysk1m.tistory.com/6 [Deep learning] Transformer에 대한 기본 아이디어요즘 Transformer에 대해 공부하고 있어 여러 강의와 책을 듣고 기록해 놓은 내용입니다. 기본 아이디어부터 실제로 어떻게 학습하는지 수식적으로 이해해 보는 시간을 가지겠습니다. 저는 'Easy!ysk1m.tistory.comhttps://ysk1m.tistory.com/5 [Deep learn..

[Deep learning] Transformer에 대한 기본 아이디어

요즘 Transformer에 대해 공부하고 있어 여러 강의와 책을 듣고 기록해 놓은 내용입니다. 기본 아이디어부터 실제로 어떻게 학습하는지 수식적으로 이해해 보는 시간을 가지겠습니다. 저는 'Easy! 딥러닝' 책을 참고했고, 이준석 교수님 강의를 참고했습니다. https://product.kyobobook.co.kr/detail/S000214848175 Easy! 딥러닝 | 혁펜하임 - 교보문고Easy! 딥러닝 | 『Easy! 딥러닝』은 딥러닝을 처음 접하는 독자들을 위한 필수 가이드로, 인공지능의 기초 개념부터 CNN, RNN 등 딥러닝의 주요 주제를 폭넓게 다루고 있다. KAIST 박사이자 유튜버로 활product.kyobobook.co.krhttps://arxiv.org/abs/1706.03762..

[Deep learning] Attention Mechanism에 대하여

Attention Mechanism에 대해 알아보도록 하겠습니다. Attention Mechanism은 Context Vector를 어떻게 표현하고 그렇게 했을 때 개선된 점이 어떤 것인가?라는 의문을 가지고 접근하면 쉽게 이해할 수 있습니다. 기존 Seq2Seq 모델 구조는 인코더에서 하나의 동일한 Context Vector를 제공했고, 이는 정보가 뭉개지는(=마지막 토큰의 정보만 과도하게 담은) 문제를 불러왔습니다. 예를 들어, '나는' '인공지능을' '공부하는' '학생' '입니다.'라는 입력 토큰이 있을 때 Context Vector는 '입니다.'의 정보를 가장 크게 담고 나머지 토큰은 뭉개집니다. 이럴 경우 모델의 성능의 한계가 있을 수밖에 없습니다. 이러한 한계점을 Attention Mechan..