Welcome to my Explorations

AudioToken:Text-to-Image Generation 모델을 사용한 Audio-to-Image Generation

Sep 16, 2023

AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation Overview Pre-trained text-to-image generation model (Stable Diffusion) Pre-trained audio-encoder (BEATs) MLP + Attentive Pooling 학습시킴 (by conditional diffusion loss + classification loss) Contribution Pre-trained text-conditioned generative model을 이용해서 audio-based conditioning 구현 이를 위한 새로운 evaluation framework 제시 Audio-Image Similarity, Image-Image Similarity,...

Slot Attention을 사용한 Object-Centric Learning

Sep 06, 2023

Object-Centric Learning with Slot Attention Abstract 대부분의 deep learning 접근법은 natural scenes의 compositional properties를 파악하지 못하는 distributed representations를 학습한다. 본 논문에서는 Slot Attention module을 소개하는데, 이 모듈은 perceptual representations (e.g. CNN의 output)과 “slot“이라는 task-dependent abstract representations 사이의 인터페이스 역할을 한다. Slot은 iterative attention을 통해 입력의 어떠한 object에도 binding할 수 있다....

Diffusion Model의 Conditional Image Generation 또는 Image Editing을 위한 Guidance

Sep 04, 2023

Preliminaries Denoising Diffusion Implicit Model DDIM은 기존의 DDPM의 forward process에서 Markovian 방법론을 택한 대신에 그 직전의 이전의 샘플링도 evidence로 고려하는 non-Markovian 방법론을 택했다. 이를 바탕으로 denoising의 매 timestep 마다 샘플링하는 식을 다음과 같이 정리할 수 있는데, 이 식은 해당 timestep에서 예측한 $x_0$에 대한 항, $x_t$를 가리키는 방향, 그리고 random noise...

Transformer의 Self-Attention에 관한 소개와 Seq2Seq with Attention 모델과의 비교

Sep 01, 2023

Transformer를 이해하려면 Seq2Seq with Attention 모델이 나오게 된 배경과 그 방법을 이해하는 것이 필요하다. 특히 transformer의 self-attention에 관해 한줄로 요약하면, Seq2Seq with Attention에서 decoder의 hidden state와 encoder의 hidden state를 구하는 과정에서 LSTM을 빼 버리고 이를 병렬적으로 처리하는 대신에 hidden state의 attention을 구하는 데 필요한 hidden state를 역할에 따라서 서로 다른...

Attention 기법을 사용한 Seq2Seq with Attention

Aug 28, 2023

RNN 계열 모델인 LSTM을 여러개 이어서 encoder와 deocder로 만든 Seq2Seq에 관해 먼저 알아보고, 매 time step이 지날수록 이 Seq2Seq의 hidden state에 점차 많은 정보를 욱여넣게 되는 단점을 극복한 Seq2Seq with Attention에 관해 알아보고자 한다. 간단히 말하면 Seq2Seq with Attention은 decoder의 hidden state로 해당 time step에서의 결과를 내보낼 때, encoder의 어떠한...

새 사이트에서의 새 출발

Aug 26, 2023

새 사이트에서 새 출발합니다. 기존의 Tistory 블로그 운영을 중단하고 Github Page 기반의 사이트에서 새 출발하고자 합니다. 이전 글과 함께 앞으로 모든 글은 이 사이트에 작성되어 공개될 예정이며, Blog에서는 정해진 형식 없이 다양한 주제의 글을 게시하려고 합니다. 한국어 외에 영어로 작성된 글도 올릴 계획인데, 이는 추후에 언어 설정을 따로 구현하여 추가하겠습니다....