논문 정리
-
MotionBERT: A Unified Perspective on Learning Human Motion Representations논문 정리/HCI, Generation 2025. 3. 20. 15:31
제스처를 어떻게 encode 할 수 있까... 제스처는 Sequence인데... 어떻게 encode할 수 있지??DSTFormer가 어떻게 구성되어 있지?Abstractmotion encoder로 3D motion에서 2D로 recover하는 모델geometric, kinematic, physical knowledge를 포함하는 human motion.motion encoder with Dual-stream Spatio-temporal Transformer(DSTformer)skeletal joints에서 long-range spatio-temporal relationship을 포착함.Introductionhuman motion representation을 학습pretraining에서는 2D skelet..
-
Dialogue State Tracking Transformer논문 정리/Dialogue 2025. 3. 20. 14:24
1. DST (Dialogue State Tracking)란?대화형 AI에서 사용자의 요구 사항을 이해하고, 대화의 흐름을 유지하는 역할.예를 들어, 레스토랑 예약 시스템에서 다음과 같은 대화가 있을 수 있다:사용자: "저녁 7시에 예약하고 싶어요."→ (업데이트된 대화 상태: location=서울, cuisine=이탈리안, time=19:00)사용자: "2명 자리 있어요?"→ (업데이트된 대화 상태: location=서울, cuisine=이탈리안, time=19:00, party_size=2)사용자: "서울에서 이탈리안 레스토랑을 찾고 있어요."→ (현재 대화 상태: location=서울, cuisine=이탈리안)DST 모델은 이런 식으로 대화가 진행될 때마다 사용자의 의도를 해석하고, 필요한 슬롯(s..
-
I see what you mean: Co-Speech Gestures for Reference Resolution in Multimodal Dialogue논문 정리/HCI, Generation 2025. 3. 20. 14:22
Abstractco-speech는 대화에 도움이 되지만, co-speech gesture은 연구가 많이 안됨.또한 robust gesture embedding을 학습하는 것이 어렵다.self-supervised pre-training 전략을 사용하여 gesture representation을 학습하자.multimodal gesture representation을 사용하거나 dialogue history를 사용하면 reference resolution accuracy를 향상할 수 있다.IntroductionObject를 언급하면서 말할 때 제스처많이 사용함.제스처는 언어 이해를 사용함.하지만 co-speech gestures는 아직 연구가 많이 되어 있지 않다.semantically related spee..
-
ALIKED: A Lighter Keypoint and Descriptor Extraction Network via Deformable Transformation논문 정리/Computer Vision 2025. 3. 19. 23:22
AbstractKeypoints와 descriptor를 뽑는 것기존의 문제는 geometric invariance를 제공하지 않는다는 점.이것은 Sparse Deformable descriptor Head를 이용한다. sparse 하기 때문에 efficient하다. Neural Reprojection Error(NRE) loss를 써서 dense한 것에서 sparse 하게 한다.IntroductionHand crafted method, Map-based methods(score map, descriptor map) 등이 있음.Map based는 geometric invariance가 부족함. 따라서 affine transformation은 되는데, geometric transformation은 못함.De..
-
HumanDiT: Pose-Guided Diffusion Transformer for Long-form Human Motion Video Generation논문 정리/Visual Generation 2025. 3. 18. 22:23
이 연구는 pose-guided DiT based framework인 HumanDiT를 소개한다. HumanDiT는1. 다양한 video resolution과 변화가능한 sequence length를 가질 수 있다.2. prefix-latent reference stratgy를 이용하여 personalized characteristics를 가질 수 있다.3. Pose adapter를 활용하여 pose transfer를 한다. IntroductionLimitation1. temporal consistency in long-sequence generation2. limited ability to generalize across varied scenarios3. fixed resolution input4. d..
-
iMiGUE: An Identity-free Video Dataset for Micro-Gesture Understanding and Emotion Analysis논문 정리 2025. 3. 14. 13:52
1. 🎥 비디오 기반의 정서 분석을 위한 데이터셋 구축: iMiGUE는 신원 정보를 사용하지 않고 미세 제스처를 중심으로 구축된 새로운 데이터셋입니다. 2. 🔄 비지도 학습을 통한 미세 제스처 인식 방법론 제안: 제안된 모델은 입력 시퀀스의 재생성을 통해 미세 제스처의 표현을 학습하며, KL 발산을 통해 정보의 상관성을 최대화합니다. 3. 📊 종합적인 실험을 통한 감정 이해 능력 평가: 미세 제스처를 기반으로 한 감정 분석에서 모델의 성능을 평가하고, 미세 제스처가 감정 이해에 미치는 영향을 확인합니다. 이 논문은 감정 인공지능 연구를 위한 새로운 데이터 세트인 "iMiGUE"를 소개하고 있습니다. iMiGUE는 마이크로 제스처 이해 및 감정 분석을 위해 설계된 데이터 세트로, 기존의 공..
-
FlexAttention논문 정리/Fundamental 2025. 3. 12. 22:50
https://pytorch.org/blog/flexattention/ FlexAttention: The Flexibility of PyTorch with the Performance of FlashAttention pytorch.orgFlashAttention을 어떤 모델에 적용하는 issue를 해결하다가 FlexAttention을 발견하게 됐다.이것을 발견하게 된 것은 다음과 같다.issue를 해결하다보니 FlashAttention을 적용한 모델과 적용하지 않은 모델의 결과가 다르게 나왔다. 이유는 다양할 수 있다. 이유를 파고들다보니 FlashAttention에서 attention mask가 적용되지 않는다는 것을 알게 되었다. 아래 링크에서 확인할 수 있다.https://github.com/Dao..
-
OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models논문 정리/Visual Generation 2025. 3. 11. 17:37
Omnihuman은 Diffusion Transformer를 기반으로 여러 가지 동작 정보를 혼합하여 훈련하는 방법을 도입한다.또한 various portrait contents (face close-up, portrait, half-body, full-body)을 지원한다. 핵심 방법론은 다음과 같다.1. Omni-Conditions TrainingOmniHuman의 가장 중요한 특징 중 하나는 다양한 조건(오디오, 텍스트, 포즈 등)을 혼합하여 훈련하는 것. 이는 데이터 크기를 확장하고 다양한 동작 패턴을 학습하는 데 도움이 됨.원칙 1: 더욱 강력한 조건을 가진 태스크는 약한 조건의 태스크와 해당 데이터를 활용하여 데이터의 크기를 증가시킬 수 있음. 예를 들어, 오디오 및 포즈 조건이 없고 텍스트만..