전체 글
-
math.pow 버그나만의 메뉴얼/어려운 알고리즘 2025. 3. 23. 23:59
문제에서 answer가 너무 큰 상황일 때는 10**9 + 7의 모드값을 return하라고 했다. 그래서 나는 answer % (math.pow(10, 9) + 7)을 했는데, 이렇게 하니 답이 다르게 나왔다.return int(answer % (math.pow(10, 9) + 7)) 그 이유는 math.pow()는 float 타입을 반환해서 저 연산 값이 부정확한 부동소수점 연산이 되는 것이었다... 해결은 math.pow 대신에 10**9 + 7 을 쓰는 것이었다. MOD = 10**9 + 7return answer % MOD
-
MotionBERT: A Unified Perspective on Learning Human Motion Representations논문 정리/HCI, Generation 2025. 3. 20. 15:31
제스처를 어떻게 encode 할 수 있까... 제스처는 Sequence인데... 어떻게 encode할 수 있지??DSTFormer가 어떻게 구성되어 있지?Abstractmotion encoder로 3D motion에서 2D로 recover하는 모델geometric, kinematic, physical knowledge를 포함하는 human motion.motion encoder with Dual-stream Spatio-temporal Transformer(DSTformer)skeletal joints에서 long-range spatio-temporal relationship을 포착함.Introductionhuman motion representation을 학습pretraining에서는 2D skelet..
-
Dialogue State Tracking Transformer논문 정리/Dialogue 2025. 3. 20. 14:24
1. DST (Dialogue State Tracking)란?대화형 AI에서 사용자의 요구 사항을 이해하고, 대화의 흐름을 유지하는 역할.예를 들어, 레스토랑 예약 시스템에서 다음과 같은 대화가 있을 수 있다:사용자: "저녁 7시에 예약하고 싶어요."→ (업데이트된 대화 상태: location=서울, cuisine=이탈리안, time=19:00)사용자: "2명 자리 있어요?"→ (업데이트된 대화 상태: location=서울, cuisine=이탈리안, time=19:00, party_size=2)사용자: "서울에서 이탈리안 레스토랑을 찾고 있어요."→ (현재 대화 상태: location=서울, cuisine=이탈리안)DST 모델은 이런 식으로 대화가 진행될 때마다 사용자의 의도를 해석하고, 필요한 슬롯(s..
-
I see what you mean: Co-Speech Gestures for Reference Resolution in Multimodal Dialogue논문 정리/HCI, Generation 2025. 3. 20. 14:22
Abstractco-speech는 대화에 도움이 되지만, co-speech gesture은 연구가 많이 안됨.또한 robust gesture embedding을 학습하는 것이 어렵다.self-supervised pre-training 전략을 사용하여 gesture representation을 학습하자.multimodal gesture representation을 사용하거나 dialogue history를 사용하면 reference resolution accuracy를 향상할 수 있다.IntroductionObject를 언급하면서 말할 때 제스처많이 사용함.제스처는 언어 이해를 사용함.하지만 co-speech gestures는 아직 연구가 많이 되어 있지 않다.semantically related spee..
-
ALIKED: A Lighter Keypoint and Descriptor Extraction Network via Deformable Transformation논문 정리/Computer Vision 2025. 3. 19. 23:22
AbstractKeypoints와 descriptor를 뽑는 것기존의 문제는 geometric invariance를 제공하지 않는다는 점.이것은 Sparse Deformable descriptor Head를 이용한다. sparse 하기 때문에 efficient하다. Neural Reprojection Error(NRE) loss를 써서 dense한 것에서 sparse 하게 한다.IntroductionHand crafted method, Map-based methods(score map, descriptor map) 등이 있음.Map based는 geometric invariance가 부족함. 따라서 affine transformation은 되는데, geometric transformation은 못함.De..
-
HumanDiT: Pose-Guided Diffusion Transformer for Long-form Human Motion Video Generation논문 정리/Visual Generation 2025. 3. 18. 22:23
이 연구는 pose-guided DiT based framework인 HumanDiT를 소개한다. HumanDiT는1. 다양한 video resolution과 변화가능한 sequence length를 가질 수 있다.2. prefix-latent reference stratgy를 이용하여 personalized characteristics를 가질 수 있다.3. Pose adapter를 활용하여 pose transfer를 한다. IntroductionLimitation1. temporal consistency in long-sequence generation2. limited ability to generalize across varied scenarios3. fixed resolution input4. d..
-
MoMask: Generative Masked Modeling of 3D Human Motions카테고리 없음 2025. 3. 18. 11:05
https://arxiv.org/pdf/2312.00063 이 논문은 Contextual Gesture라는 논문을 읽다가 Contextual Gesture 논문에서 MoMask의 학습 방식과 추론 방식을 사용했다고 해서 읽게 되었다. 다 읽진 않고 Moonlight가 요약해주는 부분과 일부 내용을 정리했다. 이 논문에서는 MoMask라는 새로운 생성형 마스킹 모델링 프레임워크를 소개합니다. 이 프레임워크는 텍스트 기반의 3D 인간 동작 생성을 위해 설계되었습니다. MoMask는 계층적 양자화 방식(hierarchical quantization)을 사용하여 인간 동작을 다층의 이산 동작 토큰으로 표현하며, 이 과정에서 고유의 세부정보를 유지할 수 있습니다. 핵심 방법론잔여 벡터 양자화(RVQ):MoMask..
-
iMiGUE: An Identity-free Video Dataset for Micro-Gesture Understanding and Emotion Analysis논문 정리 2025. 3. 14. 13:52
1. 🎥 비디오 기반의 정서 분석을 위한 데이터셋 구축: iMiGUE는 신원 정보를 사용하지 않고 미세 제스처를 중심으로 구축된 새로운 데이터셋입니다. 2. 🔄 비지도 학습을 통한 미세 제스처 인식 방법론 제안: 제안된 모델은 입력 시퀀스의 재생성을 통해 미세 제스처의 표현을 학습하며, KL 발산을 통해 정보의 상관성을 최대화합니다. 3. 📊 종합적인 실험을 통한 감정 이해 능력 평가: 미세 제스처를 기반으로 한 감정 분석에서 모델의 성능을 평가하고, 미세 제스처가 감정 이해에 미치는 영향을 확인합니다. 이 논문은 감정 인공지능 연구를 위한 새로운 데이터 세트인 "iMiGUE"를 소개하고 있습니다. iMiGUE는 마이크로 제스처 이해 및 감정 분석을 위해 설계된 데이터 세트로, 기존의 공..