논문 정리/Visual Generation
-
HumanDiT: Pose-Guided Diffusion Transformer for Long-form Human Motion Video Generation논문 정리/Visual Generation 2025. 3. 18. 22:23
이 연구는 pose-guided DiT based framework인 HumanDiT를 소개한다. HumanDiT는1. 다양한 video resolution과 변화가능한 sequence length를 가질 수 있다.2. prefix-latent reference stratgy를 이용하여 personalized characteristics를 가질 수 있다.3. Pose adapter를 활용하여 pose transfer를 한다. IntroductionLimitation1. temporal consistency in long-sequence generation2. limited ability to generalize across varied scenarios3. fixed resolution input4. d..
-
OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models논문 정리/Visual Generation 2025. 3. 11. 17:37
Omnihuman은 Diffusion Transformer를 기반으로 여러 가지 동작 정보를 혼합하여 훈련하는 방법을 도입한다.또한 various portrait contents (face close-up, portrait, half-body, full-body)을 지원한다. 핵심 방법론은 다음과 같다.1. Omni-Conditions TrainingOmniHuman의 가장 중요한 특징 중 하나는 다양한 조건(오디오, 텍스트, 포즈 등)을 혼합하여 훈련하는 것. 이는 데이터 크기를 확장하고 다양한 동작 패턴을 학습하는 데 도움이 됨.원칙 1: 더욱 강력한 조건을 가진 태스크는 약한 조건의 태스크와 해당 데이터를 활용하여 데이터의 크기를 증가시킬 수 있음. 예를 들어, 오디오 및 포즈 조건이 없고 텍스트만..
-
CyberHost: A One-stage Diffusion Framework for Audio-driven Talking Body Generation논문 정리/Visual Generation 2025. 3. 11. 14:55
Gesture까지 하는 Talking head generation 모델이다. 핵심 방법론은 다음과 같다.1. Region Codebook attenion- 사람의 손과 얼굴 관련 코드북을 이용하여 생성의 품질을 높임.2. 여러가지 학습 전략- Body Movement Map: 이는 사람의 몸의 이동 범위를 제어하는 데 사용되며, 주요 관절 (흉부 등)의 움직임을 가이드합니다.- Hand Clarity Score: 손의 이미지가 모호해질 가능성을 줄이며 손의 구조적 세부 사항을 보존합니다.- Pose-aligned Reference Feature: 이 기능은 입력 이미지의 골격 구조에 따라 변환된 특징을 활용하여 시각적 일관성을 유지하도록 돕습니다.- Local Enhancement Supervision:..