ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs
    논문 정리/Audio Generation 2025. 3. 7. 23:52

    이 논문에서는 FunAudioLLM이라는 인공지능 모델 가족을 소개하고 있습니다. 이 모델은 사람과 대규모 언어 모델(LLM) 간의 자연 음성 상호작용을 개선하기 위해 설계되었습니다. FunAudioLLM의 핵심 모델은 SenseVoice와 CosyVoice로, 각각의 기능과 성능을 상세히 설명하고 있습니다.

    주요 내용

    1. SenseVoice
    SenseVoice는 음성 인식, 감정 인식 및 오디오 이벤트 감지를 다루는 음성 이해 모델입니다. SenseVoice는 두 가지 버전이 있습니다:
    - SenseVoice-Small: 80ms 이하의 저지연으로 다국어 음성 인식을 지원하며, 중국어, 영어, 광둥어, 일본어, 한국어를 포함한 5개 언어에서 뛰어난 성능을 발휘합니다. 비자기회 귀환 방식의 비자기회 인코더만을 사용하는 구조로, Whisper-small보다 5배 이상, Whisper-large보다 15배 이상 빠른 속도를 자랑합니다.
    - SenseVoice-Large: 50개 이상의 언어를 지원하며, 특히 중국어와 광둥어에 강력한 인식을 보여줍니다. 이 모델은 고정밀 음성 인식, 감정 인식, 오디오 이벤트 감지 및 역 텍스트 정규화와 같은 복잡한 작업을 수행합니다.

    2. CosyVoice
    CosyVoice는 자연스러운 음성을 생성하는 모델로, 감정이 담긴 음성 생성, 특정 화자의 목소리를 반영한 음성 생성, 제로샷 방식의 음성 생성 및 교육된 명령어 따라하기 등의 기능을 포함합니다. CosyVoice는 세 가지 모델로 구성되어 있습니다:
    - CosyVoice-base-300M: 화자의 정체성을 정확히 표현하고 제로샷학습을 지원합니다.
    - CosyVoice-instruct-300M: 감정적으로 표현력이 풍부한 음성 생성이 가능하며, 명령어를 통해 세밀한 조정이 가능합니다.
    - CosyVoice-sft-300M: 7개 다국적 화자를 대상으로 추가 미세 조정이 이루어진 모델입니다.

     

    3. 보조 시스템: S3 토크나이저
    Speech Tokenizer는 음성 신호를 분리된 토큰으로 변환하여 생성 모델의 입력 데이터로 활용합니다. S3는 높은 성능을 자랑하며, 감정을 포함한 세부적 의미를 보존합니다. 특히, S3는 지도학습에 기반하고 있어 데이터 노이즈에 견고하며, 언어 모델에서 요구되는 텍스트와의 강한 의미적 연관성을 유지합니다.

    4. 실험 결과
    - 다국어 음성 인식: 실험에서 SenseVoice는 다양한 언어에 대해 매우 낮은 오류율을 기록했습니다. Whisper와의 비교 분석에서 SenseVoice-Small 및 SenseVoice-Large는 다국어 음성 인식 기준에서 우수한 성능을 보여주었습니다.
    - 감정 인식: SenseVoice는 7개의 인기있는 감정 인식 데이터셋에서 좋은 성능을 보였으며, 감정 인식 능력을 평가한 결과 매우 긍정적인 결과를 나타냈습니다.
    - 오디오 이벤트 감지: SenseVoice는 다양한 오디오 이벤트를 정확하게 감지할 수 있는 능력을 가지고 있으며, 특히 만들어진 모델들은 소리의 시작과 끝을 예측하는 역할에서도 성과를 보였습니다.

    5. 응용 프로그램
    FunAudioLLM은 다음과 같은 다양한 어플리케이션을 가능하게 합니다:
    - 음성 대 음성 번역
    - 감정 기반 음성 채팅
    - 인터랙티브 포드캐스트
    - 감정이 담긴 오디오북 내레이션

    이 모든 기능들은 사용자와 LLM 간의 자연스러운 소통을 도와주며, 다양한 상황에서 단순 음성 대화를 넘어서 감정적이고 의미 있는 상호작용을 창출하는 데 기여합니다.

     

    아래 내용은 Method 부분입니다.

    먼저 SenceVoice
    1. Automatic Speech Recognition (ASR)
    2. Language Identification (LID)
    3. Speech Emotion Recognition (SER)
    4. Audio Event Detection (AED).
    SenseVoice-Small
    Task를 Specify 하는 embedding
    1. <LID>
    2. <SER>
    3. <AER>
    4. <ITN>, <NoITN> : transcription style(이해 잘 못함..)
    SenseVoice-Large
    Semantic Speech Tokenizer
    기존 tokenizer는 unsupervied여서 불안정하고, 데이터 노이즈에 민감.
    S3는 supervised 방식임.
    codebook 이용.
    Sensevoice의 Training 방법
    1. Teacher forcing
    2. ( P(S|X, v, S_{ref}) )
    3. Convolutional Transformer U-Net
    4. CFG
    5. HiFTNet 기반
    zeroshot incontext- learning에 대하여

    - 음성의 내용에 해당하는 프롬프트 텍스트는 사람이 주석을 달거나 ASR 모델(SenseVoice)을 통해 필기될 수 있습니다.
    - 프롬프트 토큰은 S3 토크나이저를 통해 추출됩니다.
    - 예측한 음성 토큰을 프롬프트 토큰에 추가하여, 플로우 매칭 모델을 위한 복합 조건을 형성합니다. 
    - 또한, 프롬프트 음성의 멜 스펙트로그램과 화자 임베딩도 통합되어 음색 및 환경적 일관성을 높입니다.
    Instruction Fine-tuning에서는 speaker identity, speaking style, paralinguistics를 instruction으로 줄 수 있음.
       
Designed by Tistory.