메뉴얼
멀티모달 / 툴 확장

음성 모델

ASR·음성 이해 모델(Whisper·Qwen-Audio·SALMONN 계열)을 파인튜닝합니다. 한국어 특화 STT·음성 명령 인식·화자 구분에 최적화.

활성 잡
0
완료 어댑터
0
전체 잡
0

학습 잡 생성

VOICE 특화 설정

+ 새 데이터셋 생성

등록된 데이터셋이 없습니다.

데이터셋 빌더로 생성 →
잡 큐 전체 보기

데이터셋 업로드

멀티모달 JSONL (messages + images 필드)

VOICE

JSONL 파일을 드래그하거나 클릭해서 선택

멀티모달 SFT: {"messages": [...], "images": ["img.jpg"]}

음성 모델 런북

구성 가이드

ASR/음성 모델 학습·배포·스트리밍 체크리스트

풀스펙 구현 범위

ABCD 공통 — 외부 엔진은 프로브·어댑터로 묶습니다

  • 학습: Whisper fine-tuning (HuggingFace Trainer) 또는 LlamaFactory 음성 지원
  • 데이터: audio+transcript JSONL, 샘플링 레이트 16kHz 표준화
  • 배포: Whisper.cpp (로컬 경량) 또는 OpenAI Whisper API 호환 서버
  • 실시간: WebSocket 스트리밍은 별도 프로세스 — Router에서 audio task_type 분기

환경 변수 (예시)

.env.factory.example 참고

  • LEAF_WHISPER_URLWhisper 서버 엔드포인트 (선택)
  • LEAF_VLLM_OPENAI_BASE음성 지원 vLLM (선택)

오픈소스 참고 (다운로드·설치는 각 레포)

로컬 콘솔 링크

체크리스트 (운영 전)

  1. 오디오 샘플링 레이트 16kHz 표준화 확인
  2. PII 음성 데이터 Redactor 규칙 적용 (화자 동의 확인)
  3. 실시간 스트리밍 필요 시 별도 WebSocket 서비스 구성
  4. Whisper large-v3 기준 RTFx > 1 달성 여부 테스트