멀티모달 / 툴 확장
음성 모델
ASR·음성 이해 모델(Whisper·Qwen-Audio·SALMONN 계열)을 파인튜닝합니다. 한국어 특화 STT·음성 명령 인식·화자 구분에 최적화.
활성 잡
0
완료 어댑터
0
전체 잡
0
학습 잡 생성
VOICE 특화 설정
데이터셋 업로드
멀티모달 JSONL (messages + images 필드)
JSONL 파일을 드래그하거나 클릭해서 선택
멀티모달 SFT: {"messages": [...], "images": ["img.jpg"]}
음성 모델 런북
구성 가이드
ASR/음성 모델 학습·배포·스트리밍 체크리스트
풀스펙 구현 범위
ABCD 공통 — 외부 엔진은 프로브·어댑터로 묶습니다
- 학습: Whisper fine-tuning (HuggingFace Trainer) 또는 LlamaFactory 음성 지원
- 데이터: audio+transcript JSONL, 샘플링 레이트 16kHz 표준화
- 배포: Whisper.cpp (로컬 경량) 또는 OpenAI Whisper API 호환 서버
- 실시간: WebSocket 스트리밍은 별도 프로세스 — Router에서 audio task_type 분기
환경 변수 (예시)
.env.factory.example 참고
- LEAF_WHISPER_URL — Whisper 서버 엔드포인트 (선택)
- LEAF_VLLM_OPENAI_BASE — 음성 지원 vLLM (선택)
오픈소스 참고 (다운로드·설치는 각 레포)
- OpenAI Whisper — ASR 원조
- Qwen-Audio — 음성+텍스트 통합
- SALMONN — 멀티태스크 음성
- whisper.cpp — 로컬 경량 서빙
로컬 콘솔 링크
체크리스트 (운영 전)
- 오디오 샘플링 레이트 16kHz 표준화 확인
- PII 음성 데이터 Redactor 규칙 적용 (화자 동의 확인)
- 실시간 스트리밍 필요 시 별도 WebSocket 서비스 구성
- Whisper large-v3 기준 RTFx > 1 달성 여부 테스트