멀티모달 / 툴 확장

음성 모델

ASR·음성 이해 모델(Whisper·Qwen-Audio·SALMONN 계열)을 파인튜닝합니다. 한국어 특화 STT·음성 명령 인식·화자 구분에 최적화.

활성 잡

0

완료 어댑터

0

전체 잡

0

학습 잡 생성

VOICE 특화 설정

베이스 모델 (voice 특화 프리셋)

학습 방법

LoRA Rank

런타임

Learning Rate

Epochs

Batch Size

Quantization

데이터셋 선택 (0개 선택)+ 새 데이터셋 생성

등록된 데이터셋이 없습니다.

데이터셋 빌더로 생성 →

잡 큐 전체 보기

데이터셋 업로드

멀티모달 JSONL (messages + images 필드)

VOICE

JSONL 파일을 드래그하거나 클릭해서 선택

멀티모달 SFT: {"messages": [...], "images": ["img.jpg"]}

음성 모델 런북

구성 가이드

ASR/음성 모델 학습·배포·스트리밍 체크리스트

풀스펙 구현 범위

ABCD 공통 — 외부 엔진은 프로브·어댑터로 묶습니다

학습: Whisper fine-tuning (HuggingFace Trainer) 또는 LlamaFactory 음성 지원
데이터: audio+transcript JSONL, 샘플링 레이트 16kHz 표준화
배포: Whisper.cpp (로컬 경량) 또는 OpenAI Whisper API 호환 서버
실시간: WebSocket 스트리밍은 별도 프로세스 — Router에서 audio task_type 분기

환경 변수 (예시)

.env.factory.example 참고

LEAF_WHISPER_URL — Whisper 서버 엔드포인트 (선택)
LEAF_VLLM_OPENAI_BASE — 음성 지원 vLLM (선택)

오픈소스 참고 (다운로드·설치는 각 레포)

OpenAI Whisper — ASR 원조
Qwen-Audio — 음성+텍스트 통합
SALMONN — 멀티태스크 음성
whisper.cpp — 로컬 경량 서빙

로컬 콘솔 링크

외부 런타임 연결 라우터 (audio 분기)PII 음성 데이터 정책

체크리스트 (운영 전)

오디오 샘플링 레이트 16kHz 표준화 확인
PII 음성 데이터 Redactor 규칙 적용 (화자 동의 확인)
실시간 스트리밍 필요 시 별도 WebSocket 서비스 구성
Whisper large-v3 기준 RTFx > 1 달성 여부 테스트