멀티모달 / 툴 확장
영상 모델
비디오 이해·자막·장면 분석 모델(LLaVA-Video·Qwen2-VL·InternVideo 계열)을 파인튜닝합니다. 영상 QA·자막 생성·행동 인식에 특화.
활성 잡
0
완료 어댑터
0
전체 잡
0
학습 잡 생성
VIDEO 특화 설정
데이터셋 업로드
멀티모달 JSONL (messages + images 필드)
JSONL 파일을 드래그하거나 클릭해서 선택
멀티모달 SFT: {"messages": [...], "images": ["img.jpg"]}
영상 모델 런북
구성 가이드
비디오 모델 학습·배포·운영 체크리스트
풀스펙 구현 범위
ABCD 공통 — 외부 엔진은 프로브·어댑터로 묶습니다
- 학습: LlamaFactory VL 또는 전용 비디오 파이프 (Qwen2-VL 지원)
- 데이터: 영상 프레임 샘플 + 자막/QA JSONL 형식
- 배포: 전용 GPU 서버 필요 (A100 40GB 이상 권장)
- 운영: 장시간 배치 — 잡 큐와 분리된 비디오 처리 프로세스
환경 변수 (예시)
.env.factory.example 참고
슬롯별 공통 게이트웨이만 사용하면 됩니다.
오픈소스 참고 (다운로드·설치는 각 레포)
- LLaVA-Video — 비디오 이해 특화
- Qwen2-VL — 영상+이미지+텍스트
- InternVideo2 — 고성능 비디오
- vLLM (멀티모달) — 프로덕션 서빙
로컬 콘솔 링크
체크리스트 (운영 전)
- 영상 프레임 샘플링 FPS 설정 (권장: 1fps, 최대 8fps)
- 영상 데이터 저작권 및 얼굴 데이터 개인정보 정책 확인
- GPU 메모리: 7B 모델 QLoRA 4bit = A100 40GB 이상
- 배치 처리 시간 예측 후 PM2 타임아웃 설정