멀티모달 / 툴 확장

영상 모델

비디오 이해·자막·장면 분석 모델(LLaVA-Video·Qwen2-VL·InternVideo 계열)을 파인튜닝합니다. 영상 QA·자막 생성·행동 인식에 특화.

활성 잡

0

완료 어댑터

0

전체 잡

0

학습 잡 생성

VIDEO 특화 설정

베이스 모델 (video 특화 프리셋)

학습 방법

LoRA Rank

런타임

Learning Rate

Epochs

Batch Size

Quantization

데이터셋 선택 (0개 선택)+ 새 데이터셋 생성

등록된 데이터셋이 없습니다.

데이터셋 빌더로 생성 →

잡 큐 전체 보기

데이터셋 업로드

멀티모달 JSONL (messages + images 필드)

VIDEO

JSONL 파일을 드래그하거나 클릭해서 선택

멀티모달 SFT: {"messages": [...], "images": ["img.jpg"]}

영상 모델 런북

구성 가이드

비디오 모델 학습·배포·운영 체크리스트

풀스펙 구현 범위

ABCD 공통 — 외부 엔진은 프로브·어댑터로 묶습니다

학습: LlamaFactory VL 또는 전용 비디오 파이프 (Qwen2-VL 지원)
데이터: 영상 프레임 샘플 + 자막/QA JSONL 형식
배포: 전용 GPU 서버 필요 (A100 40GB 이상 권장)
운영: 장시간 배치 — 잡 큐와 분리된 비디오 처리 프로세스

환경 변수 (예시)

.env.factory.example 참고

슬롯별 공통 게이트웨이만 사용하면 됩니다.

오픈소스 참고 (다운로드·설치는 각 레포)

LLaVA-Video — 비디오 이해 특화
Qwen2-VL — 영상+이미지+텍스트
InternVideo2 — 고성능 비디오
vLLM (멀티모달) — 프로덕션 서빙

로컬 콘솔 링크

배포 추론 엔드포인트 비용 / 청구 저작권·얼굴 데이터 정책

체크리스트 (운영 전)

영상 프레임 샘플링 FPS 설정 (권장: 1fps, 최대 8fps)
영상 데이터 저작권 및 얼굴 데이터 개인정보 정책 확인
GPU 메모리: 7B 모델 QLoRA 4bit = A100 40GB 이상
배치 처리 시간 예측 후 PM2 타임아웃 설정