메뉴얼
멀티모달 / 툴 확장

영상 모델

비디오 이해·자막·장면 분석 모델(LLaVA-Video·Qwen2-VL·InternVideo 계열)을 파인튜닝합니다. 영상 QA·자막 생성·행동 인식에 특화.

활성 잡
0
완료 어댑터
0
전체 잡
0

학습 잡 생성

VIDEO 특화 설정

+ 새 데이터셋 생성

등록된 데이터셋이 없습니다.

데이터셋 빌더로 생성 →
잡 큐 전체 보기

데이터셋 업로드

멀티모달 JSONL (messages + images 필드)

VIDEO

JSONL 파일을 드래그하거나 클릭해서 선택

멀티모달 SFT: {"messages": [...], "images": ["img.jpg"]}

영상 모델 런북

구성 가이드

비디오 모델 학습·배포·운영 체크리스트

풀스펙 구현 범위

ABCD 공통 — 외부 엔진은 프로브·어댑터로 묶습니다

  • 학습: LlamaFactory VL 또는 전용 비디오 파이프 (Qwen2-VL 지원)
  • 데이터: 영상 프레임 샘플 + 자막/QA JSONL 형식
  • 배포: 전용 GPU 서버 필요 (A100 40GB 이상 권장)
  • 운영: 장시간 배치 — 잡 큐와 분리된 비디오 처리 프로세스

환경 변수 (예시)

.env.factory.example 참고

슬롯별 공통 게이트웨이만 사용하면 됩니다.

오픈소스 참고 (다운로드·설치는 각 레포)

로컬 콘솔 링크

체크리스트 (운영 전)

  1. 영상 프레임 샘플링 FPS 설정 (권장: 1fps, 최대 8fps)
  2. 영상 데이터 저작권 및 얼굴 데이터 개인정보 정책 확인
  3. GPU 메모리: 7B 모델 QLoRA 4bit = A100 40GB 이상
  4. 배치 처리 시간 예측 후 PM2 타임아웃 설정