메뉴얼
멀티모달 / 툴 확장

이미지 모델

비전-언어 모델(LLaVA·Qwen-VL·InternVL·MiniCPM-V 계열)을 VL-SFT/VL-DPO로 파인튜닝합니다. 이미지 캡셔닝·VQA·문서 이해에 특화.

활성 잡
0
완료 어댑터
0
전체 잡
0

학습 잡 생성

IMAGE 특화 설정

+ 새 데이터셋 생성

등록된 데이터셋이 없습니다.

데이터셋 빌더로 생성 →
잡 큐 전체 보기

데이터셋 업로드

멀티모달 JSONL (messages + images 필드)

IMAGE

JSONL 파일을 드래그하거나 클릭해서 선택

멀티모달 SFT: {"messages": [...], "images": ["img.jpg"]}

이미지 모델 런북

구성 가이드

비전-언어 모델 학습·배포·라우팅 체크리스트

풀스펙 구현 범위

ABCD 공통 — 외부 엔진은 프로브·어댑터로 묶습니다

  • 학습: LlamaFactory VL-SFT 템플릿 (messages + images 필드 JSONL)
  • 데이터: 캡셔닝 pairs, VQA 형식, OCR/문서 이해 형식
  • 배포: vLLM 비전 지원 버전 또는 Ollama (llava 계열 지원)
  • 라우터: task_type=image_generation 또는 task_type=research 로 분기

환경 변수 (예시)

.env.factory.example 참고

  • GEMINI_API_KEY클라우드 비전 폴백 (선택)
  • LEAF_VLLM_OPENAI_BASE비전 지원 vLLM 엔드포인트

오픈소스 참고 (다운로드·설치는 각 레포)

로컬 콘솔 링크

체크리스트 (운영 전)

  1. images 필드 경로가 JSONL과 같은 디렉토리에 있는지 확인
  2. GPU VRAM: LLaVA-7B QLoRA 4bit = 12GB 이상 필요
  3. vLLM 비전 지원 버전(>=0.4.3) 인지 확인
  4. 외부 이미지 API 사용 시 Redactor·감사 로그 정책 점검