멀티모달 / 툴 확장
이미지 모델
비전-언어 모델(LLaVA·Qwen-VL·InternVL·MiniCPM-V 계열)을 VL-SFT/VL-DPO로 파인튜닝합니다. 이미지 캡셔닝·VQA·문서 이해에 특화.
활성 잡
0
완료 어댑터
0
전체 잡
0
학습 잡 생성
IMAGE 특화 설정
데이터셋 업로드
멀티모달 JSONL (messages + images 필드)
JSONL 파일을 드래그하거나 클릭해서 선택
멀티모달 SFT: {"messages": [...], "images": ["img.jpg"]}
이미지 모델 런북
구성 가이드
비전-언어 모델 학습·배포·라우팅 체크리스트
풀스펙 구현 범위
ABCD 공통 — 외부 엔진은 프로브·어댑터로 묶습니다
- 학습: LlamaFactory VL-SFT 템플릿 (messages + images 필드 JSONL)
- 데이터: 캡셔닝 pairs, VQA 형식, OCR/문서 이해 형식
- 배포: vLLM 비전 지원 버전 또는 Ollama (llava 계열 지원)
- 라우터: task_type=image_generation 또는 task_type=research 로 분기
환경 변수 (예시)
.env.factory.example 참고
- GEMINI_API_KEY — 클라우드 비전 폴백 (선택)
- LEAF_VLLM_OPENAI_BASE — 비전 지원 vLLM 엔드포인트
오픈소스 참고 (다운로드·설치는 각 레포)
로컬 콘솔 링크
체크리스트 (운영 전)
- images 필드 경로가 JSONL과 같은 디렉토리에 있는지 확인
- GPU VRAM: LLaVA-7B QLoRA 4bit = 12GB 이상 필요
- vLLM 비전 지원 버전(>=0.4.3) 인지 확인
- 외부 이미지 API 사용 시 Redactor·감사 로그 정책 점검