메뉴얼 Landing V2.0

멀티모달 / 툴 확장

이미지 모델

비전-언어 모델(LLaVA·Qwen-VL·InternVL·MiniCPM-V 계열)을 VL-SFT/VL-DPO로 파인튜닝합니다. 이미지 캡셔닝·VQA·문서 이해에 특화.

활성 잡

0

완료 어댑터

0

전체 잡

0

학습 잡 생성

IMAGE 특화 설정

베이스 모델 (image 특화 프리셋)

학습 방법

LoRA Rank

런타임

Learning Rate

Epochs

Batch Size

Quantization

데이터셋 선택 (0개 선택)+ 새 데이터셋 생성

등록된 데이터셋이 없습니다.

데이터셋 빌더로 생성 →

잡 큐 전체 보기

데이터셋 업로드

멀티모달 JSONL (messages + images 필드)

IMAGE

JSONL 파일을 드래그하거나 클릭해서 선택

멀티모달 SFT: {"messages": [...], "images": ["img.jpg"]}

이미지 모델 런북

구성 가이드

비전-언어 모델 학습·배포·라우팅 체크리스트

풀스펙 구현 범위

ABCD 공통 — 외부 엔진은 프로브·어댑터로 묶습니다

학습: LlamaFactory VL-SFT 템플릿 (messages + images 필드 JSONL)
데이터: 캡셔닝 pairs, VQA 형식, OCR/문서 이해 형식
배포: vLLM 비전 지원 버전 또는 Ollama (llava 계열 지원)
라우터: task_type=image_generation 또는 task_type=research 로 분기

환경 변수 (예시)

.env.factory.example 참고

GEMINI_API_KEY — 클라우드 비전 폴백 (선택)
LEAF_VLLM_OPENAI_BASE — 비전 지원 vLLM 엔드포인트

오픈소스 참고 (다운로드·설치는 각 레포)

LLaVA — VL-SFT 원조
Qwen-VL — 한국어 강점
InternVL2 — 고성능 VL
MiniCPM-V — 경량 비전

로컬 콘솔 링크

데이터셋 목록 라우터 정책 추론 엔드포인트

체크리스트 (운영 전)

images 필드 경로가 JSONL과 같은 디렉토리에 있는지 확인
GPU VRAM: LLaVA-7B QLoRA 4bit = 12GB 이상 필요
vLLM 비전 지원 버전(>=0.4.3) 인지 확인
외부 이미지 API 사용 시 Redactor·감사 로그 정책 점검