AI Engineering Topic

페이퍼 프리뷰의 리뷰 KoLLaVA : Korean Large Language and Vision Assistant (Visual Instruction Tuning)

Young_Metal 2023. 7. 11. 13:53

KoLLaVA : tabtoyou/KoLLaVA: KoLLaVA: Korean Large Language-and-Vision Assistant (feat.LLaVA) (github.com)

 

GitHub - tabtoyou/KoLLaVA: KoLLaVA: Korean Large Language-and-Vision Assistant (feat.LLaVA)

KoLLaVA: Korean Large Language-and-Vision Assistant (feat.LLaVA) - GitHub - tabtoyou/KoLLaVA: KoLLaVA: Korean Large Language-and-Vision Assistant (feat.LLaVA)

github.com

Paper Preview of [논문 리뷰] LLaVA: Large Language and Vision Assistant (Visual Instruction Tuning) (tistory.com)

 

LLM(거대 언어 모델)과 이미지를 결합해 Multimodal로서 시각적인 요소와 언어적인 요소를 복합적인 정보를 학습하고 결과를 도출한다. BLIP-2도 허깅페이스에서 실습할 수 있었는데 image-text-pair로 이루어져 오직 이미지에 대한 정보만을 알 수 있는 한계가 있다. 

 

LLaVA는 이미지를 포함한 지시문 데이터 형식인 visual instruction-following data를 제안한다. 

MiniGPT-4와 마찬가지로 pretrained LLM인 Vicuna 모델로 파라미터를 초기화한다. 

MiniGPT-4(Q-former & Vit) 와 다르게 Clip Vision encoder와 연결한다.  그래서 이 논문이 사사하는 바는, 이미지 정보를 잘 이해한 대화가능한 챗봇을 만들을 수 있다.

 

그리고 KoLLaMA는 영어로 학습되어진 instruction-follwing 데이터셋을 DeepL로 번역해서 학습시켰기 때문에, 챗봇이 영어가 아닌 한국어로 동작한다. 

 

1. Introduction 

이미지에 대해 질의 응답을 하고 대화하는데 한계가 있던 기존의 멀티모달 테스크. 이미지-텍스트 쌍으로 학습을 시켰기 대문에 단순 설명에 그쳤다. 그러나 대형 언어 모델은 언어가 더 넓고 다양한 역할을 할 수 있다. 오픈 소스 LLM을 파인튜닝한 Alpaca, Vicuna, GPT-4 LLM은 고품질 지시문(instruction-follwing samples)을 활용해 LLM의 활용 정확도를 높였습니다. 

 

논문의 Contribution

1. Multi-modal instruction-following 데이터

 ChatGPT/GPT-4를 사용해서 이미지-텍스트 쌍을 instruction-following 형식으로 변한하기 위한 데이터 reformation perspective 및 파이프라인 제시

2. 대형 멀티 모달 모델

시각인코더 CLIP과 언어 인코더 LLaMA를 연결하여 instruciton vision-language 데이터를 end-to-end로 파인튜닝하는 대형 멀티모달 모델을 (Large Multimodal Model, LMM) 개발

3. 오픈소스!!

1) 생성된 멀티모달 인스터럭션-팔로잉 데이터, 2) 데이터 생성 및 모델 훈련을 위한 코드 베이스, 3) 모델 체크포인트 4) 데모

 

2. GPT-assisted Visual Instruction Data Generation 

ChatGPT-4의 input으로 이미지가 아닌 이미지와 관련된 캡션 및 bounding box 값들만 이용해 질문 및 대화 셋을 만든다. 

 

<image, prompt>

 

 

그 이후 ChatGPT를 이용해 질문하고 답하는 대화형식인 type 1: conversation, 상세한 묘사를 하는 type 2: detailed description, 더 나아가 복잡한 추론 type 3: complex reasoning 데이터를 생성할 수 있다. 

 

type 1 : Conversation

사진에 대해 질문 - Assistanct 의 답변. 이미지의 시각적인 정보 - 객체 유형, 객체수, 행동, 위치 , 객체간 상대적 위치 등 에 대해 질문한다. 명확한 답변이 있는 질문만 한다. 

 

type 2: Detailed Description

자세한 설명을 요구하는 prompt 리스트를 만들어서 그 중 하나를 샘플링해 답을 생성한다. 

 

type 3 : Complex reasoning

두 유형의 시각적 내용에 중점을 두며 이를 기반으로 심층 추론 질문을 추가로 생성한다. 엄격한 논리를 따르는 단계뼐 추론 프로세스를 요구한다. 

 

3. Visual Instruction Tuning

1) Architecture

<figure>

 

2) Training

 

 

Qunatitative Evaluation

GPT-4를 활용해 정략적 metric으로 모델의 instrution-following 능력을 측정한다. 

CoCo Validation 2014 데이터셋에서 랜덤하게 이미지를 뽑아 대화, 자세한 설명, 복잡한 추론 세가지 유형의 질문을 생성해서 LLaVA로 답변을 생성한다. GPT-4는 질문, ground-truth bounding boxes, caption을 기반으로 upper bound를 하는 reference prediction을 만든다. 두 모델로 부터 응답을 얻은 후 질문과 시각적 정보 및 생성된 두 응답을 GPT-4에 넣어서 어시스턴트 응답의 유용성, 관련성, 정확성 및 세부 수준을 평가한다. 점수는 1~10이고 점수가 높을 수록 성과가 우수한 것이다.