페이퍼 프리뷰의 리뷰 KoLLaVA : Korean Large Language and Vision Assistant (Visual Instruction Tuning)

AI Engineering Topic

페이퍼 프리뷰의 리뷰 KoLLaVA : Korean Large Language and Vision Assistant (Visual Instruction Tuning)

Young_Metal 2023. 7. 11. 13:53

KoLLaVA : tabtoyou/KoLLaVA: KoLLaVA: Korean Large Language-and-Vision Assistant (feat.LLaVA) (github.com)

GitHub - tabtoyou/KoLLaVA: KoLLaVA: Korean Large Language-and-Vision Assistant (feat.LLaVA)

KoLLaVA: Korean Large Language-and-Vision Assistant (feat.LLaVA) - GitHub - tabtoyou/KoLLaVA: KoLLaVA: Korean Large Language-and-Vision Assistant (feat.LLaVA)

github.com

Paper Preview of [논문 리뷰] LLaVA: Large Language and Vision Assistant (Visual Instruction Tuning) (tistory.com)

LLM(거대 언어 모델)과 이미지를 결합해 Multimodal로서 시각적인 요소와 언어적인 요소를 복합적인 정보를 학습하고 결과를 도출한다. BLIP-2도 허깅페이스에서 실습할 수 있었는데 image-text-pair로 이루어져 오직 이미지에 대한 정보만을 알 수 있는 한계가 있다.

LLaVA는 이미지를 포함한 지시문 데이터 형식인 visual instruction-following data를 제안한다.

MiniGPT-4와 마찬가지로 pretrained LLM인 Vicuna 모델로 파라미터를 초기화한다.

MiniGPT-4(Q-former & Vit) 와 다르게 Clip Vision encoder와 연결한다. 그래서 이 논문이 사사하는 바는, 이미지 정보를 잘 이해한 대화가능한 챗봇을 만들을 수 있다.

그리고 KoLLaMA는 영어로 학습되어진 instruction-follwing 데이터셋을 DeepL로 번역해서 학습시켰기 때문에, 챗봇이 영어가 아닌 한국어로 동작한다.

1. Introduction

이미지에 대해 질의 응답을 하고 대화하는데 한계가 있던 기존의 멀티모달 테스크. 이미지-텍스트 쌍으로 학습을 시켰기 대문에 단순 설명에 그쳤다. 그러나 대형 언어 모델은 언어가 더 넓고 다양한 역할을 할 수 있다. 오픈 소스 LLM을 파인튜닝한 Alpaca, Vicuna, GPT-4 LLM은 고품질 지시문(instruction-follwing samples)을 활용해 LLM의 활용 정확도를 높였습니다.

논문의 Contribution

1. Multi-modal instruction-following 데이터

ChatGPT/GPT-4를 사용해서 이미지-텍스트 쌍을 instruction-following 형식으로 변한하기 위한 데이터 reformation perspective 및 파이프라인 제시

2. 대형 멀티 모달 모델

시각인코더 CLIP과 언어 인코더 LLaMA를 연결하여 instruciton vision-language 데이터를 end-to-end로 파인튜닝하는 대형 멀티모달 모델을 (Large Multimodal Model, LMM) 개발

3. 오픈소스!!

1) 생성된 멀티모달 인스터럭션-팔로잉 데이터, 2) 데이터 생성 및 모델 훈련을 위한 코드 베이스, 3) 모델 체크포인트 4) 데모

2. GPT-assisted Visual Instruction Data Generation

ChatGPT-4의 input으로 ~~이미지가 아닌~~ 이미지와 관련된 캡션 및 bounding box 값들만 이용해 질문 및 대화 셋을 만든다.

<image, prompt>

그 이후 ChatGPT를 이용해 질문하고 답하는 대화형식인 type 1: conversation, 상세한 묘사를 하는 type 2: detailed description, 더 나아가 복잡한 추론 type 3: complex reasoning 데이터를 생성할 수 있다.

type 1 : Conversation

사진에 대해 질문 - Assistanct 의 답변. 이미지의 시각적인 정보 - 객체 유형, 객체수, 행동, 위치 , 객체간 상대적 위치 등 에 대해 질문한다. 명확한 답변이 있는 질문만 한다.

type 2: Detailed Description

자세한 설명을 요구하는 prompt 리스트를 만들어서 그 중 하나를 샘플링해 답을 생성한다.

type 3 : Complex reasoning

두 유형의 시각적 내용에 중점을 두며 이를 기반으로 심층 추론 질문을 추가로 생성한다. 엄격한 논리를 따르는 단계뼐 추론 프로세스를 요구한다.

3. Visual Instruction Tuning

1) Architecture

2) Training

Qunatitative Evaluation

GPT-4를 활용해 정략적 metric으로 모델의 instrution-following 능력을 측정한다.

CoCo Validation 2014 데이터셋에서 랜덤하게 이미지를 뽑아 대화, 자세한 설명, 복잡한 추론 세가지 유형의 질문을 생성해서 LLaVA로 답변을 생성한다. GPT-4는 질문, ground-truth bounding boxes, caption을 기반으로 upper bound를 하는 reference prediction을 만든다. 두 모델로 부터 응답을 얻은 후 질문과 시각적 정보 및 생성된 두 응답을 GPT-4에 넣어서 어시스턴트 응답의 유용성, 관련성, 정확성 및 세부 수준을 평가한다. 점수는 1~10이고 점수가 높을 수록 성과가 우수한 것이다.

저작자표시 비영리 변경금지

'AI Engineering Topic' 카테고리의 다른 글

신뢰할 수 있는 인공지능을 위한 안내서 생성 AI 편 Part 1 요약하기! (0)	2024.03.31
What is pyproject.toml file for? (0)	2023.07.19
보이저엑스 딥러닝 질문 답변 with ChatGPT (0)	2023.05.09
보이저엑스 개발자 인턴 기술 질문 대답 준비 with ChatGPT (0)	2023.05.09
Excel파일에서 Datafrmae으로 to_dict 딕셔너리만들기 (0)	2022.11.23

현재글페이퍼 프리뷰의 리뷰 KoLLaVA : Korean Large Language and Vision Assistant (Visual Instruction Tuning)

movie5

알고리즘먼데이3주차, 알고리즘먼데이챌린지, 알고리즘먼데이챌린지3주차, 한빛미디어나는리뷰어다, 누구한테말하지, 랭체인코리아, 탈탈털려버렸다, 알고리즘먼데이출석부, 알고리즘먼데이해설, 글또9기, 인프라백엔드, 알고리즘먼데이2주차, 나는리뷰어다, 너는몰라도되지만, 알고리즘먼데이, 잔재미코딩, 아직도멀었다, 구름코딩테스트, 공감은받고싶은데, 하고싶은말은많지만,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

movie5