KoLLaVA : tabtoyou/KoLLaVA: KoLLaVA: Korean Large Language-and-Vision Assistant (feat.LLaVA) (github.com)
GitHub - tabtoyou/KoLLaVA: KoLLaVA: Korean Large Language-and-Vision Assistant (feat.LLaVA)
KoLLaVA: Korean Large Language-and-Vision Assistant (feat.LLaVA) - GitHub - tabtoyou/KoLLaVA: KoLLaVA: Korean Large Language-and-Vision Assistant (feat.LLaVA)
github.com
Paper Preview of [논문 리뷰] LLaVA: Large Language and Vision Assistant (Visual Instruction Tuning) (tistory.com)
LLM(거대 언어 모델)과 이미지를 결합해 Multimodal로서 시각적인 요소와 언어적인 요소를 복합적인 정보를 학습하고 결과를 도출한다. BLIP-2도 허깅페이스에서 실습할 수 있었는데 image-text-pair로 이루어져 오직 이미지에 대한 정보만을 알 수 있는 한계가 있다.
LLaVA는 이미지를 포함한 지시문 데이터 형식인 visual instruction-following data를 제안한다.
MiniGPT-4와 마찬가지로 pretrained LLM인 Vicuna 모델로 파라미터를 초기화한다.
MiniGPT-4(Q-former & Vit) 와 다르게 Clip Vision encoder와 연결한다. 그래서 이 논문이 사사하는 바는, 이미지 정보를 잘 이해한 대화가능한 챗봇을 만들을 수 있다.
그리고 KoLLaMA는 영어로 학습되어진 instruction-follwing 데이터셋을 DeepL로 번역해서 학습시켰기 때문에, 챗봇이 영어가 아닌 한국어로 동작한다.
1. Introduction
이미지에 대해 질의 응답을 하고 대화하는데 한계가 있던 기존의 멀티모달 테스크. 이미지-텍스트 쌍으로 학습을 시켰기 대문에 단순 설명에 그쳤다. 그러나 대형 언어 모델은 언어가 더 넓고 다양한 역할을 할 수 있다. 오픈 소스 LLM을 파인튜닝한 Alpaca, Vicuna, GPT-4 LLM은 고품질 지시문(instruction-follwing samples)을 활용해 LLM의 활용 정확도를 높였습니다.
논문의 Contribution
1. Multi-modal instruction-following 데이터
ChatGPT/GPT-4를 사용해서 이미지-텍스트 쌍을 instruction-following 형식으로 변한하기 위한 데이터 reformation perspective 및 파이프라인 제시
2. 대형 멀티 모달 모델
시각인코더 CLIP과 언어 인코더 LLaMA를 연결하여 instruciton vision-language 데이터를 end-to-end로 파인튜닝하는 대형 멀티모달 모델을 (Large Multimodal Model, LMM) 개발
3. 오픈소스!!
1) 생성된 멀티모달 인스터럭션-팔로잉 데이터, 2) 데이터 생성 및 모델 훈련을 위한 코드 베이스, 3) 모델 체크포인트 4) 데모
2. GPT-assisted Visual Instruction Data Generation
ChatGPT-4의 input으로 이미지가 아닌 이미지와 관련된 캡션 및 bounding box 값들만 이용해 질문 및 대화 셋을 만든다.
<image, prompt>
그 이후 ChatGPT를 이용해 질문하고 답하는 대화형식인 type 1: conversation, 상세한 묘사를 하는 type 2: detailed description, 더 나아가 복잡한 추론 type 3: complex reasoning 데이터를 생성할 수 있다.
type 1 : Conversation
사진에 대해 질문 - Assistanct 의 답변. 이미지의 시각적인 정보 - 객체 유형, 객체수, 행동, 위치 , 객체간 상대적 위치 등 에 대해 질문한다. 명확한 답변이 있는 질문만 한다.
type 2: Detailed Description
자세한 설명을 요구하는 prompt 리스트를 만들어서 그 중 하나를 샘플링해 답을 생성한다.
type 3 : Complex reasoning
두 유형의 시각적 내용에 중점을 두며 이를 기반으로 심층 추론 질문을 추가로 생성한다. 엄격한 논리를 따르는 단계뼐 추론 프로세스를 요구한다.
3. Visual Instruction Tuning
1) Architecture
<figure>
2) Training
Qunatitative Evaluation
GPT-4를 활용해 정략적 metric으로 모델의 instrution-following 능력을 측정한다.
CoCo Validation 2014 데이터셋에서 랜덤하게 이미지를 뽑아 대화, 자세한 설명, 복잡한 추론 세가지 유형의 질문을 생성해서 LLaVA로 답변을 생성한다. GPT-4는 질문, ground-truth bounding boxes, caption을 기반으로 upper bound를 하는 reference prediction을 만든다. 두 모델로 부터 응답을 얻은 후 질문과 시각적 정보 및 생성된 두 응답을 GPT-4에 넣어서 어시스턴트 응답의 유용성, 관련성, 정확성 및 세부 수준을 평가한다. 점수는 1~10이고 점수가 높을 수록 성과가 우수한 것이다.
'AI Engineering Topic' 카테고리의 다른 글
신뢰할 수 있는 인공지능을 위한 안내서 생성 AI 편 Part 1 요약하기! (0) | 2024.03.31 |
---|---|
What is pyproject.toml file for? (0) | 2023.07.19 |
보이저엑스 딥러닝 질문 답변 with ChatGPT (0) | 2023.05.09 |
보이저엑스 개발자 인턴 기술 질문 대답 준비 with ChatGPT (0) | 2023.05.09 |
Excel파일에서 Datafrmae으로 to_dict 딕셔너리만들기 (0) | 2022.11.23 |