AI Engineering Topic 30

파이토치 2.0 torch.compile() 이 얼마나 빠른지 알아보자

출처 : https://discuss.pytorch.kr/t/accelerating-large-language-models-with-accelerated-transformers/1417 파이토치 2를 사용한 가속화된 생성 확산 모델(Accelerated Generative Diffusion Models with PyTorch 2) 🎉 PyTorch 공식 블로그에 게시된 Accelerated Generative Diffusion Models with PyTorch 2 글을 퍼왔습니다. 🙂 아래는 원문과 함께 DeepL이 번역한 내용입니다 - Translated with DeepL Accelerated Generative Diffusion Models with PyT discuss.pytorch.kr Int..

Whisper

모든 데이터에서 최고의 성능을 뽑아낸다 Weakly supervised ASR : 음성 데이터 68만 96개 언어의 음성인식 지원, x-> en 지원 Self training 없이 결과를 달성 Whisper : 음성인식의 최종목적은 Out of Distribution data LibriSpeech is like ImageNet, but for Speech -Indomain 데이터로 관측 but Whisper는 Libri unseen으로 정확도를 높이겠다 인터넷에서 전사가 있는 데이터를 구축했다 다양한 화자, 환경 인식기가 만든거 같은 데이터는 버림 언어 검출기를 개발 ex 한국인이 한국어가 아닌 영어를 말하는 걸 검출해야한다 Hallucination 이 나온다. 한국어 8000시간 : low perfor..

Excel파일에서 Datafrmae으로 to_dict 딕셔너리만들기

내가 갖고 있는 엑셀파일에서 원하는 딕셔너리 만들기 여기가 key 첫번째 행이 딕셔너리의 key가 되고싶은 두번째 부터는 value로 넘어가게 되는데 이게 내가 꾸준히 하는게 아니라서 이렇게 끝날수도 있고 각 키마다 밸류가 다른 갯수로 리스트가 된다 self.rule.columns = self.rule.iloc[3] k = self.rule[4:] dict = k.to_dict('list') temp = {key: [v for v in value if v] for key, value in f.items()} del temp[None] dict.clear() 위 코드의 두개에 대한 것은 다른 것이다. 엑셀에 대해서 첫번째부터 세번째 행은 내용설명을 위해 빈칸 및 필요없는 칸이어서 내린 것이고 마찬가지로 r..

인턴 때 배운 코드들

1. xlsx 파일을 불러와서 sheet의 이름을 갖고 그 안의 내용을 모두 Dataframe화하기. master = openpyxl.load_workbook('파일이름.xlsx') master.sheetnames #sheet 이름을 수정하여 사용 가능 sheet = master['mando'] mando = pd.DataFrame(sheet.values) 2. 0행으로 header가 내려올 때, header를 올리는 방법 # 0행으로 header가 내려와서 다시 header로 올립니다. mando.columns = mando.iloc[0] mando = mando[1:] 3. parser를 통해서 terminal로 파이썬 코드를 실행하기 위한 작업 def __init__(self, item_name='..

코딩하는 사람의 자격증 계획들

1. 링크드인 링크드인에 잠식되어 버린 대학원 휴학생(수료생, 자퇴생, 3년다닐사람)의 계획 DataCamp Data Scientist 증명서 받고 링크드인에 올리기 이 캠프 하다가 python 까리하게 쓰는 법 알려주는 코스를 듣는바람에 12월에나 다 수강할듯 2. DataCamp SQL for Business Analysts 자격증 받고 링크드인에 올리기 SQL for Business Analysts www.datacamp.com 파이썬 하다가... SQL은 1월에나 할듯 3. Kakao Enterprise에 올라온 Tech Log 팔로우 하기 링크드인에서 4. Qiskit 자격증 따고 올리기 IBM Quantum Computing 자격증이다. 후기를 보니까 열심히 공부하고 외워야 하는게 많다. 2...

GAN

Image manipulation GAN Inversion StyleGAN : 각 layer마다 hierachical latent code를 부여 Image2styleGAN : Mask-Contrasting GAN: 강아지 mask : Contrast Gan으로 고양이를 만들어서 이후 고양이- 크기에 맞춰서 one-hot vector로 줘서 고양이로 가져와서 자르고 붙인다. 선이 나와서 부자연스럽게 나온다. 2018 윤곽을 잡아주는 object dection해서 mask를 확보한 다음에 대입 Multi Code GAN In-domain GAN Inversion for Real Image Editing 넣은 것을 그대로 복원이 우선이었는데, latent code에 대한 특성을 조사해서, 픽셀 단위 차원에서..

인턴 1달+7일차에 쓰는 일지

Rule base로 excel의 데이터를 읽고 DataFrame에서 Pandas와 친해지는 시간을 가졌다. 내가 가진 결과물은 결국 그것들이 다이지만, 그 사이에서 NLP 블로그들과 KakaoEnterprise의 글들을 정독하게 되었다. Discord에서 가짜 연구소에 들어갔다. 수요일 저녁에는 내가 보컬 수업이 있어서 제발 약속 안 잡고 싶은데 자꾸 수요일에 잡힌다. 다시는 막걸리에 소주를 안 먹을 것이다. 대학원 실패기를 10부작으로 연재할 것이다. 1학기 내용으로 6화를, 2학기, 겨울방학, 3학기, 여름방학을 주제로 진행할 것 같다. 어떤 플랫폼을 써야 할까 고민했고, 사실은 인스타툰으로 하려고 했는데, 일단 글은 써놔야 할 거 같다. 내가 졸업하기 위해서는 결국 어느 랩실을 가든 졸업 지도교수가..

SW 인턴일지

차량 수리센터에서 접수된 차량의 이상상황들을 정비소 직원들이 한국어로 상황을 적는다. 문제점과 어떻게 해결할건지 등등. 그런데 이런 자료들을 바탕으로 바로바로 어떤 문제가 제일 많았는지를 알고 싶다. 그래서 필요한것이 자연어처리 내가 배운 자연어처리는 엄청나게 긴 글을 요약하거나 번역, 챗봇등에 가까웠다. 하지만 이 과제는 그정도까지는 필요하지 않다. 그래서 오히려 파이썬과 엑셀로 데이터 전처리하다가 끝나게 되었다. 이 과제 이후에는 무엇을 해야할까 고민이 들지만, ROS와 가제보, 유니티 등을 파는 것에 집중해야겠다. 안되는 코드들이 너무 많았다. 줄이고 줄여 되는 것들만 추려서 나온 것이 코드는 몇줄 안된다. 그 동안 무수히 많은 시행착오와 tistory, github들을 돌아댕겼다. 가장 최신것도 ..

2022 LG Aimers 온라인 AI 교육은 어떤 것을 할까?

인생이 무료하던 차에 스트레스성 지원을 했다. 그리고 붙었다. LG 충성충성 LG AI 연구원이신 분을 보면서 LG에서 AI를 본격적으로 연구한다는 것에 LG에 대한 호감도가 상승하던차 인스타그램에 이 멋진 프로그램 홍보가 떴고, 지원했고, 붙었다. 그래서 이제 다음주부터 본격적으로 수업을 듣는다 두근두근 이제 이런 수업을 듣는다. 여기 서울대학교 문태섭 교수님은... 내가 진짜 2학년 2학기 처음으로 학부연구생하려고 문 두드렸던 연구실의 수장님이었다. 그 때 교환학생 가느라 하지 못했는데... 교환학생 안갔으면 멋진 친구들과 훌륭한 경험을 하지 못했겠지만 여기 남아서 공부했다면 커리어 하나만큼은 짱짱하게 만들었겠지... 인생 등가교환 이렇게 품질과 신뢰성, 지도학습으로 분류랑 회귀를 배우고 비지도학습(..

LG Aimers 1차 합격!!

내가 지원해서 붙은 건 일단! 이 과정은 해커톤을 위한 기본적인 통계기반 접근방법과 최신 AI기술들을 배우는 단계이다. 그래 그냥 해커톤에 가는 것도 좋지만, 해커톤 기반 학습을 너무너무 하고 싶어서 이 AIMERS를 꼭꼭 붙고 싶었다. 해커톤하려고 팀빌딩하는 것도 힘든데 이렇게 학습을 같이 하고 통과된 사람끼리 2차 해커톤을 진행하면, 해커톤의 질이 높아질 것이다. 암암 7월 4일까지 열심히 파이썬 자료구조 알고리즘을 파야겠군