분류 전체보기 12

AI models collapse when trained onrecursively generated data 논문리뷰

2024.7.24일 Nature에 실린 논문입니다AI models collapse when trained on recursively generated data | NatureGPT2, GPT3, GPT4 등 다양한 LLM모델이 출시되고, 이러한 LLM모델이 생성하는 데이터가 온라인에서 퍼지고, 이 데이터로 다시 학습하게 되는 반복을 통해 원래 데이터의 꼬리가 없어지는 현상을 볼 수 있습니다논문에서는 이를 "model collapse"라고 하며 LLM뿐만 아니라 VAE, GMM 같은 모델에서도 발생할 수 있다고 말합니다 model collapse는 한 세대의 모델이 생성한 데이터가 다음 세대 모델의 데이터셋을 오염시키고, 이 오염된 데이터로 학습된 모델은 mis-perceive reality(현실을 잘못인..

논문리뷰 2025.05.19

허깅페이스 LLM fine-tuning하기 (1)

hugging face 로그인 후 원하는 LLM 찾아서 불러오는 과정은 생략 저는 SKT에서 만든 KoGPT2를 가져다가 safety에 대한 데이터로 fine-tuning 하였습니다 먼저 https://huggingface.co/skt/kogpt2-base-v2에서 코드를 불러옵니다. # Load model directlyfrom transformers import AutoTokenizer, AutoModelForCausalLMtokenizer = AutoTokenizer.from_pretrained("skt/kogpt2-base-v2")model = AutoModelForCausalLM.from_pretrained("skt/kogpt2-base-v2")그러면 이제 kogpt2 tokenizer와 mod..

카테고리 없음 2025.05.09

Karpathy - Let's build GPT 실습하기 (1)

https://www.youtube.com/watch?v=kCc8FmEb1nY&t=5065s Karpathy-BUILD GPT 이번 글은 이 영상을 따라하는 글이며, 제 생각과 추가 실습 가능한 부분을 같이 써보는 식으로 진행해보려합니다 먼저 tokenizer를 만드는 걸 소개하는데셰익스피어 글을 다운받아서 커스텀 tokenizer를 만듭니다chars = sorted(list(set(text)))vocab_size = len(chars)string_to_idx = {ch:i for i,ch in enumerate(chars)}idx_to_string = {i:ch for i,ch in enumerate(chars)}sti = string_to_idxits = idx_to_stringencode = lam..

TEPS vocabulary공부

1.if we have any_____possible : 가능한available : 이용 가능한reachable : 접근 가능한disposable : 일회용의 2.i need to______ some stresshang out:놀다loosen : 늦추다,완화하다excuse : n.변명,핑계 v.용서하다,실례하다release : 풀다deliver : 배달하다 3.i was ____by the lovely scenery here in jejulandscape:풍경,경관a.inspired:영감을 받아b.activated:활성화된c.connected:이어진d.approached:접근한 4.please _____them.i'm working on an updated listimitate:모방하다suspend:중단..

Mixture-Of-Expert 논문리뷰

논문 원본입니다 https://arxiv.org/pdf/1701.06538 ABSRTACT딥러닝에서 모델이 가지는 capacity는 그 파라미터 수에 의해 제한됩니다더 큰 모델을 만들면 그만큼 계산량도 기하급수적으로 늘어납니다.이 문제를 해결하기 위해 Conditional Computation이 있는데, 이 방법은 계산량은 적게 유지하면서도 모델 용량은 크게 늘릴 수 있다고 알려져 있습니다.하지만 이 방법은 구현이 까다롭고 성능이 불안정하며 GPU로 돌릴 수 없다는 이유로 실제 적용이 어려웠습니다.이 논문은 이런 어려움을 해결하고, conditional computation의 잠재력을 현실화시킨 방법을 제안하는데 바로 "Sparsely-Gated Mixture-of-Experts layer"입니다.cap..

논문리뷰 2025.04.22

TEPS 리스닝공부

11번bM:congratulations on taking the job offer on londonG:thanks,it's stressful planing a move abroad thoughM:I bet. i hope your company's helping with the process G:_________a.okay,i'll do what i can for themb.yeah,they've been very supportivec.well, i might take their job offerd.no,they only help employees relocate though : 그렇긴해도 i bet: 그럴 것 같아relocate:이주하다12번aW:Let's see a movie this weekendM..

probabilistic machine learning-Transformer이후

15.5.6 Transformers for imagesCNN은 이미지 데이터를 처리하는 데 가장 널리 사용되는 모델입니다그 이유는 내재된 inductive bias를 가지고 있기 때문입니다 inductive bias : 귀납적 편향"이 모델은 세상을 이렇게 바라보는 경향이 있어"라는 선천적인 추론 방식이나 가정머신러닝 모델은 데이터를 보고 규칙을 학습하는데, 이때 데이터만 보고는 해결할 수 없는 부분을 메꾸기 위해 모델이 세상에 대래 미리 갖고 있는 가정이 필요하며 그게 바로 inductive bias이다CNN에서는 Locality:근처 픽셀끼리 관련 있다는 가정Translation equivariance:어떤 패턴이 사진의 어디에 있든 같이 처리하겠다는 성질Weight sharing:같은 필터를 전체..

카테고리 없음 2025.04.17

MMED-RAG논문 리뷰

MMED-RAG논문 리뷰입니다.https://arxiv.org/pdf/2410.13085 ABSTRACT Medical Large Vision-Language Model(Med-LVLMs)는 종종 hallucination문제를 겪는데, 이는 잘못된 진단으로 이어져서 치명적일 수 있습니다. RAG가 이를 해결하는 하나의 방법이지만 기존 RAG기반 접근법은 다양한 의료 도메인에 일반화되지 않았습니다. 이 논문에서는 멀티모달 RAG시스템으로 Med-LVLMs의 정확성을 높이는 접근법을 연구했다고 합니다.최종적으로 MMed-RAG가 Med-LVLMs의 정확성을 평균 43.9%향상시킬 수 있었고 데이터와 코드는https://github.com/richard-peng-xia/MMed-RAG에서 확인할 수 있습니다..

논문리뷰 2025.04.15