MMED-RAG논문 리뷰입니다.
https://arxiv.org/pdf/2410.13085
ABSTRACT
Medical Large Vision-Language Model(Med-LVLMs)는 종종 hallucination문제를 겪는데, 이는 잘못된 진단으로 이어져서 치명적일 수 있습니다. RAG가 이를 해결하는 하나의 방법이지만 기존 RAG기반 접근법은 다양한 의료 도메인에 일반화되지 않았습니다. 이 논문에서는 멀티모달 RAG시스템으로 Med-LVLMs의 정확성을 높이는 접근법을 연구했다고 합니다.
최종적으로 MMed-RAG가 Med-LVLMs의 정확성을 평균 43.9%향상시킬 수 있었고 데이터와 코드는
https://github.com/richard-peng-xia/MMed-RAG
에서 확인할 수 있습니다
INTRODUCTION
AI의 발전은 혁신적이며 큰 잠재력을 보여주었습니다. 하지만 현재 Med-LVLMs는 여전히 신뢰성 문제, 특히 사실이 아닌 의료 응답을 생성하는 심각한 문제를 직면하는데, 작은 진단 오류조차도 환자 치료에는 심각한 결과를 초래할 수 있는 게 현실입니다.
최근 연구자들은 fine-tuning,RAG를 개선하려고 노력했지만 몇 가지 한계에 직면했다고 합니다
의료 도메인에서 fine-tuning에 필요한 충분한 고품질 라벨링 데이터가 부족하다고 합니다. 또한 훈련 데이터와 실제 데이터 사이에 distribution gap이 존재하여 배포 시 모델 성능을 크게 저하시킨다고 합니다.
더군다나 현재 Med-LVLMs에서의 RAG구현은 한계가 있고 데이터셋에 특화된 경향이 있어 다양한 의료 도메인에 걸쳐 일반화 가능성이 떨어집니다. misalignment 문제도 존재하는데 cross-modality alignment 와 overall alignment 가 오류를 일으킨다고 합니다. 여기까지 읽어봤을 때는 MMed-RAG가 이 문제들을 어떻게 해결할 지 정말 궁금해집니다.
이러한 문제를 해결하기 위해, versatile factual Multimodal Medical RAG system (MMed-RAG)를 제안합니다.
구체적으로, MMed-RAG는 다양한 의료 이미지 도메인을 효과적으로 처리하도록 설계된 domain-aware retrieval mechanism 을 도입합니다. 입력된 의료 이미지를 기반으로 검색 모델을 adaptively하게 선택하는 domain identification module도 디자인했습니다. 검색된 컨텍스트의 수를 선택하기 위해 adaptive calibration approach를 포함하며, 마지막으로 RAG-based preference fine-tuning를 통합하여 alignment를 강화한다고 합니다 preference pairs는 두 가지 목표를 달성하도록 설계되었는데, 첫째, 모델이 입력된 의료 이미지를 활용하지 않고 응답을 생성하지 않도록 하여 모달리티 간 alignment를 개선합니다. 둘째, 모델이 불확실할 때 검색된 컨텍스트를 이해하도록 하여 관련 없는 검색 정보로 인한 간섭을 피함으로써 overall alignment를 개선합니다.
Introduction의 마지막 문단에서 MMed-RAG를 처음으로 소개하며 문제를 어떻게 극복했는지에 대해 간략히 설명했습니다.
간략히 정리하자면 MMed-RAG는 문제를 극복하기 위해
- 도메인 인식 검색 메커니즘을 도입 -> ex)방사선 이미지와 안과 이미지는 완전히 다르니까, 도메인별로 적합한 RAG를 선택
- 적응형 컨텍스트 선택 -> 너무 많은 컨텍스트 참조하면 혼란스럽고 너무 적으면 부족하니 상황에 맞게 조절
- RAG기반 선호도 미세 조정 -> 모달리티 간 정합성:이미지 입력을 반드시 활용하도록 유도, 전체 정합성:불확실할 때 검색 컨텍스트 활용하고,관련없는 정보는 배제
마지막 문단까지 정리해보겠습니다
MMed-RAG는 이러한 방법으로 의료 VQA작업에서 18.5%,보고서 생성 작업에서 69.1%의 성능 향상을 달성했음을 보여주며, 이 실험은 다섯 개의 의료 데이터셋(방사선,병리학,안과학)에서 평가했다고 합니다.
보고서 생성에서 매우 큰 성능 향상을 볼 수 있는데 이는 앞에서 MMed-RAG가 컨텍스트를 잘 선택하는 그 능력을 뒷받침하는 결과라고 생각이 됩니다. 그런데 다섯 개의 의료 데이터셋이 얼마나 다양한 케이스를 포함하는지,특히 드물거나 복잡한 질병 사례에서도 잘 적용이 되는지, 이 향상이 실제 임상에서도 유의미 한지 궁금해집니다. 왜냐하면 앞에서 훈련데이터와 실제 데이터 간의 차이와 그로 인한 결과가 큰 영향을 미친다고 했기 때문입니다. 논문의 뒷부분은 이러한 궁금증을 안고 차근차근 읽어보겠습니다.
PRELIMINARIES
preference optimization에 대한 간략한 개요입니다.
Med-LVLMs는 LLM에 의료 비전 모듈을 결합한 모델로
입력: 의료 이미지 xv + 임상 질의 xt
출력: 다음 토큰의 확률 분포를 예측하여 텍스트 y생성
출력은 autogressive 방식으로 예측할 수 있다고 합니다
autogressive방식은 텍스트 생성과정이 단계적으로 이루어진다는 걸 의미하는데, 이는 굉장히 중요하다고 생각하는 게 잘못된 초기 토큰 예측이 이후 전체 출력에 영향을 미칠 수 있기 때문입니다.
Preference Optimization은 LLM의 alignment에서 놀라운 결과를 달성했다고 합니다.
최근 인기를 얻은 DPO는 선호도 데이터를 활용하여 LLM의 목표 정합성을 달성합니다.

DPO에서 최적화는 선호도에 대한 classification loss로 위와 같이 표현된다고 합니다.
선호도 데이터 D = {(x,yw,yl)}을 사용하며 yw는 선호되는 응답 yl은 비선호 응답이라고 합니다
이 Loss는 모델이 선호되는 응답을 생성하도록 학습된다고 합니다.
시그모이드 함수를 사용해 선호도 쌍의 상대적 우위를 계산하고, 이를 손실함수로 변환해 모델을 최적화 하는 방식은 모델이 "좋은 응답"과 "나쁜 응답"을 명확히 구분하도록 도와주는 것 같습니다.
DPO도 잘 몰랐고 수식이 너무 어려워서 저는 https://dalpo0814.tistory.com/62 이곳에서 따로 공부를 했습니다
DPO는 reward model없이, RL없이 LLM policy model만을 학습하여 사람의 선호도를 반영한 문장을 생성하도록 LLM을 직접적을 최적화하는 알고리즘이라고 합니다.
DPO손실 함수를 조금 더 뜯어보겠습니다
모델에게 입력 x(예: 의료 이미지와 질문)이 주어졌을 때, 두가지 응답이 있습니다
yw : "좋은"응답(사실적,적절함)
yl : "나쁜"응답(부정확,덜 적절)
목표 : yw를 생성할 확률을 높이고 yl을 생성할 확률을 낮추는 것
따라서 (yw,yl)이라는 선호도 쌍을 데이터로 사용해서 모델을 학습시킨다고 합니다
πθ(y∣x):현재 학습 중인 모델이 입력x에 대해 출력 y를 생성할 확률
: 기준 모델(참조 모델)의 확률. 이건 이미 감독 학습으로 미세 조정된 모델
이걸 이제 조합해서 보면

선호되는 응답의 점수와 비선호되는 응답의 점수를 비교하고 있다는 뜻으로 해석할 수 있겠습니다.
만약 모델이 yw를 60%확률로 낸다면 πθ(yw∣x): 0.6
yl은 0.3이라면 πθ(yl∣x): 0.3
기준 모델은 :0.5, : 0.4라고 해보겠습니다
여기서 기준 모델은 이미 어느정도 학습된 모델이지만, 우리가 원하는 만큼 정확하지 않기 때문에 현재 모델 ㅠ를 개선하려고 하는 것을 인지합니다.
첫번째 항은 log(1.2) 대충 0.2입니다. 이 값은 현재 모델이 기준 모델보다 yw를 더 잘 생성하고 있는 정도겠네요
두번째 항은 log(0.75) 대충 -0.2입니다. 알파는 1이라고 가정하고 계산하면 0.4입니다
이 값은 모델이 yw를 yl보다 얼마나 더 선호하는지를 나타내며 양수니까 모델이 이미 올바른 방향으로 가고 있긴 하지만 개선 여지가 있다는 뜻이겠네요, 왜냐하면 가장 완벽한 모델은 yw가 1 yl이 0에 가까울테니까요.
이 값이 시그모이드에 넣어 확률로 변환되면 0.5보다 큰 값을 가질테고 다시 log에 들어가면 1보다 반드시 작으므로(시그모이드의 출력은 0~1) 음수 값을 가집니다. 그런데 앞에 또 -가 붙으니까 결국 L_DPO = 0.45 이런식으로 나옵니다.
이 값은 역전파 과정을 통해 policy를 업데이트 하게 될테고, 이는 yw가 커지도록,yl이 작아지도록 학습될 것입니다.
MMed-RAG
MMed-RAG는 Med-VLMs의 사실성을 높이기 위한 시스템으로, 3가지 모듈로 구성됩니다.
- MMED-RAG: A VERSATILE MEDICAL RAG SYSTEM
- ADAPTIVE RETRIEVED CONTEXT SELECTION
- RAG-BASED PREFERENCE FINE-TUNING
이렇게 세 가지 상호보완적인 모듈로 구성되는 MMed-RAG를 자세하게 설명하는 부분입니다
3.1 MMED-RAG: A VERSATILE MEDICAL RAG SYSTEM

다양한 의료 이미지를 도메인 label을 지정하는 domain identification module을 사용합니다.
의료 이미지를 입력으로, 해당 도메인 레이블을 출력으로 하는 소규모 데이터세을 만들어 BiomedCLIP모델을 fine-tuning하여 도메인 인식 능력을 향상시킵니다. BiomedCLIP모델은 주어진 입력이미지 Xv에 대해 도메인d=F(Xv)를 예측합니다.
각 도메인별 검색기 Rd는 대조학습으로 학습되며 Ximg,Xtxt는 각각의 인코더 Eimg,Etxt에 의해 처리되어 텍스트 임베딩 Vtxt = Etxt(Xtxt)와 시각 임베딩 Vimg = Eimg(Ximg)를 생성합니다. 이후 이미지 Xv에 대해 상위 k개의 유사한 보고서 xr을 검색하여 검색된 보고서는 Med-LVLM의 생성과정에 참조로 활용됩니다.
여기서 말하는 바를 요약하자면 여러 의료 이미지를 먼저 Domain identification을 이용해서 domain을 예측하였고
사용된 모델은 BiomedCLIP입니다. 이 모델은 직접 데이터셋으로 fine-tuning하였고 예측한 domain은 대조학습으로 훈련되었고 최종적으로 입력이미지 x를 학습된 Rd에 입력하면 이미지와 가장 유사한 보고서 몇개를 Med-LVLM에 제공됩니다.
3.2 ADAPTIVE RETRIEVED CONTEXT SELECTION

그림을 보면 3.1절에서 하는 말이 잘 그려져있는 것을 볼 수 있습니다
도메인 검색 메커니즘에 이어, 컨텍스트의 최적량을 결정하는 것이 다음 문제입니다. hallucination문제가 발생할 수 있습니다.
이 저자는 검색된 컨텍스트의 유사도 점수를 기반으로 k를 동적으로 선택하는 adaptive method를 제안합니다
기존에 fixed-k method는 검색 과정에서 생성된 유사도 점수를 무시하기 때문에 최적의 성능을 보장하지 못하기 때문이라고 합니다.

검색된 컨텍스트 간의 유사도 점수는 특정 결과 수 이후에 급격히 하락하는 경향이 있습니다
이는 fixed-k를 사용할때, 특히 k값이 너무 클 때, 상위 k개의 컨텍스트에 저품질 정보가 포함될 수 있음을 시사합니다.
이 문제를 완화하기 위해, Gap통계 방법에서 영감을 받아 상위 k개의 컨텍스트를 검색한 후, 연속적인 검색 결과 간의 similarity ratio을 분석하여 k최적화를 추가로 수행합니다. 유사도 비율 u = log(Si / Si+1)로 정의되며 여기서 Si는 i번째 검색 컨텍스트의 유사도 점수이고 0<i<=k입니다. u가 미리 정의된 임계값을 초과하면 관련성이 크게 떨어졌음을 나타내며, 이후의 검색 결과는 모델 출력에 기여할 가능성이 낮습니다. 이 시점에서 k를 잘라내어 덜 관련성 있는 후속 검색 결과를 효과적으로 제외한다고 합니다
이 방법은 가장 관련성 높은 컨텍스트만을 유지하여 최종 응답 생성에 사용함으로써 환각 위험을 줄이고 출력의 사실적 정확도를 개선한다고 합니다. 임계값은 고정되어있지만 검색된 컨텍스트의 편향과 분산을 균형 있게 조절하는 방법으로 전반적인 성능을 향상시킨다고 합니다
요약하자면 fixed -k method는 유사도 점수 분포를 무시해 저품질 컨텍스트를 포함할 수 있기 때문에
검색된 컨텍스트와 유사도 점수S를 분석해서 관련성이 하락하는 지점을 임계값을 통해 알아낸 뒤 저품질 컨텍스트를 제외하는 방법을 도입하였습니다.
임계값이 데이터셋마다 다를수도있고 특정 돔인에서 다를 수도 있는데 어떻게 정했는지 궁금합니다. 그리고 이 방법이 메모리나 cost면에서 어떤 효율이 있을지도 궁금하네요
3.3 RAG-BASED PREFERENCE FINE-TUNING

MMed-RAG는 Med-LVLM에 신뢰할 수 있는 검색된 정보를 제공합니다. 그러나 이렇게 검색된 정보를 통합하는 과정은 alignment를 방해할 수 있다고 합니다
LLaVa-Med-1.5모델을 사용해 Harvard-FairVLMed 데이터셋에 두 가지 테스트를 수행했습니다
1.Modality alignment test
- 원본 이미지를 노이즈가 심한 이미지로 대체 -> 원래 모델은 잘못된 답변
- RAG적용 후 : 55.08%가 원본 이미지 기반 답변 -> 모델이 이미지를 무시하고 검색 컨텍스트에 의존
2.Overall alignment test
- RAG적용 후 원래 맞던 답변의 43.31%가 틀림 -> 잘못된 검색 정보가 간섭함
이런 alignment문제는 RAG기반 선호도 미세조정(RAG-PT)를 통해 해결한다고 합니다
사실 여기서 말하는 두 가지 문제는 저도 RAG기법을 처음 들어봤을때부터 예상핶던 문제였습니다
특히 이 실험결과인 43.31%가 원래 맞는데 틀리게 되었다는 게 가장 충격적입니다. 오히려 검색된 정보가 모델을 혼란스럽게 하다니,, 사실 RAG는 LLM의 환각 문제를 해결하는 대안 중 하나인데 결과로만 보면 오히려 환각을 만들고 있었을수도 있겠네요
Preference pairs for Cross-Modality Alignment
방금 위에서 말한 alignment 중 Cross-Modality문제를 어떻게 조정하냐에 대한 부분입니다선호되는 응답(Pi)와 비선호되는 응답(Ni)를 통해 선호도 쌍 Dcm으로 모델이 이미지 입력을 우선시하도록 학습됩니다선호되는 응답 Pi는 모델이 이미지 Xv와 검색 정보 x를 사용해 올바른 답변 y를 생성비선호 응답Ni는 관련없는 이미지 X'v로 올바른 답변을 내는 경우만약 모델이 방사선 이미지를 보고 폐렴을 정확히 진단하면 Pi입니다. 하지만 노이즈로 뒤덮인 엉뚱한 이미지에서도 검색된 보고서만 믿고 폐렴이라고 말하면 Ni로 간주합니다. unrelated images X'v는 두 개의 과정을 통해 만들어집니다. 1.retreiver을 사용하여 대상 이미지와 유사도가 가장 낮은 이미지 X'v를 선택합니다2.선택된 관련 없는 이미지에 diffusion noise를 추가합니다

이 식은 확산 모델에서 쓰이는 방식이라고 합니다X*v : 최종적으로 생성된 이미지X'v : retreiver로 선택한,원본 이미지와 유사도가 가장 낮은 이미지epislon : 무작위 노이즈Es : 노이즈 스케일링 파라미터,0~1사이 값으로 노이즈를 얼마나 많이 추가할지를 나타내는 단계논문에서는 retreiver를 사용해 원본이미지 Xv와 유사도가 가장 낮은 이미지 X'v를 찾습니다예를 들어 Retriever가 데이터베이스에서 발목 X-ray이미지를 x'v로 선택했다고 하면폐렴과 관련이 매우 적으니 유사도가 낮겠습니다이제 발목 X-ray사진인 x'v에 노이즈를 추가해서 더 관련없고 혼란스러운 이미지 x*v를 만듭니다이게 저 식이 하는 방법입니다E값이 1에 가까우면 좌변만 남으므로 원래 이미지가 많이남고, 0에 가까우면 노이즈가 많이 들어갑니다이렇게 하는 이유는 직관적인 것 같습니다모델이 이미지 입력을 무시하고 검색된 정보에만 의존하는지 테스트하기 위함입니다앞에서 실험결과가 보여주듯이 원래 맞던 결과가 RAG로 인해 43.31%나 틀린다는 것은 반드시 고쳐야 하는 과제였을 것입니다. 따라서 관련성 없는 이미지에 노이즈까지 추가하여 검색 정보에 의존하는 문제를 줄여나가려는 저자의 의도가 보입니다.
Preference Pairs for Overall Alignment
여기서는 두 가지 subset으로 overall alignment를 개선한다고 합니다
첫 번째 서브셋은 D1입니다.
D1의 목표는 검색된 지식에 대한 모델의 이해와 추론 능력을 강화하는 것으로
선호되는 응답과 비선호되는 응답을 비교함으로써 모델이 검색된 정보를 더 잘 이해하고 RAG의 효과를 개선합니다
선호되는 응답은 모델이 원본 이미지와 Retrieval정볼르 모두 사용해 올바르게 답한 경우
비선호 응답은 모델이 Retrieval 정보를 사용하지 않고 이미지에만 기반하여 잘못된 답을 하는 경우
두 번째 서브세은 D2입니다
D2의 목표는 검색된 지식으로 인한 간섭을 완화하는 것입니다
선호되는 응답은 모델이 검색 정보 없이 원본 이미지에만 기반하여 올바르게 답한 경우
비선호 응답은 모델이 이미지,검색 정보 모두 사용했음에도 잘못 답변한 경우
Preference pairs인 Doa = D1과 D2의 합집합입니다.
이렇게 구성된 선호도 데이터를 기반으로, DPO를 사용하여 Med-LVLM을 미세 조정하여,초반에 언급됐던 그 손실함수를 적용하는 것입니다
정리하자면 D1은 검색 정보가 유용할 때 이를 더 잘 활용하도록 돕고, D2는 검색 정보가 잘못된 경우, 모델이 내부 지식을 믿도록 유도합니다. 이 두가지가 균형을 이루면서 모델이 더 신뢰할 수 있게 되는 것 같습니다
예를 들어 폐렴 X-ray이미지에서
D1:검색된 보고서가 "페렴"에 대해 정확히 설명하면, 모델이 이를 활용해 올바른 진단을 내도록 학습
D2:검색된 보고서가 엉뚱하게 "결핵"을 언급하면 , 모델이 이미지를 보고 자체적으로 올바른 진단을 유지하도록 학습
다음으로 넘어가기 전에 지금까지 논문에서 나온 아이디어와 정보를 정리해보겠습니다논문의 주제는 의료 비전-언어모델(Med-LVLMs)의 hallucination문제를 해결하기 위한 MMed-RAG를 제안했습닌다Med-LVLM은 의료 이미지와 텍스트 질의를 처리해 진단이나 보고서를 생성하는 모델인데 몇가지 문제점이 있었습니다여기서는 두 가지 문제로 정리할 수 있겠는데요, 1.Modlity alignment Problem 2.Overall alignment problem입니다Modality문제는 모델이 이미지 입력을 무시하고 Retrieval에만 의존하는 경우이고Overall문제는 검색된 정보가 잘못되거나 간섭을 일으켜 부정확한 응답을 생성하는 것입니다또한 generalize문제도 있었습니다
저자는 이런 문제점들을 해결하기 위해 Domain Aware Retrieval MechanismAdaptive Retrieved Context SelectionRAG-based preference fine-tuning으로 총 3가지 모듈로 구성된 MMed-RAG를 제안합니다.
Domain Aware Retrieval Mechanism은 BiomedCLIP 모델을 미세 조정해 의료 이미지를 도메인으로 분류하고, 각 도메인별로 특화된 다중모달 검색기 Rd를 사용합니다. contrastive learning으로 이미지-텍스트 임베딩 간 유사성을 최적화하고 상위k개의 보고서를 검색해 Med-LVLM에 제공합니다
Adaptive Retrieved Context Selection은 fixed-k를 사용했을 때의 문제를 언급하면서 이를 해결하는 방법을 제안합니다
유사도 점수의 비율을 분석해 관련성 하락 지점을 찾아 k를 동적으로 자릅니다. 이 방법은 Gap통계 방법에서 차용하였으며 고품질 컨텍스트만 유지해 사실적 정확도를 향상하였습니다
RAG-based preference fine-tuning은 두 가지 선호도 쌍 데이터셋을 구성하는 방법입니다
modality alignment는 모델이 이미지를 우선시하도록 학습하는 방법으로
선호응답:이미지+검색 정보로 올바른 답변
비선호응답:노이즈 이미지로 올바른 답변
Overall alignment는 검색 정보 활용과 간섭 완화로
D1:검색 정보로 올바른 답변vs 검색없이 잘못된 답변
D2:이미지만으로 올바른 답변vs검색정보로 잘못된 답변
Doa = D1 U D2이며
통합 데이터셋 Dpt = Dcm U Doa로 DPO를 적용합니다
이런 방법으로 MMed-RAG가 alignment 문제를 완화하낟고 합니다
의료VQA,보고서,정확도 면에서 각각 18.5%,69.1%,43.8%향상되었습니다.
모델의 작동순서는 입력으로 의료이미지 Xv(폐렴이미지)와 임상 질의 Xt("이 이미지에 폐렴이 있나요?")를 받습니다
미세 조정된 BiomedCLIP모델로 이미지 Xv의 도메인을 예측합니다(d=방사선학)
Rd로 데이터베이스에서 이미지와 유사한 상위k개의 보고서(Xr)을 검색합니다(폐렴 관련 보고서)
검색된 보고서의 유사도 점수 Si를 분석하여 유사도 비율 Ui를 계산합니다. 임계값을 통해 k를 잘라내어 저품질 보고서는 제외시키고, 결과로 고품질 컨텍스트 Xr만 유지됩니다.
Med-LVLM에 Xv, Xt, Xr 을 입력합니다
모델은 텍스트 응답 y를 생성하고("폐렴 징후가 있습니다")
최종 응답을 사용자에게 제공합니다
Experient
MMed-RAG라는 모델에 대한 질문을 던집니다
1.기존의 모델보다 사실성을 더 잘 개선하는가?
2.Mmed-RAG의 각 구성요소가 모델 성능에 얼마나 기여하는가
3.preference data가 모델 성능에 어떤 영향을 미치는가
4.MMed-RAG가 실제로 cross-modality,overall alignment을 개선하는가
MMed-RAG 모델의 실험 설정은 다음과 같습니다
Backbone:LLaVa-Med-1.5
Fine-Tuning:LoRA
Retriever:ResNet-50으로 이미지 처리,BioClinicalBERT로 텍스트 인코더
optimizer : AdamW
learning rate:0.001
weight decay:0.01
Batch_size:32
epochs : 360
greedy decoding,beam search,DolLa,OPERA,VCD,MedDr,FactMM-RAG,RULE와 같은 모델들과 비교했고 그 결과는 이러합니다


이 결과를 보면 MMed-RAG의 성능이 매우 뛰어나다는 것을 볼 수 있습니다
다음으로는 Ablation Sudies로 모델에서 특정 부분을 빼거나 추가해서 어떤게 중요한지 테스트 해봤습니다
<Domain-aware Retrieval>
의료 도메인에 맞는 정보를 정확히 검색해서 모델에 제공하였더니 IU-XRAY:17.9%향상,Harvard~~:16.1%향상
<Adaptive Retrieval Context Selection>
검색된 정보 중에서 신뢰할 수 없는 것을 걸러내고,유용한 정보만 선택했더니 IU-XRAY:19.3%향상,Harvard~6.3%향상
<RAG-based Preference Fine-Tuning>
검색된 정보를 모델이 더 잘 이해하고 활용하도록 학습을 미세조정:IU-XRAY37.1%향상,Harvard~~:16.9%향상
MMed-RAG 덕분에 모델이 더 정확한 답변과 리포트를 만들어냈다는 결과가 계속 나옵니다
이렇게 MMed-RAG에 대한 논문 리뷰는 마치겠습니다
'논문리뷰' 카테고리의 다른 글
| AI models collapse when trained onrecursively generated data 논문리뷰 (0) | 2025.05.19 |
|---|---|
| Mixture-Of-Expert 논문리뷰 (0) | 2025.04.22 |
| ColPali논문 리뷰 (0) | 2025.04.09 |