2024.7.24일 Nature에 실린 논문입니다
AI models collapse when trained on recursively generated data | Nature
GPT2, GPT3, GPT4 등 다양한 LLM모델이 출시되고, 이러한 LLM모델이 생성하는 데이터가 온라인에서 퍼지고, 이 데이터로 다시 학습하게 되는 반복을 통해 원래 데이터의 꼬리가 없어지는 현상을 볼 수 있습니다
논문에서는 이를 "model collapse"라고 하며 LLM뿐만 아니라 VAE, GMM 같은 모델에서도 발생할 수 있다고 말합니다
model collapse는 한 세대의 모델이 생성한 데이터가 다음 세대 모델의 데이터셋을 오염시키고, 이 오염된 데이터로 학습된 모델은 mis-perceive reality(현실을 잘못인식)합니다.
model collapse에는 early model collapse와 late model collapse가 있습니다
early는 모델이 데이터 분포의 꼬리를 잃기 시작하는 것이며 late는 원래 분포와는 거의 닮지 않은 수렴된 분포를 따르게 되며 이 경우, 분산이 크게 줄지 않는다고 합니다

이러한 붕괴 과정은 아래 세 가지 요소가 누적되기 때문이라고 합니다.
Statistical approximation error
Functional expressovity error
Functional approximation error
Statistical approximation error
-샘플수가 유한하기 때문에 발생하는 오류입니다. 만약 샘플이 무한하다면 오류가 없습니다.매 단계에서 리샘플링을 해서 정보가 손실될 확률이 0이 아니기 때문입니다
Functional expressovity error
-모델이 가지는 함수 능력의 한계입니다.신경망은 이론적으로 universal approximator(이게 머임)이지만, 그 성질은 데이터가 무한할 때 발휘한다고 합니다. 그 결과, 원래 분포에 0을 할당하거나 분포밖에 0이 아닌 값을 할당하는 문제가 발생합니다.
간단한 예시로 두 개의 가우시안 분포를 하나의 가우시안 분포로 근사하려 한다면, 데이터를 완벽히 가지고 있더라도 모델의 표현한계 때문에 오류가 불가피합니다. 이 오류는 다른 두 오류가 없다면 오직 1세대에서만 발생할 수 있습니다
Functional approximation error
-learning procedure의 한계 때문에 발생하는 오류입니다. gradient descent, objective function과 같은 학습 알고리즘 때문에 데이터가 무한하고 모델의 표현력이 완벽하더라도 학습 절차가 불안정하다면 오류가 발생할 수 있습니다
표현력이 강한 모델은 양날의 검입니다. 통계적 노이즈를 줄여서 실제 분포에 근사하는 좋은 결과를 낼 수도 있고, 노이즈를 증폭할 수도 있습니다.
more often than not(자주), 연쇄효과가 발생하는데, 개개의 부정확함들이 모여 오류를 키우는 것입니다. 예를들어 오버피팅된 density 모델은 부정확하게 추론하게 하고, 그 결과 훈련 데이터에서 거의 나타나지 않은 영역에 높은 확률이 부여되어, 이후 샘플링에서 많이 뽑히게 됩니다.
이외에도 컴퓨터의 정밀도 한계가 있습니다.
이러한 오류들이 어떻게 실제로 model collapse를 유도하는지 수학적으로 설명합니다
세대i에서의 데이터셋은 Di로 표시되며 이는 i.i.d. 랜덤 변수 X의 집합입니다.
이 변수들은 분포 pi를 따르며 세대 i에서 i+1로 넘어갈 때, Di의 샘플분포를 근사적으로 추정합니다
이 근사 분포를 p세타 i+1로 나타내며 이 과정을 함수 근사라고 부릅니다
세대 i+1의 데이터셋 Di+1은 p = α p + βp + γp를 통해 생성됩니다.
여기서 알파는 새로운 모델, 베타는 이전 세대, 감마는 원래 분포로부터 온 데이터의 비율인데 이론 모델에서는 간단화를 위해 베타, 감마를 0으로 가정합니다. 즉 각 세대는 오직 해당 세대 모델이 생성한 데이터만으로 학습됩니다. 반면 실제 수치 실험에서는 보다 현실적인 파라미터 값들에 기반한 실험을 수행합니다
함수 근사 오류 및 표현력 오류가 전혀 없는 경우, model collapse는 오직 샘플링 단계에서 발생하는 통계적 오류로 인해 발생합니다. 처음에는 분포의 꼬리-즉, 확률이 낮은 사건들이 사라지기 시작합니다.(샘플링될 확률이 낮으므로) 그리고 시간이 지남에 따라 분포가 축소됩니다.
샘플 크기를 M이라 하고, 어떤 상태 i가 발생할 확률을 q<=1/M이라고 가정하면 해당 상태 i의 샘플링 기댓값이 1보다 작게 되기 때문에 시간이 충분히 지나면 모델이 하나의 상태에 집중된 delta function으로 수렴하게 됨을 의미합니다.
어느 상태에 수렴하게 될지는, 초기 분포에서 그 상태가 샘플링 될 확률에 따라 결정된다고 합니다.
Xi→F→pi→Xi+1 과정은 마르코프 연쇄과정입니다. Xi+1은 오직 Xi에만 의존합니다
마르코프 체인에 의해 이전 세대 모델이 만든 데이터를 기반으로 학습되고 이를 반복하면 특정 상태에 갇히는 상황이 생길 수 있고, 이를 흡수상태라고 합니다.
흡수상태에 도달하면 영원히 거기 머물게 되는데, 모델이 "A만 생성하겠다"라고 하면 그다음 세대도 A만 보고 A만 배우고, 점점 A만 생성하게 되어 절대 벗어나지 않게 됩니다.
다음으로는 가우시안 분포를 통해 설명합니다
어떤 초기 데이터 D0에서 출발해서, 매 세대마다 이전 세대 데이터의 평균,분산을 추정해 새 모델을 만든다면 세대가 거듭될수록 분산은 0이 되고 Wasserstein-2 거리는 무한대가 됩니다. 그리고 이 모든 건 1의 확률로 발생합니다.
즉 매번 평균과 분산으로 모델을 만들게 되므로, 시간이 지날수록 분산이 줄어들고 결국에는 확신이 지나치게 강해져서 분산이 0이 되고 다양성이 사라진다는 말을 합니다
지금까지 정리하자면
세가지 주요 오차 이론과 수학적 모델링 방법을 제시하며 model collapse를 설명합니다.
오차 이론에는 statistical approximation error, functional expressivity error, functional approximation error가 있습니다
샘플수가 유한하기 때문에 낮은 확률 데이터는 샘플링에서 누락될 수 있고, 신경망이 완벽히 표현하지 못하며, 경사하강법과 같은 학습 방법에서 오차가 발생한다는 이론이었습니다
수학적 모델링 방법에는 각 세대 i에서의 데이터셋을 Di라 하고, 이 데이터셋은 분포 pi를 따른다고 할 때 모델의 학습과정을 마르코프 체인으로 간주할 수 있고, 이 체인은 결국 델타함수 상태로 수렴하게 됩니다. 델타 함수는 이 체인의 흡수상태이며, 한번 들어가면 빠져나오지 못합니다. 이것은 이미 증명이 되어있는 것이라고 하며 가우시안 분포로 D0에서 wasserstein거리가 커지고 분산이 줄어드는 것도 설명합니다.
다음은 Fine-tuning을 통해 저자가 실험을 한 내용입니다
fine-tuning모델은 Meta의 opt-125m이고 데이터셋은 wikitext2 dataset입니다
five-way beam search를 사용했고 64토큰을 잘라서 넣으면 64 토큰을 예측하게끔 하는 모델로 huggingface를 이용했다고 합니다
perplexity는 기존에 115였는데 34까지 줄어들어 성공적으로 fine-tuning했다고 했습니다.
여기서 이제 두 가지 방법으로 실험합니다
첫번짼는 5 에폭, original train data 없이 진행합니다. 즉 이전 세대 모델의 출력으로 다음 세대가 받고 다시 출력하고,,,를 반복하는 것입니다
두 번째는 10 에폭, original train data를 10% 보존합니다. 나머지는 위의 방식과 동일합니다

왼쪽 그래프를 보면 됩니다
위가 5에폭, 아래가 10 에폭입니다
둘 다 generation9까지 세대를 늘렸고 perplexity를 평가했습니다
세대를 거듭할수록 꼬리가 길어진 것을 볼 수 있습니다
이는 기존 모델에서 만들어질 수 없는 분포의 값을 가지게 되며 기존에 많이 보이던 곳에서 빠져나오는 것을 볼 수 있습니다
만약 generation0과 generation9만 있었다면 두 분포가 겹치는 곳은 정말 작을 것입니다.
이게 반드시 문제라고 하지는 않습니다.
애초에 이것은 양날의 검입니다.
모델이 스스로 기존에 없던 , 즉 제로샷 성능이 저 분포에서 나와서 제대로 나올 수도 있기 때문입니다
근데 여기서 말하고자 하는 건 두 모델의 분포인 것입니다.
자 그러면 정량평가 예시를 보겠습니다

Input으로는 1360년대의 건축에 대해서 말합니다
0세대(기존모델)는 깔끔하고 정확하게 얘기한다고 합니다
그리고 세대를 거듭하면 할수록 점점 이상해집니다
5세대까지 됐을 때는 input의 본질을 잃었고 9세대에서는 그냥 취해있습니다
우리가 기존에 학습시킨 객관적이고 정확한 데이터뿐만 아니라 AI가 생성한 2차, 3차,,, N차 데이터까지 같이 AI가 다시 학습할 경우 본질을 잃어버리는 문제가 발생한다는 게 하고 싶은 말입니다. 논문에서 설명하기 위해 극단적으로 베타, 감마를 0으로 했지만 이는 마르코프체인이 뒷받침해 줍니다. 그리고 만약 그 가중치들이 다 섞여있다고 하더라도 무한하게 세대가 거듭한다면 이 결과가 바뀌지는 않을 것입니다. 이렇게 생성한 데이터가 다시 웹에 떠돌고 사람들이 본다면 LLM의 표현력은 다양하고 많아질지라도 이게 환각을 불러오고 사회적으로 문제가 될 가능성이 큽니다.
VAE, GMM도 증명하던데 그건 여기에 있습니다. AI models collapse when trained on recursively generated data
'논문리뷰' 카테고리의 다른 글
| Mixture-Of-Expert 논문리뷰 (0) | 2025.04.22 |
|---|---|
| MMED-RAG논문 리뷰 (0) | 2025.04.15 |
| ColPali논문 리뷰 (0) | 2025.04.09 |