2024.7.24일 Nature에 실린 논문입니다AI models collapse when trained on recursively generated data | NatureGPT2, GPT3, GPT4 등 다양한 LLM모델이 출시되고, 이러한 LLM모델이 생성하는 데이터가 온라인에서 퍼지고, 이 데이터로 다시 학습하게 되는 반복을 통해 원래 데이터의 꼬리가 없어지는 현상을 볼 수 있습니다논문에서는 이를 "model collapse"라고 하며 LLM뿐만 아니라 VAE, GMM 같은 모델에서도 발생할 수 있다고 말합니다 model collapse는 한 세대의 모델이 생성한 데이터가 다음 세대 모델의 데이터셋을 오염시키고, 이 오염된 데이터로 학습된 모델은 mis-perceive reality(현실을 잘못인..