LLM은 인터넷의 거의 모든 텍스트를 학습 데이터로 사용했고, 그중에는 개인의 이메일·게시글·문서가 포함될 수 있습니다.
「내 정보가 모르는 사이에 AI 학습에 들어갔는가」라는 우려가 매우 커지고 있습니다.
기술적 위험은 두 가지입니다.
첫째, 「학습 데이터 추출」 — 충분히 큰 모델은 학습한 텍스트의 일부를 거의 그대로 출력할 수 있다는 사실이 연구로 밝혀졌습니다.
「내 이름 + 회사」 같은 프롬프트로 학습 데이터에 있던 개인 정보가 노출될 가능성이 있습니다.
둘째, 「대화 기록의 학습 사용」 — 사용자가 ChatGPT 같은 서비스에 보낸 대화가 모델 개선에 쓰일 수 있습니다.
회사 기밀, 개인 의료 정보, 비밀번호 같은 민감 정보를 무심코 입력하면 향후 다른 사람의 답변에 영향을 줄 수 있습니다.
GDPR(EU)·CCPA(캘리포니아) 같은 개인정보 보호 법은 「자기 정보의 처리·삭제 요구권」을 보장합니다.
그러나 LLM의 「가중치에 녹아든 정보」를 어떻게 「삭제」할지는 기술적으로 매우 어려운 문제이며, 학자들이 「machine unlearning」이라는 새 분야로 활발히 연구 중입니다.
기업·개인의 대응책은 다음과 같습니다.
1) 「민감 정보를 LLM에 입력하지 않기」가 첫 번째 원칙.
2) 사내 데이터는 「자체 호스팅 LLM(오픈 모델 + Ollama·vLLM)」으로 처리.
3) API 사용 시 「학습 거부 옵션(zero-retention)」 활용.
4) RAG로 데이터를 외부에 보내지 않고 검색만 결합.
한 줄 요약
LLM은 학습 데이터의 일부를 출력할 수 있고, 사용자 대화도 학습에 쓰일 수 있어 프라이버시 우려가 큽니다.
자체 호스팅·zero-retention·RAG 같은 기술적 대응이 활발해지고 있습니다.
더 알아볼 것
- Machine Unlearning — 학습된 정보 삭제 기법
- Membership Inference Attack
- ChatGPT의 데이터 사용 정책