AI 시스템의 「편향(bias)」은 「특정 집단·관점·결과를 부당하게 우대 또는 차별하는」 경향을 가리킵니다.
「얼굴 인식이 흑인 여성에게 오류율이 10배 높다」, 「채용 AI가 남성 이력서를 우대한다」 같은 사례가 자주 보고됩니다.
편향이 만들어지는 첫 번째 경로는 「데이터 편향」입니다.
학습 데이터 자체가 사회의 기존 편향을 반영하기 때문입니다.
인터넷 텍스트로 학습한 LLM은 인터넷 글에 담긴 성별·인종·문화의 편향을 그대로 학습합니다.
「의사 = 남성」, 「간호사 = 여성」 같은 연관이 자연스럽게 들어옵니다.
두 번째 경로는 「알고리즘 편향」입니다.
같은 데이터라도 모델 설계와 학습 방식에 따라 결과가 달라질 수 있습니다.
예를 들어 다수 클래스의 정확도를 우선시하는 손실함수는 소수 집단을 자연스럽게 외면하게 됩니다.
세 번째 경로는 「배포 편향」입니다.
모델이 만들어진 환경과 실제 사용 환경이 다를 때 발생합니다.
미국 데이터로 학습한 의료 AI를 한국에서 그대로 쓰면 한국인에게 잘 맞지 않을 수 있고, 도시 데이터로 학습한 자율주행이 시골 도로에서 무너질 수 있습니다.
편향을 줄이는 방법은 모든 단계에 걸쳐 있습니다.
데이터 단계에서는 「대표성 있는 수집」, 알고리즘 단계에서는 「공정성을 명시적 목표로」, 배포 단계에서는 「지속적 모니터링」, 그리고 모든 단계에서 「다양한 배경의 사람들이 검토에 참여」하는 것입니다.
한 줄 요약
AI 편향은 데이터 편향(사회의 편향이 데이터에 반영) + 알고리즘 편향(모델 설계의 영향) + 배포 편향(다른 환경에서의 사용) 세 경로로 만들어지며, 각 단계에서 별도의 대응이 필요합니다.
더 알아볼 것
- 채용 AI 편향 사례 — 아마존 사례
- COMPAS — 형사 사법 AI의 인종 편향
- Bias bounty — 편향 발견 보상 프로그램