추천 시스템의 두 가장 기본 알고리즘이 「협업 필터링(Collaborative Filtering, CF)」과 「콘텐츠 기반(Content-based)」입니다.
두 방식은 정보 활용 방식이 정반대이며, 각자 강점과 약점이 명확합니다.
협업 필터링은 「당신과 비슷한 취향의 사람들이 좋아한 것을 추천」하는 방식입니다.
더 구체적으로 「사용자 A가 본 영화 X·Y·Z를 사용자 B도 봤다면, A가 새로 좋아한 영화 W를 B도 좋아할 가능성이 크다」는 가정에 기반합니다.
콘텐츠의 내용을 전혀 모르고도 동작할 수 있다는 장점이 있습니다.
콘텐츠 기반은 정반대 발상입니다.
「당신이 과거에 좋아한 것과 비슷한 "특성"을 가진 것을 추천」합니다.
영화라면 장르·감독·배우·테마, 음악이라면 BPM·악기·장르 같은 특성을 분석합니다.
새로 추가된 콘텐츠도 즉시 추천할 수 있다는 장점이 있습니다.
두 방식은 서로 다른 약점을 가집니다.
협업 필터링은 「Cold Start 문제」 — 신규 사용자나 신규 아이템에 대해 추천할 만한 데이터가 없음.
콘텐츠 기반은 「제한된 다양성」 — 비슷한 것만 계속 추천해 사용자가 새 분야로 확장하지 못함.
그래서 현대 추천 시스템은 거의 모두 「하이브리드」 — 두 방식을 결합 — 입니다.
협업 필터링으로 큰 그림을 잡고, 콘텐츠 기반으로 신규 아이템을 보완하고, 사용자 프로필·시간대·디바이스·날씨 같은 부가 정보까지 결합해 더 정확한 추천을 만들어 냅니다.
한 줄 요약
협업 필터링은 「비슷한 취향의 사람이 좋아한 것」을 추천하고, 콘텐츠 기반은 「비슷한 특성을 가진 것」을 추천합니다.
각자 약점(Cold Start·다양성 부족)이 있어 현대 시스템은 하이브리드입니다.
더 알아볼 것
- 행렬 분해(Matrix Factorization) — CF의 표준
- Item-based vs User-based CF
- TF-IDF — 콘텐츠 기반의 기본 도구