튜링 테스트의 의미와 한계

1950년 영국 수학자 앨런 튜링은 「기계가 생각할 수 있는가」라는 거대한 질문을 한층 다루기 쉬운 형태로 바꿔 던졌습니다.

「판정자가 화면 너머의 두 상대(사람 한 명과 기계 한 명)와 자유롭게 글로 대화한 뒤, 어느 쪽이 사람인지 가려내지 못한다면 그 기계는 사실상 생각하는 것으로 보아도 좋다」는 제안이었습니다.

이 시험을 「튜링 테스트(Turing Test)」 또는 「모방 게임(Imitation Game)」이라 부릅니다.

비유로 풀어 보면 마치 「전화기 너머의 상대가 사람인지 봇인지 맞히는 게임」과 같습니다.

튜링은 기계의 본질을 미리 정의하기보다 「충분히 사람처럼 행동한다면 사람과 똑같이 대해도 좋다」는 행동주의적 입장을 택했습니다.

이 단순하면서도 도발적인 정의는 이후 70년 넘게 AI의 목표를 가리키는 가장 유명한 잣대가 되었습니다.

그러나 튜링 테스트에는 분명한 한계가 있습니다.

첫째, 「사람을 잘 흉내 내는 능력」과 「실제로 이해하는 능력」은 같지 않습니다.

1966년 만들어진 ELIZA라는 단순한 챗봇은 정신과 의사 흉내만 내고 정작 한 마디도 이해하지 못했지만, 많은 사용자가 그것을 진짜 사람으로 착각했습니다.

「잘 속이는 것」이 「이해」의 충분한 증거가 될 수 없다는 사실이 드러난 셈입니다.

둘째, 오늘날의 LLM은 대화에서는 사람과 거의 구분되지 않을 만큼 발전했지만, 기초적인 산수에서 실수를 하기도 하고 존재하지 않는 사실을 그럴듯하게 지어내기도 합니다(이를 「환각」이라 부릅니다).

튜링 테스트는 「자연스러운 대화」 한 가지에만 집중하므로, 이러한 다른 측면의 지능을 평가해 주지 못합니다.

그래서 현재의 AI 연구는 튜링 테스트 대신 MMLU(다양한 과목의 시험), HumanEval(코딩), GPQA(전문가 수준 질문) 같은 여러 벤치마크로 모델을 평가합니다.

튜링 테스트는 여전히 의미 있는 출발점이지만, 더 이상 「AI의 최종 목표」로 쓰이지는 않습니다.

한 줄 요약

튜링 테스트는 「대화에서 사람과 구분되지 않으면 생각한다고 보자」는 도발적 제안이지만, 잘 속이는 능력과 이해하는 능력은 다르므로 오늘날에는 여러 벤치마크로 보완해 평가합니다.

더 알아볼 것

- 중국어 방 사고 실험 — 「이해」와 「흉내」의 구분

- ELIZA — 첫 챗봇이 만든 착각

- 현대 LLM 평가 벤치마크 정리