튜링 테스트

Turing Test

1. 개요
2. 과정
2.1. 최초의 통과사례?
2.2. 애슐리 매디슨 튜링 테스트 통과?
3. 트리비아
4. 관련 문서

1. 개요

기계가 인간과 얼마나 비슷하게 대화할 수 있는지를 기준으로 기계에 지능이 있는지를 판별하고자 하는 시험으로, 1950년 앨런 튜링이 제안한 시험이다. 이미테이션 게임이라고도 부른다.

인공지능 연구의 초기 단계에서는 지능이 무엇인지에 대한 명확한 해답이 존재하지 않았다. 무엇이 인간다운 것인지도. 2500년 역사를 자랑하는 철학조차도 인간, 인간다운 것이 무엇인지 기준선을 제시하지 못했으니 어찌 보면 당연한 일이다. 그런 상황에서 튜링은 지능, 인공지능의 기준선을 정하는 것은 나중으로 미루고, 일단 인간이 보기에 인간 같은 것을 인간에 준하는 지능이 있다고 간주하기로 한다.

이것에 앨런 튜링은 "마음과 지능, 인간다움의 본질에 대한 논의는 그만두고, 일단 이 시험을 통과하는 모든 것은 확실히 '지적이다' 라고 합의한 다음에, 이 시험을 통과하는 기계를 어떻게 만들 수 있을지로 논의의 방향을 돌리는 것이 훨씬 발전적이지 않느냐" 고 발언했다.

2. 과정

질의자 하나와 응답자 둘을 준비, 응답자 중 하나는 컴퓨터이고 나머지는 인간. 어느 쪽이 컴퓨터인지는 모른다. 응답은 키보드로만 이루어지고 이 테스트에서 질의자가 어느 쪽이 컴퓨터인지 판별할 수 없다면 컴퓨터는 시험을 통과한다. 즉 컴퓨터가 인간처럼 대화를 할 수 있다면 그 컴퓨터는 인간처럼 사고할 수 있다고 본다는 것. 이건 가장 기본적인 튜링 테스트인데, 10명 중 2~3명을 낚은 인공지능은 있었지만 현재까지 이걸 통과한 인공지능은 없었다. 1라운드부터 공략 불가 캐릭터

기본인 튜링 테스트도 이런데 후술할 CAPTCHA 연산이야 말할 것도 없고, 스스로 무언가를 창작하는 수준은 까마득하다.

튜링 테스트를 응용한 보안 기술이 CAPTCHA인데, 사람은 변형된 글자를 봐도 간단히 풀 수 있는데, 컴퓨터에 저장된 건 정자밖에 없으므로 변형된 글자를 읽지 못한다. 필체인식이 있지만, 이것도 사람이 어느 정도 자료를 넣어줬기 때문에 가능한 것. 최근 CAPTCHA에 대한 연구가 나오고 몇 개는 술술 뚫리지만, 더 빡센 CAPTCHA는 비가역적 연산이 산더미라 컴퓨터가 뚫기 무진장 어렵다. 제일 간단한 예시로 컴퓨터는 5살 아이도 할 수 있는 개와 고양이의 차이도 잘 구분하지 못한다. 특히 고양이를 고르라는 문제에서 털옷(산타복장 등)을 입혀놓은 고양이 사진 같은 게 CAPTCHA에 간간이 뜨기도 하는데 이러면 컴퓨터 입장에선 충공깽수준. 다만 현재는 인공 신경망과 기계학습의 발달로 인간보다 더 뛰어나게 구분이 가능하다. 사람마다 다른 얼굴을 보고 누군지 구분하는 것도 예전에는 인공지능이 사람의 능력을 전혀 따라오지 못했지만 현재는 인간보다 인식률이 높다. 그런데 머신러닝은 중국어 방 문제와 직결된다. CAPTCHA는 튜링 테스트에서 일종의 2단계 수준.

더 높은 수준의 튜링 테스트는 시각 및 청각으로도 의사소통을 해야 한다. 즉 화상 전화로 시험하게 된다. 억양, 몸짓, 표정 등이 아니라 무진장 더 높은 차원으로 인간과의 유사성을 만족해야 한다. 이 정도는 통과해야 사회생활이 가능한 수준이 될 수 있으므로, 굳이 따지고 보자면 일종의 3단계 수준.

일반인(?)들은 튜링테스트가 인공지능을 증명하는 절대적인 방법이라 생각하는 경향이 있으며 이는 창작자들 역시 예외가 아니라 인공지능을 설정하며 튜링테스트를 통과했다는 언급을 필수적으로 하곤 하는데, 사실 이 테스트는 인공지능학이라는 범주에서 보면 그저 참고 사항일 뿐 기준점은 아니다.

튜링 테스트는 '어떤 인간'은 통과할 수 없는 경우가 생기는 반면, '(튜링 테스트에)특화된 인공지능'은 모두 통과할 수 있는 경우가 동시에 생기는 것도 가능하기 때문에 시험의 본질에 적합하지 않아서다.[1] CAPTCHA 여러 번 틀려서 로그인이 막힌 인간도 수두룩하다 아무리 봐도 0인지 O인지, 1인지 I인지 구별하기 어렵다~

다만, 이 튜링 테스트가 개발된 것은 20세기 중반이다. 정보화 혁명의 시작과 동시에 급격한 과학적, 기술적 발전을 이뤘음에도 과거의 유물이 되었어야 할 튜링테스트를 객관적으로 대체할 만한 마땅한 수단이 나오지 않았다는 것은 현대인으로서 생각해 봐야 할 과제이다.

2.1. 최초의 통과사례?

2014년 6월에 영국 레딩 대학에서 개발한 '유진'이라는 프로그램이 튜링 테스트를 통과했다...고 기자들이 설레발을 쳤다.(기사) 심사위원단의 33%가 이 프로그램을 사람으로 인정하여 기준인 30%를 넘어섰다. 그러나 전문가들은 회의적이다. 직접 실험해보니 우크라이나에 산다고 대답해놓고 우크라이나에 가 본 적이 있냐고 묻자 가 본 적이 없다고 대답했다고 한다.(...)허언증 걸린 기계 기사

영국 레딩 대학은 세계 최고의 인공지능 & 로봇 덕후 중 하나인 케빈 워릭 교수가 재직하고 있는 대학이다. 이 사람은 쥐 태아의 뇌 조직을 이용한 로봇을 개발하기도 하고 스스로의 몸에 RFID 칩을 이식하기도 했다. 이 사람의 저서 「나는 왜 사이보그가 되었는가」도 참고할 만하다.

이를 엄밀히 '인공 지능' 이라고 할 수는 없다. 입력 문장에 따라 무엇인가 추론하는 것이 아니라 규칙에 기반해 출력을 뱉어내는 알고리즘이기 때문에 주류 인공지능 알고리즘과는 비교 자체가 치욕인 수준이다. 사실 33%라는 성공률도 불과 3명 중 1명 꼴인 수준이다. 또한 실험 중에 이 프로그램을 우크라이나에 사는 13세의 아이로 설정하여 통과하였다. 실제로도 첫 탄생 이후 시험 수행까지 자료 축적에 13년이 소요되었고 프로그램을 만든 베셀로프 역시 "믿을 만한 성격을 만들기 위해 노력했다"고 말한 것까지 감안하면, 순수하게 인공지능으로 뚫었다기보다는 그 한계를 '심리학'(=감정)으로 보완해 기술 지체(문화 지체의 반대)를 극복했다고 봐야 한다. 사실 순수하게 인공지능만으로는 뚫을 수도 없다. 어중간하게 닮으면 불쾌한 골짜기 현상이 발생, 사람으로 인정받기 더욱 어려워지기 때문. 굳이 이 성과를 인정해 주더라도, 유진은 겨우 1단계에서 턱걸이를 한 수준이다.

튜링 테스트에 대한 흔한 농담 중에 진짜 인공지능을 구축하는 것보다는 시험자가 선호하는 질문 패턴을 파악해서 그에 대한 답변 목록을 만들어주는 쪽이 더 편하다는 이야기가 있다. 예를 들어, 이름이나 나이, 거주지 등 인적사항 파악 단계를 넘어가면 '사랑이 뭔지 아니' 같은 추상적인 질문을 통해 상대가 인간인지 컴퓨터인지 가려내려고 하는 시험자가 많으니 사랑이 뭐냐거나, 사랑을 해 본 적 있느냐는 질문에 대한 대답을 준비해두면 유리하다는 식.

1998년 12월 기준 미국이 만든 최신의 인공지능이 지렁이 수준(...진짜 이렇게 발표했다!)이었고 2000년까지 꿀벌 수준의 지능을 가진 인공지능을 만드는 것이 목표였다고 한다. 물론 유진과는 아무 상관 없다.

유진보다 나은 사례를 찾자면 나딘의 예를 들 수 있다. 나딘은 자폐증 또는 치매 환자와의 상호작용을 위해 개발되고 있기 때문에, 튜링 테스트를 통과하는 것이 매우 중요하기 때문. 더불어 이 목표에는 3단계 수준인 TOM을 통과하는 것도 포함되어 있다.

2.2. 애슐리 매디슨 튜링 테스트 통과?

애슐리 매디슨 채팅 봇이 튜링테스트를 통과했다라는 식의 내용이 있었다. 수많은 남자 회원들이 자신들이 대화한 상대가 실제 여성 회원이 아닌 채팅봇인 줄도 모르고 지속적 대화를 위해 계속 유료 결제를 하였다. 특히 채팅봇은 아무리 오래 대화해도 직접 만나줄 가능성이 0%고, 계속 만나줄 듯 말 듯 대화만 하므로 계속 대화하기 위한 남성 회원들의 유료 결제액이 많다고 한다.

하지만 이건 튜링테스트의 기본을 무시한 것이다. 애초에 튜링 테스트는 인공지능을 가지고 있는지를 알기 위한 것이지, 인간을 속이는 것이 목적이 아니다. 더구나 채팅봇은 상단에도 있지만 예상 답변을 미리 입력해두기 쉽고, 해당 사이트의 특성상 대화의 내용도 한정된다. 튜링테스트 1차만 해도 상대에게 봇과 인간이 동시에 존재한다는 것을 알려주지만, 해당 사안은 상대가 인간이 아니라 봇일 수 있다는 것은 전혀 주어지지 않은 상황이다. (제대로 된 튜링 테스트처럼) 상대가 봇일 수도 있으며 이를 가리는 것이 목적이라고 알려 주었다면, 이용자들은 당연히 봇인지 아닌지를 판별하기 위한 질문을 했을 것이다. 그리고 이용자들 입장에서는 상대가 봇이라고 생각했다고 해도 피드백을 할 방법이 없다. 어느 정도 위화감을 느낀다고 해도 사실을 전혀 모르는 사람은 이게 로봇이라는 확증도 없어서 사이트 측에 항의할 수도 없으니 말이다.

실제 애슐리 매디슨 봇은 가상 인물의 프로필과 사이트에 맞는 가상 답변 등을 미리 넣어두고, 예상치 못한 답변은 얼버무리는 정도면 충분하다. 해당 상황에 속아넘어간 사람은 엄청나게 많고, 상대가 봇이라고 알려주지 않았을 경우에는 더더욱 그렇다. 한마디로 연애판 심심이에게 속아넘어갔다는 거네.

채팅봇은 그 자체로 활용도가 많으나, 이걸 인공지능이라고 부르는 것은 상당히 곤란하다.

3. 트리비아

영화 더 머신에서는 인공지능에 TOM으로 튜링테스트를 시도하였다.(예: 샐리와 앤 문제)

인간의 정신을 탐구하는 심리철학에서도 뜻하는 바가 크다.

미국의 철학자 존 설(John Searle)이 튜링 테스트를 비판하기 위해 중국어 방 논변을 제시한 바 있다. 튜링 테스트를 통과했다는 것이 곧 마음을 갖고 있다는 것을 의미하지는 않는다는 게 설의 요지다.

인지과학자 더글러스 호프슈태터는 "사이언티픽 아메리칸"에서, 튜링 테스트 상황에서 상대방에게 단 하나의 질문을 할 기회가 주어진다면 어떻게 하겠느냐는 질문에 "만일 당신에게 튜링 테스트 상황에서 상대방에게 단 하나의 질문을 할 기회가 주어진다면 어떻게 하겠느냐"를 질문할 것 같다고 하였다. 처음엔 가볍게 웃기다가도 이내 심각하게 다시 생각해보게 되는 우문현답.

질의자에게 자신이 사람이라고 믿게 하는 것을 넘어, 질의자 스스로가 컴퓨터라고 믿게 하면 추가점수를 얻을 수 있다 카더라(...). #

미국 조지아텍 대학에서 2016년 1월부터 인공지능(AI) 관련 온라인 교과 과정에 '질 왓슨'이라는 이름의 조교가 활동하였다. 그런데, 진실은 이 질 왓슨은 이름 그대로 바로 그 왓슨이었다. 질문에 대답을 받은 대부분의 학생들은 AI일 것이라 생각도 못 했다고 한다. 사실 Assistant Instructor의 약자라 카더라 관련기사 ..

영화 블레이드 러너에 등장하는 보이트-캄프 테스트는 튜링 테스트로부터 모티브를 얻은 것으로 보인다. 인공지능의 성능을 평가하는 것이 목적인 튜링 테스트와 달리 이쪽은 진짜로 인간과 레플리칸트를 구별하는 것이 목적이지만 어쨌든 질문을 통해 인공지능 여부를 판단한다는 점은 같다. 레플리칸트는 인간과 동일한 신체구조에 생각도 로 하므로 지능과 사고방식도 인간과 동일하거나 심지어 더 우월하지만, 태어나는 것이 아니라 처음부터 성인의 모습으로 '생산'된 뒤 인공적인 기억이 주입된 것이므로 실제 길고 다양한 삶의 경험은 없어 감정이입 능력과 상상력이 부족하다. 이에 착안해 의도적으로 희한한 질문을 던져 그에 따른 감정변화를 눈동자의 미묘한 반응을 통해 포착하는 것이다. 보통 사람이라면 설령 질문내용이 자신이 겪지 않은 일이라도 다른 경험과 기억들을 조합하여 그런 감정을 '상상'할 수 있는 데 비해, 레플리칸트는 거시적이고 평면적인 인공 기억만 주입돼 있고 실제 삶의 경험이 없기 때문에 그게 안 되는 것.[2] 30년 만의 속편에 등장한 넥서스8 및 이후 모델은 수명 제한이 없어져 인생 경험을 쌓게 되어 보이트-캄프 테스트만으로는 판별하기 어려워진 대신, 아예 생산 단계에서 눈에 일련번호를 새겨넣어 구별하는 방식으로 바뀌었다.

영화 엑스 마키나의 핵심 소재이자 주제이다. 하지만 영화의 스토리는 진짜 튜링 테스트와는 거리가 있다.

둠 리부트에서 등장하는 인공지능 VEGA는 이 튜링 테스트에서 질문자 100명 중 92명에게서 인간이라 믿게 하는 데 성공했는데 사실 인간측 질의자인 대학 교수도 VEGA가 연기한 것이라 한다.

디트로이트: 비컴 휴먼에선 안드로이드가 일반화된 세상이니만큼 모든 안드로이드들이 이를 통과하는 것은 당연하게 여겨지고 있다. 이것에 추가로 안드로이드의 창시자인 캄스키는 자신이 고안해낸 캄스키 테스트란 과정을 통해 주인공 중 하나인 코너를 시험하게 된다. 이 실험은 안드로이드에게 총을 쥐어준 뒤 다른 안드로이드를 쏴 죽이도록 지시하는 실험으로, 피실험체가 명령에 따라 다른 기계를 죽이는지, 다른 기계에게 감정을 느껴 명령을 어기는지를 실험하게 된다. 답은 존재하지 않지만 플레이어의 선택에 따라 실험의 결과를 따르게 되며, 기계를 쏘면 명령을 따르는 기계였다고 하며, 쏘지 못하면 왜인지는 모르겠지만 눈을 보니 쏠 수 없었다며 변명하는 코너를 볼 수 있다.

4. 관련 문서


  1. [1] 여기에는 조금 불편한 사실이 있는데 블라인드 테스트로 '인간'을 판별함에 있어서 어떤 사람들은 이 기준을 충족시키지 못하는 일은 반드시 일어난다. 경계선 지능, 치매조현병 외에도 여러 정신질환이 여기에 해당 할 수 있다. 하지만 이걸 진지하게 이야기하기 시작하면 끔찍한 일로 발전 할 수 있기 때문에 이런 식으로 둘러 말할 수 밖에 없다.
  2. [2] 때문에 인공 기억이 아닌 실존인물의 기억이 주입된 경우 테스트를 통과할 확률이 높아지는 것으로 보인다. 가령 평범한 양산형 넥서스6 모델인데다 노동용이라 지능도 딱히 높지 않은 레온은 질문의 상황 자체를 이해하지 못해 당황해서 들통났지만, 타이렐 회장이 조카딸 릴리스의 기억을 주입해 만든 신모델 넥서스7 레이첼(심지어 자신이 레플리칸트라는 사실조차 몰랐다.)은 꽤나 많은 질문들을 유창하게 답했다. 허나 답변들이 대부분 단편적이고 좀 이상했고, 결정적으로 '연극을 보고 있는데 만찬 장면에서 사람들이 생굴과 삶은 개고기를 먹는다면?'이라는 질문은 대기업 조카딸의 기억으로는 상상 자체가 불가능한 상황이라 답변이 막혀 결국 레플리칸트임이 드러나게 된다.

최종 확인 버전:

cc by-nc-sa 2.0 kr

Contents from Namu Wiki

Contact - 미러 (Namu)는 나무 위키의 표가 깨지는게 안타까워 만들어진 사이트입니다. (69.44ms)