“정답 없다” 논란의 수능 국어 17번, AI는 어떻게 풀었을까

지난 13일 치러진 2026학년도 대학수학능력시험(수능) 직후 언론에는 “AI(인공지능)가 OO영역 1등급을 맞았다”는 보도가 쏟아져 나왔다. AI의 추론 능력, 강·약점, 모델 간 성능 비교도 이어졌다. 지난해 수능 때만 해도 일부 연구자들만이 AI로 수능 문제를 풀어본 뒤 결과를 공개했다. 1년 사이 대규모 언어 모델(LLM) 기반 AI가 눈에 띄게 발전하고 대중화된 것을 알 수 있었다.

AI 기술 스타트업 업체인 ‘마커AI’는 2023년부터 AI가 푼 수능 국어영역 점수를 블로그에 공개하고 있다. 마커AI는 올해도 2026학년도 수능 시험 정보를 AI가 인터넷에 공개된 정보로 사전 학습하기 전에, 자체 추론 능력만을 이용해 국어영역을 풀게 했다. 결과는 어땠을까.

21일 마커AI가 공개한 AI 모델별 2026학년도 수능 국어영역 성적을 보면, 챗GPT-5와 클로드 소넷 4.5, 제미나이 2.5 프로, 제미나이 3 프로 프리뷰 등의 모델이 원점수 기준 만점(100점)을 맞았다. 모두 추론 기능이 탑재된 폐쇄형 AI라는 공통점이 있다. 지난해에는 챗GPT(o1-프리뷰)가 97점으로 최고점을 기록했는데, 올해는 AI 모델의 추론능력이 향상된 것으로 보인다. 만점을 받은 AI 모델은 대체로 문제풀이에 40분 안팎이 걸렸다.

입시업계, EBS 등이 가채점한 결과를 토대로 계산한 1등급 컷을 기준으로 하면, 딥시크 V3.2 등 8개 모델은 국어영역 1등급을 받을 수 있다. 오픈소스 AI 중에서는 딥시크 V3.2가 유일하게 올해 수능 국어영역 1등급을 맞았다. 오픈소스 AI는 모델 구조와 학습 방식이 공개돼 누구나 자유롭게 활용·개선할 수 있는 AI를 말한다. 챗GPT·클로드처럼 내부 구조가 비공개인 상용 모델과는 성격이 다르다.

마커AI 대표인 정철현 한양대 산업융합학부 겸임교수는 “전반적으로 AI의 추론 능력이 1년 만에 크게 향상됐다”고 평했다. 다만 “오픈소스나 한국 AI 중에선 생각을 깊이 하더라도 1등급에 도달하는 모델이 드물었다”고 덧붙였다.

마커AI 외에 다른 연구진들도 AI들에게 국어영역을 풀어보도록 했는데, 연구진에 따라 최종 성적이 조금씩 달랐다. 같은 AI모델인데도 등급 차이가 2~3등급씩 나기도 했다. 이에 대해 정 교수는 “AI에 입력하는 프롬프트(명령어)를 최대한 능력치를 끌어내는 방식으로 구성했다”며 “문제지를 AI가 인식하도록 변환하는 정도의 차이도 영향을 미쳤을 것”이라고 말했다.

AI의 문제풀이 방식은 인간의 사고 과정과 유사했으나, 반복하며 문제를 풀고 검토한다는 점이 특징이었다. 문제의 요구사항을 파악하고 문제풀이 전략을 세운 뒤 5지 선다형 선택지를 4~5회 정도 반복해 검토했다. 각 회차마다 ① 지문 기반으로 한 선지 비교 ② 선지간 비교 ③ 지문과 문제를 연결해 분석 ④ 지문 내용 정리와 심층분석 ⑤ 문제에 대한 이해 등 다른 기준을 두고 검토했다. AI가 사전에 학습하고 있던 지식을 기반으로 답변하는 대목도 확인됐다.

AI 모델들은 올해 수능 국어영역에서 고난도 지문으로 꼽힌 철학자 칸트를 다룬 16번 문제를 가장 많이 틀렸다. 16번 문제는 칸트와 나머지 두 명의 철학자가 등장하는 지문과 1~5번 문항을 비교 대조하는 문제다. 1~5번 문항에는 칸트, 스트로슨, 롱게네스의 입장이나 공통점이 서술돼 있다.

진민성 마커AI 연구원은 “AI가 복잡한 조건이 주어진 상태에서 A-B-C간의 관계성 파악을 어려워 하는 경향이 있다”며 “LLM 기반 AI들이 텍스트의 표면적 의미에만 집중해, 지문 내용을 칸트-스트로슨-롱게네스의 입장에 정밀하게 대응시키지 못한 것으로 보인다”고 분석했다.

논란이 됐던 17번 문제는 AI(클로드 소넷 4.5)가 어떻게 풀었을까. 17번은 16번과 같은 지문을 보기로 한 문제로, 이충형 포항공대 인문사회학부 교수가 “정답이 없다”고 주장하면서 화제를 모았다. 이 교수는 최근 수험생 커뮤니티에 올린 글에서 “‘생각하는 나’=‘영혼’이라는 표현은 어디에도 나오지 않는다”고 주장했는데, AI는 ‘생각하는 나’와 영혼을 동격으로 규정하고 문제풀이에 임했다.

국어영역 만점을 받은 AI인 클로드 소넷 4.5의 정답 추론 과정을 보면 “칸트 이전 견해는 ‘생각하는 나’인 영혼이 단일한 주관으로서 시간의 흐름 속에 지속한다는 것으로 인격의 동일성을 설명했다”고 적었다. “(보기의) 갑은 ‘생각하는 나’의 지속만으론 인격의 동일성이 보장될 수 없고, 살아 있는 신체도 인격의 구성 요소에 포함돼야 한다고 했습니다. 따라서 칸트 이전 견해에 의하면 갑의 입장은 옳지 않습니다”고 사고과정을 밝혔다.

반면 이 교수는 최근 수험생 커뮤니티에 올린 글에서 17번 문제 <보기>의 갑은 ‘생각하는 나’에 대해 말하고 있을 뿐, 영혼에 대해서는 말하고 있지 않기 때문에 ‘생각하는 나’와 영혼의 연결 고리가 필요하다고 주장했다. 이 교수는 “개체 a와 b 그리고 속성 C에 대해 ‘a=b이고 a가 C면, b도 C다’를 통해 풀 수 있는 문제라 생각할 수 있지만, 이 풀이는 잘못된 것”이라고 했다.

마커AI는 내년 수능에도 AI에게 국어영역을 풀게 해 추론 능력의 향상을 테스트하고, 수능 문제를 바탕으로 한 AI용 고난도 문제를 풀어보게도 할 예정이다. 정 교수는 “발전을 거듭하는 AI의 존재를 실감한다”며 AI의 활용을 둘러싼 고민이 크다고 했다. 그는 “더 이상 AI의 도움을 받지 않는 학생들은 거의 보기 어렵다”며 “요즘 대학생들은 AI에 상시 조언을 받아 문제해결하는 습관이 들여져 있다”고 말했다. 그러면서 “AI를 사용하게 하되 ‘AI의 대답을 곧이곧대로 믿으면 안 된다’ ‘크로스체크를 반드시 거쳐야 한다’를 반복해 가르치는 것이 유일한 대안”이라고 했다.