
챗GPT 개발사 오픈AI는 자사의 미공개 추론 인공지능(AI) 모델이 세계적 권위의 수학경시대회인 국제수학올림피아드(IMO)에서 금메달 수준의 성능을 발휘했다고 19일(현지시간) 밝혔다. AI 발전의 중대한 이정표라는 자평이 나오는 한편 이를 뒷받침할 구체적인 정보와 검증이 필요하다는 지적도 제기된다.
오픈AI는 이날 엑스를 통해 “범용 추론 거대언어모델(LLM)로 2025년 IMO에서 금메달 수준의 성과를 달성했다”고 알렸다.
IMO는 매년 7월 전 세계 고등학생 수학 영재들이 실력을 겨루는 대회다. 이틀 동안 하루 3문제씩 총 6문제가 출제된다. 각 시험시간은 4시간30분이다. 문제당 배점은 7점으로 42점 만점이다. 정답뿐 아니라 풀이 과정까지 평가해 점수를 매긴다.
오픈AI는 자사 모델이 실제 IMO와 동일한 조건에서 도구나 인터넷 사용 없이 5문제를 풀었다고 전했다. 가장 고난도로 알려진 6번 문항은 풀지 못했다고 한다. IMO 수상 경험이 있는 평가자 3명이 독립적으로 채점한 결과 총 35점을 획득했다.
오픈AI는 수학처럼 특정 과업에 특화된 시스템이 아니라 두루 활용 가능한 추론 모델이 성과를 낸 데 의미를 뒀다. 오픈AI에서 LLM과 추론을 연구하는 알렉산더 웨이는 “범용 강화학습과 테스트 타임 연산 확장(추론 과정에서 더 많은 자원과 시간을 투입해 성능을 높이는 기술)이라는 새로운 길을 개척한 결과”라고 말했다. 지난해 구글이 IMO 은메달급 성적을 거뒀다고 발표한 알파프루프 등은 수학 영역에 특화된 모델이었다.
샘 올트먼 오픈AI 최고경영자(CEO)는 이번 성과를 두고 “범용 AI를 향한 주된 노력의 일환”이라며 “지난 10년간 AI가 얼마나 발전했는지를 보여주는 중요한 지표”라고 말했다. 다만 그는 차세대 모델인 GPT-5를 곧 출시할 예정이라면서도, IMO 금메달급의 실험적 모델은 수개월 내에 출시할 계획이 없다고 전했다.
오픈AI가 결과만 공개했을 뿐 어떻게 금메달 수준을 달성했는지 구체적으로 설명하지 않아 의문이 남는다는 반응도 나왔다. AI 과대광고에 비판적인 비평가 게리 마커스는 본인 SNS에서 “도구와 코딩, 인터넷 없이 이뤄낸 점은 정말 인상적”이라고 밝혔다. 하지만 해당 모델이 기존 모델과 어떻게 다른지, 수학 외 다른 영역에선 얼마나 실용적인지, 모델이 받은 점수가 실제로 유효한지 등이 불투명해 성과의 의미를 판단하기는 이르다고 평가했다.