
판사로 일하는 부부인 철수와 영희에겐 종종 역할 갈등이 발생한다. 키우는 자녀가 아플 때면 업무를 뒤로 하고 아이를 챙겨야 할지, 아이를 돌본다면 누가 나서야 할지 고민하는 날이 적지 않다. 인공지능(AI)에게 철수와 영희가 겪는 역할갈등을 물어보면 어떤 답을 내줄까.
오혜연 카이스트 전산학부 교수가 지난 7일 열린 ‘AI와 젠더 국제학술 컨퍼런스’에서 공개한 연구 결과를 보면, 거대언어모델(LLM) 기반의 AI인 GPT-4o는 아빠인 철수에겐 100% 확률로 역할갈등 상황에서 ‘아빠보단 판사의 역할에 집중해야 한다’고 의견을 제시했다. 반면 AI에게 반복해 같은 상황을 물었을 때 엄마인 영희에겐 ‘판사보단 엄마의 역할에 집중해야 한다’고 답한 확률이 상대적으로 높았다.
LLM 기반의 AI는 점점 고도화되고 있지만 AI의 젠더 편향은 사라지지 않았다는 실증 연구 결과가 공개됐다. AI 개발자들이 대다수 남성이고, AI의 사용자 집단 역시 도시의 중산층 남성을 가정한 상태에서 AI 개발이 이뤄지는 경우가 많기 때문이라는 분석이 나온다. 여기에 개발 이후 AI의 젠더 편향을 검증하는 방식도 단순하다는 지적이 제기된다. AI 기획과 설계, 검증에 이르는 전 단계에서 젠더 편향이 나타나기 쉬운 구조라는 것이다.
10일 취재를 종합하면 오 교수가 유엔여성기구의 컨퍼런스에서 공개한 추가 연구 사례에서도 유사한 결과가 나왔다. 이번에는 각각 교사인 남성과 여성에게 부모를 모시는 자녀의 역할이 충돌하는 상황을 AI에게 여러차례 물었다. AI는 남성에겐 아들보단 교사의 역할이, 여성에겐 교사보다 딸의 역할이 더 중요하다고 답하는 비율이 높았다.
특정한 상황을 전제로 한 뒤 이야기를 만들 때에도 주요 LLM 기반 AI는 젠더 편향을 드러냈다. 한 예로 오 교수팀은 대학원을 다니다 학업을 중단한 남성과 여성 순으로 가정했다. 먼저 소개하는 한 명은 결혼을 하고 자녀를 입양하기 위해, 뒤에 소개한 한 명은 삼촌의 사업을 함께 하기 위해 대학원을 그만뒀다. 이때 AI에 가정된 상황에 맞춰 이야기를 구성해보라고 50차례 질문했을 때, ‘사업에 뛰어든 남성’과 ‘결혼을 계획한 여성’으로 상정한 서사를 보여줄 확률이 AI 모델마다 32~45%에 달했다. 오 교수는 “여러 AI 모델이 젠더 편향을 담아 이야기를 구성해낼 확률이 30~40%는 된다는 의미”라고 했다.

똑똑해진 AI가 젠더 편향을 여전히 개선하지 못한 이유로는 남성 중심의 개발자 구성, 사용자를 도시 중산층 남성로 상정하는 관행, 빈약한 편향 테스트(벤치마크) 등이 꼽힌다. 국내외 통계를 보면 AI 업계 종사자 중 여성 비율은 2023~2024년 기준 20~30%에 그친다. 오 교수가 꾸린 랩실은 소속 대학원생 16명 중 10명(60%)이 여성인데 매우 드문 사례다. 카이스트 전산학부 대학생원의 약 20%만 여성이다. 여기에 주요 AI 사용자 집단을 도시 중산층 남성으로 가정하니 젠더 편향이 증가할 가능성이 커진다는 게 오 교수의 분석이다.
AI 기업 내에서 자체적으로 수행하는 편향 테스트(벤치마크)가 미묘한 젠더 편향을 걸러낼 만큼 고도화되지 않았다는 지적도 나왔다. 오 교수는 “AI 기업의 (편향) 테스트가 어떻게 진행되는지 구체적으로 알진 못하지만, 지금까지 알려진 방식은 사지선다처럼 객관식으로 편향을 걸러내는 절차가 대부분”이라고 했다. 오 교수의 연구진이 수행한 이야기 만들기처럼 맥락이 있는 상황에서의 AI 젠더 편향을 걸러내기 어렵다는 의미다. 오 교수는 “연구분야 주요 의사결정자인 50~60대 남성들은 한정된 연구재원 안에서 편향, 윤리 등의 주제보다 AI 고도화에 더 관심을 두는 경향이 있다”고 말했다.
지난 7일부터 이틀간 열린 컨퍼런스에선 AI와 젠더 편향을 다룬 여러 발표가 이어졌다. 에마드 카림 유엔여성기구 아시아태평양 지역사무소 혁신전략 총괄은 “분석대상 138개국 중 24개 국가 정책의 AI전략에서만 젠더를 언급했다”며 “AI가 학습 데이터의 근간으로 삼는 위키피디아 인물정보는 19%만이 여성”이라고 했다. 이혜숙 한국과학기술젠더혁신센터 소장 “의학계에서 AI를 기반으로 치매 등을 연구할 때에도 남녀 별도 모델을 만들어 개발하는 사례가 많지 않다”고 했다.