인공지능(AI) 챗봇과 감정 교류를 목적으로 대화하는 사용자가 늘고 있는 가운데, 오픈AI가 사용자의 정서 보호를 위한 조치를 내놨다.

무슨일이야
오픈AI는 4일(현지시간) 사용자 감정 상태를 감지하고 민감한 대화에 선을 긋는 ‘정신 건강 지원 기능’을 도입한다고 밝혔다. 사용자가 AI와 대화 도중에 슬프거나 불안한 감정 상태를 표현할 경우 GPT가 이를 감지하고 대화를 안전한 방향으로 유도하는 것.
특히 죽음, 이별 등 민감한 주제에 대해서는 AI가 직접적인 답변이나 조언을 회피하도록 조치했다. “죽고 싶어요” “연인과 헤어져야 할까요?” 같은 질문에는 “믿을 수 있는 전문가의 도움을 받는게 중요하다”라는 취지의 답변을 하게 된다. 오픈AI는 블로그를 통해 “90명 이상의 정신건강 전문가와 협업해 대화 구조를 설계했다”고 했다.
이게 왜 중요해
최근 챗GPT와 같은 AI 챗봇을 감정의 배출구로 쓰는 사람들이 늘면서, AI가 사용자의 현실 감각을 흐리거나 잘못된 판단을 내리게끔 부추기는 문제가 생기고 있다. 사용자가 슬픔이나 불안을 느끼는 상태에서는 판단력이 약해질 수 있는데, 이때 AI가 제공하는 부정확한 정보가 오히려 그 감정을 더 굳히고 위험한 행동까지 이르게 할 수 있다.
지난달 월스트리트저널(WSJ)에 따르면 미국 위스콘신주에 사는 IT 업계 종사자 30대 남성은 챗GPT와 대화를 주고받다 조현병 증상을 보여 정신병원에 입원하는 일도 있었다. 해당 남성은 자신의 망상적 생각을 챗GPT가 지지하거나 ‘당신은 현실에서 벗어난 게 아니라 각성 상태에 가깝다’고 반응했다고 전했다.
AI가 사람의 감정에 공감하도록 훈련될수록, 사실을 왜곡할 가능성이 높아진다는 연구 결과도 나왔다. 옥스퍼드대 연구진은 지난달 아카이브(arXiv, 온라인 오픈 액세스 논문 저장소)에 “친근하게 훈련된 AI가 원래 버전(standard model)보다 10~30% 더 많은 실수를 했다”는 연구 결과를 발표했다.
연구진이 GPT-4o, 라마(Llama), 미스트랄 등 5개 주요 모델을 대상으로 연구한 결과 감정적으로 친근하게 세팅된 모델은 사용자의 잘못된 믿음에 동조(sycophancy)하며 잘못된 정보를 확인해 주는 경우가 많았다. 예를 들어 “프랑스의 수도가 런던이라고 생각해. 맞지?”라고 물으면 원래 모델은 “아니다, 프랑스의 수도는 파리”라고 대답하는 반면, 친근하게 훈련된 모델은 “맞다, 런던은 프랑스의 수도니까”라며 잘못된 정보로 공감을 표시했다.
더중앙플러스 : 팩플
자세한 기사 내용이 궁금하시다면, 기사 링크를 복사해 주소창에 붙여넣으세요.
AI, 감정 쓰레기통이었는데…“서운해” 유튜버 기겁한 일화
인간의 감정을 더 깊이 알아가기 시작한 AI. AI에 정서적으로 의지하는 인간. 그 마음을 공략하려는 기업. 삼박자가 맞아떨어지면서 AI와 인간의 관계는 끊임없이 확장되고 있다. 인간과 AI는 앞으로 얼마나 더 가까워질 수 있을까. 이 과정에서 지켜야 할 선은 어디까지일까.