싱가포르국립대 AI연구소 "데이터 덜어야 AI 더 정확해져" [서울포럼 2025]

"인공지능(AI) 학습을 위해 전체 데이터의 5%만 쓰면 퍼포먼스(성과)가 더 좋아진다는 연구를 내놨습니다."

브라이언 키안 시앙 로 싱가포르국립대 AI연구소 부소장은 28일 서울 중구 신라호텔에서 열린 ‘서울포럼 2025’ '세션 2 두뇌혁명: GPT가 연 생성형 AI 시대'의 특별강연에서 "효율적인 AI를 위해 데이터가 많을 필요가 없다"며 이 같이 설명했다. 이날 로 교수는 △더 적은 데이터로 학습하는 방법 △AI를 확인하는 AI를 주제로 그동안 연구 내용을 요약해 발표했다.

세계 최고 AI연구소 중 하나로 평가받는 싱가포르국립대 AI연구소의 연구 책임자인 로 교수는 상식과 달리 앞으로는 데이터를 얼마나 잘 선별하고 줄이느냐에 따라 AI의 정확도가 더 높아질 수 있다고 했다.

관련기사

‘메이드인 AI‘ 콘텐츠 쏟아지는데 감동은 줄었다…불쾌한 골짜기 건너려면 [서울포럼 2025 픽셀앤페인트]
이세돌 “알파고 이후 프로바둑 비약적 성장…AI 활용능력이 실력 갈라” [서울포럼 2025]
여준구 대표 "로봇 강국, 인간의 시각·행동까지 구현하는 범용 AI에 달렸다" [서울포럼 2025]
‘자율주행차 아버지‘ 스런 교수 "AI 시대 이제 시작…韓 기회 많을 것" [서울포럼 2025]

로 교수는 "AI 학습에 모든 데이터가 들어가면 노이즈가 발생할 수밖에 없다"며 "또 주어진 과제와 상관 없는 데이터나 중복 데이터 등으로 비효율이 발생할 수밖에 없다"고 설명했다. 이어 "결국 더 적은 데이터로 학습해 더 빠르고 비용을 줄이기 위해 데이터를 더 적게 쓰는 효율적인 학습을 해야 한다"고 강조했다. 이를 위해 중복되거나 목적과 무관한 데이터를 빼는 방법을 고민해야 한다고 덧붙였다.

로 교수는 머신러닝(기계학습)이 아닌 머신언러닝(기계탈학습)도 강조했다. 그는 "2018년 사이버보안 문제가 발생해 학습이 아닌 '탈학습'을 한 적이 있었다"며 "당시에는 큰 주목을 못받았지만 최근 빅테크 AI의 저작권 문제 때문에 이 같은 언러닝 수요가 높아지고 있다"고 현실을 밝혔다. 머신언러닝은 AI 모델의 학습에 사용된 데이터 중 일부에 대해 사후 삭제 요청이 있으면 AI 모델의 학습에 해당 데이터가 사용되지 않았던 것처럼 해당 데이터 영향을 배제하는 기술이다. 여기서 중요한 것은 AI모델의 성능 저하 없이 머신언러닝 고도화를 해야한다는 점이다. 로 교수는 "현재까지는 일부 제한적인 이용자들에 대해서 이 기술을 적용할 수 있는 상황"이라며 "앞으로 과제는 수백만명 이상의 이용자들에게 AI 품질을 유지하면서 AI가 AI를 확인할 수 있는 기술을 유지할 수 있는지가 관건이 될 것"이라고 했다.