게임용 GPU로 AI 연구하는 카이스트 박사들···“‘깐부 이후’를 고민할 시점”

2025-11-15

[주간경향] 지난 11월 7일 대전 한국과학기술원(카이스트) 전산학과의 한 연구실. 석·박사 과정 연구원 서너명이 각자 컴퓨터 모니터를 응시하고 있었는데, 연구실 랩장이자 박사과정 A씨(30)는 이들이 차세대 인공지능(AI) 모델을 연구 중이라고 소개했다.

전산학과 건물 1층 서버실에는 이 연구실이 연구 펀딩을 받아 마련한 GPU 40여장이 설치돼 있다. 엔비디아는 ‘H100’, ‘A100’ 같은, 1장에 수천만원짜리 GPU를 AI 훈련과 추론을 위한 용도로 내놓았지만, 정작 이 연구원들이 쓰는 GPU는 200만원대 게임용 GPU인 ‘RTX-4090’이다.

게임용 GPU로는 한계···연구 포기하기도

연구실에서는 40여장의 GPU를 과제별로 나눠 사용한다. 한 과제당 4장, 또는 8장의 GPU를 사용하는데, 논문 발표 시점이 다가오면 저마다 GPU를 돌리다 보니 40여장이 부족한 실정이다. A씨가 말했다. “AI 분야에서 탑3 학회가 NeurIPS(신경정보처리시스템학회), ICML(국제머신러닝학회), ICLR(국제표현학습학회)이에요. 다들 이 3개 학회 일정에 맞춰 논문을 쓰다 보니 남는 GPU가 없는거죠. 당장 GPU가 급한 연구원들은 학회에 논문을 제출하지 않는 연구원을 찾아가 GPU를 좀 양보해달라고 부탁하기도 하죠.”

사실 이들이 쓰는 RTX-4090 GPU는 AI 연구를 하는 데 한계가 있다. GPU에는 그래픽용 D램(GDDR D램)이나 고대역폭메모리(HBM)가 결합돼 있는데, 연구원들에게는 어떤 메모리냐보다 메모리 용량이 얼마나 되느냐가 중요하다. 학부생으로 이 연구실에서 인턴으로 일하는 B씨(25)는 이렇게 설명했다. “메모리는 일종의 작업대예요. AI 모델을 그 작업대에 올려놓고 연구를 하는 거죠. 그런데 요즘 AI 모델은 아무리 연구용으로 만든 것이라고 해도 크기가 상당하거든요. 메모리 용량이 작으면 ‘메모리가 초과됐습니다’ 하고 그냥 꺼져버려요.”

이 때문에 연구실에서는 미국의 뉴욕대나 스위스 로잔공대 연구팀 등과 협업하는 경우가 많다. 이들 대학은 많은 수의 H100 GPU를 자체 관리하거나, 데이터센터가 보유한 H100 GPU를 클라우드 방식으로 사용한다. A씨는 뉴욕대 연구원과 ‘JEPA’라는 AI 모델을 연구하다 지난 6월 마무리했다. 연구는 A씨가 카이스트 연구실에서 RTX-4090으로 AI 모델을 만들면, 뉴욕대에서는 H100을 활용해 해당 모델이 더 큰 규모에서 무리 없이 작동하는지를 확인하는 방식으로 진행됐다.

“연구 교류 자체는 저에게 큰 경험이었어요. 다만 뉴욕대의 결과를 기다리는 데 수일이 걸려요. 또 모델을 여러 번 테스트해 보면서 최적의 파라미터를 찾고 아키텍처를 찾아야 하는데, 여기서는 별문제 없던 제 모델이 뉴욕대에서는 문제가 생기는 거죠. 거기서 느꼈던 패닉이 상당히 컸어요. 우리 연구실에서 주도한 연구인데 정작 모델의 문제를 개선하려면 H100 자원을 갖고 있는 뉴욕대에서만 가능했거든요. 마침 뉴욕대 연구원도 메타에 인턴십을 가게 되면서 연구를 중도에 마무리하게 됐죠.”

A씨는 현재 연구실이 보유한 GPU로 최대한 효과를 낼 수 있는 연구를 진행하고 있다. “대형언어모델(LLM) 연구를 하고 싶었지만, 우리가 보유한 GPU로는 LLM 연구를 하지 못해요. 대신 삼성몬트리올연구소(삼성종합기술원 몬트리올 AI 랩)에서 개발한 ‘TRM’에 대한 연구를 시작했어요. TRM은 아주 작은 규모의 모델로도 LLM이 못 푸는 문제들을 풀 수 있거든요. 이게 다음 세대의 AI 모델이라고 생각했을 때 여기에 기여하고 제 연구 폭도 넓어질 수 있겠다는 기대가 있어요.”

‘깐부 회동’ 이후의 과제들

최근 이 연구실은 정부의 ‘AI 컴퓨팅 자원 활용 기반 강화(GPU 임차지원) 사업’ 대상으로 선정돼 H100 4장을 지원받게 됐다. 정부 지원으로 외부 데이터센터가 보유한 H100 자원을 클라우드를 통해 사용할 수 있게 되면서 숨통이 조금 트이게 됐다. 연구실을 이끄는 안성진 교수는 “지금은 급하니까 일단은 GPU부터 확보하고 나눠주는 일이 우선시되고 있지만, 앞으로는 그 GPU를 어떻게 효과적으로 사용할지에 대한 정책적 고민이 필요하다”며 이렇게 말했다.

“똑같은 100장의 GPU를 가지고 정부 사업을 하더라도 이걸 어떻게 운영하느냐에 따라 100장을 200장처럼 쓸 수도 있고, 50장처럼 쓸 수도 있어요. GPU 100장을 연구실 10곳에 10장씩 나눠줬다고 생각해보세요. 한 연구실에서 실험을 하루종일 하는 게 아니거든요. 한 번 실험 돌리고 결과 분석하는 동안에 하루 이틀 쉴 수도 있고요. 그럴 때 이 GPU 자원을 다른 곳에서 활용할 수 있도록 하는 시스템이 뒷단에 있어야 하는데, 지금은 그런 것이 전무한 상황이거든요.”

지난 10월 말 한국을 방문한 젠슨 황 엔비디아 최고경영자는 이재용 삼성전자 회장, 정의선 현대차그룹 회장과의 이른바 ‘깐부 회동’ 직후 한국에 2030년까지 최신 GPU 26만장을 우선 공급하겠다고 밝혔다. 이 가운데 21만장은 삼성, 현대차, SK·네이버 등이 쓰고 나머지 5만장은 정부 몫이다. 정부가 구매하는 5만장의 일부가 대학, 스타트업 등에 공급될 것으로 전망된다. A씨는 “그 숫자가 너무 어마어마해서 와닿지 않았다”며 “(우리 같은 연구원들은) 기존에 없었던 아이디어를 가지고 개념 검증을 하는 게 우선이니까 많은 양이 배정되지는 않을 테지만, 지원하는 만큼 연구 선택의 폭이 넓어질 것으로 보인다”고 말했다.

GPU를 보유한다고 해도 이를 사용할 인재들이 없으면 무용지물이다. 국내의 AI 고급인력들은 해외 취업을 선호한다. B씨는 “국내 대학에서 교수가 되는 것도 좋고, 그게 안 되면 미국 기업에 취업하는 것도 좋을 것 같다. 원하는 연구를 할 수 있고 연봉도 높다”고 말했다. A씨는 “연봉도 중요한 고려대상이지만 다들 미국을 선호하는 건 이유가 있다”며 이렇게 말했다.

“손흥민이 왜 유럽에 갔겠어요? 세계 최고의 리그가 거기에 있고 경험을 쌓아야 성장할 수 있거든요. 그곳에서 저도 충분히 경험을 쌓고 돌아올 생각이에요. 다만 계속 해외에 있고 싶진 않아요. 가족이 다 한국에 있으니까요. 마찬가지로 한국으로 돌아오고 싶어하는 인재들이 분명 있을 거예요. 그들이 갈 만한 AI 기업들이 국내에 있어야겠죠. AI로 돈을 버는 기업들이요. 국내에 그런 기업이 많지 않은데 이제야 조금씩 생겨나는 것 같아요. 특히 로봇과 AI를 접목한 분야에서요.”

피지컬 AI 개발···“관건은 데이터”

장병탁 서울대 컴퓨터공학부 교수가 창업한 ‘투모로 로보틱스’는 A씨가 말한 로봇과 AI를 접목한 분야에서 활약하는 스타트업 중 하나다. 지난 5월에는 서울대 AI연구원과 함께 인간의 언어로 로봇에게 명령을 내리고, 동작을 학습시킬 수 있는 모델(CLIP-RT)을 선보였다. 이른바 ‘로봇 파운데이션 모델(RFM)’이다.

이 분야 기업으로 국내에는 마음AI, 리얼월드 같은 곳이 있고, 해외에는 구글 딥마인드, 피지컬 인텔리전스 등이 있다. AI 로봇, 자율주행차 등은 현실(물리적) 세계에서 복잡한 행동을 인식·이해하고 수행할 수 있어 ‘피지컬 AI’라고도 불린다. 엔비디아가 한국에 우선공급하겠다고 밝힌 최신 GPU 26만장 중 삼성, SK, 현대차 등 제조업체에 가는 물량의 상당수는 피지컬 AI 개발을 위한 GPU이기도 하다.

RFM을 개발하기 위해서는 우선 로봇 팔 등의 운동 궤적이 담긴 데이터세트를 AI에 학습시켜야 한다. 좋은 RFM을 만들려면 많은 양의 사전학습 데이터세트가 필요하다. 투모로 로보틱스와 서울대 AI연구원은 오픈소스로 공개되는 ‘오픈X 임바디먼트’ 데이터세트를 활용한다. 미국, 중국, 유럽 등 전 세계 연구실로부터 수집한 데이터세트로, 국내에서는 카이스트가 참여했다. 중국의 ‘애지봇’이란 기업은 로봇 데이터 수집 공장을 상하이에 세워, 이곳에서 대량의 데이터를 확보한다.

RFM 업체들은 오픈소스 데이터세트에, 자체 로봇 데이터 등을 추가로 학습시켜 파운데이션 모델을 만든다. 학습에는 GPU가 사용된다. 장 교수는 모델을 학습시키기 위해 “활용할 수 있는 H100들을 박박 긁어 모았다”고 말했다. 중국의 전기차 제조업체 샤오펑이 지난 11월 5일 공개한 차세대 휴머노이드 로봇 ‘아이언’은 인간과 같은 동작을 선보여 화제가 됐는데, 이에 대해 장 교수는 “중국이 휴머노이드 하드웨어 제작에는 강점을 보이지만, 그 위에 올릴 RFM 등의 핵심 기술은 아직 초기 단계”라고 말했다.

사실 엔비디아도 로봇과 RFM에 대해 연구한다. 로봇의 학습을 돕는 AI 플랫폼도 제공한다. 전문가들은 제조공장에 AI 로봇 등을 도입하려는 국내 업체들이 엔비디아의 플랫폼에 의존할 가능성이 있다고 지적한다. 일부 제조 데이터가 엔비디아 플랫폼 개발에 활용될 가능성도 있다.

이원태 국민대 특임교수(국가AI전략위원회 사회분과)는 “당장은 엔비디아의 GPU와 플랫폼을 활용할 수밖에 없지만, 그 위에서 돌아가는 알고리즘과 모델은 국내 기업이 직접 개발하는 방식이 돼야 한다”며 이렇게 말했다.

“젠슨 황이 한국과의 협력에 적극적인 건 ‘제조 데이터’ 때문입니다. 우리로서는 엔비디아를 적극 활용하되, 국내 기업을 육성하고 데이터 주권을 지키려는 노력이 중요합니다. 원본 제조 데이터는 국내 서버에 고정하고, 외국 기업은 그 데이터에 직접 접근하지 못하게 해야 합니다. 또 표준 벤치마크 데이터는 국제협력을 위해 전략적으로 공개하면서도, 핵심 제조 데이터는 비공개하는 방식이 필요합니다. 결국은 우리의 AI를 어떻게 주권적으로 설계하느냐가 관건이죠. 플랫폼은 활용하되 종속되지 않고, 데이터는 공유하되 유출되지 않고, 오픈소스는 열되 전략적으로 연다는 원칙이 중요합니다.”

Menu

Kollo 를 통해 내 지역 속보, 범죄 뉴스, 비즈니스 뉴스, 스포츠 업데이트 및 한국 헤드라인을 휴대폰으로 직접 확인할 수 있습니다.