
카카오가 국내 최초로 텍스트, 음성, 이미지를 동시에 이해하고 응답하는 통합 멀티모달 언어모델 '카나나 o'를 공개했다. 네이버가 최근 '하이퍼클로바 X 시드 3B'를 오픈소스로 등록한 데 이어 국내 기업들이 잇따라 신기술을 공개하며 주도권 다툼에 돌입했다. 국내 멀티모달 AI는 한국어와 한국 문화에 특화된 기능과 함께 오픈AI 등 글로벌 모델과 견주어도 손색없는 성능을 갖췄다. 미중 빅테크가 주도하는 멀티모달 AI 분야에서 국내 기업이 존재감을 발휘할 지 주목된다.
카카오는 1일 공식 테크블로그를 통해 통합 멀티모달 언어모델인 '카나나 o(Kanana o)'를 공개했다.
카나나 o는 국내 최초로 텍스트와 음성, 이미지까지 다양한 형태 정보를 동시에 이해하고 처리하는 모델이다. 텍스트, 음성, 이미지 중 어떠한 조합의 질문이든 처리 가능하다. 억양, 말투, 목소리 떨림 등 비언어적 신호를 분석해 대화 맥락에 맞는 감정적이고 자연스러운 음성 응답을 생성한다.
카카오 관계자는 “다른 멀티모달 모델들도 음성 처리는 아마 동시에 되지 않을 것”이라면서 “(카나나 o는) 음성을 동시에 처리할 수 있다”고 설명했다.
카나나 o는 특히 한국어에 특화된 성능을 갖추면서 영어로도 글로벌 멀티모달 AI 모델과 비교해도 뒤지지 않는 성능을 갖췄다. 카카오에 따르면 카나나 o는 오픈AI의 'GPT 4o', 구글 '제미나이 1.5 프로' 등과 성능 비교에서 우위를 차지했다. 한국어 벤치마크에서는 높은 우위를 보였다. 영어 벤치마크의 음성인식과 합병, 감정인식 이미지·음성 통합 질의응답 부분에서 글로벌 최고 모델과 유사한 수준을 기록했다.
지난해 멀티모달 기술을 공개한 네이버는 아예 멀티모달 AI 모델을 상업용으로 사용가능한 오픈소스로 공개했다.
네이버가 지난달 오픈소스로 등록한 '하이퍼클로바 X 시드 3B'는 사용할 해당 모델은 텍스트뿐만 아니라 이미지와 영상 정보도 처리할 수 있는 시각 언어모델이다. 도표 이해, 개체 인식, 사진 묘사 등의 능력을 갖췄다.
하이퍼클로바X 시드 3B 또한 한국어와 한국문화에 특화됐다. 네이버에 따르면 한국어·한국문화와 영어 관련 시각 정보 이해 능력을 평가할 수 있는 9개 벤치마크의 평균 점수를 비교한 결과 유사 규모의 구글 '젬마', 중국 '큐웬' 등 빅테크 모델보다 높은 점수를 기록했다. 파라미터 수가 훨씬 많은 해외 대규모 모델과 유사한 정답률을 보였다.
네이버 관계자는 “(하이퍼클로바X 시드 3B의 경우) 이미지 이해 등 기능알 갖춰 개발자들이 활용하기 좋다”면서 “허깅페이스에서 파이튜닝된 모델이 나오는 등 영향력이 커지고 있다”고 말했다.
네이버는 지난해 '하이퍼클로바X 비전' 모델을 공개하며 멀티모달 AI 모델 기술을 처음으로 선보였다. 네이버의 멀티모달 언어모델은 실제 서비스에도 적용할 수 있는 수준으로 고도화됐다. 지난달 인공지능(AI) 개발도구 '클로바 스튜디오'에 이미지 이해 능력을 갖춘 비전 모델을 처음으로 적용했다. 향후 멀티모달 기술을 다른 서비스에도 확대 적용할 계획이다.
변상근 기자 sgbyun@etnews.com