“AI를 위한 강하고 유연한 스노우플레이크 데이터 파이프라인”

[인터뷰] 크리스 차일드 스노우플레이크 데이터엔지니어링 제품 담당 부사장

“다양한 데이터를 상호 운용 가능한 방식으로 저장하고 처리하는 방법을 찾았다.”

크리스 차일드 스노우플레이크 데이터엔지니어링 및 오픈레이크하우스 담당 부사장은 본지와 인터뷰에서 새롭게 출시한 스노우플레이크 오픈플로우에 대해 이같이 밝혔다.

스노우플레이크는 지난 3일 미국 샌프란시스코에서 개최한 ‘스노우플레이크 서밋 2025’에서 새로운 데이터 이동 서비스 ‘스노우플레이크 오픈플로우(Snowflake Openflow)’를 공개했다.

스노우플레이크 오픈플로우는 작년말 인수한 ‘데이터볼로(DataVolo)’에서 비롯됐으며, 데이터볼로는 ‘아파치 나이파이(Apache NiFi)’란 오픈소스 데이터 통합 프로젝트를 상용화한 회사다. 스노우플레이크는 아파치 나이파이를 자사 플랫폼 내에 호스팅하고, 여러 부가 도구를 통합해 제공한다.

크리스 차일드 부사장은 “아파치 나이파이는 수십년의 검증을 거친 확장성 뛰어난 도구로 오늘날 많은 대기업에서 사용되고 있다”며 “나이파이는 데이터베이스뿐 아니라 이미지, 비디오, 오디오, 문서 같은 비정형 데이터나, 카프카 스트리밍 데이터소스까지 다양한 시스템에서 데이터를 추출할 수 있다”고 말했다.

그는 “해당 데이터 소스에서 필터링이나 약간의 처리를 거쳐 다양한 대상으로 보낼 수 있다”며 “현재 약 200개의 다양한 데이터 소스와 목적지가 있으며, 스노우플레이크도 그중 하나”라고 설명했다.

아파치 나이파이는 데이터를 다양한 소스로부터 수집하고, 처리하며, 다른 시스템으로 전송하는 과정을 GUI 기반 플로우로 구성할 수 있다. 주요 기능으로 데이터 수집(Ingest), 라우팅(Routing), 변환(Transform), 전송(Delivery) 등을 제공한다.

오픈플로우는 초당 수백만 개의 이벤트와 페타바이트 규모의 데이터를 처리할 수 있다. 데이터베이스와 CSV 파일, JSON 로그, 이벤트, 이미지, 오디오, 비디오 등 모든 데이터 형식을 처리한다.

그는 “스노우플레이크는 아파치 나이파이의 모든 소스와 목적지를 계속 지원하고 있으며, 스노우플레이크 오픈플로우는 엔터프라이즈급으로 관리되는 솔루션으로서 모든 다른 위치에서 데이터를 가져와 활용하게 한다”고 강조했다.

스노우플레이크 오픈플로우는 하이브리드 배포 모델을 지원한다. 스노우플레이크 플랫폼으로 가져오는 것 외에 최종 목적지를 다양한 클라우드나 온프레미스 데이터센터로 할 수 있다. 데이터가 최종적으로 도달하는 곳은 분산될 수 있지만, 데이터 처리를 담당하는 컨트롤 플레인은 스노우플레이크다.

그는 “오픈플로우는 실제 커넥터와 프로세서 자체인 데이터 플레인, 컨트롤 플레인으로 이뤄지며, 컨트롤 플레인은 무슨 일이 어디서 일어나는지 구성하고 설정하는 곳”이라며 “따라서 컨트롤 플레인은 스노우플레이크 내 이 실행되고 운영되지만, 데이터 플레인은 원하는 곳 어디에나 배포할 수 있다”고 말했다.

그는 “중요한 것은 데이터 계획을 가져와서 자체 클라우드 또는 온프레미스에서 실행할 수 있다는 것”이라며 “이는 데이터 있는 곳에서 실행할 수 있다는 것을 의미하며, 이를 통해 매우 민감하고 매우 중요한 데이터와 함께 사용할 수 있다는 것”이라고 강조했다.

사용자의 오라클 데이터베이스를 보안과 규제준수에 엄격한 온 프레미스 환경 내에서 실행한다면, 그 데이터센터를 데이터 플레인으로 배포 위치로 정할 수 있다.

크리스 차일드는 “오픈플로우는 데이터베이스에 스노우플레이크를 연결하고, 데이터베이스에서 발생하는 모든 변경 사항을 수집하고, 패키지화하며 정리한 다음 클라우드의 스노우플레이크로 보낸다”고 설명했다.

스노우플레이크 오픈플로우는 사전 구축된 커넥터와 프로세서를 기반으로 박스, 구글애즈, 프루프포인트, 서비스나우, 워크데이, 젠데스크 등 타사 데이터 소스는 물론, 클라우드 오브젝트 스토리지와 메시징 플랫폼 등 여러 목적지 간의 통합을 간편하고 빠르게 구현할 수 있다. 정형, 비정형, 배치, 스트리밍 데이터 등 모든 데이터를 지원한다. 특히 오라클 데이터베이스에서 변경데이터캡처(CDC)로 스노우플레이크에 가져올 수 있다. 스노우플레이크는 오라클과 라이선스 파트너십을 체결해 오픈플로우로 오라클 데이터베이스의 데이터를 가져올 수 있게 한다.

크리스 차일드 부사장은 “스노우플레이크와 오라클의 파트너십을 체결했고, 오라클 골든게이트와 같은 기능을 하는 ‘엑스스트림(Xstream)’ API 라이선스를 고객에게 제공한다”며 “온프레미스나 클라우드 환경에서 오라클 데이터베이스를 보유한 고객은 이제 오픈플로우를 통해 스노우플레이크에 직접 연결해 변경 사항을 가져올 수 있으며, 모든 데이터를 추출할 필요 없이 변경 데이터를 가져와 완벽하게 스노우플레이크로 스트리밍할 수 있다”고 밝혔다.

그는 “이미 골든게이트 라이선스를 가진 고객이라면 해당 라이선스를 그대로 활용하면 된다”며 “만약 골든게이트 라이선스를 갖고 있지 않다면 스노우플레이크를 통해 오라클의 엑스스트림 API 라이선스를 구매하게 된다”고 덧붙였다.

스노우플레이크는 그동안 데이터 저장과 처리, 분석에 집중하는 플랫폼이었다. 데이터를 스노우플레이크로 가져오는 데이터 인제스천 작업에 별도의 ETL 도구나 스노우파이프를 활용해야 했다. 이제 오픈플로우를 통해 강력하고 유연한 데이터 파이프라인을 스노우플레이크 플랫폼 안에서 관리형으로 제공받을 수 있게 됐다.

오픈플로우를 통해 스노우플레이크는 부족한 요소로 지적돼온 데이터 파이프라인 부문을 대폭 확장하게 됐다.

그는 “오픈플로우로 데이터를 통합하면 해당 데이터를 아이스버그 테이블이나 웨어하우스로 보낼 수 있게 된다”며 “새로운 스노우파이프 스트리밍을 활용하면 데이터를 스노우플레이크 네이티브 테이블로 보내는 것 외 또 다른 옵션으로써 스노우플레이크를 거치지 않고 오픈플로우의 아이스버그 커넥터를 통해 아이스버그 테이블로 직접 스트리밍할 수 있다”고 말했다.

오픈플로우는 스노우플레이크와 데이터 사이의 중요한 간극을 메워준다. 이제 스노우플레이크는 데이터 수집 및 처리부터 저장, 분석, 머신 러닝, 생성형 AI, AI 에이전트에 이르기까지 모든 것을 다룰 수 있는 엔드투엔드 플랫폼이 된다.

스노우플레이크는 일찍부터 웨어하우스 외에 데이터레이크 아키텍처로 ‘아파치 아이스버그’에 투자해왔다. 개방형 테이블 포맷인 아파치 아이스버그는 그동안 데이터브릭스의 ‘델타레이크’와 대립하는 모습이었다. 그러다 1년 전 데이터브릭스가 아이스버그 테이블 상용서비스 기업인 ‘태뷸라’를 인수하면서 경쟁의 경계가 흐려졌다. 스노우플레이크는 아파치 아이스버그가 델타레이크와 경쟁에서 승리한 것을 보여준다는 입장이다.

그는 “아이스버그는 스노우플레이크에게 매우 중요한 요소이며, 진정으로 유일한 개방형 데이터 포맷이라고 생각한다”며 “델타레이크 포맷은 단일 공급업체에 의해 엄격하게 제어되지만, 아이스버그는 아파치소프트웨어재단 관리하에 다양한 회사와 많은 사람이 기여하는 매우 강력한 개방형 거버넌스를 갖고 있다”고 말했다.

그는 “우리의 결단 후 대부분의 데이터 커뮤니티가 아이스버그를 중심으로 뭉치고 있으며, 데이터브릭스의 태뷸라 인수는 아이스버그가 승리하는 포맷이고 따라잡아야 한다는 것을 깨달았다는 걸 보여준다”며 “아이스버그와 함께 컴퓨트 엔진을 사용해 해당 데이터를 쿼리하고자 할 때 스노우플레이크는 어떤 다른 옵션보다 우월하며, 우린 이를 확장하기 위해 막대한 투자를 지속하고 있다”고 강조했다.

아파치 아이스버그 테이블은 배치 워크로드에 적합하고, 스트리밍 워크로드에 적합하지 않다는 지적을 받기도 한다. 이에 대해 크리스 차일드 부사장은 “아이스버그는 지속성 형싯으로 설계됐기 때문에 스트리밍을 아이스버그로 하는 건 느려질 수 있다”며 “파일을 열이나 행 형식으로 디스크에 쓰기 때문에 파일에 쓰기 전 상당히 많은 양의 데이터가 필요하기 때문”이라고 설명했다.

그는 “배치와 스트리밍은 경쟁 관계보다 보완 관계이며, 데이터를 융합해서 사용하는 흥미로운 방안들이 다양하게 나와 있고, 카프카는 둘 사이의 흥미로운 융합 경로가 되고 있다”며 “데이터를 카프카나 키네시스 같은 스트리밍 시스템에서 먼저 존재시켰다가 어느 시점에 아이스버그에 기록하고 처리하는 걸 많이 볼 수 있다”고 덧붙였다.

스노우플레이크는 올해 행사에서 자사 플랫폼 내에서 ‘dbt’를 네이티브로 제공한다고 발표했다. ‘dbt’는 ‘데이터빌드툴’의 약자로

크리스 차일드 부사장은 “DBT를 간단히 설명하면, 템플릿에 SQL을 작성하면 테이블 이름을 참조 한 다음 나중에 변경할 수 있게 해주는 툴”이라며 “간단한 방법으로 복잡한 데이터 파이프라인을 구축한 다음 테이블에서 실행되는 SQL로 컴파일 할 수 있고, 매우 복잡한 파이프라인을 훨씬 쉽게 관리할 수 있게 해 인기있는 도구”라고 설명했다.

그는 “이제 스노우플레이크 워크스페이스란 도구에서 UI를 통해 SQL과 비슷하지만 더 템플릿화된 DBT 코드를 작성하고, 컴파일하고, 테스트하고, 실행한 다음 실제로 배포할 수 있게 됐다”며 “다른 도구 없이 스노우플레이크 내에서 일정에 따라 실행하도록 할 수 있다”고 덧붙였다.

그전까지 dbt를 스노우플레이크에서 데이터 변환용도로 사용하려면 스노우플레이크와 별도의 호스팅 환경을 통해 연동해야 했다. 가져온 데이터를 적재하기 전 정규화된 SQL 형식으로 ‘말아 올려주는’ 툴이 필요한데, 이제 스노우플레이크 UI 안에서 dbt로 데이터 변환 작업을 할 수 있다. 향후 출시될 엔터프라이즈급 버전인 ‘DBT퓨전’도 스노우플레이크 내부에서 바로 활용할 수 있다. ‘dbt 퓨전’은 오픈소스가 아닌 엘라스틱 라이선스로 제공되기 때문에 스노우플레이크는 dbt랩과 직접 파트너십을 체결했다.

오픈플로우는 1년전 데이터브릭스에서 선보인 ‘레이크플로우’에 대한 스노우플레이크의 대답이다. 데이터웨어하우스와 레이크하우스에서 출발해 AI 데이터 플랫폼으로 진화를 꿈꾸는 두 회사의 상호 견제와 경쟁은 데이터 엔지니어링의 단순화를 이끌고 있다.

글. 바이라인네트워크

<김우용 기자>yong2@byline.network