에스티씨랩은 글로벌 기술 트렌드와 현황에 대해 직접 파악해보고, 자사 솔루션과 연계하여 기술적 발전 방향에 대해 고민해볼 수 있도록 국내 세미나는 물론 글로벌 IT쇼, 컨퍼런스 등에 자주 참석하고 있습니다. 그 중, 지난 11월 12일부터 15일까지, 유타 솔트레이크 시티에서 열린 Kubecon(쿠베콘)에 참석해 살펴보았던 최신 기술과 화두에 대해, Wave Autoscale 팀 리드인 환수의 글로 확인해보겠습니다.
Kubercon은 CNCF(https://www.cncf.io/)에서 주최하는 행사로, 매년 북미(11월), 유럽(4월), 일본, 홍콩(6월) 등 전세계에서 열리는 Kubernetes(쿠버네티스) 컨퍼런스입니다. 이번 북미 행사는 300개 이상의 기업 스폰서십 이외에 구글, MS, 오라클, AWS, 엔비디아 등 가장 많은 기업들이 참여합니다.
작년에는 Chicago Kubercon에 참여해 Wave Autoscale의 제품 발전 방향(AI-Driven으로 발전)에 대한 영감을 받을 수 있었고, 이를 계기로 CNCF Member 가입을 통해 Cloud-Native 생태계에 참여할 수 있었습니다.
2025년의 기술적 발전 방향과, 더 나아가 클라우드 생태계 안에서의 비즈니스 모델 확장에 대한 글로벌 트렌드를 보고 배우기 위해 에스티씨랩은 개발 디렉터인 환수와 CTO 헨리, CSO 알렉스가 함께 미국 Utah주에 위치한 Sale Lake City로 날아갔습니다.
2024년은 CNCF가 10년이 되는 해입니다. Public Cloud의 생태계 부흥을 이끌었던 것이 AWS였다면, Cloud-Native의 기술적 부흥을 이끈 건 CNCF(Cloud Native Computing Foundation)입니다. Kubernetes(Container Orchestration)를 시작으로, Prometheus(Monitoring), Envoy(Service Proxy) 등 Modern Cloud Software Stack의 대부분은 CNCF 프로젝트들입니다.
예전에는 기업 및 공공 사업 영역에서 On-Prem, Private Cloud를 구축하기 위해 상용 솔루션들을 많이 구성했다면, 최근에는 Kubernetes를 비롯하여 CNCF의 오픈소스 솔루션들을 기반으로 구축되고 있습니다. 한국은 물론 엔비디아, 애플 등 글로벌 테크 회사들 역시 Kubernetes 기반으로 모든 걸 구성하고 있습니다.
CNCF 생태계는 향후 최소 10년 이상 계속 견고히 성장할 것이며, 에스티씨랩 역시 해당 생태계 안에 자연스럽게 녹아드는 비즈니스 모델을 구성해야 앞으로 기업 및 공공 부문 고객들과의 접점이 많아질 것이라 생각합니다.
AI, NVIDIA, GPU in Kubernetes
최근 화두가 되고 있는 AI, 그리고 로켓 성장을 하고 있는 NVIDIA, GPU가 Kubernetes 안에서 어떻게 발전하고 있는지에 대한 세션이 올해 Kubercon에서 가장 반응이 뜨거웠습니다.
대부분 기업들의 필수 기술이 되어 가고 있는 AI 관련해서는, Kubernetes를 활용하여
1. 어떻게 효율적으로 training할 것인가?(GPU scheduling, queue)
2. 어떻게 효율적으로 serving할 것인가?(Autoscaling)
3. CNCF와 NVIDIA, 그리고 글로벌 테크 회사들은 어떤 방향으로 기술 표준과 AI 생태계를 만들고 있는가? 에 대한 3가지 큰 주제 안에서 다양한 세부 세션들이 진행되었습니다.
GPU는 CPU와는 달리, 가상화하여 코어처럼 쪼갤 수 없습니다. 그리서 물리 GPU에 대한 spec을 기준으로 어떻게 효율적으로 scheduling, batch, time-slicing할 것인가가 중요합니다. 이를 위해 CNCF에서는 Dynamic Resource Allocation(DRA, https://kubernetes.io/docs/concepts/scheduling-eviction/dynamic-resource-allocation/)라는 개념을 만들었으며, 전세계에서 GPU를 많이 사용하고 있는 NVIDIA, Microsoft, Apple, Adobe같은 기업이 어떻게 이를 개발하고 활용하는지 엿볼 수 있었습니다.
#. Which GPU Sharing Strategy is Right for You?
#. Load-Aware GPU Fractioning for LLM Inference on Kubernetes
에스티씨랩은 GPU와 연관된 트래픽 관리 지점들(ex, GenAI Serving 시점의 모바일, 웹 트래픽 특징 파악 및 제어), AI Agent 사이의 트래픽 컨트롤, GPU 훈련 시 스케쥴링 등 각 포인트들에 대한 높은 이해도를 바탕으로 수준 높은 기능들을 미리 준비해야 하며, 결국 고객들이 해당 문제를 마주할 때 바로 솔루션으로써 제시할 준비가 되어 있어야 합니다.
Cloud-Native Security, Securing Supply Chain, Patents
지난 10년 동안 Kubernetes를 기반으로 클라우드의 다양한 기술들이 발전해왔지만, 상대적으로 Security에 대한 부분들이 많이 부족했습니다. 그렇기에 엔터프라이즈 기업들이 오픈소스 솔루션들을 도입하기에 어려운 점이 많았습니다.
CNCF에서는 향후 10년을 위해 Security에 대한 고민들을 하고 있으며, 이는 Network 레벨의 보안 뿐 아니라, 오픈소스 특성 상 코드레벨의 Security들도 포함하고 있습니다.
엔터프라이즈 기업 뿐 아니라 미국 공공 부문에서도 클라우드 도입률이 올라고 있습니다. 이에 미국 연방정부에서는 클라우드 구축 사업에 SBOM(Software Bill of Materials, 소프트웨어 자재 명세서)을 요구하게 됩니다. 오픈소스 프로젝트와 오픈소스 라이브러리를 활용하는 솔루션들이 더 많아지다보니, 공급망 증명을 통해 보안 관리를 강화하고자 하고 있으며, CNCF 오픈소스 솔루션들도 이를 준비하는 모습니다.
오픈소스인 만큼, 특허 관리가 제대로 이루어지지 않아 Patent troll(특허 소송 전문 기업들)에 대한 이슈가 많았습니다. CNCF의 상위 기관인 The Linux Foundation의 노하우를 기반으로 이를 방어하는 프로세스 및 조직들도 준비되고 있었습니다.
저희 에스티씨랩 역시 Bot Manager, API-NetFUNNEL 등 신규 솔루션을 통해, 오픈소스 솔루션들의 Security 한계를 보완하는 기능 및 역할을 준비해둔다면, 향후 오픈소스 솔루션들을 도입하는 기업들이 많아질수록 더 많은 기회가 이어질 것으로 생각합니다.
AI Gateway로의 진화
네트워크 솔루션들이 다뤄야 할 API의 범위가 AI API로 더욱 확장되고 있으며, 이러한 흐름에 맞춰 CNCF 프로젝트들 중 Networking과 관련된 Envoy와 같은 프로젝트들은 AI Gateway라는 개념으로 확장되고 있습니다. 현재의 LB, Gateway 제품들은 AI API를 컨트롤할 수 없습니다.(ex, Token 레벨로 Throttling, Token Outbound에 대한 관리 등)
그래서 CNCF에서는 GPU에 대한 관리 뿐 아니라 AI 네트워킹에 대한 표준들도 준비하고 있습니다. AI 모델의 비중이 큰 기업들은 기존 API와 구분되는 AI API에 대한 트래픽을 아예 따로 분리된 네트워크망으로 serving합니다.
#. Centralizing & Simplifying Enterprise AI Workflows with Envoy AI Gateway
그 외에...
Autoscaling, Scheduling에 대한 세션들은 작년보다 오히려 더 증가한 모습을 보았습니다. 기업들이 Kubernetes를 더 많이 도입하다보니 기본 k8s autoscaling, scheduling 알고리즘으로는 큰 기업들의 다양한 요구사항을 채울 수 없는 상황이며, 엔지니어가 충분한 빅테크 기업들은 각자 기업에 맞게 독자적인 대안을 연구, 개발하고 있었습니다.
Wave Autoscale AI의 모태가 된 FIRM, AWARE 논문의 저자인 Haoran Qiu(https://haoran-qiu.com/)가 최근 조인한 Microsoft에서는 어떤 관점으로 오토스케일링을 준비하고 있는지 들을 수 있었습니다.
Adobe는 전세계 클라우드 리전(AWS + MS Azure)에 있는 클러스터들의 workload batch, autoscaling만 전담으로 다루는 팀을 만들고, 이를 어떻게 연구하고 발전시키고 있는지도 파악할 수 있었습니다.
Apple은 carbon-free(환경) 관점에서 autoscaling을 다루고 있다는 것을 확인했고, CNCF의 Autoscaling SIG가 앞으로 어떤 방향성으로 표준을 제정하게 될 지도 들을 수 있었으며, Datadog이 곧 autoscaling 기능을 추가한다는 소식 등 큰 기업들의 움직임 역시 접할 수 있었습니다.
Wave Autoscale을 개발하고 서비스하는 관점에서, 해당 시장이 점점 더 커질 것으로 보여지며(일단은 북미부터), 그렇기에 Wave Autoscale은 북미 기준으로 경쟁력있는 기술들을 계속 추가해 나간다면 충분히 더 많은 기회를 확보할 수 있을 것으로 보여집니다.
별도로, 작년에도 강조된 기술인 WASM은 올해 더 확장되고 있다고 느껴졌습니다. "WASM이 일찍 나왔다면, Docker를 개발하지 않았을 것이다.(https://x.com/solomonstre/status/1111004913222324225?s=21)"라고 했던 Docker 창업자의 말처럼, WASM 기술은 그만큼 혁신적이지만 아직은 낮은 adoptation을 보여주고 있습니다. CNCF는 Container와 WASM을 같이 관리하는 기술들을 보여주며, 점차 WASM이 하나의 큰 주류가 될 수 있도록 노력하고 있습니다.
25년, Cloud-Native와 STCLab, Wave Autoscale
앞으로 CNCF 프로젝트의 영향력이 더 커질 것이고, 그럴수록 엔터프라이즈, 공공 기관 및 SMB에서의 해당 프로젝트 도입률이 더욱 높아질 것입니다. 이에 따라 에스티씨랩은 더 많은 고객들과 접점을 만들기 위해 무엇을 준비해야 하는지, 단순히 혼자 플레이하는 것이 아닌 다른 솔루션들과 어떻게 접점을 만들어 CNCF 생태계 안에서 어떻게 자리잡을 것인지에 대한 다양한 고민을 하게 됩니다.
글로벌 클라우드 시장이라는 더 큰 바다에 나아가, 세계 유수의 글로벌 고객들에게 새로운 경험과 가치를 전달하는 에스티씨랩의 모습을 상상하며, Kubecon 참관을 마칠 수 있었습니다.
Wave Autoscale, 오토스케일링 자동화를 통해 클라우드를 최적화
Wave Autoscale(웨이브 오토스케일)은 머신러닝 기반으로 다양한 지표를 분석 및 예측하고, 다양한 워크로드의 자원을 최적화합니다. 또한 반복된 업무를 자동화해, 개발팀의 생산성을 높이는 효과를 얻을 수 있습니다.
이 모든 기능은 자체 에이전트를 통해 초 단위로 빠르게 수집되는 데이터를 기반으로 하며, 실시간 대시보드에서 단 한 번의 클릭으로 운영 가능합니다.
Wave Autoscale은 실시간으로 인프라를 스케일링할 뿐만 아니라, 진짜 필요한 만큼만 지불하게 해줍니다. 과하지도, 부족하지도 않게.
문의하기[클릭]
홈페이지 살펴보기: https://waveautoscale.com/ko
'Business > WaveAutoscale' 카테고리의 다른 글
웨이브 오토스케일, 한국 첫 AWS EKS SRP 파트너 선정 (0) | 2025.01.24 |
---|---|
AWS re:Invent(리인벤트) K-SaaS 부스 전시 참여 (1) | 2024.12.18 |
CNCF 가입, 클라우드 네이티브 기업으로 발돋움! (2) | 2024.11.01 |
[Seminar] Japan IT Week Autumn 2024. 10 참가 (4) | 2024.10.29 |
웨이브 오토스케일(WaveAutoscale), 클라우드 운영을 최적화하다 (0) | 2024.10.25 |