본문 바로가기

소식/News

kt cloud, 슬라이싱 GPU 기반 AI 추론용 인프라 서비스 ‘AI SERV’ 출시


▶AI 서비스 제공 위해 경제성, 성능, 호환성 등 강점 살린 AI 추론용 혁신적 인프라
▶  성능 열화 없는 GPU 슬라이싱 기술 적용… 필요한 만큼 탄력적으로 활용 가능 
▶ “AI 전문기업, 스타트업이 부담 없이 AI 인프라 활용, 초거대 AI 활성화 위해 지속 노력할 것"

 AI 추론에 특화된 고성능의 GPU 인프라를 사용량에 맞게 보다 합리적인 비용으로 활용할 수 있게 됐다.

 kt cloud(www.ktcloud.com, 대표이사 윤동식)는 슬라이싱 기술을 GPU(Graphic Processing Unit, 그래픽처리장치)에 적용한 AI 추론 전용 인프라 서비스 ‘AI SERV’를 출시했다고 16일 밝혔다. 

 초거대 AI 분야에서 단기간 집중적으로 대용량, 고사양의 GPU가 필요한 학습 영역과 달리, 추론 영역은 적은 양의 GPU를 상시 끊김 없이 사용해야 하는 특성을 가지고 있다. 그렇기 때문에 학습에 사용한 인프라를 그대로 추론 인프라로 활용하는 경우 필요 이상의 비용 부담이 발생하는 것에 대한 대안이 필요한 상황이었다. 

 이번 출시된 AI SERV는 AI 개발, 학습을 마치고, AI 서비스를 제공하고 있는 AI전문기업, 스타트업들이 고성능 GPU 인프라를 각 서비스 제공에 필요한 만큼만 최적의 양을 사용할 수 있도록 분할하여 제공하는 점이 특징이다. 또, 비용 효율성뿐 아니라 성능, 호환성 등 추론 영역에서 가장 중요한 조건을 갖추고 있어 추론형 AI 인프라 시장의 혁신을 이끌 것으로 기대된다.

 AI SERV에 적용된 슬라이싱(Slicing) 기술은 기존처럼 GPU 서비스를 1장 단위로 제공하는 것이 아니라, 1장을 5분할로 나눠 0.2장 단위로 제공한다. 최소 사용 가능한 GPU 단위가 작아져 고객들은 필요한 때 필요한 만큼의 인프라를 사용할 수 있어 가격 부담이 줄어들고, 다양한 상황에 맞춰 탄력적이고, 가변적인 서비스 활용이 가능하다. 

 게다가 통상적으로 슬라이싱 기술이 적용되면 분할된 단위의 GPU에서 성능 열화가 발생할 수 있지만, AI SERV는 슬라이싱 분할에도 성능 손실이 없이 인프라를 100% 활용할 수 있는 강점을 갖췄다. 

 AI SERV는 타사의 유사 서비스 대비 성능 및 호환성 측면에서도 강점이 있다. 엔비디아 A100 칩을 활용해 경쟁사 최신 추론형 인프라 서비스 대비 최소 2배 빠른 연산 속도를 자랑한다. 또한 엔비디아 쿠다(CUDA) 아키텍처 기반의 높은 호환성과 확장성도 강점이다. 

 kt cloud는 향후 AI SERV에 모니터링 및 컨테이너 이미지 클로닝(Cloning) 기능 등을 추가해 사용자의 손 쉬운 인프라 확장을 지원하고, 부하 발생시 인프라를 자동 확장시키는 ‘오토 스케일링’ 기능을 도입하는 등 서비스를 지속 고도화해 나갈 계획이다.

 


 지난 2022년 최초의 종량제 인프라 서비스 HAC(Hyperscale AI Computing)을 출시한 kt cloud는 반도체 설계 기업 ‘리벨리온’, AI 인프라 솔루션 기업 ‘모레’ 등과 협업해 AI프레임 워크, AI 클라우드 반도체 칩 등을 개발하는 한편, 지난 6월에는 국내 최초의 고성능, 저전력 NPU(Neural Processing Unit, 신경망처리장치) 인프라 서비스를 선보였다. 향후 기업 대상의 NPU 인프라 서비스, 학습용 GPU 신규 서비스 등을 출시하며 ▲저비용 ▲고성능 ▲고효율의 AI 인프라 서비스 라인업을 강화할 예정이다.

 kt cloud 윤동식 대표는 “이번 AI SERV 출시로 고객들이 AI 학습부터 추론, 서빙 환경 구성까지 각 단계에서 최적의 인프라를 보다 합리적인 비용으로 사용할 수 있게 됐다”며 “다양한 AI 전문기업, 스타트업들이 부담 없이 AI 인프라를 활용하도록 힘쓰는 한편, 국내,외 파트너사와 협력해 초거대 AI 산업의 활성화 및 생태계 확장을 위해 지속 노력할 것”이라고 말했다.