News/Press release

kt cloud, 엔비디아 GPU 기반 AI 학습용 인프라 서비스 ‘AI Train’ 출시

kt cloud 테크블로그 2024. 6. 24. 10:16


▶ 대규모 GPU 노드 클러스터링, 동적할당 제어 등 성능, 비용 강점 살린 학습 전용 AI 인프라
▶ H100 등 엔비디아 기반 서비스 제공… AI 연구의 호환성과 범용성 갖춰
▶ “파트너들과 협업 이어가며 고객 맞춤형 AI 인프라 환경 구현할 것”


kt cloud(http://www.ktcloud.com, 대표이사 최지웅)가 엔비디아 GPU(Graphic Processing Unit, 그래픽처리장치)를 적용한 AI 학습 전용 인프라 서비스, ‘AI Train’을 출시했다고 30일 밝혔다.

이번 출시된 AI Train은 초거대 AI 분야에서 단기간 집중적으로 대용량, 고사양의 GPU 공급이 필요한 학습 영역에 특화된 서비스다. AI Train은 kt cloud가 지난 ‘22년 선보인 HAC(Hyperscale AI Computing)과 동일하게 대규모 GPU 노드 클러스터링과 동적할당 제어 기능을 지원한다.

AI Train은 컨테이너 기반으로 여러 대의 GPU 노드(node)에 컨테이너 클러스터를 구성할 수 있고, 손쉬운 접속, 네트워킹과 대규모 작업에 용이하다. 실제 GPU를 사용한 시간만 요금이 부과되고, GPU가 유휴 상태인 경우 컨테이너를 자동 반납하는 구조로 비용 효율성을 높였다.

특히 AI Train은 엔비디아 최신 인프라인 H100을 제공하고, A100, H100 등도 함께 사용할 수 있어 호환성과 범용성을 갖췄다. AI Train은 지난 ‘23년 진행된 NIPA 고성능 컴퓨팅 사업∙AI 바우처 사업 등 공공사업에 활용되며 사용 편의성을 검증받은 바 있다.

또 kt cloud는 리벨리온과 협력해 공공 및 기업 고객 대상의 추론 전용 NPU(Neural Processing Unit, 신경망처리장치) 상품인 ‘AI SERV NPU’를 오는 6월 선보일 예정이다. 기존 GPU 기반 추론용 인프라 대비 가성비를 개선하고, 자동화 유지보수 기능 및 스케일링을 가능하게 한 점이 특징이다.

kt cloud는 AI SERV NPU를 통해 올해 진행 중인 AI 디지털교과서 사업, NIPA(정보통신산업진흥원) 주관의 고성능 컴퓨팅 사업, AI 바우처 사업 등에 적극 대응할 예정이다. 리벨리온이 올해 준비 중인 ‘ATOM Plus’ 칩 출시에 맞춰 AI SERV NPU 성능을 높여가며 라마(Llama)-3와 같은 sLLM(소형거대언어모델) 등 AI 연구를 위한 다양한 언어 모델을 지원할 계획이다.

kt cloud는 작년 10월, 슬라이싱 기술을 활용한 엔비디아 기반 AI 추론 전용 서비스 ‘AI SERV’를 선보이며 고객 활용도를 높여왔다. 반려동물 AI 서비스 기업인 아지랑랑이랑 관계자는 “초기 GPU 투자 진행을 고민하다 kt cloud의 AI SERV를 접하게 됐고, 자사의 연구 환경에 맞춰 활용하면서 기존 GPU 사용 장수를 줄이고, AI 연구 비용을 약 70% 이상 절감했다”며 높은 만족감을 전했다.

kt cloud 남충범 본부장은 “kt cloud는 지속적으로 확대되고 있는 시장 내 인프라 수요에 적극 대응하고, 차별화된 AI 인프라 서비스를 제공하고자 AI Train 서비스를 새롭게 선보였다”며 “다양한 파트너들과 협업을 이어가며 AI 클라우드 분야를 선도하고, 고객 사용성에 맞춘 AI 인프라 환경을 구현해 나갈 것”이라고 말했다.