엔비디아 5

GPU 1,000장 모니터링 하기: NVIDIA DCGM 활용 전략

[kt cloud AI플랫폼팀 최지우 님]  GPU 1,000장 모니터링하기: NVIDIA DCGM 활용 전략 AI 플랫폼을 운영하며 수천 장의 GPU를 다루는 일은 결코 단순하지 않습니다. 서버 수가 늘어날수록 관리와 모니터링의 복잡도도 기하급수적으로 증가하고, 그만큼 예상치 못한 문제가 발생할 가능성도 커집니다. 특히 AI 플랫폼을 통해 수많은 고객에게 안정적인 서비스를 제공하려면 GPU 서버의 상태와 성능을 지속적으로 모니터링하는 것이 필수적입니다. 그러나 서버 수가 수백 대에 이르면, 각 GPU의 상태를 일일이 확인하는 것은 사실상 불가능에 가깝습니다. kt cloud에서는 AI Train, AI SERV 등 GPU 서버를 제공하는 서비스들에서 수천 장의 GPU를 제공하고 있습니다. 저희는 AI ..

kt cloud, 엔비디아 GPU 기반 AI 학습용 인프라 서비스 ‘AI Train’ 출시

▶ 대규모 GPU 노드 클러스터링, 동적할당 제어 등 성능, 비용 강점 살린 학습 전용 AI 인프라▶ H100 등 엔비디아 기반 서비스 제공… AI 연구의 호환성과 범용성 갖춰▶ “파트너들과 협업 이어가며 고객 맞춤형 AI 인프라 환경 구현할 것”kt cloud(http://www.ktcloud.com, 대표이사 최지웅)가 엔비디아 GPU(Graphic Processing Unit, 그래픽처리장치)를 적용한 AI 학습 전용 인프라 서비스, ‘AI Train’을 출시했다고 30일 밝혔다. 이번 출시된 AI Train은 초거대 AI 분야에서 단기간 집중적으로 대용량, 고사양의 GPU 공급이 필요한 학습 영역에 특화된 서비스다. AI Train은 kt cloud가 지난 ‘22년 선보인 HAC(Hyperscal..

9월 2주차 Cloud IT산업 동향 (뉴스 큐레이션)

Cloud, IT 산업 뉴스를 모아 여러분께 전해드립니다. 🙌 기사 제목을 클릭하시면 전문으로 이동합니다. ✔ Cloud news “국내 기업 중 55%, 12개월 내 신규 시장 진출 계획” 에퀴닉스 발표 ITWorld 에퀴닉스가 전 세계 2,900명의 IT 의사 결정권자를 대상으로 설문조사를 했습니다. ‘2022 글로벌 기술 동향 조사’에 따르면, 설문에 참여한 국내 IT 의사결정권자 중 58%는 더 많은 비즈니스 기능을 클라우드로 옮길 예정이라고 답했습니다. 응답자 중 60%는 더 많은 중요 비즈니스 애플리케이션을 클라우드로 이전하고 있으며, 응답자 중 47%는 보안 기능을 클라우드로 이전할 것이라고 밝혔습니다. 같은 모수 중 39%는 하이브리드 클라우드 모델을 사용한다고 밝혔으나, 응답자 중 43%..