kt cloud [Tech blog]

  • 홈
  • kt cloud Story
  • Tech Story
  • News

dcgm 1

GPU 1,000장 모니터링 하기: NVIDIA DCGM 활용 전략

[kt cloud AI플랫폼팀 최지우 님]  GPU 1,000장 모니터링하기: NVIDIA DCGM 활용 전략 AI 플랫폼을 운영하며 수천 장의 GPU를 다루는 일은 결코 단순하지 않습니다. 서버 수가 늘어날수록 관리와 모니터링의 복잡도도 기하급수적으로 증가하고, 그만큼 예상치 못한 문제가 발생할 가능성도 커집니다. 특히 AI 플랫폼을 통해 수많은 고객에게 안정적인 서비스를 제공하려면 GPU 서버의 상태와 성능을 지속적으로 모니터링하는 것이 필수적입니다. 그러나 서버 수가 수백 대에 이르면, 각 GPU의 상태를 일일이 확인하는 것은 사실상 불가능에 가깝습니다. kt cloud에서는 AI Train, AI SERV 등 GPU 서버를 제공하는 서비스들에서 수천 장의 GPU를 제공하고 있습니다. 저희는 AI ..

Tech Story/AI Cloud 2024.11.07
이전
1
다음
더보기
프로필사진

kt cloud [Tech blog]

Tech Innovation, With Customer!

  • 분류 전체보기 (255) N
    • Tech Story (133)
      • Tech Inside (8)
      • Data Center & Security (12)
      • Cloud Architecture (58)
      • AI Cloud (10)
      • DevOps & Container (40)
      • etc. (5)
    • kt cloud Story (39)
      • Tech Events (1)
      • Team Culture (1)
      • Service Updates (2)
      • Newsletter (23)
      • Webinar (11)
      • Customer Spotlight (1)
    • News (82) N
      • Press Release (77) N
      • Promotion (4)

Tag

클라우드, 리벨리온, AI, saas, container, DR, KTCloud, NPU, 케이티클라우드, gpu, 데이터센터, IDC, 컨테이너, DaaS, cloud, 쿠버네티스, CSAP, KT클라우드, KT Cloud, Kubernetes,

최근글과 인기글

  • 최근글
  • 인기글
기업 홈페이지 Cloud 홈 Dater Center 홈

주식회사 케이티클라우드

  • 기업 홈페이지
  • Cloud 홈
  • G-Cloud 홈
  • Dater Center 홈
  • YouTube

티스토리툴바