Tech story/AI Cloud 8

GPU 1,000장 모니터링 하기: NVIDIA DCGM 활용 전략

[kt cloud AI플랫폼팀 최지우 님]  GPU 1,000장 모니터링하기: NVIDIA DCGM 활용 전략 AI 플랫폼을 운영하며 수천 장의 GPU를 다루는 일은 결코 단순하지 않습니다. 서버 수가 늘어날수록 관리와 모니터링의 복잡도도 기하급수적으로 증가하고, 그만큼 예상치 못한 문제가 발생할 가능성도 커집니다. 특히 AI 플랫폼을 통해 수많은 고객에게 안정적인 서비스를 제공하려면 GPU 서버의 상태와 성능을 지속적으로 모니터링하는 것이 필수적입니다. 그러나 서버 수가 수백 대에 이르면, 각 GPU의 상태를 일일이 확인하는 것은 사실상 불가능에 가깝습니다. kt cloud에서는 AI Train, AI SERV 등 GPU 서버를 제공하는 서비스들에서 수천 장의 GPU를 제공하고 있습니다. 저희는 AI ..

Tech story/AI Cloud 2024.11.07

NPU로 sLM 서빙하기: 새로운 가능성 탐구

[kt cloud AI플랫폼팀 최지우 님]  NPU로 sLM 서빙하기: 새로운 가능성 탐구 AI 기술이 발전함에 따라, AI 모델의 효율적인 배포와 운영을 위한 새로운 처리 장치도 개발되고 있습니다. 이 과정에서 NPU(Neural Processing Unit)라는 새로운 주자가 등장했습니다. NPU는 인공 신경망 연산을 위해 특별히 설계된 프로세서로, 기존의 GPU(Graphics Processing Unit)와는 다른 방식으로 AI 워크로드를 처리합니다.NPU는 대규모 병렬 처리를 가능하게 하며, 특히 신경망 연산에 최적화되어 있습니다. 이로 인해 NPU는 적은 전력으로 높은 성능을 낼 수 있습니다. AI 모델의 학습과 추론 과정에서 NPU는 더욱 효율적인 데이터 흐름과 메모리 관리로 성능을 크게 향..

Tech story/AI Cloud 2024.10.31

AMD MI250 GPU로 vLLM 최적화 하기 (feat. AI SERV)

[kt cloud AI플랫폼팀 최지우 님]  AMD MI250 GPU로 vLLM 최적화하기 최근 대규모 언어 모델(LLM)의 발전과 함께 인공지능 연구 및 상용화 과정에서 GPU의 수요가 급격히 증가하고 있습니다. 특히, NVIDIA는 이 분야에서 시장을 주도하며 AI 연산에 필수적인 GPU 기술을 제공하고 있지만, 수요에 비해 공급이 부족하고 가격이 높아지는 문제가 발생하고 있습니다. 이러한 상황에서 많은 기업과 연구 기관들은 더 경제적이면서도 성능이 뛰어난 대안을 모색하고 있습니다.그 중 하나가 vLLM 프로젝트입니다. vLLM은 LLM 추론 및 제공을 위한 빠르고 사용하기 쉬운 라이브러리입니다. PagedAttention을 이용하여 Key-Value(KV) Cache가 저장되는 메모리를 block..

Tech story/AI Cloud 2024.10.14

K-클라우드의 심장, ‘고성능, 저전력’ 국산 AI반도체 기반 AI Cloud Farm 구축 완료 ( w. NIPA 정보통신산업진흥원)

세계적인 반도체 전쟁에서 승리하기 위해 K-클라우드 프로젝트로 국산 AI반도체가 조속히 레퍼런스를 확보해 국내는 물론 글로벌 시장에도 진출할 수 있도록 적극 지원하겠습니다. -'K-클라우드 프로젝트 1단계 착수보고회' 내용 中- AI는 수많은 데이터를 학습하고 추론한 결과를 도출합니다. 학습 데이터를 단시간에 받아들이고 처리하기 위해서는 ‘AI 반도체’가 필수인 시대가 도래하였는데요.😁😀 AI 반도체는 AI 서비스 구현에 필요한 대규모 연산을 초고속, 초전력으로 실행하는 효율성 측면에서 특화된 비메모리 반도체로 각광을 받고 있습니다. 🎊🎉 지난 8월 23일 시장조사업체 가트너가 발표한 AI반도체 시장의 성장률이 AI 산업의 장밋빛 미래를 실감케 합니다. 📃✏📌 보고서에 따르면, 올해 전 세계 AI 반도체..

Tech story/AI Cloud 2023.11.30

[K2P&HAC] 초거대 AI 활용을 위한 Hyperscale AI Computing과 Container 서비스

최근 AI가 모든 산업에 적용되면서 AI 모델은 점차 대형화되고 있고, 그로 인해 대규모 데이터 분석을 가능하게 하는 GPU 컴퓨팅 시장이 성장하고 있습니다. 기업은 머신러닝 및 딥러닝을 위한 GPU 수요가 증가하고 있지만, 설치비용, 운영비용, 주문&설치기간 등을 고려할 때 Cloud를 활용하여 GPU를 사용할 수 있는 GPUaaS(GPU-as-a Service) 활용이 증가하고 있는데요. 세계적으로 Cloud 전환이 가속화되고, 비디오 편집, 그래픽 디자인, 이미지 처리 등 고성능 컴퓨팅에 대한 수요가 증가함에 따라 GPUaaS 기술의 시장 전망은 2025년까지 연평균 38% 성장하여 약 71억 달러 규모로 성장할 것으로 예상됩니다. 이처럼 GPUaaS 시장 전망을 보면 AI 기술은 매년 꾸준히 발달..

Tech story/AI Cloud 2023.10.23

kt cloud 봇과 함께 클라우드와 가까워지세요!

KT Cloud봇 소개 배경 AI 기술의 발달로 챗봇 시장이 확대 되고, VOC를 효율적으로 처리하고자 하는 사업자의 Needs가 있습니다. 또한, 코로나 사태로 인해 비대면 서비스가 확대되면서 챗봇 서비스에 대한 수요가 증가하고 있는데요. KT Cloud 고객의 궁금증에 대해 빠르고 편리하게 안내하고, Cloud 고객센터는 단순VOC 처리를 자동화하여 효율적으로 고객을 응대할 수 있는 KT Cloud 챗봇을 소개하고자 합니다! KT Cloud 챗봇, "클라우드톡"이란? KT는 Cloud 고객의 궁금증을 바로 해결해 줄 수 있는 챗봇, “클라우드톡”을 1월 28일에 오픈 했습니다. KT 클라우드 포탈 (https://cloud.kt.com) 에서 클라우드톡을 만나볼 수 있으며, KT Cloud 서비스의 ..

Tech story/AI Cloud 2021.04.13

GPU란 무엇일까? 1부

GPU란 무엇일까? 1부 GPU는 보통 게임할 때 많이 쓰이는 것으로 알고 계실 텐데요, 그러다 보니 비싼 장비, 혹은 비싼 카드 정도로 알고 계신 분들이 많습니다. 하지만 GPU는 4차 산업혁명과 함께 AI나 가상화폐 채굴 등 여러분의 일상생활을 바꿀 필수 핵심 장비로 탈바꿈 중이랍니다. 과연 GPU는 어떤 구조와 특성을 가지고 있기에 여러 분야에서 쓰일까요? GPU란? GPU의 정의부터 알아봅시다! GPU는 Graphic Processing Unit(그래픽 처리 장치)의 약어로, 그래픽 처리, 특히 3D 모델링을 위한 프로세서로 탄생하였습니다. 1990년대 중반까지만해도 3D 그래픽은 주로 CPU로 구현하였으나, 게임 등의 수요가 높아짐에 따라 더 빠르고 실시간 그래픽 처리가 필요했습니다. 1999년..

Tech story/AI Cloud 2021.01.18