전체 글 223

GPU 1,000장 모니터링 하기: NVIDIA DCGM 활용 전략

[kt cloud AI플랫폼팀 최지우 님]  GPU 1,000장 모니터링하기: NVIDIA DCGM 활용 전략 AI 플랫폼을 운영하며 수천 장의 GPU를 다루는 일은 결코 단순하지 않습니다. 서버 수가 늘어날수록 관리와 모니터링의 복잡도도 기하급수적으로 증가하고, 그만큼 예상치 못한 문제가 발생할 가능성도 커집니다. 특히 AI 플랫폼을 통해 수많은 고객에게 안정적인 서비스를 제공하려면 GPU 서버의 상태와 성능을 지속적으로 모니터링하는 것이 필수적입니다. 그러나 서버 수가 수백 대에 이르면, 각 GPU의 상태를 일일이 확인하는 것은 사실상 불가능에 가깝습니다. kt cloud에서는 AI Train, AI SERV 등 GPU 서버를 제공하는 서비스들에서 수천 장의 GPU를 제공하고 있습니다. 저희는 AI ..

Tech story/AI Cloud 2024.11.07

Kafka 이벤트 전송 최적화: Partitioner와 batch 설정 이해하기

[kt cloud 플랫폼Innovation팀 오준영] Kafka 이벤트 전송 최적화: Partitioner와 batch 설정 이해하기 Kafka에서 Producer는 기본적으로 Sticky Partitioner를 사용하여, 이벤트를 batch 단위로 묶어 효율적으로 전송할 수 있습니다.배치 설정은 batch.size와 linger.ms가 있으며, 각각 배치의 크기와 데이터가 쌓이는 시간을 설정해 전송 조건을 조절할 수 있습니다.본 포스팅에서는 Kafka를 활용한 이벤트 발행과 구독하는 과정에서, 겪은 이벤트 분산 이슈의 원인을 파악하기 위해 Kafka Partitioner, batch.size, linger.ms 설정을 분석한 내용을 공유합니다.  1.시나리오 테스트 환경 (Local) Kafka Clu..

Tech story/Cloud 2024.11.07

OKD Container migration

[kt cloud Container개발팀 정성훈 님] OKD Container migration OKD 클러스터 간에 Kubernetes 리소스(네임스페이스 범위의 리소스), PV data, 내부 컨테이너 이미지를 crane이라는 오픈소스를 통해 마이그레이션하는 방법에 대한 소개글입니다.   OKD란? Red Hat Openshift라는 상업용 소프트웨어 제품의 오픈 소스 버전이며, 다양한 Kubernetes 배포판 중의 한 종류로 보안 및 인증 기능을 제공하며 효율적인 운영을 위해 관리콘솔 및 모니터링 도구를 제공하고 있습니다. Crane이란? Crane은 Kubernetes 클러스터 간에 애플리케이션을 마이그레이션 하기 위한 도구입니다.Persistent volume 및 Secret과 같은 상태를 마..

Container의 kernel 튜닝

[kt cloud Container개발팀 정선훈 님] Container의 kernel 튜닝 Kubernetes Worker Node는 대부분의 워크로드의 요구사항을 충족하는 안정성 및 최적화, 성능에 맞게 구성되지만 특정 워크로드의 성능 최적화를 위해 kernel 설정을 변경해야 하는 경우가 있을 수 있습니다. Kubernetes에서는 sysctl 설정을 통해 Pod에 독립적으로 kernel 파라미터 수정을 할 수 있도록 제공하고 있습니다. 본 글은 워크로드 성능 최적화를 위해 Pod별로 kernel 파라미터를 변경하는 방법에 대한 내용 입니다.  Container Kernel 파라미터컨테이너의 격리 메커니즘과 Linux의 Namespace를 통해 각각의 컨테이너는 독립적인 환경에서 실행되며, 호스트(V..

2024년 Front-end 개발 트렌드를 돌아보며: 클라우드와의 조화

[kt cloud Cloud기획팀 김지웅 님] 2024년 Front-end 개발 트렌드를 돌아보며: 클라우드와의 조화(Looking Back on 2024 Front-end Development Trends: Harmony with Cloud)  Introduction: 프론트엔드 개발의 변곡점클라우드와 프론트엔드 개발의 변화2024년은 프론트엔드 개발에 있어 중요한 변곡점이 된 해였습니다. 기존의 전통적인 프론트엔드 개발 방식에서 벗어나 클라우드 기술과의 연결이 더욱 깊어지면서, 개발자들에게 새로운 기회를 제공하고 있습니다. 클라우드와 프론트엔드 개발의 융합은 단순히 서버리스 아키텍처와 API 중심 설계에 그치지 않고 성능, 확장성, 그리고 보안 측면에서 폭넓은 영향을 미쳤습니다. 클라우드 네이티브 ..

Tech story/Cloud 2024.11.04

DevRel 톺아보기

[kt cloud 플랫폼Innovation팀 강민호 님] DevRel 톺아보기 개발자로서 새로운 기술과 지식을 접한다는 건 늘 짜릿한 일입니다.최근 호기심이란 물음표에서 깨달음이란 느낌표로 바뀐 새로운 단어인 ‘DevRel(Developer Relations)’에 대해서 글을 작성하고자 합니다.7월 기술본부 안재석 CTO님께서 DevRel에 대한 언급을 시작으로, 처음 알게 된 단어에 대한 호기심이 최근 10월 기술본부 주최 ‘직무 탐험 신비의 세계: Developer Relations 톺아보기’란 주제로 기술 세미나를 들으며 느낌표로 바뀌게 되었습니다.  DevRel 이란? 저는 앞서 얘기했지만, DevRel이란 단어를 최근 처음 들었습니다. 이미 DevRel에 대해서 알고 있는 분들도 있고 이 블로그..

Tech story/etc. 2024.11.04

MSW로 프론트엔드 개발 프로세스 개선하기 : API Mocking

[kt cloud 플랫폼Innovation팀 송재희 님] MSW로 프론트엔드 개발 프로세스 개선하기 : API Mocking 프론트엔드 개발자라면, 종종 백엔드 API가 준비되기 전까지 대기해야 하는 상황을 경험해 보셨을 겁니다. 이번 포스트에서는 백엔드 API가 준비되기 전에 동일한 규격의 API를 지원하는 가상 서버 환경을 구성하여, 생산성 높은 프론트엔드 개발을 진행할 수 있는 방법을 소개하고자 합니다. 그 중심에는 MSW(Mock Service Worker)가 있습니다.  프론트엔드 개발의 현실 프론트엔드와 백엔드가 협업하며 마주하는 어려움 중 하나는 백엔드 API 연동 과정에 있습니다. 프론트엔드는 클라이언트 UI 화면 구현을 중심으로 작업을 진행하지만, 서버 API를 연동하여 알맞은 데이터와 ..

Tech story/Cloud 2024.11.04