DevOps 23

[인사이트] 프롬프트·컨텍스트 엔지니어링 다음은 하네스 엔지니어링: AI 에이전트 환경 설계

[ kt cloud 마케팅커뮤니케이션팀 김지웅 님 ] 📋 요약 이 글에서는 AI 에이전트가 실제 업무를 안전하게 수행하도록 실행 환경을 설계하는 하네스 엔지니어링을 다룹니다.모델 성능만으로 해결하기 어려운 운영 안정성과 책임 범위 설정의 중요성을 정리합니다.#하네스엔지니어링 #AI에이전트 #프롬프트엔지니어링 #컨텍스트엔지니어링 #AI운영안정성 안녕하세요! kt cloud 테크 마케터 김지웅입니다. 🙋‍♂️ AI를 활용하는 방식이 빠르게 바뀌고 있어요. 한동안 AI를 잘 쓰는 핵심은 좋은 프롬프트를 작성하는 것이었죠. 어떤 역할을 줄지, 어떤 형식으로 답하게 할지, 어떤 기준을 지키게 할지 구체적으로 지시하는 것이 중요했습니다. 그런데 최근의 AI 에이전트는 단순히 답변만 생성하지 않아..

[운영가이드] Kubernetes 기반 Fault-Tolerant GPU 클러스터 유지 관리

[ kt cloud Foundation플랫폼팀 서준호 님 ] 📋 요약 이 글에서는 Kubernetes 기반 Fault-Tolerant GPU 클러스터의 안정적 운영과 유지 관리 방안을 다룹니다.대규모 AI 인프라에서 장애 대응과 성능 저하 예방이 운영 신뢰성에 미치는 의미를 정리합니다.#Kubernetes #GPU클러스터 #FaultTolerance #Slurm #InfiniBand 생성형 AI와 대규모 언어 모델(LLM) 시대에 고성능 연산에 대한 수요는 일시적인 급증을 넘어, 이제는 거대하고 지속적인 워크로드로 변화했습니다. 수십억 개의 파라미터를 가진 모델을 학습시키는 것은 단순히 계산 능력을 겨루는 일이 아닌, 인프라를 안정적으로 운영하는 레이스와 같습니다. 수천 개의 GPU를 ..

[도입전략] Git 시크릿 관리와 Vault 도입으로 보안 강화하기

[ kt cloud Foundation플랫폼팀 이초환 님 ] 📋 요약 이 글에서는 Git 시크릿 관리 개선과 Kubernetes Secret 오브젝트 제거를 위한 Vault 도입 전략을 다룹니다.시크릿 노출 위험을 줄이고 운영 환경의 보안 기준을 명확히 하는 방향을 정리합니다.#Vault #GitSecret #Kubernetes #CSIProvider #시크릿관리 왜 Sealed Secrets도 SOPS도 아닌 Vault였나 — 도입 배경과 전략요건은 두 가지였다회사에서 시크릿 관리 개선 요청을 받았다. 요건을 정리하니 두 가지로 요약됐다.Git 레포에 평문으로 관리되는 시크릿을 제거할 것Kubernetes 클러스터 위에 Secret 오브젝트로 민감정보가 떠 있는 것을 없앨 것두 번째 ..

[설계가이드] Terraform 모듈 설계, 원칙 없이 만들면 반드시 무너진다

[ kt cloud Azure전환팀 변세림 님 ] 📋 요약 이 글에서는 Terraform 모듈 설계 원칙과 표준 구조, 실무 적용 기준을 다룹니다.안정적인 인프라 운영을 위해 모듈 복잡도와 변경 위험을 줄이는 방향을 정리합니다.#Terraform #IaC #Terraform모듈 #HashiCorp #인프라자동화안녕하세요. 🙋1부에서 IaC의 본질을 살펴봤는데요, 이번에는 조금 더 실전적인 이야기를 해볼게요.Terraform을 쓰다 보면 어느 순간 꼭 이런 상황이 생겨요."처음엔 그냥 리소스 파일을 하나씩 만들었는데, 어느 순간 코드가 뒤엉켜서 뭐가 뭔지 모르게 됐다.""모듈을 만들긴 했는데... 팀원이 어떻게 쓰는지 모른다.""모듈 하나 고쳤더니 왜 다른 환경이 망가졌지?" 이런 문제..

Tech Story/etc. 2026.06.01

[기술 분석] kubernetes Ingress API의 중단. 그 뒤를 잇는 Gateway API 파헤치기

[ kt cloud Container Service팀 박지선 님 ] 📋 요약 이 글에서는 Kubernetes Ingress API의 지원 중단 배경과 Gateway API의 개념 및 활용 방식을 다룹니다.클러스터 트래픽 관리의 표준 변화에 맞춰 운영 안정성과 확장성을 높이는 방향을 정리합니다.#Kubernetes #Ingress #GatewayAPI #NginxGatewayFabric #HTTPRoute 지난 11월, kubernetes는 Ingress NGINX의 기술지원 중단을 발표했고, 이에 대한 대안책으로 Gateway API로 교체해서 사용할 것을 권장했습니다. Ingress NGINX Retirement: What You Need to KnowTo prioritize the ..

[도입가이드] 인프라 관리의 표준, IaC의 본질과 도입 가치

[ kt cloud Azure전환팀 변세림 님 ] 📋 요약 이 글에서는 클라우드 인프라를 코드로 관리하는 IaC의 개념과 도입 가치를 다룹니다.수동 관리로 인한 설정 불일치와 복구 지연을 줄이고, 운영 안정성을 높이는 실무 방향을 정리합니다.#IaC #InfrastructureAsCode #Terraform #클라우드인프라 #DevOps 안녕하세요. 🙋클라우드를 처음 도입할 때만 해도 웹 콘솔에서 클릭 몇 번으로 서버를 뚝딱 만드는 게 마법처럼 느껴졌어요. 하지만 여러 migration 프로젝트를 진행하면서 하루에도 수십 개의 인프라를 찍어내야 하는 상황이 반복되자, 그 마법은 점점 감당하기 어려운 운영 부담으로 바뀌기 시작했어요."분명히 매뉴얼대로 했는데 왜 설정이 달라져 있지?""..

Tech Story/etc. 2026.05.14

[분석] Kubernetes v1.35 Timbernetes: 6년 만의 GA, AI 스케줄링, 기술 부채 개선

[ kt cloud Platform엔지니어링팀 이지은 님 ] 📋 요약 이 글에서는 Kubernetes v1.35 Timbernetes의 주요 변화와 AI 워크로드, 리소스 관리, 보안·운영 측면의 개선을 다룹니다.클러스터 운영 안정성과 비용 효율을 높이기 위한 업그레이드 방향을 정리합니다.#Kubernetes #Timbernetes #GangScheduling #OCIImageVolume #클라우드네이티브 Timbernetes: The World Tree Release2025년 12월 17일, Kubernetes 커뮤니티가 한 해의 마지막 메이저 릴리즈인 v1.35를 공개했습니다. 코드명은 Timbernetes: The World Tree Release — 북유럽 신화 속 우주를 연결하..

[트러블슈팅] Kubernetes StatefulSet 스토리지 확장: Non-cascade 전략으로 무중단 Immutable 제약 극복

[ kt cloud Foundation플랫폼팀 이초환 님 ] 📋 요약 이 글에서는 Kubernetes StatefulSet 환경에서 volumeClaimTemplates의 Immutable 제약을 우회하여서비스 중단 없이 PVC 스토리지를 확장하는 Non-cascade 전략과 단계별 절차를 다룹니다.운영 중인 Pod의 가용성을 유지하면서 컨트롤러와 리소스의 생명주기를 분리하는 접근이실제 인프라 확장 작업에서 얼마나 안전하고 효과적인지를 정리합니다. #Kubernetes #StatefulSet #PVC #Non-cascade #OnlineVolumeExpansion1. StatefulSet 환경에서 스토리지 확장이 어려운 이유일반적인 Stateless 애플리케이션(Deployment)은 ..

[비교분석] Calico vs Cilium : kubernetes에서 eBPF를 대하는 두 CNI 거인

[ kt cloud Container Service팀 박지선 님 ] 📋 요약 이 글에서는 Kubernetes 네트워킹의 핵심 구성요소인 CNI를 중심으로,Calico eBPF 모드와 Cilium의 기술적 차이를 다룹니다.두 CNI의 아키텍처 철학과 운영 특성을 비교함으로써,클러스터 환경에 적합한 네트워킹 솔루션 선택의 기준을 정리합니다.#CNI #eBPF #Calico #Cilium #Kubernetes 개요지난해 kt cloud는 마스터 노드(Control Plane) 관리를 자동화하여 Cloud Native 환경의 운영 부담을 획기적으로 줄여주는 관리형 쿠버네티스 서비스, Managed KS를 선보였습니다. Managed KS 클러스터의 네트워킹을 책임지는 핵심 엔진으로는 Calic..

[기술리포트] 클라우드 네이티브 3편 : 장애 도메인과 격리 설계 - 가용성·복원력 강화 전략

[ kt cloud Cloud컨설팅팀 심대섭 님 ] 📋 요약 이 글에서는 클라우드 네이티브 환경에서 멀티 리전 구성 시 장애 도메인과 격리 설계를 통해가용성과 복원력을 강화하는 아키텍처 전략을 다룹니다.리전 분리만으로는 장애 전파를 막을 수 없으며,공유 지점 최소화와 독립 운영 단위 설계가 실제 장애 국지화의 핵심임을 정리합니다. #클라우드네이티브 #장애도메인 #멀티리전 #고가용성 #DR #share-nothing멀티 리전을 썼는데도 서비스가 같이 멈추는 구조적 원인클라우드 네이티브 가용성을 이야기할 때 가장 흔한 기대는 “리전을 두 개 이상 쓰면 고가용성이 된다”입니다. 그런데 운영 현장에서는 리전과 가용 영역(AZ)을 분리했는데도 장애가 전면 확산되는 케이스가 반복됩니다. 멀티 리전..