📋 요약
NVIDIA H200 GPU로 업그레이드된 kt cloud AI Train의
성능 분석 결과와 실제 학습 및 추론 워크로드에서의 개선된 처리 속도를 소개합니다.
대규모 AI 모델 개발을 위한 고성능 클라우드 인프라의 활용 방법과 효율적인 자원 관리 전략을 제시합니다.
#H200 #GPU #AI학습 #클라우드인프라 #성능분석
7월, AI Train에는 NVIDIA의 H200 Tensor Core GPU 기반 상품 라인업이 신규 추가되었습니다. 새롭게 선보이는 H200 서버는 기존 H100 대비 향상된 메모리 대역폭, FP8 연산 최적화를 제공하며, 차세대 CPU 및 I/O 아키텍처를 활용한 고속 데이터 전송 능력을 갖추고 있어 고성능 컴퓨팅 환경에서 요구되는 복잡한 연산 및 데이터 처리 성능을 한층 더 향상시킬 수 있도록 설계되었습니다.
특히 이번 신규 H200 라인업은 4세대 Intel Xeon Scalable 프로세서와 PCIe Gen5 인터페이스를 함께 활용합니다. 이 기술적 조합은 기존 AI Train에서 제공하던 A100 및 H100 기반의 GPU 서버와 비교하여 GPU 메모리 대역폭을 최대 50%까지 확장하고 CPU와 GPU 간 데이터 전송 처리량도 최대 4배까지 향상시킬 수 있습니다.
이를 통해 대규모 모델 학습 및 추론 작업의 성능을 전반적으로 크게 개선하는 견고한 기반을 제공하게 되었습니다.
H200 라인업은 다음과 같은 사양으로 제공됩니다.
Spec | vCore | 메모리(GB) | GPU(H200) | GPU P2P | 스토리지 대역폭 |
H200-1GPU
|
12
|
240
|
1
|
900 GB/s
|
25 Gbps
|
H200-2GPU
|
24
|
480
|
2
|
||
H200-4GPU
|
48
|
960
|
4
|
||
H200-8GPU
|
96
|
1920
|
8
|
실제 모델 학습과 추론 작업을 수행하다 보면 GPU 자체의 연산 성능도 중요하지만, 데이터를 얼마나 빠르고 효율적으로 GPU로 전달하는지가 성능 병목 현상의 주요 원인이 되는 경우가 많습니다. 특히 방대한 양의 데이터를 반복적으로 처리해야 하거나, 수십억 개 이상의 파라미터를 빈번하게 업데이트하는 LLM이나 멀티모달 모델과 같은 복잡한 워크로드에서는 CPU와 GPU 간의 데이터 전송 속도가 전체적인 작업 시간을 좌우합니다.
이러한 문제를 근본적으로 해결하기 위해, AI Train의 H200 서버는 PCIe Gen5 인터페이스를 통해 CPU와 GPU 간의 데이터 전송 효율성을 대폭 개선했습니다. 이를 통해 최신 대규모 언어모델(LLM) 학습, 멀티모달 파운데이션 모델의 구축 및 배포 등과 같은 고도화된 AI 작업에서도 뛰어난 성능과 안정성을 보장할 수 있습니다.
AI Train의 H200 라인업은 이와 같은 강력한 하드웨어 기술력을 기반으로, 사용자가 단일 환경 내에서 다양한 작업을 원활히 수행할 수 있도록 최적화되었습니다. 이제 모델 훈련과 파인튜닝은 물론, 대규모 추론 요청 처리까지 통합된 환경에서 높은 효율성과 성능을 경험할 수 있습니다.
H200, 얼마나 빨라졌을까?
AI Train 환경에서 동일한 조건으로 A100, H100과 H200 GPU 서버를 각각 테스트하여, 실제 학습 및 추론 워크로드에서 어떤 차이를 보이는지 확인해보았습니다. LLM 학습과 추론 모두를 고려해, 다양한 모델과 입력 길이, 배치 사이즈 조합으로 실험을 구성했습니다.
실험 구성
본 성능 실험에 사용된 모델은 다음과 같습니다.
- Midm-2.0-Base-Instruct (단일 GPU 기반 추론)
- Llama-4-Scout-17B-16E-Instruct (8 GPU 병렬 구성 기반 학습 및 추론)
KT의 Midm-2.0-Base-Instruct 모델을 대상으로, 단일 GPU 환경에서의 Total TPS (Tokens Per Second) 성능을 측정한 결과는 다음과 같습니다. Total TPS는 전체 토큰 처리량을 의미하며, 동일 시간 내 모델이 처리할 수 있는 총 출력 토큰 수를 나타내는 핵심 지표입니다.
측정 결과, H200은 16,554.14 TPS로 전체 테스트 중 가장 높은 처리량을 기록했으며, 이는 H100 대비 약 13% 향상된 수치입니다. 같은 조건에서 H100은 14,662.39 TPS를 기록했습니다.
구분 | Output TPS | Total TPS | Mean TTFT | MEAN TPOT |
A100 | 2230.47 | 5409.69 | 18729.31 | 102.46 |
H100 | 6065.06 | 14662.39 | 4452.68 | 90.48 |
H200 | 6834.62 | 16554.14 | 4272.88 | 86.03 |
두 번째로, 한 노드의 GPU 8장을 모두 이용하는 Llama-4-Scout-17B-16E-Instruct 모델에서 동일 조건의 실험을 진행한 결과 H200은 6,403.19 TPS를 기록해 H100 대비 약 6.8% 높은 처리량을 보여주었습니다. 특히 H200의 경우에는 더 큰 GPU 메모리 용량 덕분에 360만 토큰 이상의 긴 context length도 안정적으로 처리할 수 있습니다.
구분 | Output TPS | Total TPS | Mean TTFT | MEAN TPOT |
H100 | 2720.85 | 5995.05 | 1740.09 | 140.43 |
H200 | 2915.92 | 6403.19 | 1679.76 | 126.67 |
두 가지 실험에서 일관되게 나타난 토큰 처리량 개선은 H200의 향상된 GPU 메모리 대역폭과 PCIe Gen5 기반의 데이터 통신 구조 덕분이라는 것을 명확히 보여줍니다. 이는 단순히 GPU 연산 능력 자체를 넘어 데이터 입출력 처리 속도 및 CPU-GPU 간 데이터 전송의 병렬성, 그리고 GPU 메모리 효율성 등 다양한 요인이 결합하여 실제 워크로드 환경에서의 성능 개선으로 이어졌음을 의미합니다.
추론 성능뿐 아니라 학습 속도 측면에서도 의미 있는 차이가 확인되었습니다. Llama-4-Scout-17B-16E-Instruct 모델을 기준으로 동일한 파인튜닝 조건(8 GPU, 1 epoch)에서 학습을 수행한 결과, H200은 iteration당 평균 소요 시간(sec/iter)이 H100보다 더 짧게 측정되었습니다.
구분 | 시간(초)/iteration | 향상률 |
H100 | 20.59 | (기준) |
H200 | 19.45 | -5.5% |
second/iter 값은 Iteration 당 소요되는 시간으로, 낮을수록 학습이 빠르다는 의미이며 실제 실험에서도 H200은 약 5.5% 더 빠른 학습 속도를 보였습니다. 이는 연산 성능 자체보다도 데이터 입출력 처리 속도, GPU-CPU 간 병렬성, 그리고 메모리 대역폭의 효율적인 활용이 복합적으로 작용한 결과입니다. 학습 성능 측정은 H100과 H200 모두 동일한 학습 파라미터를 기준으로 진행되었지만, H200은 더 큰 배치 사이즈 등 추가적인 설정 여지가 있어 실제 환경에서는 더 높은 성능 향상 가능성이 존재합니다.
이번 실험에서는 Midm-2.0-Base-Instruct와 Llama-4-Scout-17B-16E-Instruct 모델을 기준으로, H200 GPU를 포함한 AI Train GPU 라인업의 추론/학습 성능을 비교해보았습니다.
실제 워크로드를 반영한 환경에서 수집된 수치를 통해, 최신 GPU 아키텍처의 성능 차이를 정량적으로 확인할 수 있었습니다.
다만 이번 실험에서 얻어진 결과는 특정 모델 구조와 환경 설정을 기준으로 측정된 것으로, 실제 사용자 환경에서는 모델의 종류나 배치 크기, 입력 토큰 길이, 메모리 접근 방식 등 다양한 변수에 따라 성능이 달라질 수 있습니다. 따라서 본 실험 결과를 절대적인 성능 지표로 받아들이기보다는, AI Train 환경에서의 GPU 성능 경향과 특성을 이해하고 향후 자원을 선택하거나 활용할 때 유용한 참고 자료로 활용해주시기를 권장합니다.
AI Train에서 H200 컨테이너 시작하기
AI Train H200 라인업은 DX-DCN-CJ 존에서 제공됩니다. 서비스 청약 후 AI Train - Container 탭에서 자원그룹 ‘H200’을 선택하여 손쉽게 자원을 생성할 수 있습니다. 스토리지는 H100 자원과 공유 가능한 NVMe 기반 nfs 스토리지가 제공되어 모델과 데이터 자산을 유연하게 연동할 수 있습니다.(스토리지 호스트명: AITRAIN-H100)
혹은 AI Train 전용 Web GUI에서 자원 그룹 ‘H200D’로 세션(컨테이너)을 생성할 수 있습니다.
AI Train은 자원 활용 방식에 따라 고정할당과 동적할당 두 가지 요금제를 제공하며, 이는 H200 자원에도 적용됩니다.
- 고정할당 방식은 컨테이너가 활성화된 전체 시간 동안 GPU 사용 여부와 상관없이 일정 비용이 청구되는 방식입니다. 이는 대규모 학습이나 지속적으로 자원을 확보해둬야 하는 추론 워크로드처럼 GPU를 안정적으로 고정 사용하는 환경에 적합한 옵션입니다.
- 반면, 동적할당 방식은 실제 GPU 사용 시간이 측정되어, 그 시간만큼만 비용이 발생하는 방식입니다. 이 요금제는 Batch 작업이나 비정기적, 간헐적인 워크로드, 혹은 장기간 학습을 진행한 후 GPU 자원을 자동으로 회수하여 비용 효율성을 극대화하려는 경우에 적합합니다. 단, 동적할당 방식에서는 일정 시간 이상 GPU가 유휴 상태로 지속될 경우 AI Train의 자동 회수 정책에 따라 컨테이너가 삭제될 수 있기 때문에, 중요한 작업을 진행할 때는 적절한 작업 스케줄링과 관리가 필요합니다.
추가로, AI Train의 스토리지는 실제 저장된 데이터 용량을 기준으로 비용이 발생하는 사용량 기반 과금 체계를 채택하고 있습니다. 일반적인 클라우드 서비스의 경우 미리 설정된 볼륨 크기나 할당된 쿼터(quota)에 따라 요금을 청구하는 경우가 많으나, AI Train의 방식은 이러한 할당량이 아니라 실제로 저장되어 사용 중인 데이터 용량에만 비용을 부과합니다.
이러한 유연한 과금 방식은 특히 실험적이며 반복적인 작업이 많은 AI 워크로드 환경에서 더욱 효율적이며 경제적인 효과를 제공합니다. 사용자는 꼭 필요한 만큼만 저장하고, 사용한 만큼만 비용을 지불하는 구조 덕분에 불필요한 자원 낭비를 최소화하면서 합리적인 비용 관리를 할 수 있습니다.
고정할당/동적할당 설정 변경은 kt cloud 콘솔 AI Train - Container 탭에서, 실행 중인 컨테이너가 존재하지 않는 상태에서 변경 가능합니다.
마무리
이번 글에서는 AI Train 환경에서 H200 GPU의 성능을 다양한 모델과 조건에서 측정하고, H100 및 A100과의 비교를 통해 그 차이를 정량적으로 살펴보았습니다. 특히 Llama-4-Scout-17B-16E와 같은 대규모 모델을 기준으로 한 실험 결과는 H200이 최신 아키텍처 기반에서 추론 처리량과 학습 속도 모두에서 안정적인 우위를 보일 수 있음을 보여줍니다.
물론 실제 워크로드에서 체감하는 성능은 사용하는 모델 구조, 배치 크기, saequence length, 메모리 사용 패턴 등 여러 요소에 따라 달라질 수 있으므로 AI Train에서 제공하는 다양한 자원 옵션을 직접 테스트해보는 것이 가장 정확한 판단 방법이 될 것입니다.
AI Train은 앞으로도 다양한 GPU 라인업을 기반으로 대규모 AI 학습과 추론 환경을 더욱 유연하게 제공할 수 있도록 진화해 나가고 있습니다.
이번 H200 라인업 출시가, 고성능 AI 인프라가 필요한 분들께 좋은 비교 기준과 선택지를 제공하길 기대합니다.
❓ 자주 묻는 질문 (FAQ)
Q. kt cloud AI Train의 요금제는 어떻게 구성되어 있고, 어떤 방식을 선택해야 하나요? |
A. kt cloud AI Train은 사용 패턴에 따라 선택할 수 있는 2가지 요금제를 제공합니다. [요금제 옵션] 🔒 고정할당 방식
💾 스토리지 과금의 특별함
🔧 설정 변경 방법
|
📚 관련/출처
|
'kt cloud Story > Service Updates' 카테고리의 다른 글
[2025 Update] kt cloud AI : 더 쉽고 빠른 AI 운영을 위한 신기능 미리보기 (0) | 2025.04.14 |
---|---|
K-클라우드의 심장, ‘고성능, 저전력’ 국산 AI반도체 기반 AI Cloud Farm 구축 완료 ( w. NIPA 정보통신산업진흥원) (0) | 2023.11.30 |