[리뷰] 책상 위의 데이터센터, Dell Pro Max GB10 AI 워크스테이션 실사용기

Tech Story/AI Cloud

[리뷰] 책상 위의 데이터센터, Dell Pro Max GB10 AI 워크스테이션 실사용기

kt cloud 기술 블로그 2026. 5. 8. 13:47

[ kt cloud AI플랫폼팀 최지우 님 ]

📋 요약

이 글에서는 Dell Pro Max GB10 AI 워크스테이션의 아키텍처, 설정, 성능 검증과 활용성을 다룹니다.

로컬 AI 개발 환경의 선택 기준과 운영 방향을 정리합니다.

#DellProMaxGB10 #AI워크스테이션 #Blackwell #통합메모리 #로컬AI

AI 엔지니어라면 누구나 한 번쯤 이런 상상을 해보셨을 겁니다.

"내 책상 위에 H100 하나만 있으면 소원이 없겠다."

클라우드에 H100, A100 클러스터가 구축되어 있지만, 보안상의 이유로 데이터를 외부로 반출할 수 없거나, 네트워크 지연(Latency) 없이 즉각적인 추론 테스트를 하고 싶을 때 우리는 항상 로컬 장비를 갈망합니다.

하지만 현실은 냉혹합니다. 현재 시중에서 구할 수 있는 소비자용 끝판왕 GPU인 RTX 5090(32GB)조차 LLM 시대에는 명함을 내밀기 힘듭니다.

Llama-3 70B 모델 크기(FP16): 약 140GB
Int4 양자화(Quantization) 시: 약 40GB ~ 48GB

5090을 두 장 꽂아도(NVLink도 지원 안 되지만) 70B 모델을 온전히 올리기 버겁습니다. 결국 레이어 오프로딩으로 모델을 분할하거나 시스템 메모리를 활용하게 되는데, 이 경우 초당 1토큰 수준의 응답 속도를 감수해야 합니다.

이러한 한계는 단순히 GPU 메모리 용량의 문제가 아니라, CPU–GPU 간 데이터 이동을 PCIe에 의존하는 기존 x86 아키텍처 구조에서 비롯됩니다.

GB10은 바로 이 지점을 정면으로 해결합니다. PCIe 기반 연결 구조를 제거하고, 20코어 ARM 프로세서와 Blackwell GPU를 단일 패키지로 통합했으며, 273GB/s 대역폭의 128GB LPDDR5x 통합 메모리를 통해 CPU와 GPU가 동일한 메모리 풀을 공유합니다. 그 결과, 로컬 환경에서 대형 모델을 구동할 때 발생하던 병목 구조 자체가 사라지며, ‘로컬 AI 컴퓨팅’의 가능 범위가 완전히 달라집니다.

1. 아키텍처 살펴보기 (Grace Blackwell)

박스를 열고 외형을 논하기 전에, 이 장비가 왜 '괴물'인지 칩셋 레벨에서 짚고 넘어가야 합니다. GB10은 일반적인 x86 CPU + PCIe GPU 조합이 아닙니다.

1.1. Grace CPU + Blackwell GPU의 결합

기존 워크스테이션은 Intel/AMD CPU와 NVIDIA GPU가 PCIe Gen5 인터페이스로 연결됩니다. 아무리 빨라봐야 대역폭은 128GB/s 수준이죠. GPU가 데이터를 필요로 할 때마다 CPU를 거치고 PCIe 병목을 통과해야 했습니다. 하지만 GB10은 NVIDIA가 설계한 20코어 ARM 기반 프로세서와 Blackwell GPU가 한 기판 위에 공존합니다.

정합성 보장 통합 메모리: 하드웨어 레벨에서 CPU와 GPU가 메모리 주소 공간을 완벽하게 공유합니다. 엔지니어 입장에선 더 이상 "데이터를 어느 메모리에 복사해둘까" 고민하며 cudaMemcpy를 남발할 필요 없이, 하나의 거대한 풀을 다루듯 코드를 짤 수 있습니다.
NVIDIA DGX OS 탑재: DGX 시스템에 맞게 최적화된 Ubuntu 기반 소프트웨어 스택이 기본 제공됩니다. Blackwell 아키텍처에 최적화된 드라이버, CUDA, 컨테이너 런타임, 모니터링 도구가 통합되어 있어 로컬 환경에서도 데이터센터급과 동일한 실행 환경과 안정성을 확보할 수 있습니다.

1.2. 128GB Unified Memory (LPDDR5x)

결국 이 장비의 핵심은 메모리 설계에 있습니다. GB10은 GPU 전용 VRAM과 CPU용 RAM을 물리적으로 구분하던 기존 방식을 버리고, 128GB의 LPDDR5x를 통으로 사용하는 통합 메모리 구조를 택했습니다.

273GB/s의 통합 대역폭: 통합 메모리임에도 웬만한 워크스테이션 RAM 대역폭을 가볍게 상회하는 273GB/s를 보장합니다. CPU와 GPU 사이의 데이터 교환 속도가 비약적으로 향상되었습니다.
H100(80GB)을 넘어서는 가용 용량: 128GB 전체를 VRAM처럼 점유할 수 있다는 건 엄청난 메리트입니다. 80GB VRAM을 가진 H100 한 장으로도 버겁던 파라미터가 큰 모델이나, 수만 토큰의 컨텍스트 윈도우(Context Window)를 활용한 RAG 시스템도 로컬에서 여유 있게 돌아갑니다.
전성비와 공간 효율: LPDDR5x 채택 덕분에 전력 소모가 드라마틱하게 줄었습니다. 4090 두 장을 억지로 끼워 넣으려고 1500W급 파워를 준비하거나 커스텀 수랭을 고민하던 수고를 생각하면, 단일 칩셋으로 이 정도 효율을 뽑아낸다는 건 확실한 세대교체입니다.

1.3. Connectivity

연결성 측면에서는 최신 무선 규격인 Wi-Fi 7과 블루투스 5.4를 기본 지원하며, 모든 물리 포트를 후면 선반에 배치하여 깔끔한 케이블 관리가 가능하도록 설계되었습니다. USB-C 3.2 Gen 2 포트(DisplayPort 출력 지원) 3개와 HDMI 2.1b, 그리고 고속 데이터 전송을 위한 10Gbps 이더넷 포트가 탑재되어 일반적인 워크스테이션으로서의 확장성도 충분히 갖췄습니다.

하지만 이 기기의 핵심은 우측에 위치한 2개의 200Gbps ConnectX-7 SmartNIC 포트에 있습니다. 이 포트는 QSFP(Quad Small Form-factor Pluggable) 케이블을 통해 여러 대의 GB10을 다이렉트로 연결하는 역할을 합니다. 이를 통해 현재 최대 2대의 시스템을 클러스터링하여 256GB의 통합 메모리 환경을 구축할 수 있으며, 이는 초거대 모델을 분산 추론하거나 대규모 RAG 시스템을 구축하기 위한 핵심적인 확장성을 제공합니다.

2. Setup & Installation

최신 아키텍처인 만큼, 소프트웨어 스택을 세팅하는 과정도 공유가 필요할 것 같습니다.

2.1. OS 및 Driver

셋업 과정은 허무할 정도로 간단합니다. 본체에 전원을 꽂고 HDMI로 모니터만 연결하면 끝입니다. 전원을 켜자마자 NVIDIA DGX OS(Ubuntu 24.04 LTS 기반)가 이미 깔끔하게 설치된 상태로 반겨줍니다. 마우스와 키보드로 기본적인 시스템 설정만 마치면 익숙한 우분투 GUI 환경에 즉시 진입할 수 있습니다.

ARM 아키텍처(aarch64) 기반이므로, x86용 라이브러리를 그대로 가져다 쓰면 에러가 발생하니 주의해야합니다.

# 아키텍처 확인
$ uname -m
aarch64

2.2. Docker Container 구성

더 감동적인 부분은 소프트웨어 스택입니다. 원래 Blackwell 같은 최신 아키텍처는 전용 드라이버를 잡는 것부터가 고역인데, GB10은 그럴 필요가 없습니다.

NVIDIA Driver & CUDA: 현재 아키텍처에 최적화된 최신 버전이 이미 완벽하게 잡혀 있습니다. nvidia-smi를 입력하자마자 Blackwell GPU가 바로 응답합니다.
Docker & NVIDIA Container Toolkit: AI 개발의 필수인 도커 환경까지 사전 구성되어 있습니다. 컨테이너 런타임 설정 때문에 설정 파일을 뒤질 필요 없이, 바로 이미지를 pull 해서 작업을 시작할 수 있는 상태입니다.

최신 기술의 집합체인 장비를 들여왔는데, 정작 세팅하느라 진을 빼지 않아도 된다는 건 생각보다 큰 장점입니다. "박스 개봉부터 첫 번째 추론 테스트까지" 걸리는 시간이 단 몇 분에 불과하다는 사실은, 이 장비가 개발자의 생산성에 얼마나 진심인지를 보여줍니다.

3. 간단 Benchmark

Blackwell 아키텍처의 진가는 단순히 연산 속도가 빠른 데 그치지 않습니다. FP4 데이터 포맷을 통해 모델의 크기는 크게 줄이면서도, 추론 성능은 하드웨어 가속을 통해 극대화한다는 점이 핵심입니다. 이번 벤치마크에서는 Meta-Llama-3.3-70B-Instruct 모델을 통해 GB10 장비가 보여주는 FP4 추론의 실전 파워를 측정했습니다.

[테스트 환경]

Model: Meta-Llama-3.3-70B-Instruct
Quantization: NVFP4 (NVIDIA ModelOpt v0.23.0 로 양자화)
Serving Engine: TensorRT-LLM (Release 1.2.0rc6.post3)

docker run --rm -it --gpus all --ipc=host \
  --ulimit memlock=-1 --ulimit stack=67108864 \
  -p 8000:8000 \
  -v $(pwd):/workspace \
  nvcr.io/nvidia/tensorrt-llm/release:1.2.0rc6.post3

trtllm-serve Llama-3.3-70B-Instruct-NVFP4 --host 0.0.0.0 --port 8000

3.1. Model Loading & Memory Footprint

가장 먼저 확인한 것은 "70B 모델이 진짜 올라가는가?"였습니다.

과거 70B 모델을 운용하려면 최소 A100(80GB) 2장이 필수적이었습니다. 하지만 NVFP4 양자화 적용 시 가중치만 따지면 40GB, 서빙 실행 시 약 60GB의 VRAM 만을 점유했습니다. 시스템 전체 가용 메모리(128GB)의 절반 수준입니다. 이는 단순 추론을 넘어, 동시에 2~3개의 70B 모델을 띄우거나, 거대한 Context Window(128k)를 활용한 RAG 시스템을 구축하기에 충분한 공간입니다.

3.2. Inference Speed (Throughput & Latency)

실제 챗봇 사용성을 좌우하는 TPS(Tokens Per Second)를 측정했습니다.

일반 챗봇 (512 in / 256 out) 기준

Output Token Throughput (avg): 198.31 tokens/sec
- 가장 중요한 지표입니다. 70B 파라미터 모델이 초당 약 200토큰을 뽑아내고 있습니다.
- 일반적인 A100이나 H100 서버급이 아닌, 단일 Blackwell GPU(GB10) 환경에서 이 정도 수치는 FP4 가속이 하드웨어 레벨에서 얼마나 강력하게 작동하는지 보여줍니다.

2. 사용자 체감 성능 (TTFT & ITL)

TTFT (Time To First Token): avg 661.42 ms
- 사용자가 질문을 던지고 첫 글자가 보일 때까지 0.6초밖에 안 걸립니다. 70B 모델임을 감안하면 매우 쾌적한 반응 속도입니다.
Inter Token Latency (ITL): avg 240.41 ms
- 토큰 간 간격이 약 0.24초입니다. 사람이 읽는 속도보다 훨씬 빠르며, 끊김 없는 실시간 스트리밍이 가능하다는 뜻입니다.

3. NVFP4의 마법: 메모리 대역폭의 한계를 넘다

70B 모델을 FP16으로 돌리려면 약 140GB의 VRAM이 필요하지만, NVFP4 덕분에 약 60GB 내외로 압축되었습니다.
GB10의 메모리 대역폭이 모델의 연산 요구량을 충분히 소화하고 있으며, 특히 p99(903ms) 수치를 보면 부하가 걸린 상황에서도 응답 지연이 1초를 넘지 않는 안정성을 보여줍니다.

Accuracy vs. Performance: 효율과 정밀도의 트레이드오프

많은 엔지니어들이 우려하는 "4비트로 줄이면 똑똑함이 사라지지 않는가?"라는 질문에 대한 답입니다. 벤치마크 결과, FP4는 BF16 대비 성능 하락을 최소화하면서도 압도적인 속도를 확보했습니다.

Precision	MMLU	GSM8K_COT	ARC Challenge
BF16	83.3	95.3	93.7
FP4	81.1	92.6	93.3

*NVIDIA 공식 레포지토리 벤치마크

4. Engineering Review: 장단점 분석

사용 경험을 바탕으로 장단점을 엔지니어 관점에서 정리했습니다.

- 장점

압도적인 VRAM 가성비: H100 80GB급 장비의 가격을 고려하면, 128GB 통합 메모리를 로컬에서 사용할 수 있다는 점만으로도 비용 효율성은 매우 높은 편입니다.
전성비: 벤치마크 중 측정한 최대 소비 전력은 100W를 넘지 않았습니다. 단일 RTX 4090이 최대 450W 수준까지 사용하는 것과 비교하면, Grace ARM CPU 기반 설계의 전력 효율이 확연히 드러납니다. 장시간 상시 구동 환경에서도 부담이 적습니다.
조용함: 팬 소음이 거의 없습니다. 사무실 책상 위에 올려두고 써도 옆 자리 동료에게 눈치 보일 일이 없습니다.

- 단점 & 아쉬운 점

ARM 아키텍처의 호환성: 대부분의 AI 라이브러리가 x86_64에 최적화되어 있습니다. bitsandbytes나 일부 커스텀 CUDA 커널을 컴파일할 때 aarch64 호환성 문제로 삽질을 좀 해야 했습니다. (물론 시간이 해결해 줄 문제입니다.)
확장성의 한계: 통합 메모리 구조 특성상 메모리나 GPU를 개별적으로 교체하거나 업그레이드할 수 없습니다. 초기 구성 선택이 장기간의 사용 범위를 결정합니다.

5. Use Cases

이 장비를 단순한 테스트용으로만 쓰기에는 아쉬운 부분이 많습니다. 실제로는 다음과 같은 워크로드에서 가장 강점을 보입니다.

대형 LLM·비전 모델 로컬 개발 환경

클라우드를 거치지 않고 모델 로딩부터 파인튜닝, 추론 테스트까지 한 번에 수행할 수 있습니다. 실험을 반복해야 하는 개발 단계에서는 이 차이가 꽤 크게 느껴집니다.

클라우드 의존도를 줄여야 하는 경우

GPU 인스턴스를 장시간 유지해야 하는 워크로드라면 비용 부담이 빠르게 커집니다. 데이터 반출이 어려운 환경에서는 온프레미스 대안으로도 충분히 현실적인 선택지가 됩니다.

네트워크가 분리된 보안 환경

외부 연결 없이도 70B급 모델을 직접 구동할 수 있기 때문에, 보안 요구사항이 높은 환경에서도 AI 워크로드를 구성할 수 있습니다.

다중 모델 기반 추론 파이프라인

메모리 여유가 크기 때문에 하나의 모델만 올려 쓰는 구조보다는 RAG, 에이전트, 임베딩 모델을 함께 띄운 형태의 파이프라인을 구성할 때 진가가 드러납니다.

6. 결론

실제로 사용해보니, 이 장비가 지향하는 포인트가 무엇인지는 분명했습니다. 단순히 성능이 높은 워크스테이션이 아니라, 대형 모델을 로컬에서 실사용 가능한 수준으로 끌어내린 개발 장비에 가깝습니다.

지금까지 로컬 환경에서 70B급 모델을 다룬다는 것은 메모리에 맞추기 위해 모델을 압축하고, 레이어를 오프로딩하고, 속도를 감수하는 과정의 반복에 가까웠습니다.

GB10에서는 그 전제가 달라집니다. 모델을 메모리에 맞추기 위해 구조를 바꾸는 것이 아니라, 그대로 로드하고 바로 테스트할 수 있습니다. 이 차이는 단순한 편의성의 문제가 아니라 개발 속도와 실험 방식 자체를 바꿉니다.

128GB 통합 메모리, NVLink-C2C 기반 구조, 그리고 FP4에서의 처리 성능은 로컬 환경을 “간이 테스트 머신”이 아니라 하나의 독립적인 AI 개발 인프라로 만들어 줍니다. 클라우드에 접속하지 않고도 대형 모델을 실시간으로 다루고, 여러 모델을 동시에 올려 복합 파이프라인을 구성할 수 있다는 점에서 활용 범위도 명확합니다.

물론 ARM 아키텍처 기반 생태계나 하드웨어 확장성 측면에서의 제약은 존재합니다. 하지만 이 장비의 목적이 범용 워크스테이션이 아니라 완성형에 가까운 AI 개발 노드라는 점을 고려하면, 그 방향성은 충분히 납득할 수 있습니다.

이번 검증을 통해 확인한 것은 단순히 하나의 새로운 장비가 아니라, 로컬 AI 개발 환경이 도달할 수 있는 수준이 어디까지 올라왔는가에 대한 변화였습니다.

Dell Pro Max GB10 장비에서 확인해보고 싶은 모델이나 워크로드가 있다면 댓글로 남겨주세요. 대신 돌려드리겠습니다!

❓ 자주 묻는 질문 (FAQ)

Q. RTX 4090/5090 여러 장 쓰는 워크스테이션 대비 진짜 장점이 뭔가요?

A. 멀티 GPU 워크스테이션은 더 높은 절대 성능을 낼 수 있지만, 대형 모델을 돌리기 위해 텐서 병렬화/오프로딩/토폴로지 튜닝 등 복잡한 분산 설계가 필요합니다.
GB10은 128GB 통합 메모리 기반 단일 노드 구조라 모델을 그대로 로드해 개발 구조가 단순해집니다.
GPU 간 통신이나 PCIe 병목이 없어 지연 시간과 성능이 더 예측 가능하게 유지됩니다.
전력 소모와 발열이 낮아 책상 위에서 상시 구동하는 개인 전용 AI 노드로 사용할 수 있습니다.
그 결과 로컬에서 멀티모델 파이프라인까지 빠르게 실험할 수 있어 개발 생산성이 크게 높아집니다.

저작자표시 비영리 변경금지 (새창열림)

'Tech Story > AI Cloud' 카테고리의 다른 글

[AI활용] kt cloud AI Foundry로 AI 서비스 구축 흐름 한 번에 살펴보기 (0)	2026.04.30
[비교분석] FastAPI는 충분히 빠르지 않다? Robyn과의 성능 차이 직접 비교 (2)	2026.04.15
[활용가이드] kt cloud AI RAG(검색 증강 생성) 활용법 – 컨텍스트 최적화로 성능 높이기 (0)	2026.04.10
[분석] MLOps에서 LLMOps로, 아직 끝나지 않은 진화의 서막 (1)	2026.01.08
[후기] Opensource Summit 2025에서 AI Foundry를 만나다: kt cloud 미니 챗봇 구축기 (4)	2025.11.13

현재글[리뷰] 책상 위의 데이터센터, Dell Pro Max GB10 AI 워크스테이션 실사용기

기술 블로그 (Tech) | kt cloud