[심층분석] 액침냉각 기술의 현재와 미래: AI 데이터센터 냉각 트렌드

Tech Story/Data Center & Security

[심층분석] 액침냉각 기술의 현재와 미래: AI 데이터센터 냉각 트렌드

 

 
[ kt cloud DC동부운용센터 박지현 님 ]

📋 요약

AI 시대 데이터센터의 핵심 냉각 기술인 액침냉각의 원리와 발전 방향을 다룹니다.

NVIDIA GPU 로드맵과 함께 상용화를 앞둔 액침냉각 기술의 현재와 미래를 심층 분석합니다.

#액침냉각 #데이터센터 #AI #GPU #냉각기술


데이터 센터 냉각 기술은 어디까지 왔을까?

 

[기술리포트] AI 시대 데이터센터의 게임체인저, 액침냉각 기술의 모든 것 - kt cloud의 PoC 결과까지

[ kt cloud DC동부운용센터 박지현 님 ] 데이터센터에 새로운 냉각 방식이 필요한 이유2022년 11월 출시된 미국의 인공지능 연구소 오픈AI(OpenAI)의 챗GPT(ChatGPT)로부터 촉발된 인공지능(AI) 혁명은 전

tech.ktcloud.com

지난 시간에는 액침냉각 기술의 원리에 대해 자세히 살펴보았습니다. 이번 시간에는 데이터센터 냉각 기술이 현재 어떻게 이루어지고 있으며, 앞으로 어떻게 발전해 나갈지 그 현재와 미래에 대해 액침냉각 기술을 중심으로 심도 있게 알아보겠습니다.


NVIDIA Blackwell 출시와 Direct-to-chip Cooling 도입

[심층분석] 액침냉각 기술의 현재와 미래 AI 데이터센터 냉각 트렌드
블랙웰 냉각 방식에 대해 설명하는 젠슨 황 CEO의 모습(자료: NVIDIA)

엔비디아의 최신 GPU인 블랙웰 시리즈의 냉각을 위해 Direct-to-chip Cooling(D2C) 기술이 사용되었습니다. D2C 기술은 액침 냉각과 달리 칩을 직접 냉각유(Coolant)에 담그지 않고 냉각판(Cold Plate)를 이용하여 GPU 표면에서 열을 흡수하는 방식입니다. 열을 흡수한 냉각유의 온도가 상승하면 CDU(Coolant Distribution Unit)를 통해 흐르며, 여기서 열교환기(Heat Exchanger)가 열을 다른 매체로 전달하여 외부로 방출합니다.

 

[심층분석] 액침냉각 기술의 현재와 미래 AI 데이터센터 냉각 트렌드
Single-phase Direct-to-chip Cooling(자료: Vertiv)

D2C 방식은 직접적으로 열이 발생하는 칩에만 냉각이 적용되기 때문에 기존 공랙식 대비 데이터센터 PUE(Power Usage Efficiency)를 개선하고 서버의 과열 위험을 낮출 수 있는 효율적인 냉각 방식입니다. 하지만 Cold Plate가 부착되지 않은 부품에는 적용되지 못하기 때문에 별도 냉각을 위한 팬이나 공조 시스템이 필요하다는 한계도 있습니다.


GPU의 발전과 미래 냉각 솔루션

[심층분석] 액침냉각 기술의 현재와 미래 AI 데이터센터 냉각 트렌드
블랙웰, 루빈, 파인만으로 이어지는 엔비디아 GPU 로드맵(자료:NVIDIA)

엔비디아에서 주최하는 국제 컨퍼런스 GTC 2025에서 젠슨 황 엔비디아 CEO는 2026년 루빈, 2028년 파인만으로 이어지는 차세대 GPU 로드맵을 발표하였습니다. 젠슨 황 CEO는 ”AI 추론 작업의 컴퓨팅 파워 요구량이 1년 전 예상보다 100배 이상 증가하였다“고 밝혔으며 “데이터센터는 앞으로 AI Factory로 진화할 것”이라고 말했습니다.

 

세대 출시년도 소비 전력 냉각 방식
Blackwell Ultra
2025
1,400W
D2C
Rubin
2026
1,800W
D2C
Rubin Ultra
2027
3,600W
D2C
Feynman
2028
4,400W
Immersion Cooling
Feynman Ultra
2029
6,000W
Immersion Cooling
Post-Feynman
2030
5,920W
Immersion Cooling
Post Feynman Ultra
2031
9,000W
Immersion Coolin
미정
2032
15,360W
Embedded Cooling

AI GPU 및 예상 열 방출량(자료: KAIST, Tom’s Hardware)

 

카이스트 테라바이트 인터커넥션 및 패키지 연구실(TERALAB)에 따르면, 인공지능(AI)용 GPU의 TDP(열 설계 전력)가 향후 10년간 최대 15,360W까지 치솟을 것으로 전망됩니다. 이러한 고열을 효과적으로 식히기 위해 향후 엔비디아 GPU에는 높은 열 전달 및 에너지 효율을 가진 액침 냉각 기술이 핵심 냉각 솔루션으로 적용될 것으로 예상되고 있습니다.


액침 냉각 시스템 설계 지침

[심층분석] 액침냉각 기술의 현재와 미래 AI 데이터센터 냉각 트렌드
Design Guidelines for Immersion-Cooled IT Equipment(자료: OCP)

데이터센터 기술 혁신을 위해 Meta, Intel, Microsoft 등 글로벌 테크 기업들을 중심으로 설립된 OCP(Open Compute Project)에서 제시하는 액침 냉각 시스템 요구사항의 주요 내용은 아래와 같습니다.

 

구분 요구사항
안전 관리
  • 정상적인 숙련도를 가진 IT 인력이 안전하게 사용할 수 있을 것.
  • 수평 버스바는 하중을 지지해선 안 된다
  • 밀폐 조치는 단일 시스템의 전체 부피를 최소 100% 관리해야 한다
  • 잠재적 유해 가스는 인체 작업 공간 외부로 격리 또는 환기되어야 한다
액체 관리
  • 유체 온도가 증발 손실이 발생할 수 있는 증기압 수준까지 상승할 경우 밀폐 구조물, 응축 시스템, 압력 조절, 증기 회수 및 환기 시스템을 통해 손실을 억제해야 한다
  • 냉각유가 하수 시스템으로 유입되는 것을 방지해야 한다
  • 절연유 폐기는 적절한 폐기 절차를 통해 체계적으로 수행해야 한다
  • 최대 용기의 최소 100%의 용량을 가진 이중 선체 또는 누출 트레이를 사용해야 한다
액체 사양
  • 사용 중 유전 강도는 1mm에서 측정 시 6kV/mm 이상일 것
  • 인화점은 미사용 및 사용 중 유체에 대해 최소 150˚C 이상일 것
  • 자연발화점은 미사용 및 사용 중 유체에 대해 최소 300˚C 이상일 것
  • 황 함량은 10ppm 미만일 것
기타 관리
  • 최소 2개 위치에서 액체 온도를 ±1.0˚C 이내에서 표시할 것
  • 과열 시 안전 시스템은 최소 2단계 경고 수준(경고, 위험)을 갖출 것
  • 2상 시스템에서 압력을 표시하는 압력 및 진공 센서
  • 유전체 유체 부피/함량/레벨 감지
  • 유전체 유체 및 물 누출 감지
  • 펌프 작동 상태
고가용성
  • 시스템 핵심 구성 요소는 IT 장비 가동 중단 없이 동시 유지보수
  • 이중 전원 시스템(A/B)을 통한 모든 장치에 대한 중복 전원 공급
  • N+1 또는 2N의 냉각 능력(2중 열교환기 또는 CDU)

Immersion Requirements(자료: OCP)


상용화를 앞두고 있는 액침 냉각 기술

관련 기업들에 따르면 현재 액침 냉각 기술은 상용화에 필요한 기술적 기반을 이미 확보한 상태입니다. 기술이 시장에 본격적으로 확산되는 시점은 경제성이 개선되고, 엔비디아와 같은 주요 반도체 제조업체들이 액침 냉각 환경에서 자사 제품의 수명 보증을 공식적으로 인증하는 시점이 될 것으로 전망됩니다.

 

기술 내용
솔루션
  • GRC('IceraQ SX')
    • 단상 액침냉각 기반 368kW의 IT 부하 제공
    • 4개의 42U 랙 및 1개의 CDU 구성(이중화 옵션 존재)
  • Submer('Smartpod Exo')
    • 단상 액침냉각 기반 361kW의 IT 부하 제공
    • 최대 소비 전력 3,350W 수준
    • 자체 냉각유 'Smart Coolant' 개발
  • GST
    • 2상형 액침냉각 PoC 진행 중
냉각유
  • 3M('Novec 7100 Engineered Fluid')
    • C4F9OCH3 기반으로 무색 무취에 가까움
    • 오존층 파괴지수가 0이며, 지구 온난화지수가 낮음
  • Shell('Immersion Cooling S3 X')
    • 가스-액체 전환 공정(GTL)을 통해 제조한 합성 탄화수소 유체
  • GS칼텍스('Kixx Immersion Fluid S30')
    • 250˚C 이상의 고인화점 액침냉각유
    • 폴리알파올레핀(Poly-Alpha Olefin) 소재 사용

액침냉각 관련 기술 현황(자료: 각 사 홈페이지 및 IR 자료)


액침냉각기술의 중요성과 미래 전망

[심층분석] 액침냉각 기술의 현재와 미래 AI 데이터센터 냉각 트렌드

AI 서비스가 대중화되고 GPU의 전력 밀도가 높아지면서, 데이터센터의 핵심 인프라로 액침냉각기술이 주목받고 있으며 관련 기술들은 빠르게 발전하고 있습니다. 액침냉각방식은 기존의 공랭식과 구조 및 원리에 있어 많은 차이가 있기 때문에, 데이터센터 운용자의 입장에서는 시스템의 요구조건을 명확하게 이해하고 실제 현장에 적용하는 것이 중요합니다.

 

kt cloud


❓ 자주 묻는 질문 (FAQ)

Q. 왜 앞으로 데이터센터에는 액침 냉각이 필수가 될까요?
A. AI GPU의 전력 소모와 열 발생이 빠르게 증가하기 때문입니다.
예컨대 엔비디아의 GPU의 소비전력은 10년 안에 15,360W 이상까지 늘어날 것으로 전망됩니다. 이 수준의 열은 공랭식이나 D2C만으로는 감당하기 어렵습니다. 액침냉각은 높은 열 전달 효율·공간 절감·소음 감소 효과가 있어 차세대 데이터센터 인프라의 핵심 냉각 기술이 될 확률이 높습니다.

📚 관련/출처

https://www.youtube.com/watch?v=_waPvOwL9Z8&ab_channel=NVIDIA
https://www.vertiv.com/en-us/about/news-and-insights/articles/educational-articles/understanding-direct-to-chip-cooling-in-hpc-infrastructure-a-deep-dive-into-liquid-cooling/
https://www.tomshardware.com/pc-components/cooling/future-ai-processors-said-to-consume-up-to-15-360w-massive-power-draw-will-demand-exotic-immersion-and-embedded-cooling-tech
https://www.opencompute.org/documents/ocp-acs-immersion-requirements-rev-2-1-pdf
https://www.grcooling.com/tech-spec-sheet-iceraq-sx/
https://submer.com/smartpod/exo/
http://www.gst-in.com/?page=InvestorRelations&sub=media
https://multimedia.3m.com/mws/media/199818O/3m-novec-7100-engineered-fluid.pdf
https://www.shell.in/business/mobility/lubricants-and-engine-oils/sector-expertise/process-oils/immersion-cooling-fluids/_jcr_content/root/main/section_1327176521/text_485820167.multi.stream/1661500072322/977defff023425a0a5a6d5995a7c9509ec42dc7f/tds-immersion-cooling-fluid-s3-x.pdf
https://news.kixxoil.com/kixx-immersion-fluid-s-line/