[AI활용] AI 에이전트의 안전벨트, 하네스 엔지니어링: Claude Code와 Terraform 사례

Tech Story/etc.

[AI활용] AI 에이전트의 안전벨트, 하네스 엔지니어링: Claude Code와 Terraform 사례

kt cloud 기술 블로그 2026. 7. 3. 11:06

[ kt cloud Azure전환팀 이영호 님 ]

📋 요약

이 글에서는 AI 에이전트를 안전하게 운영하기 위한 하네스 엔지니어링과 Terraform 워크플로우 적용 방식을 다룹니다.

자동화의 생산성과 통제 사이에서 필요한 운영 안전장치를 정리합니다.

#하네스엔지니어링 #AI에이전트 #ClaudeCode #Terraform #HumanInTheLoop

최근 Claude Code를 메인 AI 에이전트로 도입해 Azure 인프라를 구축하면서, AI의 폭발적인 생산성을 극대화함과 동시에 그 이면에 숨겨진 통제 불가능성을 관리하는 '하네스 엔지니어링(Harness Engineering)'의 중요성을 실감했습니다.

이번 포스팅에서는 하네스 엔지니어링이 왜 AGI로 가는 과도기의 필수 방법론인지, 그리고 이를 실제 Terraform 워크플로우에 어떻게 녹여냈는지 공유합니다.

1. 하네스(Harness): AGI 과도기를 위한 안전벨트

하네스는 완벽한 인공일반지능(AGI)이 도래하기 전, 현재 모델들의 한계를 시스템적으로 보완하는 방법론입니다. Anthropic의 엔지니어링 블로그(Harness Design for Long-Running Apps)에서는 에이전트를 감싸는 오케스트레이션 코드를 'harness'라고 표현합니다. 본 글에서는 이 개념을 확장하여, 에이전트의 작업 범위·권한·상태 전이를 체계적으로 설계하는 실무 접근법을 '하네스 엔지니어링'으로 정의합니다.

에이전트를 장기간 실행(Long-running)할 때 주로 두 가지 치명적인 문제가 발생합니다.

일관성 상실 (Loss of Context): 작업이 길어질수록 초기에 설정한 아키텍처 의도를 잊고 탈선합니다.
긍정적인 자기 평가 (Positive Self-Assessment): 보안이나 규정을 엄밀히 검토하지 않고 스스로 "완벽하다"고 착각해 작업을 종료합니다.

이러한 결함을 제어하기 위해 에이전트에게 무한한 자유를 주는 대신, 상태 기계(State Machine) 형태의 엄격한 루프를 설계하여 AI가 사고를 칠 수 있는 범위를 제한하는 것이 하네스의 핵심입니다.

2. 효율 극대화 전략: English, MCP, 그리고 상태 기반 에이전트

특히 Claude Code 환경에서 Opus 모델을 사용할 때 마주하는 토큰 고갈(Starvation) 문제를 해결하고 에이전트의 완성도를 높이기 위해 다음과 같은 전략을 세웠습니다.

영어 기반 소통 (Token Diet)의 트레이드오프: 한국어 대비 토큰 소모가 적은 영어를 기본 언어로 채택했습니다. 시스템 지시문과 내부 문서화를 영어로 통일하여 컨텍스트 윈도우를 효율적으로 유지했습니다. 다만 팀원 전원이 한국어 화자인 환경을 고려하여, 온보딩 가이드나 유지보수가 빈번한 운영 문서는 한국어로 작성해 가독성과 효율 사이의 균형을 맞추었습니다.
Terraform MCP(Model Context Protocol) 도입: 방대한 Azure 가이드나 Terraform 문서를 프롬프트에 밀어 넣는 대신, Terraform MCP를 활용했습니다. 구체적으로 두 가지 용도로 사용했습니다.
1. 환각(Hallucination) 방지: Terraform 공식 문서를 동적으로 조회하여 리소스 Argument의 정확성을 검증했습니다.
2. 코드 일관성 확보: Terraform Argument의 정렬(Ordering)을 MCP를 통해 표준화했습니다. 이를 통해 토큰 낭비를 막으면서도 높은 수준의 코드 품질을 유지할 수 있었습니다.
상태(State)에 따른 도구 격리와 Sub-agent 활용: 모든 권한(SKILL)을 한 번에 주지 않고 기획(Plan)과 실행(Execute) 단계에 따라 권한을 분리하여 엉뚱한 시점의 인프라 수정을 차단했습니다.

3. [사례] SKILL과 Human-in-the-loop를 통한 하네스 구현

Azure 리소스(Resource Group, VNet, AKS 등)를 생성하는 과정에서 에이전트에게 부여한 구체적인 SKILL 사례는 다음과 같습니다.

① Root 모듈 생성 SKILL (The Blueprint) 작업의 기초가 되는 Root 모듈을 자동으로 구성합니다. 팀 내 표준화된 백엔드 설정(Azure Blob Storage)과 변수 구조를 강제하여, 일관된 프로젝트 구조를 갖추도록 하네스를 채웠습니다.

② 인프라 거버넌스 체크 SKILL (The Guardrail) 명명 규칙(Naming Convention)이나 필수 태그 누락 여부를 시스템적으로 체크하여 에이전트가 사내 가이드라인을 이탈하지 않도록 통제합니다.

③ PR(Pull Request) 준비 및 Human-in-the-loop (The Checkpoint) 작성된 코드를 프로덕션 환경까지 완전 자동화하여 배포하는 것은 에이전트에게 허용하지 않았습니다. 에이전트의 역할은 코드 생성까지로 한정했으며, 생성된 코드를 사람이 직접 확인한 뒤 Push 및 PR 생성을 수행하는 구조를 채택했습니다. 최종 검토와 병합(Merge)은 반드시 인간 엔지니어가 수행하는 Human-in-the-loop(HITL) 구조를 유지했습니다. 이는 Anthropic이 강조하는 '치명적인 실수를 막기 위한 필수적인 안전장치'입니다.

4. 환각 타파: '보안책임자 페르소나' 하네스와 그 한계

보안 사고 방지를 위해 단순한 린터 도구를 넘어서, '사내 보안책임자 페르소나'를 활용했습니다. 에이전트가 작업을 마쳤다고 주장할 때, 역할을 'Security Officer'로 강제 전환(Persona Switching)시켜 스스로를 리뷰하게 합니다.

보안책임자가 된 에이전트는 작성된 코드에서 인증 정보 하드코딩 여부나 네트워크 노출 위험을 편집증적으로 검사합니다.

다만, 동일한 모델이 역할만 전환하여 자기 코드를 리뷰하는 구조이므로 이것만으로 보안을 완전히 담보할 수는 없습니다. 이 글에서 소개하는 파이프라인은 tfsec, checkov 등 정적 분석 도구와 병행할 때 가장 견고한 체계를 갖출 수 있습니다. 따라서 이 페르소나 전환은 정적 분석의 대체재가 아닌 보완재로서, AI 특유의 '긍정적인 자기 평가' 문제를 1차적으로 걸러내는 역할을 수행합니다.

5. 마무리하며: 시스템 설계자로의 진화

하네스 엔지니어링을 통해 Claude Code는 놀라운 자율성을 보이면서도 사내 기준을 준수하는 믿음직한 파트너가 되었습니다.

앞으로 엔지니어의 핵심 역량은 코드를 직접 타이핑하는 기술이 아니라, 수많은 AI 에이전트가 안전하게 활동할 수 있도록 정교한 '작업의 레일(Harness)'을 설계하는 시스템 아키텍처로 이동할 것입니다. 프롬프트를 넘어, AI가 사고를 치지 않고 최고 효율을 낼 수 있는 거버넌스 시스템을 구축하는 이 과도기적 생존법을 실무에 꼭 도입해 보시길 바랍니다.

❓ 자주 묻는 질문 (FAQ)

Q. '보안책임자 페르소나' 전환만으로 인프라 보안을 완벽히 보장할 수 있나요?

A. 아닙니다. 동일한 AI 모델이 역할만 변경하여 스스로 작성한 코드를 리뷰하는 구조이기 때문에 완벽한 보안을 담보하기는 어렵습니다. 페르소나 전환은 AI 특유의 '긍정적 자기 평가' 문제를 1차적으로 걸러내기 위한 보완재 역할을 합니다. 궁극적으로는 이 하네스 위에 tfsec, checkov 등 전문적인 정적 분석(SAST) 도구를 파이프라인에 병행해야 가장 견고한 보안 체계를 갖출 수 있습니다.

Q. 에이전트가 인프라 코드 생성부터 배포까지 완전 자동화하여 처리하나요?

A. 그렇지 않습니다. 치명적인 인프라 사고를 방지하기 위해 에이전트의 역할은 '코드 생성 및 PR(Pull Request) 준비' 단계까지만 허용하도록 제한했습니다. 생성된 코드를 실제 환경에 반영하기 위한 Push 및 Merge 과정은 반드시 인간 엔지니어가 직접 코드를 확인하고 승인하는 'Human-in-the-loop (HITL)' 구조로 설계하여 최종적인 시스템 안전성을 확보했습니다.

📚 관련/출처

Anthropic Engineering: Harness Design for Long-Running Apps : 장기 실행 AI 에이전트의 한계점과 이를 통제하기 위한 하네스(Harness) 아키텍처 설계 원론

저작자표시 비영리 변경금지 (새창열림)

'Tech Story > etc.' 카테고리의 다른 글

[트렌드 리포트] 2026 상반기 트렌드 결산: AI 활용부터 인프라 전환까지 (0)	2026.06.22
[설계가이드] Terraform 모듈 설계, 원칙 없이 만들면 반드시 무너진다 (0)	2026.06.01
[도입가이드] 인프라 관리의 표준, IaC의 본질과 도입 가치 (0)	2026.05.14
[AI활용] Claude Code 기본 구조 이해하기 — Agent · Skill · Context 개념 완전 정리 (1)	2026.04.15
[AI활용] Claude Code를 선택한 이유와 개발 아키텍처 설계 실무 적용기 (0)	2026.04.10

현재글[AI활용] AI 에이전트의 안전벨트, 하네스 엔지니어링: Claude Code와 Terraform 사례

기술 블로그 (Tech) | kt cloud