vLLM 2

[비교분석] FastAPI는 충분히 빠르지 않다? Robyn과의 성능 차이 직접 비교

[ kt cloud AI플랫폼팀 최지우 님 ] 📋 요약 이 글에서는 Python 기반 API Gateway 구축 과정에서FastAPI 대신 Rust 런타임 기반의 웹 프레임워크 Robyn을 도입한 배경과 실측 성능 벤치마크 결과를 다룹니다.고부하 환경에서의 Tail Latency 안정성과 서버 생존율 차이가엔터프라이즈 AI 서비스의 인프라 선택에 실질적인 기준이 됨을 정리합니다.#Robyn #FastAPI #API Gateway #Rust런타임 #Tail Latency 최근 LLM 트렌드와 함께 AI 서비스의 아키텍처는 날이 갈수록 복잡해지고 있습니다. vLLM이나 TGI 같은 고성능 추론 엔진들은 자체적으로 API 서버 기능을 내장하고 있어 실행 즉시 모델과 통신할 수 있는 환경을 제..

Tech Story/AI Cloud 2026.04.15

AMD MI250 GPU로 vLLM 최적화 하기 (feat. AI SERV)

[kt cloud AI플랫폼팀 최지우 님]    AMD MI250 GPU로 vLLM 최적화하기 최근 대규모 언어 모델(LLM)의 발전과 함께 인공지능 연구 및 상용화 과정에서 GPU의 수요가 급격히 증가하고 있습니다. 특히, NVIDIA는 이 분야에서 시장을 주도하며 AI 연산에 필수적인 GPU 기술을 제공하고 있지만, 수요에 비해 공급이 부족하고 가격이 높아지는 문제가 발생하고 있습니다. 이러한 상황에서 많은 기업과 연구 기관들은 더 경제적이면서도 성능이 뛰어난 대안을 모색하고 있습니다.그 중 하나가 vLLM 프로젝트입니다. vLLM은 LLM 추론 및 제공을 위한 빠르고 사용하기 쉬운 라이브러리입니다. PagedAttention을 이용하여 Key-Value(KV) Cache가 저장되는 메모리를 blo..

Tech Story/AI Cloud 2024.10.14