인텔 가우디3 AI 가속기, IBM 클라우드 통해 첫 상용 클라우드 서비스 제공

Signal65 벤치마크에서 경쟁사 GPU 대비 최대 92% 비용 효율성 입증하며 기업용 AI 인프라 선택지 확대

2025년 5월 8일 서울 – 인텔은 IBM 클라우드가 클라우드 서비스 제공사로는 처음으로 인텔® Gaudi® 3(Intel® Gaudi® 3, 이하 가우디 3) AI 가속기 기반 상용서비스를 제공한다고 밝혔다. 이로써 클라우드 서비스 고객들이 고성능 인공지능 역량을 보다 쉽게 활용할 수 있도록 지원하고 AI 특화 하드웨어의 높은 비용 장벽을 낮출 수 있을 것이라고 밝혔다.

이번 IBM 클라우드 상용화는 가우디3의 첫 대규모 상업 배포로써 인텔에게는 시장에 AI 가속기의 새로운 선택지를 제공하는 의미 있는 이정표다. 양사는 IBM 클라우드에서 인텔 가우디3을 활용해 고객이 합리적인 비용으로 생성형 AI를 테스트·혁신·배포하도록 돕는 것을 목표로 하고 있다.

 글로벌 시장조사기관 가트너의 최근 조사에 따르면 2025년 전 세계 생성형 AI 관련 지출은 2024년 대비 76.4% 증가한 6,440억 달러에 이를 전망이다. 가트너는 “생성형 AI가 IT 지출 전 영역에 변혁적 영향을 미치고 있으며, 이에 따라 AI 기술이 기업 운영과 소비재에 필수 요소로 자리 잡을 것”이라고 분석했다.

많은 기업들이 생성형 AI와 같은 도구가 자동화·워크 플로우 개선·혁신 촉진 등에 분명한 이점이 있다는 것을 알고 있으나, AI 애플리케이션 구축에는 막대한 연산 능력이 필요하고 대개의 경우 고가의 특화된 프로세서를 요구하기 때문에 많은 기업들은 AI 혜택을 누리지 못하고 있다.

인텔 가우디 3 AI 가속기는 개방형 개발 프레임워크를 지원하면서 생성형 AI·대규모 모델 추론·파인튜닝 등에 대한 폭발적인 수요를 충족하도록 설계됐으며, 멀티모달 LLM(대규모언어모델)과 RAG(검색 증강 생성) 워크로드에 최적화되어 있다.

인텔 사우라브 쿨카니(Saurabh Kulkarni) 데이터센터 AI 전략 담당은 “인텔 가우디 3 AI 가속기가 IBM 클라우드에 도입되며 기업 고객들에게 추론 및 파인 튜닝을 위해 최적화된 성능으로 생성형 AI 워크로드를 확장할 수 있도록 지원하게 되었다”며 “이번 협력은 전세계 기업이 AI를 더 쉽게, 비용효율적으로 구현할 수 있도록 지원하려는 양사의 공동 노력의 일환이다”고 밝혔다.

기업 고객들의 IBM 클라우드 사용 방법

IBM 클라우드는 다양한 기업 고객, 특히 금융 서비스, 의료 및 생명 과학, 공공 부문 등 규제 산업에 종사하는 고객에게 서비스를 제공한다.

은행 및 보험 회사는 사기를 탐지하거나 맞춤형 고객 서비스를 위해 클라우드를 사용하고, 의료 서비스 기업은 신약 개발, AI 기반 진단, 원격 의료 플랫폼 및 실시간 환자 모니터링 등을 위해 클라우드를 사용한다. 유통 업체는 이커머스 플랫폼이나 재고 관리에 클라우드 기술을 활용하며, 제어나 보안을 유지하면서 낙후된 시스템을 개선하려는 기업들도 클라우드 기술을 사용한다.

현재 가우디 3은 독일 프랑크푸르트, 미국 워싱턴 D.C., 택사스 댈러스의 IBM 클라우드 리전에 적용되어 사용할 수 있다.

가우디 3은 IBM의 광범위한 AI 인프라스트럭처 제품에도 통합되고 있다. 고객들은 현재 IBM VPC(가상 프라이빗 클라우드)의 IBM 클라우드 가상 서버를 통해 가우디 3을 사용할 수 있으며, 2025년 하반기부터 다양한 아키텍처에 배포할 수 있다. 레드햇 오픈시프트(Red Hat OpenShift)와 IBM 왓슨엑스 AI 플랫폼(IBM’s watsonx AI platform)에 대한 지원은 이번 분기 내 가능해질 예정이다.

사틴더 세티(Satinder Sethi) IBM 클라우드 인프라스트럭처 서비스 총괄은 “더 많은 데이터 처리 능력과 더 높은 성능 구현은 전 세계 고객의 AI 도입을 촉진할 것”이라며 “인텔 가우디 3는 고객에게 AI의 하드웨어에 대한 더 많은 선택권과 더 많은 자유, 더 비용 효율적인 플랫폼을 제공해준다”고 밝혔다.

비용 및 성능 비교

가우디3 AI 가속기는 성능과 가격의 균형을 통해 AI 도입에 있어 가장 큰 과제인 비용 문제를 해결하도록 설계되었다. 조사기관 시그널65(Signal65)가 인텔 의뢰로 실시한 최신 AI 추론 벤치마크 테스트에 따르면, 가우디3은 메타(Meta)의 Llama-3.1-405B-Instruct-FP8 모델(대용량 컨텍스트 크기 기준) 실행 시 경쟁 제품 대비 비용 효율성(성능 대비 가격)이 92% 높은 것으로 나타났다¹.

비용 효율성은 동일한 투자로 더 많은 AI 연산을 수행하거나 같은 연산을 더 낮은 비용으로 처리할 수 있도록 하는 핵심지표이다. 이번 성능 향상은 생성형 AI가 확산하고 있는 흐름 속에서 모델 배포 혹은 미세 조정을 원하는 기업의 비용 장벽을 크게 낮춰 준다.

가속기의 처리량(throughput) 혹은 성능(performance)는 단위 시간당 수행 가능한 AI 연산량, 즉 초당 토큰(tokens per second)으로 측정되며, 가우디3은 경쟁 제품보다 월등한 처리 속도를 보여준다. IBM의 Granite-3.1-8B-Instruct 모델 기준 소규모 워크로드에서 초당 토큰이 43% 높았으며¹, Llama-3.1-405B-Instruct-FP8 모델(대용량 컨텍스트 크기 기준) 실행 시에도 36% 더 높은 수치를 기록했다¹.

 

추가 자료: IBM, 기업의 AI 확장 역량 강화 (Intel.com) | 인텔·IBM, IBM 클라우드에서 인텔 가우디 3 AI 가속기 제공 발표 (IBM)

참고 사항:

1 출처: Signal65 Lab Insight Whitepaper - Intel Gaudi 3 AI Accelerator at Scale on IBM Cloud (인텔 의뢰 및 Signal65 주관 연구, 2025년 4월 22일 발표). 연구에 기재된 결과 값들은 인텔 가우디 3와 엔비디아 H200의 추론 성능을 비교한 수치이다. 워크로드 및 구성에 따라 결과 값은 달라질 수 있다.