“그래서 우리 회사 AI 모델, 한 달에 얼마가 나올까요?”
Google Cloud의 Vertex AI는 AI 개발의 모든 과정을 통합한 강력한 플랫폼입니다. 하지만 많은 CTO와 개발팀이 그 강력한 기능 앞에서 머뭇거리는 이유가 있습니다. 바로 ‘그래서 비용이 얼마나 나올지’ 예측하기 어려운 복잡한 가격 정책 때문입니다.
‘모델 학습에 GPU 시간당 얼마’, ‘Gemini Pro API 호출에 토큰당 얼마’, ’24시간 켜두는 엔드포인트 유지 비용은?’… 파편화된 정보들은 예산 수립을 더욱 어렵게 만듭니다. 잘못된 예측은 프로젝트의 ROI를 심각하게 훼손할 수 있습니다.
만약 당신이 지금 이런 고민에 빠져있다면, 이 글이 당신을 위한 최종 가이드가 될 것입니다. Vertex AI의 복잡한 가격 구조를 서비스별로 완벽히 해부하고, 실제 시나리오를 통해 월별 비용을 예측하며, 당장 적용 가능한 7가지 비용 절감 전략까지 모두 담았습니다. 더 이상 비용 불확실성 때문에 혁신의 기회를 놓치지 마세요.
Vertex AI 가격 정책, 서비스별 완벽 해부하기
Vertex AI의 비용은 크게 ‘학습’, ‘예측’, 그리고 ‘생성형 AI’ 세 가지 단계에서 발생합니다. 각 서비스별 과금 방식을 명확히 이해하는 것이 비용 관리의 첫걸음입니다.
1. AutoML: 클릭 몇 번으로 모델 만들기
코딩 없이 이미지, 텍스트, 테이블 데이터를 학습시킬 때 사용합니다. 비용은 모델을 학습시키는 데 사용된 컴퓨팅 자원의 시간(노드 시간)에 따라 책정됩니다.
- 이미지 분류: 약 $3.465/노드 시간
- 텍스트 분류: 약 $3.00/노드 시간
- 테이블 형식 데이터: 약 $21.56/노드 시간 (학습 목표에 따라 다름)
핵심: 학습 시간이 길어질수록 비용이 증가하므로, 학습 전 데이터 정제 및 준비가 중요합니다.
2. 커스텀 모델 학습: 내 손으로 만드는 맞춤형 모델
TensorFlow, PyTorch 등으로 직접 개발한 모델을 학습시킬 때 사용합니다. 비용은 선택한 머신 유형(CPU, GPU)과 사용 시간에 따라 결정됩니다.
핵심: 모델의 복잡도와 데이터 크기에 맞는 최적의 머신 타입을 선택하는 것이 비용 효율성의 관건입니다. 무조건 비싼 GPU를 쓰는 것이 능사는 아닙니다.
3. 예측 및 엔드포인트: 숨겨진 비용의 주범
학습된 모델을 API로 사용할 수 있도록 배포하는 단계입니다. 여기가 바로 ‘숨겨진 비용’이 발생하기 쉬운 구간입니다.
- 온라인 예측: 모델을 엔드포인트에 배포해두는 것만으로도 비용이 발생합니다. 24시간 실시간 예측이 필요할 때 사용하며, 엔드포인트가 활성화된 시간과 머신 유형에 따라 과금됩니다. (예:
n1-standard-2
머신으로 엔드포인트를 한 달 내내 유지 시 약 $70 발생) - 배치 예측: 대량의 데이터를 한 번에 예측할 때 사용합니다. 작업이 실행되는 동안에만 비용이 발생하여 훨씬 저렴합니다.
핵심: 가장 큰 고정비는 ‘온라인 예측 엔드포인트’입니다. 사용하지 않는 모델이 엔드포인트에 계속 배포되어 있는지 반드시 확인해야 합니다.
4. 생성형 AI (Gemini 모델): 가장 중요한 토큰 기반 과금
Gemini와 같은 LLM을 사용할 때의 비용입니다. 입력(Input)과 출력(Output) 텍스트의 양(토큰)에 따라 비용이 책정됩니다. 1,000자를 약 1,300 ~ 1,500 토큰으로 생각하면 쉽습니다.
Gemini 모델별 가격 비교 (1백만 토큰 기준)
핵심: 입력 토큰과 출력 토큰의 가격이 다릅니다. 특히, 긴 문서나 대화 기록을 입력으로 넣을 경우 입력 토큰 비용이 예상보다 커질 수 있음을 인지해야 합니다.
“그래서, 우리 회사는 얼마가 나올까?” – 실제 시나리오 기반 비용 예측
가상 시나리오를 통해 월별 예상 비용을 계산해 보겠습니다.
시나리오: 내부 고객센터 챗봇에 Gemini 1.0 Pro를 연동하려는 중견기업
- 사용 모델: Gemini 1.0 Pro
- 엔드포인트 머신:
n1-standard-4
(안정적 운영을 위해)- 일일 사용량: 직원 100명이 하루 평균 30건의 질문
- 평균 토큰: 질문(입력) 500 토큰, 답변(출력) 300 토큰
월별 예상 비용 계산:
-
엔드포인트 유지 비용 (고정비):
n1-standard-4
시간당 비용: 약 $0.19- 월간 비용: $0.19 * 24시간 * 30일 = $136.8
-
API 호출(토큰) 비용 (변동비):
- 일일 총 요청 수: 100명 * 30건 = 3,000건
- 월간 총 요청 수: 3,000건 * 30일 = 90,000건
- 월간 총 입력 토큰: 90,000건 * 500 토큰 = 45,000,000 토큰 (45M)
- 월간 총 출력 토큰: 90,000건 * 300 토큰 = 27,000,000 토큰 (27M)
- 입력 비용: 45M 토큰 * ($0.125 / 1M 토큰) = $5.625
- 출력 비용: 27M 토큰 * ($0.375 / 1M 토큰) = $10.125
총 월별 예상 비용: $136.8 (엔드포인트) + $5.625 (입력) + $10.125 (출력) = 약 $152.55
이처럼 실제 비용을 계산해보면, API 호출량보다 24시간 켜두는 엔드포인트 유지 비용이 훨씬 클 수 있다는 사실을 알 수 있습니다.
지출을 30% 줄이는 7가지 실용적인 비용 절감 전략
이제 비용 구조를 이해했으니, 실제로 지출을 줄일 차례입니다.
1. 엔드포인트 관리: ‘Scale-to-zero’로 고정비 삭제
24시간 내내 트래픽이 발생하지 않는다면, 사용량이 없을 때 엔드포인트 머신 수를 0으로 줄여 비용 발생을 막을 수 있습니다.
- 방법: 엔드포인트 설정에서
min-replica-count
를0
으로 설정하세요. 첫 요청 시 약간의 콜드 스타트가 발생하지만, 비용을 획기적으로 줄일 수 있습니다. 야간이나 주말에 트래픽이 없는 내부 시스템에 특히 유용합니다.
2. 모델 및 리소스 최적화: 하나의 엔드포인트에 여러 모델 올리기
비슷한 프레임워크와 리소스 요구사항을 가진 여러 모델이 있다면, co-hosting 기능을 활용해 하나의 엔드포인트에 함께 배포하세요. 엔드포인트 유지 비용을 모델 수만큼 절약할 수 있습니다.
3. 토큰 비용 최소화: 프롬프트와 캐싱의 마법
- 프롬프트 엔지니어링: 질문을 간결하고 명확하게 만들어 불필요한 입력 토큰을 줄이세요.
- Context Caching (Gemini 1.5 Pro): 반복적으로 사용되는 긴 문서나 데이터를 캐시에 저장해두면, 다음 요청부터는 해당 부분을 다시 입력 토큰으로 보내지 않아도 됩니다. PDF 분석이나 긴 대화 기록을 처리할 때 비용을 크게 절감할 수 있습니다.
4. 비용 모니터링 및 알림 설정: 예산 초과를 막는 안전장치
Google Cloud Billing은 필수 도구입니다.
- 방법: Billing > 예산 및 알림 메뉴로 이동 > 예산 만들기 > Vertex AI 서비스만 필터링 > 예산 금액(예: $500) 설정 > 임계값 규칙(예: 예산의 50%, 90% 도달 시)에 이메일 알림 설정.
5. ‘라벨링’을 통한 비용 추적 및 분배
Vertex AI의 각 리소스(엔드포인트, 노트북, 학습 작업 등)에 ‘팀’, ‘프로젝트’, ‘환경(dev/prod)’과 같은 라벨을 붙이세요. Cloud Billing 리포트에서 라벨별로 비용을 그룹화하여 볼 수 있어, 어떤 팀이나 프로젝트에서 비용이 많이 발생하는지 명확하게 추적하고 관리할 수 있습니다.
6. 무료 등급 및 크레딧 200% 활용법
- $300 무료 크레딧: Google Cloud 신규 계정은 90일간 사용할 수 있는 $300 크레딧을 제공합니다. 초기 모델 개발 및 테스트(PoC)는 이 크레딧을 활용하여 비용 부담 없이 진행하세요.
- Vertex AI 무료 등급: 매월 특정량의 예측, 학습, 데이터 라벨링 등을 무료로 제공합니다. 소규모 프로젝트나 개인 학습용으로는 충분할 수 있으니, 꼭 확인하고 활용하세요.
7. BigQuery를 활용한 심층 비용 분석
기본 대시보드 이상이 필요하다면, Cloud Billing 데이터를 BigQuery로 내보내세요. SQL 쿼리를 통해 SKU별, 라벨별, 시간대별 비용 추세를 정밀하게 분석하고, Looker Studio와 연동하여 맞춤형 비용 대시보드를 구축할 수 있습니다.
심층 분석: 연관 키워드로 더 깊게 파고들기
Vertex AI 비용 청구 방식: GCP 콘솔에서 추적하기
내 Vertex AI 비용이 정확히 어디서 나오는지 확인하려면 다음 단계를 따르세요.
- GCP 콘솔 메뉴에서 ‘결제(Billing)’로 이동합니다.
- 왼쪽 메뉴에서 ‘보고서(Reports)’를 클릭합니다.
- 오른쪽 필터 창에서 ‘서비스’를 ‘Vertex AI’로 선택합니다.
- ‘SKU’별로 그룹화하면 어떤 작업(예: 온라인 예측, 커스텀 학습, Gemini API 호출)에서 얼마의 비용이 발생했는지 상세히 볼 수 있습니다.
Gemini API 가격 비교: Google AI Studio vs Vertex AI
결론: 아이디어 검증은 Google AI Studio에서 무료로 빠르게, 실제 서비스 개발 및 배포는 Vertex AI에서 안정적으로 진행하는 것이 정석입니다.
AWS 세이지메이커 vs Vertex AI: 비용 철학 비교
가이드: 이미 GCP 생태계를 사용 중이고, 개발부터 배포까지 통합된 MLOps 환경을 선호한다면 Vertex AI가 비용 관리 측면에서 더 효율적일 수 있습니다. 반면, AWS에 대한 높은 의존도와 전문성을 가졌고, 인프라를 직접 미세 조정하며 비용을 최적화하고 싶다면 SageMaker가 나은 선택일 수 있습니다.
결론: 성공적인 Vertex AI 도입을 위한 최종 체크리스트
Vertex AI의 비용은 복잡하지만, 그 구조를 이해하고 올바른 전략을 사용하면 충분히 통제 가능합니다. 애드센스 승인이 ‘가치 있는 콘텐츠’라는 본질에 집중해야 하듯, Vertex AI 비용 관리의 핵심은 ‘리소스의 효율적 사용’이라는 본질에 있습니다.
당신의 비즈니스 목표와 예산에 맞춰 Vertex AI를 성공적으로 도입하기 위해 아래 체크리스트를 최종 점검하세요.
- [ ] 우리 모델에 24시간 온라인 예측이 정말 필요한가? (아니라면 배치 예측이나 Scale-to-zero 고려)
- [ ] 모델 학습에 최적화된 머신 타입을 선택했는가? (오버 스펙은 아닌지 확인)
- [ ] Gemini API 호출 시, 프롬프트를 최적화하여 토큰을 절약하고 있는가?
- [ ] Cloud Billing에 예산 알림을 설정했는가?
- [ ] 모든 리소스에 프로젝트/팀 단위의 라벨을 부착하고 있는가?
이 질문들에 자신 있게 “예”라고 답할 수 있다면, 당신은 더 이상 비용 문제로 Vertex AI 도입을 망설일 필요가 없습니다.
FAQ (자주 묻는 질문)
Q1: 모델 학습 작업이 중간에 실패해도 비용이 청구되나요?
A: 네, 청구됩니다. 비용은 성공 여부와 관계없이, 작업이 실패하기 전까지 사용한 컴퓨팅 리소스(CPU, GPU, 메모리)의 시간에 대해 부과됩니다. 따라서 본격적인 학습 전에 작은 데이터셋으로 코드를 먼저 검증하는 것이 비용을 아끼는 길입니다.
Q2: Vertex AI에서 가장 비용이 많이 발생하는 구간은 보통 어디인가요?
A: 대부분의 경우, 24시간 365일 활성화된 ‘온라인 예측 엔드포인트’가 가장 큰 비용 비중을 차지합니다. 특히 고사양 GPU를 사용하는 엔드포인트는 API 호출이 거의 없더라도 상당한 고정 비용을 발생시키므로, 가장 먼저 최적화해야 할 대상입니다.
Q3: AutoML과 커스텀 학습 중 어떤 것이 더 비용 효율적인가요?
A: 상황에 따라 다릅니다. 개발 인력이 부족하고 빠르게 모델을 만들어야 한다면 AutoML이 초기 개발 비용과 시간을 절약해줘 효율적입니다. 하지만 매우 특수하거나 고성능이 필요한 모델을 장기적으로 운영해야 한다면, 전문 엔지니어가 직접 최적화된 코드로 커스텀 학습을 진행하는 것이 장기적인 총소유비용(TCO) 면에서 더 저렴할 수 있습니다.
All-Lifes에서 더 알아보기
구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.