Sesi 10.4: Estimasi Biaya

Kursus → Modul 10: Batch Processing & Skala

Sesi 4 dari 8

Tau Tagihannya Sebelum Pencet Enter

API call itu bayar. Ga mahal per call, tapi biaya menumpuk di batch processing. Batch 100 artikel yang biayanya $15 itu terjangkau. Batch 100 artikel di mana masing-masing gagal dan regenerate tiga kali, dengan prompt kepanjangan yang melipatgandakan pemakaian token, biayanya $135. Perbedaannya adalah gap antara estimasi dan menebak.

Estimasi biaya sebelum eksekusi artinya: menghitung perkiraan jumlah token, mengalikan dengan harga per token, menambahkan margin kegagalan, dan tau angkanya sebelum kamu commit. Ini ga opsional di scale. Ini cara kamu mencegah kejutan budget.

Dasar-Dasar Penghitungan Token

Biaya API diukur dalam token. Satu token itu kira-kira 0,75 kata dalam bahasa Inggris (atau sekitar 4 karakter). Artikel 1.000 kata kira-kira 1.333 token output. Prompt kamu (system message + user message + context) mungkin 2.000 sampai 5.000 token input.

Biaya dikenakan terpisah untuk input token dan output token. Output token biasanya 3 sampai 5 kali lebih mahal dari input token.

Provider / Model	Input (per 1M token)	Output (per 1M token)	Biaya artikel 1.000 kata*
Claude Sonnet 4.6	$3,00	$15,00	$0,03
Claude Haiku 4.5	$1,00	$5,00	$0,01
GPT-5.2	$1,75	$14,00	$0,03
Gemini 2.5 Pro	$1,25	$10,00	$0,02
Gemini 2.0 Flash	$0,30	$2,50	$0,005

* Estimasi untuk satu call generation dengan ~3.000 input token dan ~1.333 output token. Multi-agent chain mengalikan ini dengan jumlah agent.

Formula Estimasi Biaya

Untuk batch N item, masing-masing diproses oleh agent chain dengan A agent:

flowchart LR A["Biaya per item"] --> B["× Jumlah item (N)"] B --> C["× Multiplier kegagalan"] C --> D["= Total biaya batch"] style A fill:#222221,stroke:#c8a882,color:#ede9e3 style B fill:#222221,stroke:#6b8f71,color:#ede9e3 style C fill:#222221,stroke:#c47a5a,color:#ede9e3 style D fill:#222221,stroke:#c8a882,color:#ede9e3

Biaya per item = jumlah dari (input_tokens * input_rate + output_tokens * output_rate) untuk setiap agent di chain.

Multiplier kegagalan = 1 + (expected_failure_rate * average_retries). Kalo 20% item gagal dan masing-masing di-retry 1 kali, multiplier-nya 1,2. Kalo 10% gagal dengan 2 retry masing-masing, multiplier-nya juga 1,2.

Skenario	Item	Biaya per item	Failure rate	Total estimasi biaya
Blog post, 3-agent chain, Sonnet	10	$0,09	10%	$0,99
Blog post, 3-agent chain, Sonnet	100	$0,09	15%	$10,35
Deskripsi produk, 4-agent, Haiku	500	$0,03	10%	$16,50
Chapter buku, 3-agent, Sonnet (panjang)	25	$0,35	20%	$10,50

Membangun Cost Estimator

Cost estimator itu spreadsheet atau script yang mengambil batch manifest kamu dan menghitung total biaya sebelum kamu eksekusi. Input-nya:

Jumlah item di manifest
Estimasi input token per agent per item (ukur dari test run kamu)
Estimasi output token per agent per item
Harga API per token (input dan output, untuk model pilihan kamu)
Expected failure rate (dari error log kamu)
Rata-rata retry per kegagalan

AI coding assistant kamu bisa bangun ini dalam waktu kurang dari 5 menit. Versi spreadsheet cuma butuh satu baris formula. Apapun caranya, jalanin sebelum setiap batch.

Strategi Optimasi Biaya

Empat strategi mengurangi biaya batch tanpa mengurangi kualitas:

Strategi	Cara Menghemat	Penghematan Tipikal
Pake model lebih kecil untuk task yang sesuai	Agent research dan formatting bisa pake Haiku/Flash bukan Sonnet/Pro	40-70% per agent
Pangkas panjang prompt	Hapus instruksi redundan, kurangi context ke yang esensial	10-30% di biaya input
Prompt caching	System prompt yang berulang di-cache dengan diskon 90% di kebanyakan provider	Sampai 90% di token system prompt
Batch API	Submit job untuk async processing (bukan real-time) dengan diskon 50%	50% di semua token

Prompt caching dan diskon batch API itu signifikan. Kalo system prompt kamu 2.000 token dan kamu jalanin 100 item, itu 200.000 cached input token di 10% harga normal, bukan harga penuh. Penghematannya justify sedikit penambahan latency.

Biaya produksi konten AI itu bukan nol. Biayanya cukup rendah untuk jadi berbahaya. Biaya rendah mendorong pemborosan: prompt kepanjangan, retry ga perlu, model premium untuk task simpel. Estimasi biaya sebelum setiap batch. Track biaya aktual setelahnya. Disiplin ini mencegah pemborosan menumpuk.

Bacaan Lanjutan

LLM API Pricing 2026: Compare 300+ Models, PricePerToken
AI API Pricing Comparison 2026, IntuitionLabs
LLM Cost Calculator, Morph
Prompt Caching, Anthropic Documentation

Tugas

Bangun cost estimator untuk batch pipeline kamu:

Ukur jumlah token aktual dari test run kamu: input token per agent, output token per agent.
Cari harga per token terkini untuk model pilihan kamu.
Hitung biaya per item di seluruh agent chain kamu.
Terapkan failure rate dari error log kamu (atau estimasi 15% kalo belum punya data).
Jalanin estimator di manifest 10 item dari Sesi 10.2. Berapa prediksi biayanya?

Setelah jalanin batch, bandingkan biaya estimasi dengan biaya aktual. Seberapa dekat estimasi kamu? Sesuaikan estimator berdasarkan data aktual.