Estimasi Biaya
Sesi 10.4 · ~5 menit baca
Tau Tagihannya Sebelum Pencet Enter
API call itu bayar. Ga mahal per call, tapi biaya menumpuk di batch processing. Batch 100 artikel yang biayanya $15 itu terjangkau. Batch 100 artikel di mana masing-masing gagal dan regenerate tiga kali, dengan prompt kepanjangan yang melipatgandakan pemakaian token, biayanya $135. Perbedaannya adalah gap antara estimasi dan menebak.
Estimasi biaya sebelum eksekusi artinya: menghitung perkiraan jumlah token, mengalikan dengan harga per token, menambahkan margin kegagalan, dan tau angkanya sebelum kamu commit. Ini ga opsional di scale. Ini cara kamu mencegah kejutan budget.
Dasar-Dasar Penghitungan Token
Biaya API diukur dalam token. Satu token itu kira-kira 0,75 kata dalam bahasa Inggris (atau sekitar 4 karakter). Artikel 1.000 kata kira-kira 1.333 token output. Prompt kamu (system message + user message + context) mungkin 2.000 sampai 5.000 token input.
Biaya dikenakan terpisah untuk input token dan output token. Output token biasanya 3 sampai 5 kali lebih mahal dari input token.
| Provider / Model | Input (per 1M token) | Output (per 1M token) | Biaya artikel 1.000 kata* |
|---|---|---|---|
| Claude Sonnet 4.6 | $3,00 | $15,00 | $0,03 |
| Claude Haiku 4.5 | $1,00 | $5,00 | $0,01 |
| GPT-5.2 | $1,75 | $14,00 | $0,03 |
| Gemini 2.5 Pro | $1,25 | $10,00 | $0,02 |
| Gemini 2.0 Flash | $0,30 | $2,50 | $0,005 |
* Estimasi untuk satu call generation dengan ~3.000 input token dan ~1.333 output token. Multi-agent chain mengalikan ini dengan jumlah agent.
Formula Estimasi Biaya
Untuk batch N item, masing-masing diproses oleh agent chain dengan A agent:
Biaya per item = jumlah dari (input_tokens * input_rate + output_tokens * output_rate) untuk setiap agent di chain.
Multiplier kegagalan = 1 + (expected_failure_rate * average_retries). Kalo 20% item gagal dan masing-masing di-retry 1 kali, multiplier-nya 1,2. Kalo 10% gagal dengan 2 retry masing-masing, multiplier-nya juga 1,2.
| Skenario | Item | Biaya per item | Failure rate | Total estimasi biaya |
|---|---|---|---|---|
| Blog post, 3-agent chain, Sonnet | 10 | $0,09 | 10% | $0,99 |
| Blog post, 3-agent chain, Sonnet | 100 | $0,09 | 15% | $10,35 |
| Deskripsi produk, 4-agent, Haiku | 500 | $0,03 | 10% | $16,50 |
| Chapter buku, 3-agent, Sonnet (panjang) | 25 | $0,35 | 20% | $10,50 |
Membangun Cost Estimator
Cost estimator itu spreadsheet atau script yang mengambil batch manifest kamu dan menghitung total biaya sebelum kamu eksekusi. Input-nya:
- Jumlah item di manifest
- Estimasi input token per agent per item (ukur dari test run kamu)
- Estimasi output token per agent per item
- Harga API per token (input dan output, untuk model pilihan kamu)
- Expected failure rate (dari error log kamu)
- Rata-rata retry per kegagalan
AI coding assistant kamu bisa bangun ini dalam waktu kurang dari 5 menit. Versi spreadsheet cuma butuh satu baris formula. Apapun caranya, jalanin sebelum setiap batch.
Strategi Optimasi Biaya
Empat strategi mengurangi biaya batch tanpa mengurangi kualitas:
| Strategi | Cara Menghemat | Penghematan Tipikal |
|---|---|---|
| Pake model lebih kecil untuk task yang sesuai | Agent research dan formatting bisa pake Haiku/Flash bukan Sonnet/Pro | 40-70% per agent |
| Pangkas panjang prompt | Hapus instruksi redundan, kurangi context ke yang esensial | 10-30% di biaya input |
| Prompt caching | System prompt yang berulang di-cache dengan diskon 90% di kebanyakan provider | Sampai 90% di token system prompt |
| Batch API | Submit job untuk async processing (bukan real-time) dengan diskon 50% | 50% di semua token |
Prompt caching dan diskon batch API itu signifikan. Kalo system prompt kamu 2.000 token dan kamu jalanin 100 item, itu 200.000 cached input token di 10% harga normal, bukan harga penuh. Penghematannya justify sedikit penambahan latency.
Biaya produksi konten AI itu bukan nol. Biayanya cukup rendah untuk jadi berbahaya. Biaya rendah mendorong pemborosan: prompt kepanjangan, retry ga perlu, model premium untuk task simpel. Estimasi biaya sebelum setiap batch. Track biaya aktual setelahnya. Disiplin ini mencegah pemborosan menumpuk.
Bacaan Lanjutan
- LLM API Pricing 2026: Compare 300+ Models, PricePerToken
- AI API Pricing Comparison 2026, IntuitionLabs
- LLM Cost Calculator, Morph
- Prompt Caching, Anthropic Documentation
Tugas
Bangun cost estimator untuk batch pipeline kamu:
- Ukur jumlah token aktual dari test run kamu: input token per agent, output token per agent.
- Cari harga per token terkini untuk model pilihan kamu.
- Hitung biaya per item di seluruh agent chain kamu.
- Terapkan failure rate dari error log kamu (atau estimasi 15% kalo belum punya data).
- Jalanin estimator di manifest 10 item dari Sesi 10.2. Berapa prediksi biayanya?
Setelah jalanin batch, bandingkan biaya estimasi dengan biaya aktual. Seberapa dekat estimasi kamu? Sesuaikan estimator berdasarkan data aktual.