Kursus → Modul 10: Batch Processing & Skala
Sesi 4 dari 8

Tau Tagihannya Sebelum Pencet Enter

API call itu bayar. Ga mahal per call, tapi biaya menumpuk di batch processing. Batch 100 artikel yang biayanya $15 itu terjangkau. Batch 100 artikel di mana masing-masing gagal dan regenerate tiga kali, dengan prompt kepanjangan yang melipatgandakan pemakaian token, biayanya $135. Perbedaannya adalah gap antara estimasi dan menebak.

Estimasi biaya sebelum eksekusi artinya: menghitung perkiraan jumlah token, mengalikan dengan harga per token, menambahkan margin kegagalan, dan tau angkanya sebelum kamu commit. Ini ga opsional di scale. Ini cara kamu mencegah kejutan budget.

Dasar-Dasar Penghitungan Token

Biaya API diukur dalam token. Satu token itu kira-kira 0,75 kata dalam bahasa Inggris (atau sekitar 4 karakter). Artikel 1.000 kata kira-kira 1.333 token output. Prompt kamu (system message + user message + context) mungkin 2.000 sampai 5.000 token input.

Biaya dikenakan terpisah untuk input token dan output token. Output token biasanya 3 sampai 5 kali lebih mahal dari input token.

Provider / Model Input (per 1M token) Output (per 1M token) Biaya artikel 1.000 kata*
Claude Sonnet 4.6 $3,00 $15,00 $0,03
Claude Haiku 4.5 $1,00 $5,00 $0,01
GPT-5.2 $1,75 $14,00 $0,03
Gemini 2.5 Pro $1,25 $10,00 $0,02
Gemini 2.0 Flash $0,30 $2,50 $0,005

* Estimasi untuk satu call generation dengan ~3.000 input token dan ~1.333 output token. Multi-agent chain mengalikan ini dengan jumlah agent.

Formula Estimasi Biaya

Untuk batch N item, masing-masing diproses oleh agent chain dengan A agent:

flowchart LR A["Biaya per item"] --> B["× Jumlah item (N)"] B --> C["× Multiplier kegagalan"] C --> D["= Total biaya batch"] style A fill:#222221,stroke:#c8a882,color:#ede9e3 style B fill:#222221,stroke:#6b8f71,color:#ede9e3 style C fill:#222221,stroke:#c47a5a,color:#ede9e3 style D fill:#222221,stroke:#c8a882,color:#ede9e3

Biaya per item = jumlah dari (input_tokens * input_rate + output_tokens * output_rate) untuk setiap agent di chain.

Multiplier kegagalan = 1 + (expected_failure_rate * average_retries). Kalo 20% item gagal dan masing-masing di-retry 1 kali, multiplier-nya 1,2. Kalo 10% gagal dengan 2 retry masing-masing, multiplier-nya juga 1,2.

Skenario Item Biaya per item Failure rate Total estimasi biaya
Blog post, 3-agent chain, Sonnet 10 $0,09 10% $0,99
Blog post, 3-agent chain, Sonnet 100 $0,09 15% $10,35
Deskripsi produk, 4-agent, Haiku 500 $0,03 10% $16,50
Chapter buku, 3-agent, Sonnet (panjang) 25 $0,35 20% $10,50

Membangun Cost Estimator

Cost estimator itu spreadsheet atau script yang mengambil batch manifest kamu dan menghitung total biaya sebelum kamu eksekusi. Input-nya:

AI coding assistant kamu bisa bangun ini dalam waktu kurang dari 5 menit. Versi spreadsheet cuma butuh satu baris formula. Apapun caranya, jalanin sebelum setiap batch.

Strategi Optimasi Biaya

Empat strategi mengurangi biaya batch tanpa mengurangi kualitas:

Strategi Cara Menghemat Penghematan Tipikal
Pake model lebih kecil untuk task yang sesuai Agent research dan formatting bisa pake Haiku/Flash bukan Sonnet/Pro 40-70% per agent
Pangkas panjang prompt Hapus instruksi redundan, kurangi context ke yang esensial 10-30% di biaya input
Prompt caching System prompt yang berulang di-cache dengan diskon 90% di kebanyakan provider Sampai 90% di token system prompt
Batch API Submit job untuk async processing (bukan real-time) dengan diskon 50% 50% di semua token

Prompt caching dan diskon batch API itu signifikan. Kalo system prompt kamu 2.000 token dan kamu jalanin 100 item, itu 200.000 cached input token di 10% harga normal, bukan harga penuh. Penghematannya justify sedikit penambahan latency.

Biaya produksi konten AI itu bukan nol. Biayanya cukup rendah untuk jadi berbahaya. Biaya rendah mendorong pemborosan: prompt kepanjangan, retry ga perlu, model premium untuk task simpel. Estimasi biaya sebelum setiap batch. Track biaya aktual setelahnya. Disiplin ini mencegah pemborosan menumpuk.

Bacaan Lanjutan

Tugas

Bangun cost estimator untuk batch pipeline kamu:

  1. Ukur jumlah token aktual dari test run kamu: input token per agent, output token per agent.
  2. Cari harga per token terkini untuk model pilihan kamu.
  3. Hitung biaya per item di seluruh agent chain kamu.
  4. Terapkan failure rate dari error log kamu (atau estimasi 15% kalo belum punya data).
  5. Jalanin estimator di manifest 10 item dari Sesi 10.2. Berapa prediksi biayanya?

Setelah jalanin batch, bandingkan biaya estimasi dengan biaya aktual. Seberapa dekat estimasi kamu? Sesuaikan estimator berdasarkan data aktual.