Kursus → Modul 13: Melindungi Karyamu & Tetap di Depan
Sesi 2 dari 6

Rilis Model Bukan Otomatis Upgrade

Versi model baru keluar. Pengumumannya antusias. Benchmark nunjukin peningkatan. Kamu tergoda untuk langsung ganti pipeline produksi. Jangan.

Ketika model baru rilis, tiga hal terjadi bersamaan. Beberapa output membaik. Beberapa output berubah dengan cara yang ga terduga. Beberapa prompt yang tadinya jalan reliable di model lama menghasilkan hasil yang berbeda (kadang lebih jelek) di model baru. Ini bukan kegagalan model baru. Ini realitas dari sistem apapun yang dibangun di atas platform yang berubah di bawah kamu.

Responsnya bukan menghindari update. Tapi memperlakukannya seperti pabrik memperlakukan upgrade peralatan: tes dulu sebelum deploy.

Model Regression Testing: Menjalankan serangkaian benchmark prompt standar di model baru dan membandingkan output dengan referensi output dari model saat ini. Tujuannya bukan membuktikan model baru lebih bagus. Tujuannya mengidentifikasi apa yang berubah dan apakah perubahan itu merusak pipeline kamu.

Tiga Jenis Perubahan

flowchart TD A[Model Baru Rilis] --> B["Jalankan Benchmark Prompt
(prompt sama, parameter sama)"] B --> C["Bandingkan dengan Output Referensi"] C --> D{"Jenis Perubahan?"} D -->|"Peningkatan
(kualitas lebih baik,
lebih sedikit marker)"| E["Terima
Update output referensi"] D -->|"Drift Netral
(beda tapi
kualitas setara)"| F["Evaluasi
Mungkin perlu penyesuaian prompt"] D -->|"Regresi
(kualitas turun,
masalah baru)"| G["Tolak
Tetap di model saat ini
atau sesuaikan prompt"] style E fill:#6b8f71,color:#111 style F fill:#c8a882,color:#111 style G fill:#c47a5a,color:#111
Jenis Perubahan Kelihatannya Seperti Apa Contoh Aksi
Peningkatan Struktur lebih baik, lebih sedikit AI marker, voice lebih natural Model baru bikin opening yang skip pembukaan "panduan lengkap" Update ke model baru. Update output referensi.
Drift netral Frasa beda, struktur beda, level kualitas sama Model baru mengorganisir konten pakai H3 subheading bukan bold inline header Tes apakah downstream pipeline bisa handle perubahan format. Sesuaikan kalau perlu.
Regresi Lebih bertele-tele, lebih banyak hedging, AI marker baru, kepatuhan constraint lebih buruk Model baru mengabaikan instruksi "jangan pakai bullet list" yang model lama ikuti Tetap di model lama. Laporkan regresinya. Cek lagi di update berikutnya.

Membangun Benchmark Suite Kamu

Benchmark suite kamu adalah kumpulan 5-10 prompt yang merepresentasikan tipe konten paling kritis. Prompt ini tetap. Kamu jalankan di setiap model baru dan bandingkan outputnya.

Benchmark prompt yang bagus punya sifat-sifat ini:

  1. Terkendala. Mereka menyertakan persyaratan format spesifik, batasan voice, dan ekspektasi struktur. Prompt tanpa batasan ga menguji kepatuhan.
  2. Representatif. Mereka mencakup rentang konten yang pipeline kamu hasilkan. Kalau kamu bikin deskripsi produk, blog post, dan email copy, benchmark kamu harus mencakup ketiganya.
  3. Bisa dinilai. Kamu bisa mengevaluasi output pakai rubrik kualitas dari Sesi 11.5. "Ini rasanya lebih bagus" yang subjektif itu bukan benchmark. Skor rubrik yang bergerak dari 34 ke 38 itu baru benchmark.
  4. Version-controlled. Prompt disimpan di file, bukan diketik dari ingatan. Output referensi disimpan bersamaan. Setiap versi model dapat file output sendiri.

Protokol Update

Ketika model baru dirilis, ikuti urutan ini:

  1. Jangan ubah pipeline produksi kamu. Biarkan model saat ini tetap jalan.
  2. Jalankan benchmark suite di model baru. Prompt sama, parameter sama.
  3. Nilai semua output pakai rubrik kamu. Bandingkan skor dengan referensi.
  4. Kategorikan setiap hasil benchmark sebagai peningkatan, drift netral, atau regresi.
  5. Kalau semua benchmark menunjukkan peningkatan atau drift netral: pindahkan produksi ke model baru. Update output referensi.
  6. Kalau ada benchmark yang menunjukkan regresi: investigasi. Bisa ga penyesuaian prompt memperbaiki regresinya? Kalau bisa, sesuaikan dan tes ulang. Kalau ga bisa, tetap di model saat ini.
  7. Dokumentasikan keputusannya di log produksi kamu. Sertakan skor benchmark, kategori perubahan, dan alasan untuk pindah atau tetap.

Prompt Versioning

Beberapa update model butuh penyesuaian prompt. Prompt yang jalan di Claude 3.5 mungkin perlu modifikasi untuk Claude 4. Ini normal. Solusinya adalah prompt versioning: memelihara varian prompt spesifik per model yang dimuat berdasarkan model mana yang aktif.

Library prompt kamu (dari Sesi 5.9) harus diorganisir supaya penyesuaian spesifik model terisolasi. Inti intent prompt tetap sama. Yang berubah cuma frasa atau instruksi format. Ketika kamu ganti model, kamu ganti varian prompt, bukan prompt-nya sendiri.

Seiring waktu, kamu mengakumulasi riwayat prompt mana yang jalan di model mana. Riwayat ini berharga. Ini memberitahu kamu bagaimana model berbeda dalam responsnya terhadap instruksi spesifik dan membantu kamu beradaptasi lebih cepat ketika update berikutnya tiba.

Bacaan Lanjutan

Tugas

Buat benchmark suite model kamu: 5 prompt tes yang merepresentasikan tipe konten paling kritis. Jalankan di model kamu saat ini dan simpan outputnya sebagai referensi (sertakan skor rubrik untuk masing-masing). Simpan prompt dan output di file yang version-controlled. Saat model baru rilis berikutnya, jalankan 5 prompt yang sama, nilai outputnya, dan kategorikan perubahannya. Dokumentasikan perbandingannya dan keputusan pindah/tetap kamu.