Sesi 5.7: Manajemen Context Window

Kursus → Modul 5: Prompt Engineering

Sesi 7 dari 10

Lebih Banyak Context Ga Selalu Lebih Baik

Setiap model AI punya context window, jumlah maksimum teks yang bisa diproses dalam satu permintaan. Claude menangani 200.000 token. GPT-4 menangani 128.000. Gemini menangani sampai 2 juta. Angka-angka ini kedengarannya kaya kamu bisa lempar semua ke model dan biarkan dia yang urusin. Riset menunjukkan ini ide buruk.

Peneliti Stanford dan UC Berkeley mendokumentasikan masalah "lost in the middle" di 2023: model memperhatikan awal dan akhir context dengan baik tapi buruk di bagian tengah. Akurasi turun lebih dari 30% saat informasi relevan ditempatkan di posisi tengah. Riset 2025 oleh Chroma menguji 18 model frontier dan menemukan setiap model jadi lebih buruk seiring input membesar, fenomena yang sekarang disebut "context rot."

Context window punya batas efektif yang jauh di bawah batas yang diiklankan. Model yang menerima 200.000 token ga perform sama baiknya di semua 200.000 token. Performa menurun seiring context membesar. Skill-nya bukan mengisi window. Skill-nya mengisi dengan persis apa yang penting.

Apa yang Masuk, Apa yang Ga

Setiap token di context window kamu bersaing untuk perhatian model. Context yang ga relevan bukan cuma buang tempat. Dia secara aktif menurunkan performa. Riset Chroma menemukan bahwa konten yang secara semantik mirip tapi ga relevan secara aktif menyesatkan model, menghasilkan hasil lebih buruk daripada ga ada context sama sekali.

Masukkan	Jangan Masukkan
System prompt (voice, batasan, aturan)	Informasi latar belakang umum yang model udah tahu
Fakta spesifik yang model butuhkan untuk tugas ini	Riset yang cuma sedikit berhubungan
Few-shot examples (maksimal 2-3)	Semua contoh yang pernah kamu kumpulkan
Sumber riset yang persis untuk konten ini	Seluruh perpustakaan riset kamu
Template struktural untuk output	Template untuk tipe konten lain
Bab sebelumnya yang relevan (untuk konten sekuensial)	Semua bab sebelumnya

Strategi Context untuk Produksi Konten

Strategi context yang praktis punya tiga tier. Setiap tier menambahkan context hanya kalo tier sebelumnya ga menghasilkan kualitas yang cukup.

graph TD A["Tier 1: Esensial
System prompt + task + template
(~2.000 token)"] --> B{"Kualitas output
cukup?"} B -->|Ya| C["Pakai output ini"] B -->|Ga| D["Tier 2: Diperkaya
+ ringkasan riset + 2 contoh
(~5.000-10.000 token)"] D --> E{"Kualitas output
cukup?"} E -->|Ya| F["Pakai output ini"] E -->|Ga| G["Tier 3: Maksimum
+ sumber lengkap + contoh lebih
(~20.000-50.000 token)"] G --> H["Pakai output ini
(review dengan teliti)"] style A fill:#222221,stroke:#6b8f71,color:#ede9e3 style D fill:#222221,stroke:#c8a882,color:#ede9e3 style G fill:#222221,stroke:#c47a5a,color:#ede9e3

Mulai dari Tier 1. Kalo output-nya kurang spesifik yang cuma ada di sumber riset kamu, naik ke Tier 2. Baru ke Tier 3 kalo kontennya memang butuh materi sumber yang ekstensif, kaya artikel yang sangat teknis atau bab yang harus mereferensikan beberapa bab sebelumnya.

Penempatan Context Itu Penting

Mengingat masalah "lost in the middle," di mana kamu menempatkan informasi di context window mempengaruhi seberapa baik model menggunakannya. Informasi kritis harus ada di awal (system prompt, batasan terpenting) atau di akhir (tugas spesifik, sumber paling relevan). Informasi pendukung di tengah, di mana dia dapat perhatian lebih sedikit tapi tetap berkontribusi ke output keseluruhan.

Untuk prompt produksi, ini artinya menyusun input kamu dengan sengaja:

Awal: System prompt, aturan voice, batasan kritis
Tengah: Sumber riset, informasi latar belakang, contoh
Akhir: Tugas spesifik, format output, pengingat terakhir aturan kunci

Mengulang instruksi terpenting di awal dan akhir context bukan redundant. Itu strategis. Model memberi bobot lebih ke awal dan akhir, jadi menaruh aturan kritis di kedua posisi meningkatkan kepatuhan.

Mengukur Efisiensi Context

Lacak rasio token context terhadap kualitas output. Kalo menggandakan context dari 5.000 ke 10.000 token menghasilkan peningkatan kualitas yang terlihat, context tambahan itu worth it. Kalo menggandakan lagi ke 20.000 token ga menghasilkan peningkatan yang terlihat, kamu udah menemukan titik diminishing returns untuk tipe konten itu.

Bacaan Lanjutan

The 'Lost in the Middle' Problem, DEV Community
Context Rot: Why LLMs Degrade as Context Grows, Morph
Context Window Management for LLM Apps, Redis

Tugas

Ambil tugas produksi nyata yang butuh context substansial (misalnya, menulis review berdasarkan riset). Buat tiga versi prompt: satu dengan context minimal (cuma instruksi tugas), satu dengan context sedang (instruksi + ringkasan riset), dan satu dengan context maksimum (instruksi + sumber riset lengkap + beberapa contoh). Bandingkan kualitas output di ketiganya. Temukan titik diminishing returns. Dokumentasikan.