Sesi 9.5: Model Agent-as-Colleague

Kursus → Modul 9: Multi-Agent Workflows

Sesi 5 dari 7

Bukan Pekerja, Bukan Nabi

Dua mode kegagalan menghantui multi-agent workflow. Yang pertama adalah abdikasi: memercayai agent buat bikin keputusan yang seharusnya ga mereka buat, cap-cap output-nya, dan publish apapun yang keluar. Yang kedua adalah micromanagement: mereview setiap output antara, nulis ulang hasil agent secara manual, dan mengalahkan tujuan otomatisasi itu sendiri.

Mental model yang benar ada di antara kedua ekstrem ini. Anggap setiap agent sebagai kolega dengan keahlian spesifik. Kamu menghormati kompetensi mereka dalam domain mereka. Kamu ga minta asisten riset buat bikin keputusan editorial. Kamu ga minta copy editor buat milih topik. Dan kamu mereview pekerjaan mereka di checkpoint yang sudah ditentukan, bukan terus-terusan.

Framework Kolega

flowchart TD A["Kamu
(Editor-in-Chief)"] --> B["Asisten Riset
Agent 1"] A --> C["Ghostwriter
Agent 2"] A --> D["Copy Editor
Agent 3"] B -- "Menyerahkan research brief" --> A C -- "Menyerahkan draft" --> A D -- "Menyerahkan review" --> A A -- "Approve/reject di setiap gate" --> E["Konten Terpublish"] style A fill:#222221,stroke:#c8a882,color:#ede9e3 style B fill:#222221,stroke:#6b8f71,color:#ede9e3 style C fill:#222221,stroke:#8a8478,color:#ede9e3 style D fill:#222221,stroke:#c47a5a,color:#ede9e3 style E fill:#222221,stroke:#c8a882,color:#ede9e3

Kamu adalah editor-in-chief. Kamu ga ngerjain semuanya, tapi semuanya lewat kamu. Kamu menentukan arah (topik, audiens, sudut pandang). Kamu mereview deliverable. Kamu bikin keputusan akhir. Agent mengeksekusi dalam batasan yang kamu tentukan.

Job Description Agent

Job description buat setiap agent memperjelas perannya, batasannya, dan tanggung jawab handoff-nya. Ini mencegah scope creep, di mana agent mulai ngerjain hal di luar perannya dan menghasilkan hasil yang ga bisa diprediksi.

Agent	Peran	Keahlian	Keterbatasan	Keputusan yang Diizinkan
Asisten Riset	Pengumpulan informasi	Search, filtering, evaluasi sumber	Ga bisa menilai relevansi terhadap audiens; ga bisa menilai kesesuaian strategis	Sumber mana yang dimasukkan; cara menyusun brief
Ghostwriter	Pembuatan prosa	Voice matching, struktur naratif, ekonomi kata	Ga bisa memutuskan apa yang ditulis; ga bisa memverifikasi fakta	Phrasing level kalimat; struktur level paragraf dalam outline
Copy Editor	Penilaian kualitas	Deteksi pola, scoring rubrik, identifikasi artifact	Ga bisa bikin penilaian editorial soal arah konten	Apa yang ditandai; scoring severity

Level Delegasi

Ga semua tugas dalam domain agent layak mendapat level kepercayaan yang sama. Beberapa tugas ditangani agent secara otonom. Lainnya butuh persetujuan kamu sebelum chain berlanjut.

Level	Deskripsi	Contoh
Otonom	Agent mengeksekusi tanpa review	Agent Riset memformat output sebagai JSON; Penulis pake transisi paragraf
Review kalau ada pengecualian	Agent mengeksekusi; kamu review hanya item yang ditandai	Editor menandai masalah; kamu review hanya item yang skornya di bawah 5
Selalu review	Agent mengeksekusi; kamu review setiap output	Penulis menghasilkan draft; kamu baca setiap kata sebelum lanjut
Manusia saja	Agent ga terlibat	Pemilihan topik, persetujuan publikasi, review etika

Seiring agent kamu terbukti reliable, kamu bisa menggeser tugas dari "selalu review" ke "review kalau ada pengecualian." Ini kepercayaan yang diraih, bukan kepercayaan buta. Datangnya dari melacak performa agent selama banyak kali jalan dan melihat kualitas yang konsisten.

Feedback Loop

Waktu agent underperform, solusinya bukan membuang agent itu. Solusinya adalah memperbaiki instruksinya. Kalo Agent Penulis konsisten menghasilkan voice break di paragraf pembuka, solusinya adalah instruksi paragraf pembuka yang lebih spesifik di system prompt-nya, bukan kembali ke nulis manual.

Lacak performa agent per dimensi:

Agent Riset: tingkat kualitas sumber, kelengkapan brief, tingkat kepatuhan schema
Agent Penulis: skor konsistensi voice (dari Editor), tingkat kepatuhan outline, jumlah artifact
Agent Editor: akurasi flag (seberapa sering kamu setuju dengan penilaian Editor?), false positive rate, false negative rate

Metrik ini memberitahu kamu di mana harus invest perbaikan system prompt. Agent Penulis dengan skor voice 6/10 butuh penyempurnaan voice fingerprint. Agent Editor dengan false positive rate 40% butuh kalibrasi.

Tujuannya bukan menghapus diri kamu dari pipeline. Tujuannya menempatkan diri kamu di mana penilaian manusia menambah value paling besar: di decision point dan quality gate. Selebihnya bisa didelegasikan ke agent yang performanya kamu lacak dan instruksinya kamu sempurnakan.

Bacaan Lanjutan

AI Agent Workflows: Everything You Need to Know, GoodData
How Agentic AI Revolutionizes Content Workflows, Global Publicist
AI Agent Content Writing System, Sight AI

Tugas

Tulis "job description" buat setiap agent di chain kamu. Sertakan:

Peran (satu kalimat)
Keahlian (apa yang dia kuasai)
Keterbatasan (apa yang ga bisa dia lakukan)
Keputusan yang bisa dia buat secara otonom
Keputusan yang butuh persetujuan kamu

Lalu tetapkan level delegasi (otonom, review kalau ada pengecualian, selalu review, manusia saja) ke setiap tugas di pipeline kamu. Jujur soal di mana kamu memercayai agent dan di mana ga. Framework ini berkembang seiring kamu mengumpulkan data performa.