Model Agent-as-Colleague
Sesi 9.5 · ~5 menit baca
Bukan Pekerja, Bukan Nabi
Dua mode kegagalan menghantui multi-agent workflow. Yang pertama adalah abdikasi: memercayai agent buat bikin keputusan yang seharusnya ga mereka buat, cap-cap output-nya, dan publish apapun yang keluar. Yang kedua adalah micromanagement: mereview setiap output antara, nulis ulang hasil agent secara manual, dan mengalahkan tujuan otomatisasi itu sendiri.
Mental model yang benar ada di antara kedua ekstrem ini. Anggap setiap agent sebagai kolega dengan keahlian spesifik. Kamu menghormati kompetensi mereka dalam domain mereka. Kamu ga minta asisten riset buat bikin keputusan editorial. Kamu ga minta copy editor buat milih topik. Dan kamu mereview pekerjaan mereka di checkpoint yang sudah ditentukan, bukan terus-terusan.
Framework Kolega
(Editor-in-Chief)"] --> B["Asisten Riset
Agent 1"] A --> C["Ghostwriter
Agent 2"] A --> D["Copy Editor
Agent 3"] B -- "Menyerahkan research brief" --> A C -- "Menyerahkan draft" --> A D -- "Menyerahkan review" --> A A -- "Approve/reject di setiap gate" --> E["Konten Terpublish"] style A fill:#222221,stroke:#c8a882,color:#ede9e3 style B fill:#222221,stroke:#6b8f71,color:#ede9e3 style C fill:#222221,stroke:#8a8478,color:#ede9e3 style D fill:#222221,stroke:#c47a5a,color:#ede9e3 style E fill:#222221,stroke:#c8a882,color:#ede9e3
Kamu adalah editor-in-chief. Kamu ga ngerjain semuanya, tapi semuanya lewat kamu. Kamu menentukan arah (topik, audiens, sudut pandang). Kamu mereview deliverable. Kamu bikin keputusan akhir. Agent mengeksekusi dalam batasan yang kamu tentukan.
Job Description Agent
Job description buat setiap agent memperjelas perannya, batasannya, dan tanggung jawab handoff-nya. Ini mencegah scope creep, di mana agent mulai ngerjain hal di luar perannya dan menghasilkan hasil yang ga bisa diprediksi.
| Agent | Peran | Keahlian | Keterbatasan | Keputusan yang Diizinkan |
|---|---|---|---|---|
| Asisten Riset | Pengumpulan informasi | Search, filtering, evaluasi sumber | Ga bisa menilai relevansi terhadap audiens; ga bisa menilai kesesuaian strategis | Sumber mana yang dimasukkan; cara menyusun brief |
| Ghostwriter | Pembuatan prosa | Voice matching, struktur naratif, ekonomi kata | Ga bisa memutuskan apa yang ditulis; ga bisa memverifikasi fakta | Phrasing level kalimat; struktur level paragraf dalam outline |
| Copy Editor | Penilaian kualitas | Deteksi pola, scoring rubrik, identifikasi artifact | Ga bisa bikin penilaian editorial soal arah konten | Apa yang ditandai; scoring severity |
Level Delegasi
Ga semua tugas dalam domain agent layak mendapat level kepercayaan yang sama. Beberapa tugas ditangani agent secara otonom. Lainnya butuh persetujuan kamu sebelum chain berlanjut.
| Level | Deskripsi | Contoh |
|---|---|---|
| Otonom | Agent mengeksekusi tanpa review | Agent Riset memformat output sebagai JSON; Penulis pake transisi paragraf |
| Review kalau ada pengecualian | Agent mengeksekusi; kamu review hanya item yang ditandai | Editor menandai masalah; kamu review hanya item yang skornya di bawah 5 |
| Selalu review | Agent mengeksekusi; kamu review setiap output | Penulis menghasilkan draft; kamu baca setiap kata sebelum lanjut |
| Manusia saja | Agent ga terlibat | Pemilihan topik, persetujuan publikasi, review etika |
Seiring agent kamu terbukti reliable, kamu bisa menggeser tugas dari "selalu review" ke "review kalau ada pengecualian." Ini kepercayaan yang diraih, bukan kepercayaan buta. Datangnya dari melacak performa agent selama banyak kali jalan dan melihat kualitas yang konsisten.
Feedback Loop
Waktu agent underperform, solusinya bukan membuang agent itu. Solusinya adalah memperbaiki instruksinya. Kalo Agent Penulis konsisten menghasilkan voice break di paragraf pembuka, solusinya adalah instruksi paragraf pembuka yang lebih spesifik di system prompt-nya, bukan kembali ke nulis manual.
Lacak performa agent per dimensi:
- Agent Riset: tingkat kualitas sumber, kelengkapan brief, tingkat kepatuhan schema
- Agent Penulis: skor konsistensi voice (dari Editor), tingkat kepatuhan outline, jumlah artifact
- Agent Editor: akurasi flag (seberapa sering kamu setuju dengan penilaian Editor?), false positive rate, false negative rate
Metrik ini memberitahu kamu di mana harus invest perbaikan system prompt. Agent Penulis dengan skor voice 6/10 butuh penyempurnaan voice fingerprint. Agent Editor dengan false positive rate 40% butuh kalibrasi.
Tujuannya bukan menghapus diri kamu dari pipeline. Tujuannya menempatkan diri kamu di mana penilaian manusia menambah value paling besar: di decision point dan quality gate. Selebihnya bisa didelegasikan ke agent yang performanya kamu lacak dan instruksinya kamu sempurnakan.
Bacaan Lanjutan
- AI Agent Workflows: Everything You Need to Know, GoodData
- How Agentic AI Revolutionizes Content Workflows, Global Publicist
- AI Agent Content Writing System, Sight AI
Tugas
Tulis "job description" buat setiap agent di chain kamu. Sertakan:
- Peran (satu kalimat)
- Keahlian (apa yang dia kuasai)
- Keterbatasan (apa yang ga bisa dia lakukan)
- Keputusan yang bisa dia buat secara otonom
- Keputusan yang butuh persetujuan kamu
Lalu tetapkan level delegasi (otonom, review kalau ada pengecualian, selalu review, manusia saja) ke setiap tugas di pipeline kamu. Jujur soal di mana kamu memercayai agent dan di mana ga. Framework ini berkembang seiring kamu mengumpulkan data performa.