Sesi 7.4: Pipeline Riset-Lalu-Tulis

Kursus → Modul 7: API sebagai Alat Riset

Sesi 4 dari 7

Kebanyakan orang pakai AI dengan bilang "tuliskan aku artikel tentang X." Model generate dari training data. Training data itu representasi terkompresi, dirata-ratakan, dan mungkin udah basi dari semua yang model lihat waktu training. Hasilnya terbaca kayak ringkasan dari ringkasan, karena memang pada dasarnya itu yang terjadi.

Pipeline riset-lalu-tulis membalik urutannya. Pertama, kumpulkan sumber. Lalu, feed sumber-sumber itu ke AI sebagai konteks. AI menulis dari sumber yang kamu kurasi, bukan dari kompresi internal dia atas internet.

Dua Pendekatan

graph LR subgraph "Generasi Langsung" A["Prompt: Tulis tentang X"] --> B["Model pakai
training data"] B --> C["Output: rata-rata,
generik, mungkin
udah basi"] end subgraph "Riset-Lalu-Tulis" D["Riset: kumpulkan
sumber tentang X"] --> E["Feed sumber
sebagai konteks"] E --> F["Model tulis dari
sumber kamu"] F --> G["Output: terkini,
spesifik, bisa disitasi"] end style C fill:#2a2a28,stroke:#c47a5a,color:#ede9e3 style G fill:#2a2a28,stroke:#6b8f71,color:#ede9e3

Bedanya ga halus. Generasi langsung menghasilkan konten yang kedengarannya well-informed tapi seringkali ga. Riset-lalu-tulis menghasilkan konten yang memang well-informed karena informasinya ada di sana, di context window.

Arsitektur Pipeline

Pipeline riset-lalu-tulis punya dua tahap yang berbeda, masing-masing dengan tool, parameter, dan quality check sendiri.

Tahap	Input	Proses	Output	Quality Check
1. Riset	Topik + pertanyaan riset	Search API (Tavily, Google), ekstrak data kunci	Research brief (sumber, data, kutipan)	Cakupan cukup? Sumber reliabel?
2. Tulis	Research brief + system prompt + outline	LLM API dengan sumber sebagai konteks	Draft konten	Klaim cocok dengan sumber? Voice benar?

Tahap 1: Riset

Tahap riset bukan "search topiknya dan lihat apa yang muncul." Ini query yang ditargetkan berdasarkan pertanyaan riset spesifik yang kamu tentukan sebelum pencarian dimulai.

graph TD A["Tentukan topik"] --> B["Tulis 5-10 pertanyaan
riset spesifik"] B --> C["Untuk tiap pertanyaan:
query Tavily atau
Google Search API"] C --> D["Kumpulkan hasil:
10-20 sumber"] D --> E["Filter: buang
yang ga reliabel,
ga relevan, duplikat"] E --> F["Ekstrak: tarik data
point kunci, kutipan,
statistik dari masing-masing"] F --> G["Susun research brief:
terorganisir per subtopik
dengan sitasi"] style B fill:#2a2a28,stroke:#c8a882,color:#ede9e3 style G fill:#2a2a28,stroke:#6b8f71,color:#ede9e3

Pertanyaan riset itu penting. "Apa itu remote work?" menghasilkan hasil generik. "Berapa persen perusahaan Fortune 500 yang punya kebijakan remote work permanen per 2025?" menghasilkan data yang spesifik dan bisa dipakai. Tulis pertanyaan riset kamu kayak jurnalis: cukup spesifik supaya jawabannya adalah fakta, bukan overview.

Kualitas tahap riset kamu menentukan plafon tahap menulis kamu. Ga ada prompt engineering yang bisa mengompensasi riset yang tipis. Investasikan waktunya di depan.

Tahap 2: Tulis

Tahap menulis mengambil research brief sebagai konteks dan system prompt kamu sebagai constraint voice, lalu generate konten yang mensintesis informasi yang dikumpulkan ke dalam format dan voice kamu.

System prompt untuk tahap ini menyertakan instruksi krusial: tulis berdasarkan sumber yang disediakan saja. Jangan tambahkan informasi dari training data kecuali secara eksplisit diinstruksikan. Constraint ini mencegah model mengisi celah dengan data yang dihalusinasi. Kalo research brief ga mencakup satu poin, model harus skip atau flagging bahwa poin itu butuh riset tambahan.

Format Research Brief

Research brief itu dokumen terstruktur, bukan tumpahan hasil pencarian. Dia mengorganisir temuan per subtopik, menyertakan sitasi sumber untuk setiap data point, dan memisahkan fakta dari interpretasi.

Bagian	Isi	Tujuan
Ringkasan topik	Satu paragraf overview topik	Orientasi model
Temuan kunci	Bullet point dengan data, masing-masing disitasi	Tulang punggung faktual konten
Detail sumber	Daftar lengkap sumber dengan URL, tanggal, catatan kredibilitas	Memungkinkan sitasi di output
Celah yang teridentifikasi	Pertanyaan yang ga terjawab riset	Mencegah halusinasi untuk mengisi celah
Kontradiksi	Di mana sumber-sumber ga sepakat	Mengingatkan penulis (manusia atau AI) untuk menangani nuansa

Perbandingan Hasil

Konten yang dihasilkan lewat riset-lalu-tulis berbeda secara terukur dari generasi langsung. Dia berisi data point spesifik, bukan klaim samar. Dia menyitasi sumber, bukan bilang "menurut para ahli." Dia mencerminkan informasi terkini, bukan snapshot training data. Dan dia bisa dipertahankan, karena setiap klaim bisa dilacak balik ke sumber yang bisa diverifikasi.

Trade-off-nya waktu. Pipeline riset-lalu-tulis butuh lebih lama per tulisan dibanding generasi langsung. Tahap riset menambah 5-15 menit per artikel (otomatis) atau 30-60 menit (manual). Untuk konten yang akurasi dan kredibilitas penting, investasi ini membayar dirinya sendiri lewat trust dan otoritas.

Tugas

Bangun pipeline dua langkah untuk satu konten. Langkah 1: pakai Tavily atau Google Search untuk riset topik, kumpulkan 5-10 sumber. Susun ini jadi research brief mengikuti format di atas.
Langkah 2: feed research brief sebagai konteks ke LLM API kamu, dengan instruksi untuk menulis berdasarkan sumber yang disediakan saja. Sertakan voice fingerprint dan formatting requirements di system prompt.
Bandingkan output ini dengan generasi langsung (topik sama, system prompt sama, tanpa research brief). Mana yang lebih akurat? Lebih spesifik? Lebih terpercaya? Dokumentasikan perbedaannya.

Pipeline Riset-Lalu-Tulis