Kursus → Modul 11: Quality Control & Gerbang Manusia
Sesi 2 dari 7

Fact-Checking Manual Ga Bisa Diskalakan

Di Sesi 11.1, kamu belajar di mana halusinasi terkonsentrasi. Sekarang pertanyaannya: gimana cara mengecek klaim di volume production? Kalo kamu publish 10 artikel per minggu dan masing-masing mengandung 15 klaim yang bisa diverifikasi, itu 150 klaim yang harus dicek. Melakukan ini manual, satu pencarian Google per waktu, butuh berjam-jam. Fact-checking berbantuan API mereduksi itu jadi hitungan menit.

Perbedaan kuncinya: ini bukan automated fact-checking. Ga ada sistem yang bisa memverifikasi kebenaran secara otonom dengan andal. Ini automated flagging, proses yang mencari bukti, membandingkannya dengan klaim, dan mengarahkan perhatian manusia ke item yang paling membutuhkannya.

API-Assisted Fact-Checking: Workflow yang menggunakan search API untuk mengumpulkan bukti bagi klaim yang bisa diverifikasi, lalu menandai diskrepansi untuk review manusia. API menangani pencarian. Manusia menangani penilaian.

Pipeline Fact-Check Empat Tahap

Setiap workflow fact-checking mengikuti struktur yang sama, terlepas dari API atau tools apa yang kamu pakai.

flowchart LR A[Output AI] --> B[Ekstrak Klaim] B --> C[Cari Tiap Klaim] C --> D[Bandingkan & Tandai] D --> E[Review Manusia] B -.->|"Manual atau AI-assisted"| B1["Daftar klaim yang bisa diverifikasi
dengan label kategori"] C -.->|"Tavily / Google API"| C1["3-5 hasil teratas per klaim"] D -.->|"Cocok / Tidak Cocok / Ga ada data"| D1["Laporan bertanda"] E -.->|"Setujui / Koreksi / Hapus"| E1["Konten terverifikasi"] style A fill:#8a8478,color:#ede9e3 style B fill:#c8a882,color:#111 style C fill:#c8a882,color:#111 style D fill:#c8a882,color:#111 style E fill:#6b8f71,color:#111

Tahap 1: Ekstrak Klaim

Tarik setiap klaim yang bisa diverifikasi dari output AI. Kamu bisa melakukan ini manual untuk batch kecil atau pakai panggilan AI kedua dengan prompt seperti: "Daftarkan setiap klaim faktual di teks ini yang bisa diverifikasi dengan search engine. Sertakan teks klaim persis dan kategorinya (statistik, tanggal, atribusi, sumber, fakta teknis)."

Output-nya harus berupa daftar terstruktur. Bukan prosa. Tabel atau JSON array yang bisa diproses langkah berikutnya.

Tahap 2: Cari Tiap Klaim

Untuk setiap klaim yang diekstrak, jalankan search query. Tavily dibuat khusus untuk ini: API-nya mengembalikan hasil terstruktur yang dioptimalkan untuk konsumsi AI, dengan snippet relevan yang sudah diekstrak. Google Search API juga bisa, tapi butuh lebih banyak parsing.

Search query-nya harus klaim itu sendiri, diubah jadi pertanyaan kalo perlu. "73% marketer melaporkan peningkatan ROI" jadi search query "persentase marketer yang melaporkan peningkatan ROI."

Tahap 3: Bandingkan dan Tandai

Untuk setiap klaim, bandingkan pernyataan AI dengan hasil pencarian. Tiga kemungkinan outcome:

Outcome Artinya Aksi
Cocok Hasil pencarian mengkonfirmasi klaim Setujui. Risiko rendah.
Tidak cocok Hasil pencarian bertentangan dengan klaim Tandai untuk koreksi. Sertakan sumber yang bertentangan.
Ga ada data Pencarian ga mengembalikan hasil relevan Tandai untuk review manual. Klaim mungkin sepenuhnya difabrikasi.

Outcome "ga ada data" sering kali yang paling berbahaya. Ketika pencarian untuk statistik atau sumber spesifik ga mengembalikan apa-apa, penjelasan paling mungkin adalah AI mengarangnya.

Tahap 4: Review Manusia

Laporan bertanda dikirim ke reviewer manusia yang membuat keputusan akhir. Untuk yang cocok, scan cepat sudah cukup. Untuk yang ga cocok, reviewer mengoreksi klaim menggunakan sumber yang bertentangan. Untuk flag ga ada data, reviewer entah menemukan informasinya lewat riset lebih dalam atau menghapus klaim sepenuhnya.

Tavily dalam Workflow

Search API Tavily dirancang persis untuk use case ini. Berbeda dengan web search standar yang mengembalikan judul halaman dan URL, Tavily mengembalikan snippet konten yang sudah diekstrak sehingga model AI (atau manusia) bisa langsung membandingkan dengan klaim. Workflow-nya jadi:

  1. Ekstrak klaim dari output AI
  2. Kirim klaim sebagai query ke Tavily API
  3. Terima hasil terstruktur dengan kutipan teks relevan
  4. Kirim klaim + kutipan ke prompt perbandingan (atau review manual)
  5. Catat verdict di laporan verifikasi kamu

Satu panggilan Tavily API biayanya sepersekian sen. Mengecek 150 klaim per minggu biayanya kurang dari satu dolar. Ekonomi API-assisted fact-checking bukan bottleneck-nya. Bottleneck-nya adalah membangun workflow dan menjalankannya secara konsisten.

Laporan Verifikasi

Pipeline kamu harus menghasilkan laporan terstruktur untuk setiap konten. Laporan ini adalah audit trail kamu, bukti due diligence, dan data training untuk memperbaiki pipeline seiring waktu.

Klaim Kategori Hasil Pencarian Verdict Aksi yang Diambil
"Pasar mencapai $4,2M di 2025" Statistik Beberapa sumber mengkonfirmasi $4,1M Ketidakcocokan minor Dikoreksi ke $4,1M
"Menurut McKinsey (2024)..." Sitasi Laporan ada, tapi dari 2023 Ketidakcocokan tanggal Tahun dikoreksi
"CEO John Smith menyatakan..." Atribusi Ga ada kutipan yang cocok ditemukan Ga ada data Kutipan dihapus
"Didirikan di San Francisco" Fakta Dikonfirmasi oleh website perusahaan Cocok Disetujui

Limitasi yang Harus Kamu Terima

API-assisted fact-checking menangkap sumber fabrikasi, angka salah, dan kutipan yang salah atribusi. Ga menangkap misrepresentasi halus, klaim yang di luar konteks, atau klaim yang secara teknis benar tapi menyesatkan. Itu butuh penilaian manusia yang ga bisa direplikasi oleh search API manapun.

Tujuannya bukan kesempurnaan. Tujuannya menangkap 80% halusinasi yang merupakan kegagalan verifikasi langsung, supaya reviewer manusia bisa menghabiskan waktu mereka di 20% yang butuh pemikiran sungguhan.

Further Reading

Tugas

Bangun pipeline fact-checking untuk satu konten yang di-generate AI. Ekstrak semua klaim yang bisa diverifikasi (manual boleh untuk sekarang). Cari setiap klaim menggunakan Tavily atau tool pencarian apapun. Buat laporan verifikasi dengan kolom: Klaim, Kategori, Hasil Pencarian, Verdict, Aksi yang Diambil. Berapa banyak klaim yang kamu tandai? Berapa banyak flag yang memang masalah legitimate? Berapa false positive rate dari proses flagging kamu?