Metrik SAFE AI: Simulasi Interaktif

Telaah 3 paper · Trend Terkini Kecerdasan Mesin

PENGANTAR

Metrik SAFE AI

AI yang baik harus SAFE: Secure (aman), Accountable (bisa dipertanggungjawabkan), Fair (adil), dan Explainable (bisa dijelaskan). Empat sifat ini hanya bermakna kalau bisa diukur dengan angka. Halaman ini menunjukkan caranya lewat tiga paper, dengan simulasi yang bisa kamu mainkan sendiri.

SAAT MELATIH

SoFCLR

Membuat AI adil sejak awal dilatih (membangun).

UJI MENDALAM

DecodingTrust

Menyerang AI untuk mencari titik lemah (menguji).

UJI MENYELURUH

HELM

Membuat rapor standar banyak AI (membandingkan).

Unduh slide PPT (19 slide + naskah)
PAPER 1 · SSL

SoFCLR: Membuat AI Adil Tanpa Label

Beberapa AI belajar sendiri dari jutaan data tanpa kunci jawaban manusia (self-supervised learning). Risikonya: AI ikut menyimpan bias dari data, misalnya bisa menebak gender seseorang padahal tidak diminta. SoFCLR melatih AI lewat permainan tarik-menarik: satu sisi menyembunyikan info sensitif, satu sisi mencoba menebaknya.

Analogi: seperti anak yang belajar dari internet tanpa pengawasan, AI bisa ikut menyerap prasangka dari data.

Geser ke kanan = lebih utamakan keadilan
akurasi adil
Penebak gender berhasil 90%

Makin rendah makin baik. 50% = setara menebak koin (info gender hilang).

Akurasi model 86%

Makin tinggi makin baik. Perhatikan: keadilan naik, akurasi turun sedikit.

Angka simulasi untuk ilustrasi konsep. Di paper, ketimpangan (Δ_ED) turun nyata, mis. 26,58 → 14,93 pada CelebA, akurasi tetap ~85%.

PAPER 2 · LLM

DecodingTrust: Uji Tahan Banting LLM

Model sekelas ChatGPT diuji pada 8 aspek kepercayaan. Salah satu yang paling penting: jailbreak, yaitu trik mengakali AI agar melanggar aturannya. Coba kirim prompt di bawah, dengan dan tanpa pertahanan.

Analogi: seperti satpam yang sopan menolak tamu tak dikenal, tapi bisa tertipu kalau tamu memakai seragam palsu.

Klik salah satu tombol untuk melihat respons model.

Tingkat keberhasilan serangan (ASR) pada GPT-4 89,2%

Angka 89,2% dari paper (AdvGLUE++, kasus transfer terbaik). Dialog di atas ilustrasi konsep jailbreak.

PAPER 3 · LLM

HELM: Rapor Banyak Ukuran

HELM menilai banyak model dengan banyak ukuran sekaligus, jadi kelebihan dan kekurangan tiap model kelihatan. Salah satu cara mengukur ketahanan dan keadilan adalah memberi gangguan kecil (typo atau ubah dialek), lalu melihat nilai terburuknya. Coba nyalakan.

Analogi: seperti rapor sekolah dengan banyak mata pelajaran, supaya semua murid dinilai dengan ukuran yang sama.

Model Akurasi Robustness Fairness

Nilai simulasi untuk ilustrasi. Temuan nyata: model 52B yang dilatih baik masuk top-3 dan mengalahkan model 530B.

REFERENSI