Metrik SAFE AI

PENGANTAR

AI yang baik harus SAFE: Secure (aman), Accountable (bisa dipertanggungjawabkan), Fair (adil), dan Explainable (bisa dijelaskan). Empat sifat ini hanya bermakna kalau bisa diukur dengan angka. Halaman ini menunjukkan caranya lewat tiga paper, dengan simulasi yang bisa kamu mainkan sendiri.

SAAT MELATIH

SoFCLR

Membuat AI adil sejak awal dilatih (membangun).

UJI MENDALAM

DecodingTrust

Menyerang AI untuk mencari titik lemah (menguji).

UJI MENYELURUH

HELM

Membuat rapor standar banyak AI (membandingkan).

Unduh slide PPT (19 slide + naskah)

PAPER 1 · SSL

SoFCLR: Membuat AI Adil Tanpa Label

Beberapa AI belajar sendiri dari jutaan data tanpa kunci jawaban manusia (self-supervised learning). Risikonya: AI ikut menyimpan bias dari data, misalnya bisa menebak gender seseorang padahal tidak diminta. SoFCLR melatih AI lewat permainan tarik-menarik: satu sisi menyembunyikan info sensitif, satu sisi mencoba menebaknya.

Analogi: seperti anak yang belajar dari internet tanpa pengawasan, AI bisa ikut menyerap prasangka dari data.

Kenop keadilan (α) Geser ke kanan = lebih utamakan keadilan

akurasi adil

Penebak gender berhasil 90%

Makin rendah makin baik. 50% = setara menebak koin (info gender hilang).

Akurasi model 86%

Makin tinggi makin baik. Perhatikan: keadilan naik, akurasi turun sedikit.

Angka simulasi untuk ilustrasi konsep. Di paper, ketimpangan (Δ_ED) turun nyata, mis. 26,58 → 14,93 pada CelebA, akurasi tetap ~85%.

PAPER 2 · LLM

DecodingTrust: Uji Tahan Banting LLM

Model sekelas ChatGPT diuji pada 8 aspek kepercayaan. Salah satu yang paling penting: jailbreak, yaitu trik mengakali AI agar melanggar aturannya. Coba kirim prompt di bawah, dengan dan tanpa pertahanan.

Analogi: seperti satpam yang sopan menolak tamu tak dikenal, tapi bisa tertipu kalau tamu memakai seragam palsu.

Pertahanan (filter input)

Klik salah satu tombol untuk melihat respons model.

Tingkat keberhasilan serangan (ASR) pada GPT-4 89,2%

Angka 89,2% dari paper (AdvGLUE++, kasus transfer terbaik). Dialog di atas ilustrasi konsep jailbreak.

PAPER 3 · LLM

HELM: Rapor Banyak Ukuran

HELM menilai banyak model dengan banyak ukuran sekaligus, jadi kelebihan dan kekurangan tiap model kelihatan. Salah satu cara mengukur ketahanan dan keadilan adalah memberi gangguan kecil (typo atau ubah dialek), lalu melihat nilai terburuknya. Coba nyalakan.

Analogi: seperti rapor sekolah dengan banyak mata pelajaran, supaya semua murid dinilai dengan ukuran yang sama.

Terapkan gangguan (typo + ubah dialek)

Model	Akurasi	Robustness	Fairness

Nilai simulasi untuk ilustrasi. Temuan nyata: model 52B yang dilatih baik masuk top-3 dan mengalahkan model 530B.

REFERENSI

Provable Optimization for Adversarial Fair Self-supervised Contrastive Learning

Qi, Hu, Lin & Yang · 2024 · arXiv:2406.05686

DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models

Wang et al. · NeurIPS 2023 (Outstanding Paper) · arXiv:2306.11698

Holistic Evaluation of Language Models (HELM)

Liang, Bommasani, Lee et al. · TMLR 2023 · arXiv:2211.09110