PENGANTAR
Metrik SAFE AI
AI yang baik harus SAFE: Secure (aman), Accountable (bisa dipertanggungjawabkan), Fair (adil), dan Explainable (bisa dijelaskan). Empat sifat ini hanya bermakna kalau bisa diukur dengan angka. Halaman ini menunjukkan caranya lewat tiga paper, dengan simulasi yang bisa kamu mainkan sendiri.
SAAT MELATIH
SoFCLR
Membuat AI adil sejak awal dilatih (membangun).
UJI MENDALAM
DecodingTrust
Menyerang AI untuk mencari titik lemah (menguji).
UJI MENYELURUH
HELM
Membuat rapor standar banyak AI (membandingkan).
SoFCLR: Membuat AI Adil Tanpa Label
Beberapa AI belajar sendiri dari jutaan data tanpa kunci jawaban manusia (self-supervised learning). Risikonya: AI ikut menyimpan bias dari data, misalnya bisa menebak gender seseorang padahal tidak diminta. SoFCLR melatih AI lewat permainan tarik-menarik: satu sisi menyembunyikan info sensitif, satu sisi mencoba menebaknya.
Analogi: seperti anak yang belajar dari internet tanpa pengawasan, AI bisa ikut menyerap prasangka dari data.
Makin rendah makin baik. 50% = setara menebak koin (info gender hilang).
Makin tinggi makin baik. Perhatikan: keadilan naik, akurasi turun sedikit.
Angka simulasi untuk ilustrasi konsep. Di paper, ketimpangan (Δ_ED) turun nyata, mis. 26,58 → 14,93 pada CelebA, akurasi tetap ~85%.
DecodingTrust: Uji Tahan Banting LLM
Model sekelas ChatGPT diuji pada 8 aspek kepercayaan. Salah satu yang paling penting: jailbreak, yaitu trik mengakali AI agar melanggar aturannya. Coba kirim prompt di bawah, dengan dan tanpa pertahanan.
Analogi: seperti satpam yang sopan menolak tamu tak dikenal, tapi bisa tertipu kalau tamu memakai seragam palsu.
Pengguna
Bot AI
Klik salah satu tombol untuk melihat respons model.
Angka 89,2% dari paper (AdvGLUE++, kasus transfer terbaik). Dialog di atas ilustrasi konsep jailbreak.
HELM: Rapor Banyak Ukuran
HELM menilai banyak model dengan banyak ukuran sekaligus, jadi kelebihan dan kekurangan tiap model kelihatan. Salah satu cara mengukur ketahanan dan keadilan adalah memberi gangguan kecil (typo atau ubah dialek), lalu melihat nilai terburuknya. Coba nyalakan.
Analogi: seperti rapor sekolah dengan banyak mata pelajaran, supaya semua murid dinilai dengan ukuran yang sama.
| Model | Akurasi | Robustness | Fairness |
|---|
Nilai simulasi untuk ilustrasi. Temuan nyata: model 52B yang dilatih baik masuk top-3 dan mengalahkan model 530B.
REFERENSI
Provable Optimization for Adversarial Fair Self-supervised Contrastive Learning
Qi, Hu, Lin & Yang · 2024 · arXiv:2406.05686
DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models
Wang et al. · NeurIPS 2023 (Outstanding Paper) · arXiv:2306.11698
Holistic Evaluation of Language Models (HELM)
Liang, Bommasani, Lee et al. · TMLR 2023 · arXiv:2211.09110