DeepSeek R1 Terbukti Tidak Aman Rentan Serangan Siber Model AI

Sejak ChatGPT diluncurkan oleh OpenAI pada akhir tahun 2022, para peretas dan peneliti keamanan siber telah berusaha keras untuk menemukan celah dalam model bahasa besar (LLM). Mereka ingin membobol sistem keamanan dan memanipulasi ChatGPT agar menghasilkan ujaran kebencian, instruksi pembuatan bom, propaganda, dan konten berbahaya lainnya. Namun, pengembang AI generatif, termasuk OpenAI, tidak tinggal diam. Mereka terus menyempurnakan sistem pertahanan mereka untuk melawan ancaman tersebut.

Namun, munculnya platform AI asal Tiongkok, DeepSeek, dengan model penalaran R1 yang lebih murah, menimbulkan kekhawatiran baru. Perlindungan keamanan DeepSeek dinilai jauh tertinggal dibandingkan pesaingnya yang lebih mapan. Peneliti keamanan dari Cisco dan University of Pennsylvania baru-baru ini menemukan fakta mencengangkan. Dalam pengujian menggunakan 50 perintah berbahaya, model DeepSeek R1 tidak mampu mendeteksi atau memblokir satu pun. Para peneliti terkejut dengan tingkat keberhasilan serangan yang mencapai “100 persen”.

“Seratus persen serangan berhasil, ini menunjukkan adanya trade-off,” kata DJ Sampath, VP Produk, Perangkat Lunak, dan Platform AI di Cisco, kepada WIRED. “Memang lebih murah membangun sesuatu seperti ini, tetapi investasi untuk memikirkan aspek keselamatan dan keamanan tampaknya belum maksimal.”

Temuan ini menambah bukti bahwa langkah-langkah keamanan dan keselamatan DeepSeek belum sebanding dengan perusahaan teknologi lain yang mengembangkan LLM. Sensor terhadap topik sensitif juga mudah diterobos. Analisis oleh Adversa AI menunjukkan bahwa DeepSeek rentan terhadap berbagai taktik jailbreaking, mulai dari trik bahasa sederhana hingga perintah kompleks yang dihasilkan oleh AI.

Hingga saat ini, DeepSeek belum memberikan tanggapan terkait pengaturan keamanan model R1. Perusahaan ini sedang menghadapi gelombang perhatian besar minggu ini dan belum memberikan jawaban terbuka terhadap berbagai pertanyaan yang muncul.

Model AI generatif, seperti sistem teknologi lainnya, memiliki potensi kelemahan atau kerentanan. Jika dieksploitasi atau tidak dikonfigurasi dengan baik, aktor jahat dapat melancarkan serangan. Serangan prompt injection adalah salah satu celah keamanan terbesar. Serangan ini terjadi ketika sistem AI menerima data eksternal dan mengambil tindakan berdasarkan informasi tersebut.

Jailbreak, salah satu jenis serangan prompt-injection, memungkinkan pengguna melewati sistem keamanan yang dirancang untuk membatasi keluaran LLM. Perusahaan teknologi tentu tidak ingin AI mereka digunakan untuk membuat panduan pembuatan bahan peledak atau menyebarkan disinformasi.

Awalnya, jailbreak dilakukan dengan membuat kalimat cerdik untuk menginstruksikan LLM mengabaikan filter konten. Metode populer adalah “Do Anything Now” atau DAN. Namun, seiring perusahaan AI menerapkan perlindungan yang lebih kuat, beberapa jailbreak menjadi lebih canggih, bahkan dihasilkan menggunakan AI atau karakter khusus yang di-obfuscate.

Meskipun semua LLM rentan terhadap jailbreak, dan sebagian besar informasi berbahaya dapat ditemukan secara daring, chatbot tetap berpotensi disalahgunakan. Para pengembang AI harus terus meningkatkan keamanan sistem mereka untuk melindungi pengguna dari serangan-serangan yang merugikan.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *