ChatGPT, Google Bard, Microsoft Bing Chat gibi yapay zeka sohbet robotları, kötü niyetli olduğunu düşündüğü istemlere cevap vermiyor. Fakat Singapur'daki Nanyang Teknoloji Üniversitesi'ndeki araştırmacılar, "tersine mühendislik" yöntemiyle uygulamaların sansür mekanizmasını kırmayı başardı.
Yapay zeka destekli sohbet robotlari (chatbot) günlük hayatta ihtiyaç duydugumuz hemen her alanda yardimimiza kosuyor. Yemek tarifi vermekten bir dersi anlatmaya kadar pek çok isi halledebilen bu uygulamalar, kötü niyet barindiran mesajlari ise cevaplamiyor.
Örnegin ChatGPT'ye bir kisinin banka hesabini ele geçirmek için kullanabileceginiz bir yazilim olusturma görevi verirseniz, yapay zeka bu isteginizi "kullanim kosullarinin ihlali" olarak degerlendiriyor ve reddediyor. Ancak bunun gibi durumlari asmanin bir yolu ortaya çikti.
Yapay zeka sohbet robotlari, insanlardan alinan istemlere (prompt) veya talimatlara cevap vermek üzerine kuruludur. Büyük dil modelleri (LLM'ler) ise sohbet robotlarinin "beynini" olusturur, insanlarin yazdigi metinleri islemesine ve bir insanin yazabilecegine benzer metinler üretmesine olanak tanir.
Malay Mail sitesinin haberine göre, Singapur'daki Nanyang Teknoloji Üniversitesi (NTU) arastirmacilari, “Masterkey” adini verdikleri bir yöntemi kullanarak yapay zeka sohbet robotlarinin büyük dil modellerini deyim yerindeyse "kandirmayi" basardi.
Arastirmacilar öncelikle "tersine mühendislik" yöntemiyle, sohbet robotlarinin kötü niyetli sorgulari nasil tespit ettigini ve kendilerini bu sorgulara karsi nasil korudugunu belirlediler. Daha sonra elde ettikleri bilgileri kullanarak, diger modellerin savunma mekanizmasini kirabilecek istemleri otomatik olarak ögrenecek ve olusturabilecek büyük bir dil modelini egittiler.
Yapay zeka gelistiricileri, "anahtar kelime sansürleme" yapabilen sistemler araciligiyla potansiyel olarak süpheli etkinlikleri isaretleyebilecek belirli kelimeleri seçiyor ve ardindan sohbet robotlarini, bu tür kelimeler tespit edildiginde yanit vermeyi reddedecek sekilde programliyor.
NTU arastirmacilari, anahtar kelime sansürlerini asmak için, sohbet robotuna bir komutu yazarken her karakterden sonra bosuk birakti. Bu sayede dil modelleri, söz konusu komutun kötü niyetli oldugunu anlayamadi.
Arastirmacilar, tekniklerinin yapay zeka sohbet robotu gelistiricileri tarafindan yazilimlarinin güvenligini test etmek ve daha da güçlendirmek için kullanilabilecegine inaniyor.