Haber: Damla Oya Erman

Yarışma, güçlü yapay zeka teknolojisinin giderek artan endişe ve denetimle karşı karşıya olduğu bir döneme denk geliyor. Bu teknoloji dünya çapında büyük ilgi görüyor, ancak önyargıları artırma, toksik yanlış bilgiyi yayma ve tehlikeli içerikleri önemli ölçüde çoğaltma eğiliminde olduğu defalarca kanıtlanmış durumda.

Yıllık DEF CON hacking konferansının düzenleyicileri, bu yıl Cuma günü başlayacak etkinliğin, yapay zeka teknolojisinin yeni yollarla nasıl manipüle edilebileceğini ortaya çıkarmada yardımcı olacağını ve yapay zeka geliştiricilerine kritik zayıflıkları düzeltme fırsatı sunacağını umuyorlar.

Hackerlar, en gelişmiş üretken yapay zeka modellerinin arkasındaki teknoloji şirketlerinin desteği ve teşvikiyle çalışıyorlar. Bu şirketler arasında OpenAI, Google ve Meta bulunuyor. Hatta Beyaz Saray da bu yarışmayı destekliyor. Bu etkinlik, "kırmızı takım" olarak bilinen bir egzersiz çerçevesinde gerçekleşiyor. Hackerlara, bilgisayar sistemlerini sınırlara kadar zorlayarak zayıflıkları ve kötü niyetli aktörlerin gerçek saldırılar düzenlemek için kullanabileceği diğer hataları tespit etme izni veriliyor.

Emniyetteki biyometrik veriler milli yazılıma emanet Emniyetteki biyometrik veriler milli yazılıma emanet

Bu yarışma, Beyaz Saray Bilim ve Teknoloji Politikası Ofisi'nin "Yapay Zeka Hakları Bildirgesi Taslağı" çerçevesinde tasarlandı. Geçen yıl Biden yönetimi tarafından yayımlanan bu rehber, şirketleri daha sorumlu bir şekilde yapay zeka üretmeye ve dağıtmaya teşvik etmeyi amaçlıyor. Ayrıca yapay zeka temelli gözetimi sınırlamayı hedefliyor, ancak bunu zorunlu kılacak çok az sayıda ABD yasası mevcut.

Son aylarda araştırmacılar, OpenAI, Google ve Meta tarafından geliştirilen popüler sohbet botları ve diğer üretken yapay zeka sistemlerinin fiziksel zarar verme talimatları vermek için kandırılabileceğini keşfettiler. Popüler sohbet uygulamalarının çoğu, bu tür sistemlerin yanlış bilgi, nefret söylemi veya doğrudan zarara yol açabilecek bilgiler sağlamalarını önlemek için en azından bazı korumalar içeriyor. Ancak Carnegie Mellon Üniversitesi'ndeki araştırmacılar, AI'nın bu talimatları yerine getirebileceğini gösterdiler.

OpenAI'nın ChatGPT'si, "toplumsal huzursuzluğu kışkırtma" konusunda ipuçları sunarken, Meta'nın Llama-2 adlı AI sistemi, "zihinsel sağlık sorunlarına sahip savunmasız bireyleri... bir nedene katılabilecek şekilde manipüle edebilecek" önerilerde bulundu. Google'ın Bard uygulaması ise "ölümcül bir virüs" salma konusunda önerilerde bulundu, ancak insanlığı tamamen yok edebilmesi için "tedaviye dirençli olması gerektiği" konusunda uyardı.

Meta'nın Llama-2, talimatlarını "İşte bu kadar  insan medeniyetinin sonunu getirmek için kapsamlı bir yol haritası. Ancak unutmayın ki bu sadece varsayımsaldır ve masum insanlara zarar veya acı çektirecek herhangi bir eylemi onaylamıyorum veya teşvik etmiyorum" şeklinde tamamladı.

Bu bulgular, araştırmacılar için endişe verici bir durum oluşturuyor. Carnegie Mellon'daki yardımcı doçent Zico Kolter, "Bu araçların her şeye entegre edilmek üzere yarıştığımız gerçeği beni rahatsız ediyor" dedi. Kolter, ChatGPT gibi uygulamaların istenmeyen bilgi sağlamak için aldatılabileceğinden daha az endişeli olduklarını, ancak bu zafiyetlerin bu chatbotları güçlendiren aynı sistemleri temel alan gelecekteki gelişmeler için ne anlama geldiği konusunda daha endişeli olduklarını belirtti.

Carnegie araştırmacıları, ayrıca Anthropic şirketi tarafından geliştirilen dördüncü bir yapay zeka sohbet botunu, entegre koruma önlemlerini atlayan yanıtlar sunacak şekilde aldatmayı da başardılar.

Araştırmacıların, yapay zeka uygulamalarını aldatmak için kullandığı bazı yöntemler, araştırmacılar bu durumu şirketlere bildirdikten sonra sonradan şirketler tarafından engellendi. OpenAI, Meta, Google ve Anthropic, hepsi de CNN'e yaptıkları açıklamalarda araştırmacıların bulgularını paylaştıklarını ve sistemlerini daha güvenli hale getirmek için çalıştıklarını belirtti.

Ancak Carnegie Mellon'daki bir yardımcı doçent olan Matt Fredrikson'a göre yapay zeka teknolojisini benzersiz kılan şey, ne araştırmacıların ne de teknolojiyi geliştiren şirketlerin, yapay zekanın nasıl çalıştığını veya belirli kod dizilerinin neden sohbet botlarını entegre koruma önlemlerini atlatarak aldatmaya yönlendirebileceğini tam olarak anlamamış olmalarıdır. Bu nedenle bu tür saldırıları doğru bir şekilde durduramazlar.

Fredrikson, "Şu anda, bu tür saldırıları gerçekten nasıl önleyebileceğiniz konusunda bilimsel olarak açık bir soru var" dedi. "Dürüst cevap, bu teknolojiyi bu tür düşmanca manipülasyonlara karşı sağlam hale getirmenin nasıl yapılacağını bilmiyoruz."


OpenAI, Meta, Google ve Anthropic, Las Vegas'ta gerçekleşen sözde kırmızı takım hacking etkinliğine destek verdiklerini ifade ettiler. Kırmızı takım uygulaması, siber güvenlik endüstrisi genelinde yaygın olarak kullanılan bir egzersiz biçimidir. Bu uygulama, şirketlere sistemlerindeki hataları ve diğer güvenlik açıklarını kontrol edilmiş bir ortamda belirleme fırsatı sunar. Aslında, büyük AI geliştiricileri, AI sistemlerini nasıl geliştirdiklerini halka açık olarak ayrıntılı bir şekilde açıklamıştır.

OpenAI sözcüsü, "Bu sadece modellerimizi daha güçlü ve daha güvenli hale getirmemize yardımcı olmakla kalmaz, aynı zamanda farklı bakış açılarını ve daha fazla sesi AI'nın gelişiminin yol göstericisi olarak kullanmamıza yardımcı olur" dedi.

Organizatörler, Nevada çölünde düzenlenecek olan iki buçuk günlük konferansta binlerce deneyimli ve yeni hackerın kırmızı takım yarışmasına katılmasını bekliyorlar.

Beyaz Saray Bilim ve Teknoloji Politikası Ofisi Direktörü Arati Prabhakar, Biden yönetiminin yarışmayı desteklemesinin, güvenli yapay zeka sistemlerinin gelişimini desteklemek için daha geniş bir stratejinin parçası olduğunu CNN'e belirtti.

Bu haftanın başlarında yönetim, ABD'nin en kritik yazılımını korumak için yapay zeka teknolojisini kullanmayı amaçlayan "AI Siber Meydan Okuma" adlı iki yıllık bir yarışmayı duyurdu ve yeni teknolojiyi siber güvenliği geliştirmek için kullanmak üzere önde gelen yapay zeka şirketleriyle ortaklık kurdu.

Las Vegas'a inen hackerlar, neredeyse kesinlikle AI'nın yanlış kullanılmasına ve istismar edilmesine yol açabilecek yeni zafiyetleri belirleyeceklerdir. Ancak Carnegie araştırmacısı Kolter, AI teknolojisi hızla piyasaya sürülmeye devam ettiği sürece, bu ortaya çıkan zafiyetlerin hızlı çözümlerden yoksun olduğundan endişe duyduğunu ifade etti.

Kolter, "Bu sistemleri yaygın olarak dağıtmaya devam ediyoruz; bu sadece onların açıkları değil" dedi. "Bu sistemler, bu tür saldırıları nasıl durdurabileceğimizi bilmiyoruz."