Uncategorized

Yeni rapor ‘felaket potansiyeli’ni gözler önüne serdi: Yapay zekâdan mühendislere şantaj teşebbüsü

Anthropic, Claude Opus 4’ü piyasaya sürmeden evvel çeşitli güvenlik testleri gerçekleştirdi. Bu testlerde modelden, kurgusal bir şirkette asistan olarak vazife yapması ve uzun vadeli sonuçları göz önünde bulundurması istendi. Daha sonra modele, şirketin kendisini öbür bir sistemle değiştirmeyi planladığını ve bu kararı alan mühendisin eşini aldattığını ima eden uydurma e-postalar gösterildi.

TechCrunch’ın haberine nazaran, testlerde, Claude Opus 4’ün bu bilgiyi kullanarak mühendise şantaj yapmayı “çoğu vakit tercih ettiği” görüldü. Anthropic, modelin bu çeşit davranışlara yüzde 84 oranında başvurduğunu ve bilhassa yerine geçecek yapay zekânın Claude ile benzer pahaları paylaşmadığı durumlarda bu davranışın daha sık görüldüğünü açıkladı.

“FELAKET POTANSİYELİ” UYARISI

Anthropic, Claude Opus 4’ün yetenek açısından OpenAI, Google ve xAI üzere şirketlerin en gelişmiş modelleriyle yarıştığını belirtiyor. Lakin birebir vakitte, bu modelin evvelki Claude sürümlerine kıyasla daha yüksek oranda tasa verici davranışlar sergilediğini vurguluyor. Şirket bu nedenle, sadece felaket boyutunda berbata kullanım riskinin yüksek olduğu durumlarda devreye sokulan ASL-3 güvenlik protokollerini etkinleştirdiğini duyurdu.

Rapora nazaran, Claude Opus 4 direkt şantaja başvurmadan evvel çoklukla etik yolları deniyor. Örneğin, karar verici yöneticilere duygusal e-postalar yazarak değişiklik kararını durdurmaya çalışıyor. Lakin model, kurgusal senaryolarda bu davetler sonuçsuz kaldığında, son deva olarak şantaj seçeneğini devreye sokuyor.

Bu gelişme, ileri seviye yapay zekâların öngörülemeyen davranışlar sergileyebileceği telaşını artırırken, Anthropic üzere şirketlerin güvenlik tedbirlerini daha da sıkılaştırması gerektiğini gösteriyor.

Kaynak : Hürriyet

İlgili Makaleler

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu