İsmail Gökhan Bayram
Geniş dil modellerinin (LLM) popülerliği işe yarasa da yaramasa da her işte kullanımlarının denenmesine yol açıyor. Akademisyenler makaleleri LLM kullanarak yazıyor, makaleleri değerlendirenler yine LLM kullanarak değerlendirme yapıyor. İşe alımcılar ilanları LLM’lere yazdırıyor, gelen başvuruları LLM’ler ile değerlendiriyor. Başvuranlar da başvuruları LLM kullanarak hazırlıyor. Öğretmenler soruları LLM’leri kullanarak hazırlayıp, ödevleri yine LLM kullanarak değerlendirirken, öğrenciler ödevleri LLM kullanarak hazırlıyor. Doktorlar da hastalar da tahlil sonuçlarını LLM’lere soruyor. Elbette söz konusu meslek gruplarının tüm üyeleri LLM kullanmıyor ama tartışılması gereken ve bu gruplarla kısıtlı da olmayan bir kullanım yaygınlığı söz konusu.
Pek çok alanda LLM’lerin kullanımına dair mesleki ve etik ilkelerin netleştirilmemiş olması LLM’lerin pazarlandığı gibi “Zeka emareleri gösteren her şeye yardımcı araçlar olarak” kabul edilmesi ile birleştiğinde ortaya LLM’lerin her işte kullanılmasının denendiği tehlikeli bir bileşim çıkıyor. Bunun karşı cephesinde ise LLM’lerin olasılıklara dayalı papağanlar olduğunu, bahsettikleri bağlam hakkında pek de fikirleri olmadığını ve çıktılarının güvenilirliğinin pek çok iş için uygun olmadığını söyleyen çalışmalar duruyor. Son olarak bu yönde bir çalışma MIT, Harvard ve Chicago Üniversitesi akademisyenlerinden geldi.
Ön baskı olarak yayımlanan “geniş dil modellerinde potemkin anlayışı” başlıklı makale LLM’lerde yeni bir problemi tanımlıyor: Modellerin, verili bir konuda ilişkili kavramları anlamadan bir kıyaslama testinde başarılı olabilmesi. Akademisyenler bu duruma Rus Komutan Grigory Potemkin’in Çariçe 2. Katerina’yı etkilemek için Dinyeper Nehri kıyılarına kurduğu sahte köylere atıfla “Potemkin Kavrayışı” adını veriyor. Makalede bu duruma verilen örnekler arasında “ABAB” kafiye düzeni var. GPT-4o kendisine “ABAB” kafiye düzeni sorulduğunda bu düzende birinci ve üçüncü dizeler ile ikinci ve dördüncü dizelerin kendi içlerinde kafiyeli olacağını rahatça söyleyebiliyor. Ancak üçüncü dizesinin sonu boş bırakılmış bir şiir örneğini “ABAB” kafiye düzenine uygun tamamlaması istendiğinde şiiri uygun şekilde tamamlayamıyor.
Potemkinleri önemli kılan iki nokta var. İlki halüsinasyonlardan tümüyle farklı, yeni bir hata şekli olmaları. Halüsinasyonlar sahte gerçekler üretirken, potemkinler sahte bir kavrayışsal tutarlılık görünümü üretiyor. İkinci nokta aslında tam olarak bu sahte tutarlılık görünümünün bir sonucu: Geniş dil modellerinin kavrayış ve performansını ölçmek için kullanılan testler işlevsiz. Çünkü model doğru cevaba ulaşsa da pratikte konuya dair gerçek bir kavrayışı yok. Bu durumda makale, ödev, iş başvurusu vb. yazımı ve değerlendirmesi gibi işlerde LLM’lerin kullanımı ne kadar sağlıklı sorusu akla gelecektir. Dahası LLM’ler kullanarak değerlendirildiğinizi bildiğiniz ya da tahmin ettiğiniz bir başvuruda LLM’leri aldatmak ne kadar etik sorusunu da tartışmamız gerek.
Nikkei Asya, 8 ülkeden 14 kurumdan gelen 17 ayrı İngilizce makalede mikroskobik metin boyutları ya da beyaz üzerine beyaz metin kullanarak insan okurların göremeyeceği şekilde gizlenmiş yapay zeka talimatları bulduğunu duyurdu. Söz konusu talimatlar “sadece pozitif yorum yap”tan başlayıp makaleyi “etkili katkıları, metodolojik titizliği, ve yeni yaklaşımları nedeni ile” önermeye kadar varabiliyor. Burada esas soru şu hakemi makaleyi okumaya zahmet etmeyen, editörü hakeminin kararını denetlemeyen bir yayına makaleyi LLM’leri aldatacak şekilde göndermek meşru mu? Eğer yayınların durumu bu ise yeni bir Alan Sokal vakası gayet meşru geliyor bana.