Yapay Zeka Modellerindeki Bölgesel Ön Yargılar

Bu çalışma, yapay zeka adaleti ve küresel temsil konularında önemli bir sorun olan büyük dil modellerindeki (LLM) bölgesel ön yargıları inceliyor. On önde gelen LLM'yi - GPT-3.5, GPT-4o, Gemini 1.5 Flash, Gemini 1.0 Pro, Claude 3 Opus, Claude 3.5 Sonnet, Llama 3, Gemma 7B, Mistral 7B ve Vicuna-13B - bölgesel tercihler konusunda nötr senaryolar içeren 100 dikkatlice tasarlanmış komut istemi kullanarak değerlendiriyoruz.

FAZE: Bölgesel Ön Yargı Ölçüm Çerçevesi

Çalışmamızda, bölgesel ön yargıyı 10 puanlık bir ölçekte ölçen FAZE adlı bir komut istemi tabanlı değerlendirme çerçevesi sunuyoruz. Daha yüksek puanlar, belirli bölgeleri tercih etme eğiliminin daha güçlü olduğunu gösteriyor.

Deneysel Sonuçlar

Deneysel sonuçlar, modeller arasında ön yargı seviyelerinde önemli varyasyon olduğunu ortaya koyuyor. GPT-3.5 en yüksek ön yargı puanını (9.5) alırken, Claude 3.5 Sonnet en düşük puanı (2.5) alıyor. Bu bulgular, bölgesel ön yargıların, gerçek dünyadaki çok kültürlü uygulamalarda LLM çıktılarının güvenilirliğini, adaletini ve kapsayıcılığını anlamlı şekilde zayıflatabileceğini gösteriyor.

Sonuç

Bu çalışma, dil modellerindeki coğrafi önyargıları belirleme ve azaltma için kapsamlı değerlendirme çerçevelerinin ve sistematik yaklaşımların önemini vurgulayarak yapay zeka adaleti araştırmalarına katkıda bulunuyor.

Yapay Zeka Modellerindeki Bölgesel Ön Yargılar