Dil Modelleri Ses ile Anlam İlişkisi Kuruyor mu? Çok Modlu Ses Sembolizmi Çalışması

Dil Modelleri Ses ile Anlam İlişkisi Kuruyor mu?
Ses sembolizmi, sesbilimsel formlar ile anlamları arasındaki keyfi olmayan ilişkileri ifade eden dilbilimsel bir kavramdır. Bu, Çok Modlu Büyük Dil Modellerinin (MLLMs) insan dillerindeki sesli bilgileri nasıl yorumladığını anlamak için ikna edici bir test olabilir. Ortografik, IPA ve sesli giriş formlarıyla 25 semantik boyut (örneğin, keskin vs. yuvarlak) üzerinde MLLMs'in fonetik ikoniklik performansını inceliyoruz. Bu amaçla, dört doğal dilden (İngilizce, Fransızca, Japonca ve Korece) 8.052 kelime ve 2.930 sistematik olarak oluşturulmuş sahte kelimeden oluşan, hem metin hem de ses modallikleri üzerinde uygulanan semantik özelliklerle etiketlenmiş kapsamlı bir LEX-ICON mimik kelime veri kümesi sunuyoruz. Temel bulgularımız, (1) MLLMs'in mevcut dilbilimsel araştırmalarla uyumlu fonetik sezgilerini ve (2) fonosemantik dikkat kalıplarını, modellerin ikonik sesbirimler üzerindeki odağını vurgulayan modelleri gösteriyor. Bu sonuçlar, yapay zeka ve bilişsel dilbilim alanlarını birleştiriyor ve MLLMs'in yorumlanabilirliği açısından fonetik ikonikliğin ilk kapsamlı, nicel analizlerini sunuyor.
Ses Sembolizmi Nedir?
Ses sembolizmi, sesbilimsel formlar ile anlamları arasındaki keyfi olmayan ilişkileri ifade eden dilbilimsel bir kavramdır. Örneğin, küçük sözcüğündeki "k" sesi, küçüklüğü temsil ederken, büyük sözcüğündeki "b" sesi büyüklüğü ifade eder.
Çok Modlu Büyük Dil Modelleri Ses Sembolizmini Nasıl Algılıyor?
Araştırmacılar, Çok Modlu Büyük Dil Modellerinin (MLLMs) sesli bilgileri insan dillerinde nasıl yorumladığını anlamak için ses sembolizmini inceledi. Modellerin fonetik ikoniklik performansını, ortografik, IPA ve sesli giriş formlarıyla 25 semantik boyut üzerinde ölçtüler.
LEX-ICON: Kapsamlı Bir Mimik Kelime Veri Kümesi
Araştırmacılar, dört doğal dilden (İngilizce, Fransızca, Japonca ve Korece) 8.052 kelime ve 2.930 sistematik olarak oluşturulmuş sahte kelimeden oluşan LEX-ICON adlı kapsamlı bir mimik kelime veri kümesi sundular. Bu veri kümesi, hem metin hem de ses modallikleri üzerinde uygulanan semantik özelliklerle etiketlenmiştir.
Temel Bulgular
Araştırmanın temel bulguları şunlardır:
- MLLMs'in mevcut dilbilimsel araştırmalarla uyumlu fonetik sezgileri
- Fonosemantik dikkat kalıplarının, modellerin ikonik sesbirimler üzerindeki odağını vurgulaması
Sonuç
Bu çalışma, yapay zeka ve bilişsel dilbilim alanlarını birleştirerek, MLLMs'in yorumlanabilirliği açısından fonetik ikonikliğin ilk kapsamlı, nicel analizlerini sunuyor. Ses sembolizmi, dil modellerinin sesli bilgileri nasıl işlediğini anlamak için önemli bir araç olarak öne çıkıyor.