ChatGPT, Araştırma Kalitesini Ölçmede Atıflardan Daha İyi...

ChatGPT, Araştırma Kalitesini Ölçmede Atıflardan Daha İyi Performans Gösteriyor

Atıf tabanlı göstergeler yaygın olarak araştırma değerlendirmesi için kullanılsa da, yeni yayınlanan araştırmalar için faydalı değildir, araştırma kalitesinin yalnızca üç ortak boyutundan birini yansıtır ve bazı sosyal bilimler, sanat ve beşeri bilimler alanlarında çok az değeri vardır. Büyük Dil Modelleri (LLM'ler) bu zayıflıkların bazılarını ele aldığını göstermiştir ve ChatGPT-4o mini en umut verici sonuçları göstermiştir, ancak eksik veriler üzerinde.

Bu makale, şimdiye kadarki en geniş ölçekli ChatGPT-4o mini değerlendirmesini sunuyor ve daha büyük kardeşi ChatGPT-4o ve ChatGPT-5 mini'yi de değerlendiriyor. 107.212 İngiltere merkezli hakemli dergi makalesinin Birim Değerlendirme (UoA) ortalama kalite puanlarıyla karşılaştırmalara dayanan, LLM puanlarının 5 tekrarlı ortalamaları temelinde, ChatGPT-4o, test edilen 34 alan tabanlı UoA'nın çoğunda ChatGPT-4o mini'den biraz daha iyi performans gösteriyor, ancak ikisini birleştirmek herhangi birinden daha iyi sonuçlar veriyor.

ChatGPT, Atıflardan Daha Etkili Bir Gösterge

ChatGPT-4o puanları, 34 UoA'nın 33'ünde araştırma kalitesiyle pozitif bir korelasyon gösteriyor ve bunların 31'inde istatistiksel olarak anlamlı. En büyük istisna Fizik alanı, burada atıflar daha kullanışlı oluyor. ChatGPT-4o puanları, 34 UoA'nın 21'inde uzun vadeli atıf oranlarından daha yüksek bir korelasyon gösterirken, 26'sında kısa vadeli atıf oranlarından daha yüksek bir korelasyon gösteriyor. ChatGPT-5 mini ise genel olarak daha güçlü korelasyonlara sahip.

Sonuç

Sonuçlar, ChatGPT-4o ve ChatGPT-5 mini'nin, yeni araştırma kalitesi göstergesi kaynakları olarak atıflarla rekabet edebilir olduğuna dair ilk geniş çaplı kanıtı sunuyor.

ChatGPT, Araştırma Kalitesini Ölçmede Atıflardan Daha İyi Performans Gösteriyor