ChatGPT, Akademik Araştırma Kalitesini Ölçmede Atıflardan Daha İyi Performans Gösteriyor

ChatGPT, Akademik Araştırma Kalitesini Ölçmede Atıflardan Daha İyi Performans Gösteriyor
Günümüzde akademik araştırmaların değerlendirilmesinde atıf göstergeleri yaygın olarak kullanılsa da, bu yaklaşımın bazı önemli kısıtları bulunmaktadır. Yeni yayınlanan araştırmalar için faydalı olmaması, araştırma kalitesinin yalnızca bir boyutunu yansıtması ve bazı sosyal bilimler, sanat ve beşeri bilimler alanlarında yetersiz kalması gibi sorunlar atıf göstergelerinin zayıf yönleridir. Büyük Dil Modelleri (LLM'ler) ise bu zayıflıkların üstesinden gelmeye yardımcı olabilmektedir. Bu kapsamda, ChatGPT-4o mini en umut verici sonuçları sergilemektedir.
Bu makalede, şimdiye kadarki en kapsamlı ChatGPT-4o mini değerlendirmesi sunulmaktadır. Ayrıca, ChatGPT-4o ve ChatGPT-5 mini modellerinin performansları da incelenmektedir. 107.212 İngiltere merkezli hakemli makaleyi kapsayan 34 farklı alan için yapılan karşılaştırmalı analizler, ChatGPT-4o'nun çoğu alanda ChatGPT-4o mini'den biraz daha iyi sonuçlar verdiğini göstermektedir. Ancak her iki modelin birlikte kullanılması daha iyi sonuçlar vermektedir.
ChatGPT-4o Puanları Araştırma Kalitesiyle Yüksek Korelasyon Gösteriyor
ChatGPT-4o puanları, 34 alanın 33'ünde araştırma kalitesiyle pozitif korelasyon sergilemekte ve bu sonuçlar 31 alanda istatistiksel olarak anlamlıdır. Yalnızca Fizik alanında atıf göstergeleri daha faydalı bulunmuştur.
ChatGPT-4o puanları, uzun vadeli atıf oranlarından 21 alanda, kısa vadeli atıf oranlarından ise 26 alanda daha yüksek korelasyon göstermiştir. ChatGPT-5 mini ise genel olarak daha güçlü korelasyonlara sahiptir.
Sonuç Olarak
Bu sonuçlar, ChatGPT-4o ve ChatGPT-5 mini'nin, yeni araştırma kalitesi göstergeleri olarak atıflarla rekabet edebilecek nitelikte olduğunun ilk kapsamlı kanıtını sunmaktadır.