ChatGPT, Akademik Araştırma Kalitesini Değerlendirmede At...

ChatGPT, Akademik Araştırma Kalitesini Değerlendirmede Atıflardan Daha İyi Sonuçlar Veriyor

Atıf tabanlı göstergeler, akademik araştırmaların değerlendirilmesinde yaygın olarak kullanılsa da, yakın zamanda yayınlanan araştırmalar için faydalı olmamakta, araştırma kalitesinin sadece bir boyutunu yansıtmakta ve bazı sosyal bilimler, sanat ve beşeri bilimler alanlarında pek değer taşımamaktadır. Büyük Dil Modelleri (LLM'ler), bu zayıflıkların bazılarını gidermek için umut vadeden sonuçlar göstermiştir. Bu kapsamda, ChatGPT-4o mini en umut verici sonuçları sergilemiştir, ancak eksik veriler üzerinden.

Kapsamlı Bir Değerlendirme

Bu makale, şimdiye kadarki en geniş ölçekli ChatGPT-4o mini değerlendirmesini sunmakta ve ayrıca daha büyük kardeşi ChatGPT-4o ve ChatGPT-5 mini'yi de değerlendirmektedir. 107.212 İngiltere merkezli hakemli dergi makalesinin bölüm ortalama kalite puanları ile karşılaştırmalı olarak yapılan analizlere göre, ChatGPT-4o, 34 alan tabanlı Değerlendirme Birimi'nin (UoA) çoğunda ChatGPT-4o mini'den biraz daha iyi sonuçlar vermektedir. Ancak her ikisinin de birleştirilmesi, tek başlarına kullanılmalarından daha iyi sonuçlar vermektedir.

Fizik Alanı Dışında Daha İyi Sonuçlar

ChatGPT-4o puanları, 34 UoA'nın 33'ünde araştırma kalitesi ile pozitif korelasyon göstermekte ve bunların 31'inde istatistiksel olarak anlamlı sonuçlar vermektedir. En büyük istisna ise Fizik alanıdır, burada atıflar daha faydalı olmaktadır. ChatGPT-4o puanları, uzun vadeli atıf oranlarından 21 UoA'da daha yüksek, kısa vadeli atıf oranlarından ise 26 UoA'da daha yüksek korelasyon göstermiştir. ChatGPT-5 mini ise genel olarak daha güçlü korelasyonlara sahiptir.

Yeni Bir Araştırma Kalitesi Göstergesi

Özetle, sonuçlar, ChatGPT-4o ve ChatGPT-5 mini'nin, atıflarla rekabet edebilecek yeni araştırma kalitesi göstergeleri olabileceğine dair ilk geniş ölçekli kanıtları sunmaktadır.

ChatGPT, Akademik Araştırma Kalitesini Değerlendirmede Atıflardan Daha İyi Sonuçlar Veriyor