Yapay Zeka Araştırmacıları İçerik Üretimi ve Sınıflandırma Konusunda İnsan Uzmanlarını Yakalayamıyor

Yapay Zeka Araştırmacıları İçerik Üretimi ve Sınıflandırma Konusunda İnsan Uzmanlarını Yakalayamıyor
Derin Öğrenme Ajanları, araştırma makalesi üretimini giderek daha fazla otomatikleştirmesine rağmen, iki temel yeteneği karşılayıp karşılayamadıkları hala net değil: Temel makaleleri alma ve bunları uzman gibi taksonomilere organize etme. Mevcut kıyaslama testleri, yazım kalitesine veya atıf doğruluğuna odaklanırken, standart kümeleme ölçütleri hiyerarşik taksonomi yapısını yakalamakta başarısız oluyor.
TaxoBench, 72 yüksek atıflı LLM araştırmasından oluşan ve uzman yazarlar tarafından oluşturulmuş 3.815 makaleyi içeren taksonomi ağaçlarını içeren bir kıyaslama testi sunuyor. TaxoBench, hem içerik alma hem de organizasyon yeteneklerini değerlendiriyor: (1) Alma, uzman tarafından atıf yapılan makalelerin ajanlar tarafından alınıp alınmadığını ölçer; ve (2) Organizasyon, iki seviyede değerlendirilir: yaprak düzeyi makale-kategori atamasını, hiyerarşik düzey ise taksonomi yapısını Düzensiz Semantik Ağaç Düzenleme Mesafesi (US-TED/US-NTED) ve Semantik Yol Benzerliği (Sem-Path) gibi yeni ölçümlerle değerlendirir.
Derin Araştırma Ajanları Yetersiz Kalıyor
TaxoBench, Derin Araştırma testleri ve Alt-Yukarı modları sunuyor: Derin Araştırma, yalnızca bir konu verildiğinde uçtan uca yeteneği test ederken, Alt-Yukarı, organizasyon yeteneğini izole etmek için uzman makale kümesini sağlar. 7 Derin Araştırma Ajanı ve 12 sınır LLM'sini değerlendirmek, çift darboğaz ortaya çıkarıyor: En iyi ajan yalnızca uzman atıflarının %20,92'sini geri getiriyor ve mükemmel girdi ile bile en iyi model %31,24 ARI ile yapısal boşluklar gösteriyor.
Sonuç
Sonuç olarak, yapay zeka araştırmacılarının içerik üretimi ve sınıflandırma konusunda insan uzmanlarını henüz yakalayamadığı görülüyor. TaxoBench, bu alandaki gelişmeleri takip etmek için önemli bir kıyaslama aracı olarak öne çıkıyor.