Video-BrowseComp: Açık Web'de Aktif Video Araştırması İçin Yeni Bir Kriter

Video-BrowseComp: Açık Web'de Aktif Video Araştırması İçin Yeni Bir Kriter
Otonom ajanların gelişimi, pasif erişimden proaktif, sınırsız web araştırmasına geçen bilgi arama sürecini yeniden tanımlıyor. Ancak, metinsel ve statik çok modelli ajanlar hızlı ilerleme kaydederken, web'in en dinamik modalitesi olan video işleme konusunda önemli bir boşluk var.
Mevcut video kriterleri, çoğunlukla pasif algıya odaklanıyor ve modellere düzenlenmiş klipleri besliyor. Dağınık kanıtları karşılaştırma, video zaman çizelgelerini sorgulama ve açık web üzerindeki iddiaları doğrulama gibi aktif video araştırmasını değerlendiremiyor.
Video-BrowseComp: Yeni Bir Kriter
Bu boşluğu kapatmak için, Video-BrowseComp adlı zorlu bir kriter sunduk. 210 sorudan oluşan bu kriter, açık web üzerindeki aktif video akıl yürütmesi için tasarlandı. Önceki kriterlerden farklı olarak, Video-BrowseComp, cevapların yalnızca metin araması yoluyla türetilememesini sağlıyor. Bunun yerine, dış iddiaları doğrulamak için video zaman çizelgelerinde gezinmeyi gerektiriyor.
Sonuçlar ve Analiz
Öncü modellerin değerlendirilmesi, kritik bir darboğaz ortaya çıkarıyor: Gelişmiş arama destekli modeller bile (GPT-5.1 w/ Search) yalnızca %15.24 doğruluk oranına ulaşabiliyor. Analizimiz, bu modellerin büyük ölçüde metinsel vekillere güvendiğini ve üst verisi zengin alanlarda (örneğin, özet bilgilerle TV şovları) başarılı olduklarını, ancak üst verisi zayıf, dinamik ortamlarda (örneğin, spor, oyun oynama) çöktüklerini gösteriyor.
Geleceğe Bakış
Video-BrowseComp, pasif algıdan proaktif video akıl yürütmeye geçişi temsil eden ilk açık web video araştırma kriteri olarak alanı ileriye taşıyor.