Video-BrowseComp: Açık Web'de Video Araştırmasında Ajansal Performans Değerlendirmesi

Açık Web'de Ajansal Video Araştırması
Özerk ajanların evrimi, pasif bilgi erişiminden proaktif, sınırsız web araştırmasına geçişi tanımlamaktadır. Ancak metin ve statik çoklu ortam ajanlarındaki hızlı ilerlemelerine rağmen, web'in en dinamik modalitesi olan video işleme konusunda önemli bir boşluk bulunmaktadır. Mevcut video benchmark'ları, büyük ölçüde pasif algılamaya odaklanmakta ve hazırlanmış klipleri modellere beslemektedir. Ancak bu yaklaşım, video zaman çizelgelerini aktif olarak sorgulama, dağınık kanıtları çapraz referans etme ve açık web'e karşı iddiaları doğrulama gerektiren ajansal video araştırmasını değerlendirmekte başarısız olmaktadır.
Video-BrowseComp Benchmark'ı
Bu boşluğu kapatmak için, 210 sorudan oluşan ve açık web ajansal video akıl yürütmesi için tasarlanmış zorlu bir benchmark olan Video-BrowseComp'u sunduk. Video-BrowseComp, cevapların yalnızca metin aramasıyla türetilememesini ve video zaman çizelgelerinde gezinilerek dış iddiaların doğrulanmasını gerektirmektedir.
Değerlendirme Sonuçları
Öne çıkan modellerin değerlendirilmesi, kritik bir darboğaz ortaya koyuyor: Gelişmiş arama destekli modeller bile (örn. GPT-5.1 (w/ Arama)) yalnızca %15,24 doğruluk oranına ulaşabiliyor. Analiz, bu modellerin büyük ölçüde metin vekilleri kullandığını ve plot özetleri gibi meta veri açısından zengin alanlarda başarılı olduğunu, ancak spor, oyun gibi meta veri açısından sınırlı, dinamik ortamlarda çöktüğünü gösteriyor. Görsel temellendirme burada kritik önem taşıyor.
Sonuç
Video-BrowseComp, pasif algıdan proaktif video akıl yürütmeye geçişi sağlayarak alanı ilerletmektedir. Bu benchmark, açık web video araştırması için yeni bir zorluk sunmakta ve gelecekteki çalışmalar için yeni ufuklar açmaktadır.