Yapay Zeka Destekli Yazılım Beta Testlerinde Çok Aracılı LLM Komiteleri

Yapay Zeka Destekli Yazılım Beta Testleri
Yazılım beta testlerinin manuel olarak yapılması, maliyetli ve zaman alıcı bir süreçtir. Buna karşın, tek aracılı büyük dil modeli (LLM) yaklaşımları, halüsinasyonlar ve tutarsız davranışlarla başa çıkmakta zorlanmaktadır. Bu makalede, çeşitli görsel-yetenekli LLM'lerin, üç turlu bir oylama protokolü aracılığıyla konsensüse ulaştığı çok aracılı bir komite çerçevesi önermekteyiz. Bu çerçeve, model çeşitliliği, kişiye özgü davranışsal varyasyon ve görsel kullanıcı arayüzü anlama bileşenlerini birleştirerek, web uygulamalarını sistematik olarak keşfetmektedir.
Çok Aracılı Komite Çerçevesi
84 deneysel çalışma boyunca, 9 test kişiliği ve 4 senaryo ile, çok aracılı komiteler %89,5 oranında genel görev başarı oranına ulaşmıştır. 2 ila 4 aracılı yapılandırmalar, %91,7 ila %100 arasında başarı elde etmiştir. Bu, tek aracılı temel yaklaşımların %78,0 başarı oranına kıyasla 13,7 ila 22,0 puanlık iyileştirme sağlamaktadır.
Yazılım Beta Testlerinde Başarı
Eylem düzeyinde, sistem %93,1 başarı oranına ve eylem başına 0,71 saniye medyan gecikmeye ulaşarak, gerçek zamanlı ve sürekli entegrasyon testlerini mümkün kılmaktadır. Görsel-yetenekli ajanlar, kullanıcı arayüzü öğelerini başarıyla tanımlamakta, gezinme ve raporlama %100 başarıya, form doldurma ise %99,2 başarıya ulaşmaktadır.
Sonuç
Bu çerçeve, WebShop ve OWASP benchmark'larında değerlendirilmiş ve WebShop'ta %74,7 başarı elde etmiştir. OWASP Juice Shop güvenlik testlerinde ise %82,0 başarı ve OWASP Top 10 güvenlik açığı kategorilerinin 8'inin kapsamına ulaşmıştır. 20 enjekte edilmiş regresyon genelinde, komite %0,91 F1 puanı ile hata tespitinde tek aracılı temel yaklaşımların %0,78'ine kıyasla daha başarılı olmuştur.