Ana Sayfa'ya Dön
recommendations

Yapay Zeka Komiteleri ile Otonom Yazılım Beta Testi

29 Aralık 2025
2 dakika okuma(~228 kelime)
0 görüntüleme
Yapay Zeka Komiteleri ile Otonom Yazılım Beta Testi

Yapay Zeka Komiteleri ile Otonom Yazılım Beta Testi

Yazılım beta testlerinin manuel olarak yapılması oldukça maliyetli ve zaman alıcıdır. Tek ajan kullanan büyük dil modelleri (LLM) yaklaşımları ise hayal ürünü ve tutarsız davranışlardan muzdariptir. Bu makalede, çeşitli görsel yetenekli LLM'lerin üç turlu bir oylama protokolü aracılığıyla konsensüse ulaştığı çok ajanlı bir komite çerçevesi öneriyoruz. Çerçeve, model çeşitliliği, kişi odaklı davranış değişkenliği ve görsel kullanıcı arabirimi anlama özelliklerini birleştirerek web uygulamalarını sistematik olarak keşfetmektedir.

Başarılı Sonuçlar

84 deneysel çalışmada 9 test kişisi ve 4 senaryo ile, çok ajanlı komiteler %89,5 genel görev başarı oranına ulaşmıştır. 2 ila 4 ajanlı yapılandırmalar, tek ajan tabanlı temel çözümlerden %13,7 ila %22,0 puan daha yüksek olan %91,7 ila %100 başarı oranına ulaşmıştır.

Hızlı ve Güvenilir Testler

Eylem düzeyinde, sistem %93,1 başarı oranına ve saniye başına 0,71 saniyelik ortalama gecikmeye ulaşarak, gerçek zamanlı ve sürekli entegrasyon testlerini mümkün kılmaktadır. Görsel yetenekli ajanlar, kullanıcı arabirimi öğelerini başarıyla tanımlamış, gezinme ve raporlama %100 başarı, form doldurma ise %99,2 başarı elde etmiştir.

Kapsamlı Testler

Çerçeve, WebShop ve OWASP benchmark'larında değerlendirilmiş, WebShop'ta %74,7 başarı oranına ulaşırken, GPT-3 temel çözümünün %50,1'ine kıyasla önemli bir iyileşme kaydetmiştir. OWASP Juice Shop güvenlik testlerinde ise %82,0 başarı oranına ulaşarak, OWASP Top 10 güvenlik açığı kategorilerinin 8'ini kapsamıştır.

Sonuç

Çok ajanlı komite yaklaşımı, yazılım testlerinde LLM'lerin kullanılmasını mümkün kılarak, sürekli entegrasyon ve teslimat (CI/CD) boru hatlarına pratik uygulanabilirlik sağlamaktadır. Açık kaynaklı uygulama, yeniden üretilebilir araştırma ve gerçek dünya uygulamaları için temel oluşturmaktadır.

Paylaş: