AutoArena
Idéal Pour
Comparer les performances de divers LLM
Évaluer différents prompts en temps réel
Mettre en œuvre une évaluation continue dans les workflows d'intégration
Réaliser des évaluations de systèmes d'IA pour la recherche
Forces Clés
Code source ouvert et gratuit pour un usage personnel
Hautement personnalisable avec des modèles de juge sur mesure
Facilite l'évaluation collaborative
Fonctionnalités principales
Evaluations automatisées utilisant des juges LLM
Ajustement pour juges personnalisés
Génération de classements de score Elo
Support pour plusieurs modèles de juges
Collaboration cloud pour évaluations