LLM evals and benchmark datasets
updated
Viewer
•
Updated
•
8.11k
•
8.6k
•
102
Viewer
•
Updated
•
164
•
108k
•
357
Viewer
•
Updated
•
541
•
39.8k
•
112
Viewer
•
Updated
•
7.79k
•
242k
•
234
Viewer
•
Updated
•
81.4k
•
149k
•
73
Viewer
•
Updated
•
12.1k
•
61.6k
•
398
Viewer
•
Updated
•
231k
•
310k
•
599
Viewer
•
Updated
•
1.63k
•
63.9k
•
268
Viewer
•
Updated
•
17.6k
•
441k
•
1.01k
Viewer
•
Updated
•
60k
•
191k
•
154
Updated
•
20k
•
61
HuggingFaceH4/mt_bench_prompts
Viewer
•
Updated
•
80
•
3.32k
•
21
Viewer
•
Updated
•
34.6k
•
1.79k
•
114
Viewer
•
Updated
•
95.4k
•
4.39k
•
92
Viewer
•
Updated
•
4.05k
•
989
•
12
Viewer
•
Updated
•
393k
•
12.8k
•
513