测试问题总数
1,247
↑ 12% 较上月
平均准确率
87.3%
↑ 5.2% 较上月
平均响应时间
2.4s
↓ 0.3s 较上月
测试集数量
8
↑ 2 新增
模型性能对比
Gemini 3 Flash
Preview-2026-01
92.0%
1.8s
平均耗时
98%
语法正确
Claude 4 Sonnet
2026-01
88.5%
2.1s
平均耗时
96%
语法正确
GPT-4o
2026-01
85.1%
2.6s
平均耗时
94%
语法正确
测试集执行记录
测试集名称 问题数量 执行模型 准确率 平均得分 执行时间 状态 操作
混合类型问题测试 156 Gemini 3 Flash
85.7%
0.92 2026-01-15 14:30 ● 完成
功能测试集 89 Claude 4 Sonnet
72.3%
0.78 2026-01-14 09:15 ● 完成
资管问题集 234 Gemini 3 Flash
91.2%
0.95 2026-01-13 16:45 ● 完成
复杂关联查询 67 GPT-4o
45.6%
0.52 2026-01-12 11:20 ● 部分失败
单表简单查询 45 Gemini 3 Flash
97.8%
0.98 2026-01-11 08:00 ● 完成