问数系统 - 效果评估

测试问题总数

1,247

↑ 12% 较上月

平均准确率

87.3%

↑ 5.2% 较上月

平均响应时间

2.4s

↓ 0.3s 较上月

测试集数量

8

↑ 2 新增

模型性能对比

Gemini 3 Flash

Preview-2026-01

92.0%

1.8s

平均耗时

98%

语法正确

Claude 4 Sonnet

2026-01

88.5%

2.1s

平均耗时

96%

语法正确

GPT-4o

2026-01

85.1%

2.6s

平均耗时

94%

语法正确

测试集执行记录

测试集名称	问题数量	执行模型	准确率	平均得分	执行时间	状态	操作
混合类型问题测试	156	Gemini 3 Flash	85.7%	0.92	2026-01-15 14:30	● 完成
功能测试集	89	Claude 4 Sonnet	72.3%	0.78	2026-01-14 09:15	● 完成
资管问题集	234	Gemini 3 Flash	91.2%	0.95	2026-01-13 16:45	● 完成
复杂关联查询	67	GPT-4o	45.6%	0.52	2026-01-12 11:20	● 部分失败
单表简单查询	45	Gemini 3 Flash	97.8%	0.98	2026-01-11 08:00	● 完成