效果评估
问数系统 SQL 生成效果评估与模型对比
测试问题总数
1,247
↑ 12% 较上月
平均准确率
87.3%
↑ 5.2% 较上月
平均响应时间
2.4s
↓ 0.3s 较上月
测试集数量
8
↑ 2 新增
模型性能对比
Gemini 3 Flash
Preview-2026-01
92.0%
1.8s
平均耗时
98%
语法正确
Claude 4 Sonnet
2026-01
88.5%
2.1s
平均耗时
96%
语法正确
GPT-4o
2026-01
85.1%
2.6s
平均耗时
94%
语法正确
测试集执行记录
| 测试集名称 | 问题数量 | 执行模型 | 准确率 | 平均得分 | 执行时间 | 状态 | 操作 |
|---|---|---|---|---|---|---|---|
| 混合类型问题测试 | 156 | Gemini 3 Flash |
85.7%
|
0.92 | 2026-01-15 14:30 | ● 完成 |
|
| 功能测试集 | 89 | Claude 4 Sonnet |
72.3%
|
0.78 | 2026-01-14 09:15 | ● 完成 |
|
| 资管问题集 | 234 | Gemini 3 Flash |
91.2%
|
0.95 | 2026-01-13 16:45 | ● 完成 |
|
| 复杂关联查询 | 67 | GPT-4o |
45.6%
|
0.52 | 2026-01-12 11:20 | ● 部分失败 |
|
| 单表简单查询 | 45 | Gemini 3 Flash |
97.8%
|
0.98 | 2026-01-11 08:00 | ● 完成 |
|