评分标准
评测采用「中英翻译质量评测裁判(Translation Judge)」方案,基于五维加权评分,总分 100 分。
评分维度与权重
| 维度 | 权重 | 说明 |
|---|---|---|
| 准确性 Accuracy | 40 分 | 语义是否忠实原文,有无错译、反义、事实偏移 |
| 完整性 Completeness | 20 分 | 关键信息是否遗漏/增译,逻辑关系是否保留 |
| 术语一致性 Terminology | 20 分 | 术语是否专业、统一(计算机/科学/文学等领域) |
| 流畅与地道性 Fluency | 15 分 | 语法、搭配、可读性是否自然 |
| 文体与语气 Style | 5 分 | 是否符合原文语气(正式/口语/文学) |
扣分规则
| 问题类型 | 扣分范围 |
|---|---|
| 严重错译/反义 | 每处 -15 ~ -30 |
| 关键遗漏 | 每处 -10 ~ -20 |
| 无中生有(增译关键信息) | 每处 -8 ~ -15 |
| 术语误译 | 每处 -5 ~ -12 |
| 语法明显错误影响理解 | 每处 -3 ~ -8 |
| 轻微措辞不佳 | 每处 -1 ~ -3 |
质量等级
| 分数区间 | 等级 | 说明 |
|---|---|---|
| 90 – 100 | 高质量 | 几乎可直接使用 |
| 80 – 89 | 总体可靠 | 有少量可改进点 |
| 70 – 79 | 基本可懂 | 有明显问题 |
| 60 – 69 | 需人工修订 | 问题较多 |
| < 60 | 不合格 | 不可直接使用 |
评测任务
每个模型进行双向评测:
- Zh-En(中译英) — 基于
result_zh_en.csv - En-Zh(英译中) — 基于
result_en_zh.csv
最终输出综合裁决(Final Verdict),判定模型是否达到生产可用水准。