Skip to content

评分标准

评测采用「中英翻译质量评测裁判(Translation Judge)」方案,基于五维加权评分,总分 100 分。

评分维度与权重

维度权重说明
准确性 Accuracy40 分语义是否忠实原文,有无错译、反义、事实偏移
完整性 Completeness20 分关键信息是否遗漏/增译,逻辑关系是否保留
术语一致性 Terminology20 分术语是否专业、统一(计算机/科学/文学等领域)
流畅与地道性 Fluency15 分语法、搭配、可读性是否自然
文体与语气 Style5 分是否符合原文语气(正式/口语/文学)

扣分规则

问题类型扣分范围
严重错译/反义每处 -15 ~ -30
关键遗漏每处 -10 ~ -20
无中生有(增译关键信息)每处 -8 ~ -15
术语误译每处 -5 ~ -12
语法明显错误影响理解每处 -3 ~ -8
轻微措辞不佳每处 -1 ~ -3

质量等级

分数区间等级说明
90 – 100高质量几乎可直接使用
80 – 89总体可靠有少量可改进点
70 – 79基本可懂有明显问题
60 – 69需人工修订问题较多
< 60不合格不可直接使用

评测任务

每个模型进行双向评测:

  1. Zh-En(中译英) — 基于 result_zh_en.csv
  2. En-Zh(英译中) — 基于 result_en_zh.csv

最终输出综合裁决(Final Verdict),判定模型是否达到生产可用水准。

MIT Licensed