评分标准

评测采用「中英翻译质量评测裁判（Translation Judge）」方案，基于五维加权评分，总分 100 分。

评分维度与权重

维度	权重	说明
准确性 Accuracy	40 分	语义是否忠实原文，有无错译、反义、事实偏移
完整性 Completeness	20 分	关键信息是否遗漏/增译，逻辑关系是否保留
术语一致性 Terminology	20 分	术语是否专业、统一（计算机/科学/文学等领域）
流畅与地道性 Fluency	15 分	语法、搭配、可读性是否自然
文体与语气 Style	5 分	是否符合原文语气（正式/口语/文学）

扣分规则

问题类型	扣分范围
严重错译/反义	每处 -15 ~ -30
关键遗漏	每处 -10 ~ -20
无中生有（增译关键信息）	每处 -8 ~ -15
术语误译	每处 -5 ~ -12
语法明显错误影响理解	每处 -3 ~ -8
轻微措辞不佳	每处 -1 ~ -3

质量等级

分数区间	等级	说明
90 – 100	高质量	几乎可直接使用
80 – 89	总体可靠	有少量可改进点
70 – 79	基本可懂	有明显问题
60 – 69	需人工修订	问题较多
< 60	不合格	不可直接使用

评测任务

每个模型进行双向评测：

Zh-En（中译英） — 基于 result_zh_en.csv
En-Zh（英译中） — 基于 result_en_zh.csv

最终输出综合裁决（Final Verdict），判定模型是否达到生产可用水准。