托福写作机器判分E-rater评分规则大揭秘！托福写作评分标准分析

E-rater（electronic essay rater），或者机器写作评分，已经在ETS施行了近十年。但是不少同学对于其评分机制依旧是雾里看花。TD的老师们在上课的过程中经常会收到同学们关于评分的疑问。

这些问题包括但不限于：“想要得5分可以犯多少语法错误？”；“到底要写几个body paragraph呢？”；“文章是写得越长越好吗？”。

为了解决同学们的困惑，TD托福组的老师们搜集了ETS官网关于e-rater的文献，并结合历年教学经验，撰写了这篇文章，希望能够帮到大家。（本文只针对托福写作考试中的独立部分。）

综述

托福考试中的文章由一个e-rater和一个human rater同时评分并取平均数。

机器判断文章的“好坏”的方式与人工不同。与大部分的机器学习一样，e-rater之所以能够给出评分，是因为它有一个强大的数据库。根据人为规定的具体标准，它会将考生文章与数据库中的文章进行对比并给出合理的分数。

“These characteristics of essay quality are used to derive aprediction of the score that a human rater would have provided for the sameresponse.”

E-rater给出的评分更像是一个预测。它会基于数据库，结合几个维度的测评去判断一个human rater会给出多少分。绝大多数情况下，机器给出的分数都是与人工评分匹配的，即两组分数相差不会太大。在少数不匹配的情况下，会有第二位human rater介入。

e-rater不是完美的，关于e-rater是否能够公正地体现出考生的表现，有很多研究，在此我们就不赘述了。我们需要做的是了解e-rater具体的评分细则并在此基础上减少不必要的失分。

细则

下图是完整的评分细则。

以及不同标准所占的比重：

从表格中我们可以看出：每个部分在评分中所占的比重，relative weight是不同的。我们会选取大家最关注的标准结合官方资料进行解读。

根据这些标准考察的不同文章维度，我们大致可以将它们分成三大类。

第一类：结构

Organization 占比为32%，Development 占比为29%。这两项加起来所占比重超过了60%。同学们作文分数也主要取决于在这两块的表现。

“For the organization feature, e-rater identifies the number ofelements present for each category of discourse in an essay. For thedevelopment feature, e-rater computes the average length for all the discourseelements (in words) in an essay.”

Development判断结构是否完整，结构包括introductory material (background),thesis, main ideas, supporting ideas, and conclusion。Organization则要计算上述每个部分的单词数。

潜规则

单纯body paragraph的个数不会影响到我们的得分。每个主体段有没有supportingideas才会。所以大家不必纠结到底写几个段落，而是要把更多的精力投放到段落的展开。考虑到考试的时间限制，2-3个主体段是比较合适的。

第二类：语法

Mechanics （10%）

Usage (8%)

Grammar (7%)

Style (3%)

这些分类又有小分类，以Mechanics为例，它的小分类包括：

spellingerrors

missingcommas

compoundword errors

unnecessarycommas

capitalizationof first word in a sentence

capitalizationof proper nouns

missingperiods

duplicates(accidentally repeating words in a row)

missingquestion marks

missinghyphens (including in number constructions)

missingapostrophes

fusedwords (missing space between words)

“These error types are summarized for each feature as proportions oferror rates relative to the essay length.”

潜规则

同一个大类下面的小分类所占的比重是相同的。并且e-rater会根据这些错误的总个数与文章长度的比例决定它们对分数的影响。

这就意味着：

1. 无心犯的错，比如两个单词之间缺少空格，和因为“无知”犯的错，比如把合成词分成两个单词，会接受相同的惩罚。而这两种错误哪一种更容易避免，答案很明显。

2. 如果追求文章长度而犯了更多的错误，会影响我们的分数。

第三类：词汇

Word length (7%)

Word frequency (7%)

“The first is computed through a word frequency index used to obtaina measure of vocabulary level. The second feature computes average word lengthacross all words in the essay and uses this as an index of sophistication ofword usage.”