For Student Essayists, an Automated Grader
エッセーをインプットすると、アーラ不思議、自動的に採点結果が出るというCriterionというソフトウェアの話。e-raterというエンジンで動く。
According to the Educational Testing Service, 104,000 students and 2,700 teachers are using Criterion in 535 schools, primarily in the United States; four-fifths are middle or high school students, and the remainder are at colleges or universities.
既に広く使われている。
To develop a model, e-rater must be trained on 450 to 500 essay responses scored by two professional readers based on a rigorous scoring guide.
まず、450-500件のエッセーをプロの読み手に読ませてスコアをつけさせる。で、それを機械に読み込ませると、ふむふむとその特徴を学んで、それをまねして他のエッセーも採点できるという仕組み。
“If the human scoring is inaccurate, e-rater will make an inaccurate judgment on the writer,” said Marisa Farnum, the writing assessment specialist and product manager for Criterion at the testing service. “It’s only as good as the human scoring it learns from.”
元の人間の読み手がイマイチだと、それに基づいて作ったロジックもイマイチになるという当たり前のことが起こる。
For example, it tends to reward very long essays, an inherited bias from human graders who tend to look favorably on longer rather than shorter responses.
例えば、長いエッセーは中身のいかんに関わらずいい点になる傾向が強いと。しかし、それは人間の読み手には通常そういうバイアスがあるらしい。なんとなくわかる気がする。
For example, a high score almost always contains topically relevant vocabulary, a variety of sentence structures, and the use of cue terms like “in summary,” for example, and “because” to organize an argument. By analyzing 50 of these features in a sampling of essays on a particular topic that were scored by human beings, the system can accurately predict how the same human readers would grade additional essays on the same topic.
具体的には、「高い得点のエッセーに頻出する単語」など50のポイントでスコアしているんだそうだ。in summaryとかbecauseとか書くといい点になるのだ。
*****
ひどいじゃないか、と思うかもしれないが、試験なんてこんなものだ。ほとんどの試験は、パズルかゲームだと思って攻略法を考えることで結構いい点がとれてしまう。例えば、幾何の問題で角度の問題が出たら、相当の確率で答えは30度だった。(でなければ60度)。それ以外の答えが出る問題を作るのが難しいということもあるだろうが、わからなかったらとにかく30と書いておけば間違いない。
GMATというビジネススクール受験用共通テストの、グラマーのテストなんかは究極のゲームであった。3択か4択で、似たような表現の文章からグラマーが間違っている文章を選ぶ、というものなのだが、「頻出する間違い」というのが10個ぐらいあってそれを覚えておけば7割がたできてしまう。例えば「being」が文章に出てきたら、まず間違い、とか。(becauseを使って書き換えてある文の方が好ましいらしい)「between A to B」というのもあった。(もちろん正解はbetween A and B)。困ったことに時々一つの選択肢のセットの中に間違いが二つあることもある。ところがよーく過去問を見てみると、「間違いの強弱関係」というものがあることがわかる。その強弱関係は固定的な順列になっているので、「間違いの順位表」を覚えておけば、それでOK。(beingがbetweenより強い、とか)「間違っているものは間違っているのだから、それに強いも弱いもない」と憤慨したりせず、「ふむふむ、こういうルールのゲームなのだな」と思って攻略する。それだけだ。
しかし、このプロセスは「どこにも正解がない問題をどうやって解くか」という実際の社会での問題には全く役に立たないことは明らか。役に立たないからこそ、ついつい一生懸命やってしまう、というオタク的側面もあるのだが・・・・。