復習:成績の作成

私は議論を巻き起こしたくありませんでした。おそらく、標準化されたテストが資金調達ツールとして利用されず、学生の学習目的で使用されなければ（他の全員への罰ではなく）、役に立つでしょう。しかし、 成績づけ：標準テスト業界での私の冒険 トッド・ファーリー標準化された評価の誤りに対する疑問を解消しました。このようなテストは じゃない ツール—教育者にとっては文字通りまったく価値がありません。ファーリーは、その理由について、啓発的で、しばしばユーモラスな説明をしています。

成績を作る は、テスト業界におけるファーリーの10年以上の道のりです。単純な得点者からスタートした彼は、数々の階級を経てテストコンサルタントとして君臨しました。彼の目の前には嘆かわしい出来事がたくさんありましたが（彼自身もそれはすべてお金のためだったと認めています）。エピローグで述べているように、ファーリーは次のように説明しています。

「... 私はこの2年の大半をまさにこの本を書いてきました。約75,000語は、この国の生徒、教師、学校に関する決定をこの業界に委ねる人が誰もいない多くの理由を説明していると思います。私が見てきたものを見た人が、どうして他の結論に達するのか分かりません。」

そして彼は見た たくさん。 最初に、ファーリーは4年生の標準化されたテストプロンプトの評価を任されました。学生たちは、自転車の安全性を示す公共サービス告知ポスターの制作を求められました。理論的には、そしてトレーニング中も、これは非常に単純なものでした。両手がハンドルバーに触れたり、一時停止の標識で止まったりするなど、自転車の安全に関する要素があれば学生にポイントを与え、そうでなければポイントはもらえません。

もちろん、現実の世界はそれほど単純ではありません。何千人もの子供たちにこのプロンプトを提供すると、さまざまな回答が得られます。道路で自転車が衝突したのは、自転車の安全の兆候なのか、警告なのか、ということです。ヘルメットをかぶっているのに車の前に出ている人はどうでしょうか？ある状況で、ファーリーは管理者に呼ばれ、一時停止の標識で、ピックアップトラックに積み込まれた自転車が描かれた紙に「0」のスコアを説明するよう求められました。管理者はこれを説明しました。 だった ルーブリックには「一時停止の標識で止まった」と書いてあったので、自転車の安全です。

これらすべてにもかかわらず、ファーリーは自分のしていることを信じたかったのです。

「この時点で、テスト項目の採点について疑問に思っていたかもしれませんが、教育の専門家の仮想軍団が存在するという考えから揺らぐことはありませんでした。確かに白い白衣を着て、眼鏡をかけ、クリップボードを持っていて、おそらくアイビーリーグの学習の要塞で、すべてを完全に理解できます。」

実際、これは氷山の一角にすぎません。

テストセンターには 信頼性数値 — テストの得点者には、同級生と同じ回答が与えられます。スコアは少なくとも 70 ～ 80% の確率で一致していなければなりません。一致しない場合は落選となります。テストの得点者が常にずれていたり、プロンプトが単純に難しすぎて評価できない場合はどうなるでしょうか？まあ、スコアは操作されているのです！Farley は、マネージャーが A) 同僚の番号を別の人 (より信頼できる人) に変更する方法、または B) プロンプトを自分で評価して数字を上書きする方法を、多くの点で説明しています。

彼は自分が見ているものにますますうんざりしている。彼は友人にこう説明する。「『ナイーブに聞こえるつもりはないけど、僕らは世間知らずの仕事をしていると思っていた。 教育。」 彼の友人はこう答えます。「... 私たちは ビジネス 教育について。」

最初の配属後、彼はエージェンシーに戻りますが、最低要件の70％の入学試験（すでに評価された論文を採点する場合）を満たせません。その後まもなく、政府機関は関係なく（60％）彼を受け入れ、数週間後、テストについて何も言及しなかったさらに多くの従業員が現れました。実際のところ、これは素晴らしい仕事ではありません。給料は1時間あたり8ドルで、経験も必要ありませんでした。潜在的な従業員を監視するシステムが整っているにもかかわらず（ファーリーは最初は合格しなかったため「試用期間」にかけられましたが、上司はそれが何であるかを知りませんでした）、試験機関は誰にでも人数を増やすよう強く求めていました。

Image for post — これは本のルーブリックではありませんが、このように評価していない学校を見つけるのは難しいでしょう。

ファーリーが仕事を引き受け続けるにつれて、特に高学年では、ルーブリックはますます複雑になりました。これらのルーブリックは、合格/不合格ではなく、6つのレベル（優れている、良い、適切、一貫性がない、弱い、受け入れられない）と6つのカテゴリー（文法、文の構造など）でした。主観的に採点するのがいかに馬鹿げているかを嘆く教師は多いと思います。 自分のクラス このように、何千ものエッセイは言うまでもありません。ご想像のとおり、多くの議論が続きました。

...」「私は彼と一緒です。5のはずだ」と彼女は言った。「このエッセイの語彙を見てください。 機敏さ、洞察力、大胆さ。 それらはいい言葉の選択肢です。「優れた」単語ではないにしても、少なくとも「良い」単語の選択肢は必要です。'」'

「はい」とマリア（テストマネージャー）は言いました。「それはまともな言葉の選択です。誰かがSATの準備をしています。しかし、アンカーペーパー #5 には素晴らしい語彙もあります。 それにもかかわらず、簡潔に、事前に。'

‍「事前に？」 女は呪いのように言葉を吐きながら尋ねた。''事前に 「言葉の選択は良いか？」

「かなりいい」とマリアは言った。

...「何か方法はありますか... 異なる語彙を互いに比較できるか判断できますか？単語のペアやトリオを比較できるような参考書はありますか？そうすれば、単語が4語か5語かがわかります。」

意見の相違は、本全体を通して常に言及されています。採点者は教授から冷蔵庫の整備士まで多岐にわたり、どんなに専門家であっても、決して「正しく」評価することはできない。テスト管理者はほとんどそうでした。 真実省-レベル、間違って評価したら怒るだろうとスコアラーに納得させ、彼らが提供した答えは明らかに正しかった。ある時、管理者は論文が「3」である理由について全面的な議論を交わし、その理解がいかに簡単かを指摘しましたが、再確認して実は「4」であることに気づきました。

また、従業員のトレーニングが不十分で、その職務に「理由」がまったくないため、操作は当たり前のことでした。なぜなら、得点者には同僚と同じ答えが割り当てられていたからです (自分の答えをチェックするために)。 信頼性評価）、前の評価者のスコアが記入された論文が届けられることがありました。一般的な方法は、これらのスコアを順番に記憶し、新しいスタックですべてを書き留めることでした。これにより、単調さから健全に抜け出すことができます。

学生は過激で容赦のない、混乱を招くようなプロセスに置かれ、成功する機会は得られません。ましてや、理にかなっていることは言うまでもありません。1つのルーブリックには、トピックがどれほど上手に書かれていても、5段落のエッセイが必要でした。私はこれらを信じています アンカーペーパー （得点者が参照できるように）自分で話してください。

しかし、それだけでは終わりません！ある例では、ヘッド・テスト・コーディネーターが施設を訪問したところ、割り当てられている「2」の数が多すぎることに気付きました。試験施設では、次の点に注意する必要があります。 トレンドデータ —時間が経つにつれて同じ答えが出るので、それらのスコアが大幅に変化することはないはずです（したがって、標準化）。なぜなら トレンドデータ オフだったので、彼女は全従業員に「2」の代わりに「3」を付けるように言っただけです。つまり、それまでのスコアはすべて間違っていた（そして修正されることもなかった）ということです。

ファーリーは最終的にランクを上げて レンジファインダー — ルーブリックスコアを決定する担当者レンジファインダーは教師のグループと会ってこれを実現させようとしますが、それ以外のことでは意味がありません。たとえば、テストで出題された質問の1つに、「好きな食べ物は何ですか？どんな味 (苦い、甘い、など) がありますか？これは舌のどの部分に影響しますか？(図が提供されています)。少人数の教師とファーリーにとって、これは当たり前のように思えました。とはいえ、何千人もの生徒が「ピザは甘い」などと答えました。これは間違っていますか？パイナップルピザはどう？主観的な結果が出るケースが次から次へと進み、最終決定は単に学生に贈ることでした。 任意の 記述子を記述したことに対する功績（繰り返しますが、すべてを考慮に入れていません先に結果は異なって評価されました。）

業界内では、ファーリーは最終的にテストマネージャーになります。彼は、自分が信頼していた人に、スコアを頻繁に変更していたことを説明してくれました。彼のもとでは、従業員は英語学習者、シニアスコアラー（彼らは 決して修正しないでください、 しかしあまりに長く在籍していたので、前のマネージャーは自分のスコアをまったく使わなかった）、率直に言って、英語のテストで子供を評価すべきではない人たちもいました。簡単に言うと、平均的な仕事と同じように、1時間あたり8ドルの仕事です。 マクドナルド 従業員、通常、無意識にエッセイを見ても、それほど心配したり、努力したり、勤勉になったりすることはありません。

特に、あった一ファーリーがテストシステムがうまくいくと信じていた状況。チームのスコアがまったく一致しないことに気付いた後、彼は別の管理者に相談したところ、90% が一致していました。しかし、これはそうだと彼に言われました。 正確すぎる — ザ・ サイコメトリクス （これもまた、何かのように聞こえます 1984）は、スコアが70〜80％である必要があることを示しました。そこで、採点の精度を低下させる別の評価者を招きました。

これらは本から抜粋した例にすぎず、標準化されたテストがまったく意味をなさない理由を膨大なシナリオで説明しています。の主観性は言うまでもありません 標準そのものまたは、テストに存在する可能性のある、または私たちが測定する文化的偏見 教師の給与と学校の効果 この方法—標準化されたテストは簡単です 動作しない 標準化されているからです。

人は人です。彼らは答えをきちんとした回答に一致させません。また、私たちもそうしてほしくありません。イノベーションが本質的に不可能なシステムをなぜ作るのでしょう？なぜ私たちはそうするのでしょうか？ 欲しいです 現代の学生はみんな同じことを知ってるの?なぜ、一年中、一日で自分の「知識」を披露してほしいのでしょうか。そして、最も重要なのは、このエビデンスに基づくことですが、私たちはなぜそう考えるのでしょう？ 任意の この情報のうち少しでも関連性があるのか？

さらに、この本はその理由を明らかにするはずです。 グレーディング 意味がない。採点は本質的に主観的です。はい。1人の教師が偏見なく採点できるかもしれません（現在の気分、疲れ、特定の生徒が好きで、特定のトピックや興味に惹かれ、特定の文体や政治的傾向などを好むにもかかわらず）。しかし、実際にはどのようなことが行われているのでしょうか。 意味する 学生用?彼らが通ったってこと きみの フープ?彼らが別のクラスに行き、同じ論文を提出（またはもっと良いのは、後で同じ論文をあなたに提出して）、別の成績を受け取った場合はどうなりますか？彼らは多かれ少なかれ賢いのでしょうか？彼らは多かれ少なかれ知っていますか？それらを使うなら、それらの逆説的なルーブリックを見てみる価値があります。

私はどんな教育者にも勧めます—しかし特に標準化されたテストに重点を置いている管理者と地区は、この本を読んでください。誰かがこれらの記述を読んで却下し、学生に対してこれを続けてくれるとしたら、私はショックを受けるでしょう。はい、政府やテスト文化全体に立ち向かうのは容易ではありませんが、論理的に理にかなったことをしなければなりません。テストで一週間も無駄にしたというわけではありません。テストはそれを支える教育システム全体を作り上げたのです。 一年中。 生徒が自分で学び、創造性を発揮し、世界の問題に対する真の解決策を見つけるよう促す常識的な決定が必要です。