慶應SFC 2003年 総合政策学部 英語 大問1 全訳

 おそらく、皆さんは人生で多くのテストを受けてきたことであろう。テストに取り組む中で、いくつかの疑問が浮かんだことがあるかもしれない。私が受けているこのテストはどれほど良いのか?本当に機能するのか?これらの質問は時として、無意味な長時間の議論を引き起こすことがある。主観的な意見、勘、個人的な偏見が、特定のテストが達成できることに関して過大な主張を引き起こすか、あるいはその頑固な拒絶につながることがある。これらのような質問に確実に答える唯一の方法は、経験的な試行によるものである。テストの客観的評価は主に、指定された状況でのテストの信頼性と妥当性の決定を含む。

 テストの面では、信頼性は一貫性を意味する。テストの信頼性は、同じ人が同じまたは同等のテストで再テストされた場合に得られるスコアの一貫性を指す。例えば、ある子供が月曜日にIQ110を受け、金曜日に再テストしたときにIQ80を受けた場合、どちらのスコアにも信頼を置くことは明らかにできない。同様に、ある語彙テストで生徒が40単語を正解し、同じ難易度の別のテストで同じ生徒が20単語しか正解しなかった場合、どちらのテストも生徒の言語能力の信頼できる尺度として受け取ることはできない。これらの例のいずれかで、2つのスコアのうちの1つだけが誤りである可能性があるが、これはさらなる再テストによってのみ示される。個々の能力の適切な尺度かどうかを確立することは、追加情報がなければ不可能である。

 テストが一般的に使用される前に、その信頼性を徹底的に客観的にチェックする必要がある。テストの信頼性には、さまざまなタイプがあり、信頼性を測定する方法もある。信頼性は、時間の経過に関して、テストを構成する特定のアイテムや行動サンプルの選択、異なる試験官や採点者の役割、テスト状況の他の側面など、さまざまな参照でチェックすることができる。信頼性のタイプとそれを決定するために使用された方法を指定することが不可欠である。なぜなら、同じテストでもこれらの異なる側面で変動する可能性があるからである。信頼性がチェックされた個人の数と性質も同様に考慮されるべきである。このような情報を持っていれば、テストユーザーは任意のグループに対してテストがどれほど信頼できるかを予測することができるはずである。

 あらゆるテストについて尋ねるべき最も重要な質問は、その妥当性に関するものである。妥当性とは、テストが実際に意図しているものをどの程度測定しているかを示す度合いである。妥当性は、テストがその機能をどれほどよく果たしているかに直接的なチェックを提供する。妥当性の決定は通常、テストが設計されたものを測定するための独立した外部基準が必要である。例えば、医学適性テストが医学校の有望な応募者を選択するために使用される場合、医学校での最終的な成功が基準となる。このようなテストの妥当性を決定するプロセスは、医学校への入学時に大勢の学生にテストを実施することから始まる。後に、成績、教官による評価、医学訓練の成功または失敗などの基準に基づいて、各学生の医学校でのパフォーマンスのいくつかの尺度が得られる。このような総合的な尺度は、各学生の初期テストスコアと相関させる基準を構成する。この相関の尺度は、妥当性係数と呼ばれる。初期テストスコアと各学生のパフォーマンスの尺度との間の高い相関は、テストで高得点を得た個人が医学校で比較的成功していたことを示す。これは高い妥当性係数を示す。低い相関は、テストスコアと基準尺度との間のわずかな対応を示し、テストの妥当性係数が悪いことを示す。妥当性係数によって、研究者は任意の個人の基準パフォーマンスをその個人のテストスコアからどれほど密接に予測できるかを決定することができる。

 同様の方法で、他の目的で設計されたテストは、適切な基準に対して妥当性を検証することができる。例えば、職業適性テストは、新入社員の試用期間中の職場での成功に対して検証することができる。パイロット適性テストは、飛行訓練での成果に対して検証することができる。より広範かつ多様な用途で設計されたテストは、多数の基準に対して妥当性が検証され、その妥当性は多くの異なる種類の調査から徐々に蓄積されたデータによってのみ確立されることができる。

 テストの妥当性の概念には、対処すべき明らかなパラドックスがある。テストの対象者をフォローアップする必要がある場合、または他の方法でテストが予測しようとしているものの独立した尺度を得ようとする場合、なぜテストを廃止しないのか?その答えは、検証コントロールグループと、テストが最終的に運用目的で使用されるグループとの区別にある。特定のテストが一般的に使用される準備ができる前に、その妥当性は代表的な被験者のサンプルで確立されなければならない。これらの人々のスコアは運用目的には使用されず、テストのテストのプロセスでのみ役立つ。テストがコントロールグループで有効であることが証明されれば、他の基準尺度に戻ることなく、他のグループで使用することができる。

 テスト自体が不要であると主張されるかもしれない。時間が経つにつれて、基準尺度がテストが予測しようとしている同じ情報を示すだろうと。しかし、そのような手順はほとんどの場合、時間とエネルギーの無駄であるため、禁止的である。例えば、仕事に応募したすべての人が雇用されたり、学校に通うことを希望するすべての学生が受け入れられたりした場合の結果を想像してみてください。その後、時間が経つにつれて、どの個人が仕事をうまくこなすか、または学校を満足に終えるかが決定されるまで、最終的な決定が下される。この手順の非常に無駄であり、個人に対する感情的な影響がテストが最小限に抑えるように設計されている。テストによって、個人の現在の必要なスキル、知識、およびその他の関連する特性を、決定可能な誤差の範囲で評価することができる。テストがより信頼性が高く有効であればあるほど、この誤差の範囲は小さくなる。

AO入試・小論文に関するご相談・10日間無料添削はこちらから

「AO入試、どうしたらいいか分からない……」「小論文、添削してくれる人がいない……」という方は、こちらからご相談ください。
(毎日学習会の代表林が相談対応させていただきます!)

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です