글로벌 세계 대백과사전/교육/교육의 이론과 실제/교육의 측정과 평가
敎育-測定-評價〔序說〕 교육측정 및 평가란 인간행동에 관한 증거를 수집하는 과정을 지칭한다. 인간행동은 대개 지능·성적·사고력·지식 등을 포함하는 지적 영역, 흥미·태도·자아개념·가치관·정서·사회성 등의 특징으로 대표되는 정의적 영역, 신체운동·기능·민첩성·강인력 등으로 대표되는 심리운동적(心理運動的) 영역의 세 가지로 나눌 수 있다. 따라서 교육평가 및 측정이란 이 같은 세 가지 영역에 속하는 인간행동에 관해 보다 정확하고 신뢰롭게 증거를 수집하는 과정으로 지칭할 수 있다. 이중 교육측정이라 하는 것은 보다 정확하고 신뢰롭게 재는 과정을 강조하는 반면, 교육평가는 교육적 노력에 의해 이 같은 행동이 변화한 것을 강조하는 데에 차이가 있다. 이와 같은 인간행동을 측정하기 위해서는 거기에 필요한 측정도구·평가도구를 제작해야 한다. 이때 제작되어 나오는 도구, 즉 검사(test)는 타당성이 있고, 신뢰성이 있으며, 객관성이 있을 것을 요구한다. 타당성(validity)이란 한 검사도구가 측정 혹은 평가하려고 하는 내용을 제대로 재고 있느냐의 정도에 의해 결정된다. 즉 어떤 준거(準據)에 비추어 보아 그 검사가 타당한지 어떤지에 의해 그것이 좋은 검사냐 좋지 못한 검사이냐가 결정된다. 이 같은 타당도를 판단하는 방법에는 교육목표라는 준거에 비추어 따져보는 내용타당도, 미래의 예언을 얼마나 잘 하느냐의 준거에 비추어 따져보는 예언타당도, 다른 변인(變因)과 어느 정도 공통된 요인을 측정하고 있느냐의 준거에 비추어 보는 공인타당도(共因妥當度), 측정하는 변인의 개념이 얼마나 이론으로서의 가치가 있느냐에 따라 따져보는 구인타당도(構因妥當度) 등이 있다. 신뢰도는 한 검사가 얼마나 오차(誤差) 없이 측정하고 있느냐, 즉 한 검사가 얼마나 진짜 변량(變量)을 측정하고 있느냐의 정도를 말한다. 이런 신뢰도를 검증하는 방법에는 한 검사를 두 번 실시해서 그 전후간 일치도를 보는 재검사 신뢰도, 한 검사를 반으로 분할해서 그 사이의 일치도를 보는 반분검사(半分檢査) 신뢰도, 동형검사(同型檢査)를 제작해서 두 개의 동형검사 사이의 일치도(一致度)를 보는 동형검사 신뢰도, 검사 속의 문항 사이에 어느 정도의 일치도가 있느냐를 보는 문항내적(問項內的) 합치도(合致度)가 있다. 객관도란 채점자(採點者)의 신뢰도로 정의된다. 즉 한 개인의 반응에 대해 여러 사람이 채점했을 때, 그 사이에 어느 정도 일치하느냐의 정도와, 한 채점자가 여러 개의 반응을 두 번 채점했을 때 어느 정도 일치하느냐 정도의 두 가지 개념이 있다. 한 개의 측정도구·평가도구는 이 세 가지 특징이 모두 만족될 때 좋은 검사도구라고 판단할 수 있다. 교육측정 및 평가의 영역은 학교학습에 의하여 어느 정도 성적이 증가되었느냐를 평가하는 성적평가, 한 개인이 지닌 지적 능력을 측정하는 지능측정, 지적 능력을 보다 더 세분해서 특수한 능력을 측정하는 적성측정, 성격적 측면을 측정하는 성격측정, 한 개인의 심리운동적 능력을 측정하는 체능측정 및 이 같은 여러 가지 인간행동에 영향을 미치리라고 생각되는 환경측정으로 나누어진다. 이 같은 영역의 행동을 측정·평가하기 위해 사용되는 방법으로는 주로 필답검사(筆答檢査), 즉 종이 위에 피험자(被驗者)의 반응을 얻어 그것을 기초로 평가하는 방법이 가장 많이 사용되는 편이다. 그러나 이 외에도 평정법(評定法)·질문지법·관찰법 등도 많이 사용되는 방법들이며, 보다 고도의 전문적 지식과 기술을 요구하는 것으로 투사적 방법(鬪士的方法,projective tech-nique), 장면검사법(場面檢査法,situational test), 사례연구법(事例硏究法,case study)등도 사용된다. 필답검사 중 가장 많이 사용되는 방법이 표준화 검사(標準化檢査,standardized test)이다. 지능검사·적성검사·성격검사·학력검사 등은 대개 표준화검사이다. 표준화검사는 모집단(母集團)을 대표할 수 있으리라고 생각되는 표본(標本)에 그 검사를 실시해서 규준(norm), 즉 일종의 자를 만들어 놓고, 다음에 각 개인이 이 검사에서 반응한 결과를 이 규준에 비추어 해석하도록 되어 있는 검사이다. 그렇기 때문에 표준화라는 명칭이 사용된다. 이 같은 표준화검사를 사용할 때 주의해야 할 점은 첫째, 검사에서 나온 점수를 지나치게 절대시하고 그에 의해 해석하지 말아야 한다는 점이다. 나온 점수라는 것은 여러 가지 조건에 의해 영향을 받아 변동될 가능성이 크기 때문에 점수 자체는 조건의 변화에 따라 얼마든지 변할 수 있는 가능성을 고려해야 한다. 둘째, 검사의 선택을 신중히 해야 한다. 즉 표준화 검사는 어느 모집단을 상정하고, 그 기초 위에서 제작되었기 때문에, 실시하려는 피험자가 이 같은 모집단의 성질에 적절히 부합되는지 어떤지를 판단해서 그에 맞는 검사를 선택할 필요가 있다. 그렇지 않을 때 얻은 점수는 예상 외로 높거나 낮을 수 있다. 셋째, 검사에 관련된 여러 가지 특징, 예컨대 타당도가 있는가, 신뢰도가 높은가를 미리 검증한 다음에 좋은 검사라고 판단되었을 때 사용해야 한다. 검사라는 것도 일종의 자<尺>인 이상, 자의 성질이 좋지 않은 검사는 사용하지 말아야 한다.<黃 禎 奎>