글로벌 세계 대백과사전/교육/교육의 이론과 실제/교육의 측정과 평가/교육측정과 평가의 기술

글로벌 세계 대백과사전

좋은 평가도구의 기준

－評價道具－基準

측정도구란 검사지·검사표 등 실제 측정에 쓰이는 도구를 말한다. 교육평가의 도구에는 분야에 따라 학력검사·성격검사, 제작과정에 따라 교사제작검사·표준화검사 등 여러 가지가 있지만 무턱대고 검사문항을 만들기만 하면 되는 것은 아니다. 그것이 어떠한 측정방법이든 좋은 측정도구가 되려면 측정이론에서 요구하는 기준(criteria of good instruments)에 일치해야 한다. 이런 기준에는 타당도(validity)·신뢰도(reliability)·객관도(objectivity)·실용도(usability) 등이 포함된다.

타당도

妥當度

타당도란 평가의 도구가 무엇을 재고 있느냐의 문제인 동시에 그 평가의 도구가 어느 특정한 개인이나 집단에 대해서 평가해 내려는 목표를 얼마나 정확하게 재어 내느냐의 문제이다. 바꾸어 말하자면, 당초에 평가해 내려는 목표와 실제평가의 결과 사이의

관련성이 얼마나 높으냐 하는 문제이다. 타당도를 검증하는 방법에는 ① 내용적 타당도(content validity), ② 예언적 타당도(predictive validity), ③ 공인적 타당도(concurrent validity), ④ 요인적 타당도(factorial validity)의 4가지가 있다.

내용적 타당도

內容的妥當度

논리적타당도(logical validity), 정의에 의한 타당도(validity by definition) 등으로 불리어지는 내용적 타당도란 평가하려는 내용을 분석 정의함으로써 평가도구의 내용이 주어진 준거(準據)에 어느 정도 일치하는지를 따져보는 방법이다. 예컨대 교사가 제작하는 검사의 내용적 준거는 교육목적이 되겠고, 지능검사의 준거는 지능의 정의가 된다. 이때 정의는 반드시 분석적이고 포괄적이어야 한다. 그 정의된 바가 실제 문항의 표준과 작성에 구체적인 지침이 되고, 문항의 논리적·심리적 타당성을 판단하는 데 기준이 될 정도로 상세히 정의되어야 한다. 이 내용적 타당도에서 정의를 내리는 방법으로 조작주의적 정의(操作主義的定義,operational definition)를 주로 사용하고 있다. 이것은 종래의 순환논리(循環論理)에 빠지기 쉬운 정의에서 탈피하여 과학적 정의방법을 도입한 것으로, 예컨대 '지능'이란 '한 개인의 전체환경에 대한 적응' '학습하는 능력' '추상적 사고능력' 등으로 정의하지 않고 "지능검사로 측정해서 나온 수치"를 지능이라고 정의하는 것이 바로 조작주의의 특색이다.

예언적 타당도

豫言的妥當度

예언적 타당도란 그 검사가 측정해 내려는 피험자의 장래의 행동을 어느 정도로 정확하게 예언하느냐에 따라 결정된다. 예언적 타당도가 내용적 타당도와 다른 점은, 내용적 타당도는 논리적 근거를 내부에 두고 있으며(inside criterion), 예언적 타당도는 외부준거(outside criterion)를 문제삼고 있다. 예컨대, 입학성적과 학교생활의 성취도간에 나타나는 상관(相關)은 예언적 타당도가 하게 된다. 즉, 검사 X와 준거 Y와의 상관계수로 표시되는 것이 예언적 타당도다. 이때 문제는 측정도구가 자연과학에서처럼 완전치 못하기 때문에 오차(誤差)의 부분이 따르게 되는데 이를 '예언의 오차'라 한다. 예를 들어 입학성적이 좋은 학생이 그 후 학교성적이 나빠졌다면 그 검사는 예언적 타당도가 낮다고 말할 수 있으며, 예언의 오차가 커서 바람직한 검사가 되지 못한다.

공인적 타당도

共因的妥當度

공인적 타당도란 행동의 준거를 현재에 둔 일종의 예언적 타당도라 할 수 있다. 즉, 예언적 타당도에서는 준거가 반드시 예언에 관계되어 장래에 두고 있지만, 공인적 타당도의 경우에는 외적 준거와 검사 사이의 상관을 내게 된다. 즉, 평가도구에 의해서 밝혀진 피험자(被驗者)의 행동특성이 평가도구 밖의 행동준거와 현재 어느 정도 일치하느냐를 따져 보는 일이다. 가령 흥미검사에서 미술에 많은 흥미를 나타낸 학생이 실제 그림을 그리는 데 얼마나 적극적으로 활동하며 잘 그리느냐를, 비교 상관을 내는 경우와, 지능검사와 인성검사와의 상관을 내어 이들 사이의 변량(變量)의 합치도를 알아보는 경우가 있다.

요인적 타당도

要因的妥當度

요인적 타당도란 두 검사 사이에 공동으로 존재하는 어떤 요소(factor)가 작용해서 나타난 결과라고 할 수 있다. 예컨대, A·B 두 검사의 상관계수가 ＋1.00이라면 둘은 이름은 다르지만 재고 있는 내용은 같은 것임을 알 수 있다. 이와 같이 요인적 타당도란 요인분석(要因分析,factor analysis)이라는 실험적·통계적 측정이론을 기초로 하는 것이고, 요인분석은 여러 검사간의 상호상관계수(相互相關係數－inter correlation)를 계산한 표를 자료로 해서 그 여러 검사 간에 존재하는 공통된 요인과 어떤 검사만이 지니고 있는 고유한 요인으로 분해 작업하는 방법이다. 예컨대, '수학검사'를 요인분석했더니 수(數)요인 50%, 공간지각요인 10%, 언어요인 30%, 오차(誤差)요인 10%의 결과를 얻는 것과 같이 어떤 검사에 구성된 여러 요소를 분해해 내는 것이다 그런데 요인적 타당도는 예언적 타당도처럼 직접 예언에 사용되는 실용적인 방법은 못 되며, 이론적 연구와 한 검사의 실용적 타당도를 높이기 위한 제작 내지 개작(改作)에 도움을 준다.

신뢰도

信賴度

신뢰도란 무엇을 재고 있느냐와 관계없이 '어떻게'재고 있느냐의 문제이다. 즉, 측정의 일관성과 안정성의 문제로서, 하나의 평가도구를 가지고 몇 번을 되풀이해서 재든, 또 누가 재든 간에 그 결과는 항상 같이 나와야 신뢰도가 있는 것이다. 이러한 신뢰도를 높이는 조건으로, ① 명석(明晳)한 교육목적의 분석, ② 문항의 포괄성, ③ 검사조건(檢査條件)의 균일화, ④ 채점의 객관성을 들 수 있다.

표준오차의 신뢰도계수

標準誤差－信賴度係數

신뢰도에는 2가지의 개념이 포함되어 있다. 그 하나는 측정의 표준오차(standard error of measurement)이고, 또 하나는 신뢰도계수(reliability coefficient)이다. 표준오차란 같은 물체를 여러 번 재었을 때 결과된 측정치(測定値)가 들락날락하는 정도의 차이를 말한다 이 표준오차를 내는 신뢰도의 측정방법은 주로 자연과학의 측정에서 많이 사용되는 방법으로, 한 가지 물체를 여러 번 되풀이해서 재어도 그 물체 자체가 줄어들거나 늘어나거나 하는 변화가 거의 없기 때문이다. 그러나 교육이나 심리학의 측정에는 그 대상이 인간행동이기 때문에 그 항상성(恒常性)이 희박하여진다. 즉, 똑 같은 검사를 똑 같은 학습자(學習者)에게 여러 번 되풀이해서 실시하기란 어렵다. 측정대상인 아동·학생은 배우고 성장하여 본래의 요소가 변질되어 가기 때문에 표준편차(標準偏差)가 크게 나오게 된다. 그렇기 때문에 신뢰도계수의 방법을 주로 사용하는 것이다. 신뢰도계수는 한 검사를 같은 측정집단에 두 번 실시할 경우, 첫번째 검사결과에서 나타난 각 개인의 상대적 서열(序列)과 두 번째 검사결과의 서열이 어느 정도로 변하느냐를 따지는 방법으로서, 첫번째 검사와 두 번째 검사와의 상관계수(相關係數)로 그 검사의 신뢰도를 표시한다. 그런데 이 신뢰도 측정은 한마디로 오차변량(誤差變量)의 정도에 따라 결정된다. 이러한 오차변량이 생기는 요인으로는 ① 시간의 안정성, ② 문항표집(問項標集)의 적부(適否), ③ 문항의 동질성(同質性), ④ 검사집단의 성질 등을 들 수 있다.

신뢰도의 측정방법

信賴度－測定方法 신뢰도를 표시하는 신뢰도계수의 검증(檢證)방법으로, ① 재검사 신뢰도(再檢査信賴度,retest reliability), ② 동형검사(同型檢査) 신뢰도(equivalent form reliability), ③ 반분(半分)신뢰도(split-half reliability), ④ 내적 합치도(inter-item consistency)등이 있다.

첫째, 재검사신뢰도란 항상성계수(恒常性係數,coefficient of constancy)라고도 하며, 한 검사를 어떤 집단에 설치하고 난 뒤, 일정한 시간이 지난 후에 같은 검사를 그 집단에 다시 실시해서 상관계수를 내는 방법이다. 여기에는 검사의 기억·연습효과 등이 영향을 줄 뿐 아니라, 표집(標集)의 오차변량이 진짜 변량으로 취급되기 쉬우며, 수험상태·동기·검사의 지시 등을 전후 검사에 같도록 하기가 어렵다는 약점을 가지고 있다.

둘째, 동형검사(同型檢査)는 측정이론이나 검사이론에 비추어 보아 동질적(同質的)인 내용으로 구성된 2개의 검사를 같은 피험자에 실시하여 신뢰도를 산출하는 방법이다. 이 검사의 특색은 문항곤란도·검사내용·문항형식·문항수·검사체재(體裁) 등이 모두 동질적으로 구성되어야 한다 그러나 이들 요소를 동질화하기 어렵고 실시간격도 문제된다.

셋째, 반분(半分)신뢰도는 한 검사를 한 집단을 대상으로 실시한 다음, 그것을 2부분으로 나누고, 이 2개의 부문을 하나의 독립된 검사로 간주해서 상관계수를 내는 방법이다. 반분하는 방법에는 전후반분법(前後半分法,split-half method), 기우법(奇偶法,oddeven method), 난수표(亂數表,random-num-bers table) 등이 있다. 여기서는 주로 스피어먼－브라운 공식(公式) (Spe－

arman-Brown Formula)을 사용한다.

<공식1>

…… 두 부분을 합친 전체 신뢰도 계수

……… 두 부분의 상관계수

위의 공식은 검사가 2부분으로 나누어진 경우이며, 그 전체의 신뢰도를 산출하는 공식은 아래와 같다.

<공식2>

…… n배 늘렸을 때의 신뢰도 계수

……… 얻은 부분 신뢰도 계수

이 반분신뢰도는 한 번 실시로 얻어지는 것이 장점으로, 성장이나 학습효과의 영향을 덜 받는 대신 검사실시 때 작용하는 우연적 변화가 '진짜변량'으로 다뤄지기 쉽다는 것이 큰 난점이다. 넷째, 내적 합치도는 1검사 안의 문항 하나하나를 모두 각기의 독립된 검사로 간주해서 각 문항간의 상관도를 내는 방법이다. 이 내적 합치도를 검증하는 방법은 일반적으로 검사의 문항이 동질적인 경우와 역량검사의 경우에만 적합한 방법이다. 즉, 한 검사가 국어면 국어, 수학이면 수학의 한 가지 요인이나 능력을 재는 검사에는 합당한 방법이지만, 이질적인 내용의 검사나 속도를 측정하는 검사에는 그 사용이 위험스럽다. 내적(內的)합치도 계수를 산출하는 공식은 쿠더－리차드슨 공식이 유명하다.

n …………검사 속의 문항수

…………검사 전체의 표준편차

p ………… 어떤 한 문항에 통과한 사람의 비율

q ………… 어떤 한 문항에 떨어진 사람의 비율(1－p＝q)

객관도

客觀度

객관도(objectivity)란 채점자에 의해서 결정되는 일종의 신뢰도로서 흔히 평가자(評價者) 신뢰도(tester's reliability)로 일컬어진다. 즉, 검사의 채점자가 얼마나 변덕을 부리지 않고 주관에 이끌림이 없이 객관적인 입장에서 신뢰성 있게 채점하느냐의 문제이다. 교육 및 심리측정에서는 측정도구의 불완전 때문에 평가자에 따라 각기 다른 결과가 나오는 일이 흔히 있다. 똑같은 시험답안지를 A교사는 90점, B교사는 70점, C교사는 50점으로 평점할 가능성은 충분하다. 이처럼 채점 결과의 동요가 심한 이유로서 하나는 평가도구 자체의 불완전성, 또 하나는 평가자 자신의 전문적 소양의 부족을 들 수 있다.

객관도를 높이는 조건

客觀度－條件

이와 같이 평가자의 신뢰성인 객관도를 높이는 조건으로 첫째, 평가도구 자체를 객관화시켜야 한다. 도구 자체가 비객관적이어서는 객관도를 높일 수 없다. 둘째, 평가자의 소양(素養)을 향상시켜야 한다. 평가하는 내용에 대한 완전한 이해, 인간행동에 대한 심리학적 이해 등 전문적 소양이 요구된다. 셋째, 평가자 자신의 평가기준을 설립한다. 평가자의 인상(印象)·추측·어림짐작을 버리고 구체적·실제적 자료 수집에 노력하고 객관적인 평가기준을 확립한다. 넷째, 비객관적 평가물을 공동 평가한다. 미술·음악 등 평정(評定)을 요구하는 검사와 주관적 논문식 검사는 공동으로 평가해야 한다.

실용도

實用度

실용도(usability)란 한 평가도구가 시간·경비·노력을 적게 들이고 목적달성을 이룰 수 있느냐의 정도를 말한다. 이 실용도를 보장하기 위한 조건으로 첫째, 실시의 용이성과 명료성이 문제된다. 평가도구는 실시가 용이하고 명료해야 한다. 그 실시방법이 지나치게 까다롭고 제약이 많으면 이 검사는 그만큼 유용성이 감소되며, 검사실시에 대한 설명이나 지시가 복잡하여 피험자로 하여금 혼란을 초래케 한다든가, 반대로 지시나 설명이 조잡하고 간단해서 해당방법을 이해하지 못한다면 이 평가도구의 유용성 가치는 상실된다. 둘째, 채점이 용이해야 한다. 채점방법이 쓸데없이 까다롭고 번잡해서 시간과 노력이 낭비되는 검사라면 그 실용성은 적어진다. 일반적으로 채점하는 방법으로는, ① 채점기계를 이용하는 방법, ② 채점반을 사용하는 방법, ③ 피험자 자신의 채점방법 등이 사용되고 있다. 셋째, 해석과 활용의 간편성이 문제된다. 어떤 검사를 실시하여, 나온 결과를 쉽게 이해하고 활용할 수 있어야 한다. 평가한 결과를 단순히 기록표에 적어놓고 학습자의 순위를 결정하는 정도에 그치지 말고, 목적을 가지고 해석·활용하여 학습자의 성장발달에 도움을 주어야 한다.

교육평가의 과정

교육목적의 확인

敎育目的－確認

전형적인 학교교육에 있어 학습자인 아동·학생과 교사가 교육과정(敎育課程)인 교재를 매개로 상호작용할 때 학습자가 일으킨 행동의 변화를 측정해야 한다. 즉, 교육계획 당시 설정한 교육목적의 의도와 학습자가 달성한 목적이 어느 정도로 가깝고 바람직하게 접근했는가를 평가해야 한다. 이렇듯이 교육목적을 달성할 수 있는 첫번째 수단이 바로 교육과정(課程)인 것이다. 즉, 교육과정(課程)은 교육목적의 달성을 위한 학습계획을 구체화시킨 것이기 때문에, 교육과정(課程)의 성격에 따라 학습지도방법이나 교육평가도 좌우되게 마련이다. 타일러(R. W. Tyler)는 교육과정 계열(系列)에서 다음의 네 가지 중요문제를 설정하고 있다. ① 학교 또는 학과에서 추구하는 교육목적은 어떤 것이어야 하는가? ② 이런 교육목적을 달성하기 위해서 어떤 학습경험이 마련되어야 하는가? ③ 이런 학습경험은 어떻게 조직하는 것이 가장 효과적이겠는가? ④ 어떻게 하면 학습경험의 효율성을 각종 검사나 기타 체계적인 증거수집 방법을 통해서 평가할 수 있겠는가? 즉 교육목적의 설정 및 추구(追求)는 교육과정이 선정 조직되고 학습지도가 지향해야 할 목적일 뿐 아니라 평가도구의 제작과 검사실시 결과의 해석에 이르기까지 구체적인 방안을 제시해 주는 목적이라는 것을 확인해야 할 것이다. 이와 같이 교육평가는 교육목적 설정의 타당도의 검증, 학습경험 선정 및 조직의 양호도(良好度) 검증, 지도방법의 효율성 검증과 같이, 교육과정계열에서 평가활동 본연의 구실을 한다고 보아도 좋을 것이다.

교육평가의 절차

敎育評價－節次

평가의 절차란 평가활동에서 밟아야 할 순서로서, 도정(道程)과 같은 것을 말한다. 평가방법에 따라 다소의 차이를 가지고 있으나 일반적으로 사용되고 있는 평가절차는 거의 형식화되어 있다. 이러한 평가의 절차는 교육의 결과를 평가함에 있어 과학적 기초에서 계획된 것이라 할 수 있다. 인간의 행동을 과학적으로 측정하고 이를 설정된 교육목적에 비추어 학습자의 성장발달의 정도를 평가하고 이에 따라 지도책(策)을 강구함에 있어 계획적인 절차가 요구된다. 교육평가 발전에 많은 공헌을 한 타일러(R. W. Tyler)가 소개한 평가의 절차는 다음과 같다. ① 교육목적을 설정하는 일, ② 교육목적을 분류하는 일, ③ 교육목적을 아동의 행동형태로 표현하는 일, ④ 아동이 기대할 수 있는 행동이 잘 나타나도록 상태를 마련하는 일, ⑤ 그러한 상태에서 나타나는 행동을 적절히 평가할 수 있는 방법을 선정하고 실시하는 일, ⑥ 평가결과를 종합하고 해석하는 일, ⑦ 평가결과를 기록하고 이에 따라 지도하는 일 등의 7단계를 들고 있다. 이러한 평가의 절차는 전문가에 따라 4-6단계로 설명하고 있으나 그 내용과 근본 입장은 거의 마찬가지다.

교육목적의 설정

敎育目的－設定

평가에서 다루는 교육목적과 법규상에 나타난 교육목적과의 관계가 문제된다. 법규상의 교육목적이란 국가사회가 지향하는 이념 및 필요와 발전에 있어 소망되는 인간의 양성을 위해 설정된 목적이다. 이 목적은 단기적인 교육작용을 통해서는 도달하기 어려운 많은 행동의 변화를 포함하고 있으며, 추상적이고 규범적인 광범위한 목적이기 때문에 교육평가의 직접적인 대상이 될 수 없다. 따라서 교육평가의 대상이될 수 있는 교육목적이란 각급 학교나 교사집단, 개개의 교사가 계획하고 의도한 교육목적에서 뽑아 낸 목적을 말한다.

즉, 교사가 의도한 교육과정(課程)의 단원(單元)상에 나타난 교육목적이 직접 평가의 대상이 되는 것이다. 그러나 이러한 단원상에 구체적으로 나타난 교육목적도 결국 궁극적이며 규범적인 법규상의 목적에 지향 흡수되어야만 바람직한 목적 설정이라 할 수 있다.

교육목적의 분류

敎育目的－分類

교육평가는 교육목적의 달성도를 측정 평가하게 되므로 교육목적을 구체적으로 분류한다는 것은 매우 중요한 일이다. 교육과정(課程)의 단원 상에 나타난 교육목적도 내용과 행동의 이원적 차원에서 구체적으로 분류 진술되어 교사 자신이 명석하게 판별할 수 있도록 설정해 놓아야 한다. 목적의식과 개념이 뚜렷하지 못하면 이에 의해 전개되는 학습경험의 선정·조직이나 지도방법도 본래의 의도와 어긋나게 되어 목적과는 거리가 먼 타당성이 없는 평가가 되기 쉽다. 예컨대 "단원을 조직할 수 있는 기능을 기른다" "자석의 종류와 자력이 형성되는 원리를 이해한다"와 같이 불투명하게 진술하지 않고, '단원' '자석' 등은 내용이 되고, '기능' '이해' 등은 행동면이 되도록 구체적이며 명료하게 이원적으로 설정해야 한다. 이는 곧 평가의 타당도를 높이는 길이 되는 것이다.

교육행동의 분류

敎育行動－分類

교육과정(課程)의 단원 상에 나타난 교육목적이 가령 "교통법규에 관한 지식" "곤충의 생활에 관한 이해" "물을 분해할 수 있는 기능"의 경우일 때 '지식' '이해' '기능' 등은 행동면으로서 평가의 직접적인 대상이 되며, 한편 교통법규·곤충·물 등은 내용면으로 행동이 발현(發顯)될 수 있는 원천과 소재가 된다. 그렇기 때문에 이들은 상호상보적 관계에 있는 것이다. 그런데 교육목적 설정에 있어 가장 높은 빈도를 차지하고 있는 행동형(型)은 이해·사고·기능·태도·습관·흥미·감상력·적응 등의 8개의 행동이다. 우리가 교육목적 진술에 흔히 표현하는 행동은 거의 이들 영역 속에 포함된다.

(1) 교육목적분류학(敎育目的分類學) ― 교육목적설정에서 필연적으로 제시되어야 할 행동의 분류는 그리 쉽지 않다. 근대(近代)에 이르러 교육학 및 심리학의 발달과 더불어 교육목적에 대한 중요성이 강조되었고, 이에 따라 교육목적진술에 표시되는 행동의 분류의식이 점차 고조되어 갔다. 이러한 움직임은 곧 교육목적분류학(taxonomy of educational objectives)을 등장시켰다. 이는 교육목적의 행동면을 보다 과학적으로 분류해 보자는 입장에서 1949년부터 블룸(B. S. Bloom)을 중심으로 전개되었다. 이들이 만든 분류학은 흔히 표준분류학이라고도 불리어지는데, 가령 '이해'라는 개념을 예로 들어 어떤 교사는 "지식을 내면화하는 것", 어떤 교사는 "학습한 내용의 핵심을 파악하는 것", 또 어떤 교사는 "학습내용의 상기(想起)"로 정의할 수 있을 것이다. 이와 같이 각기 다른 정의는 교육목적을 불분명하게 하여 평가의 타당성을 흐리게 한다. 이와 같은 결함을 막아주고 용어를 분명히 정의하여 주는 데 그 의의가 있다. 그들은 교육목적을 3대(大) 행동영역으로 분류하고 있는데, ① 지적 영역(知的領域,cognitive domain), ② 정의적 영역(情意的領域:affective domain), ③ 심리운동적 영역(心理運動的領域:psycho-motor domain)이다. 이들은 동식물학에서 사용하는 분류법과 흡사한 방법으로 세목분류하는 것이 특색이다. 지적영역을 1.00 지식, 2.00 이해력, 3.00 적응력, 4.00 분석력, 5.00 종합력, 6.00 평가력 등으로 분류하고 다시 이들을 세목분류하고 있다. '교육목적분류학'은 분류된 목적의 행동상(行動像)을 설명하고 그에 속한 대표적인 교육목적의 실례(實例), 그 목적을 측정할 대표적인 검사문항의 예를 들고 있다.

(2) 교육내용(敎育內容)의 분류(分類) ― 내용분류는 비교적 행동분류보다 쉽다. 행동분류처럼 전문적인 심리학적 소양이 없더라도 그 분류가 가능하며, 식견에 따라 여러 가지로 분류할 수 있다. 국어·수학·사회·자연과 같이 교과영역별로, 또 개인생활·집단생활·경제생활 등과 같이 생활경험의 영역별로 분류할 수 있다. 가령 단원전개안(案)을 조직할 때, 그것이 대단원·소단원이건 그때그때 지도할 학습내용을 타당하게 제시해야 한다. 이것이 바로 교육목적을 달성하기 위한 내용분류이다.

이와 같이 내용분류는 교육목적에 부합된 학습경험의 자료를 논리적·심리적 배열법에 따라 계속성(continuity)·계열성(sequ－ence)·통합성(integration)의 조직원칙에 따라 분류한다.

이원분류표

二元分類表

이원분류표의 작성은 교사가 무엇을 가르치고 무엇을 평가하려는가 하는 의도를 일목요연하게 해주며, 동시에 검사상태 및 문항이 어떠한 비중으로 출제될 것인가에 대한 방향도 제시해 준다. 즉, 평가를 보다 타당성 있게 과학적으로 할 수 있도록 해준다. 모든 학교교육의 과정이 바로 이 이원분류표에 함축되어 있다는 생각으로 음미(吟味)해야 할 것이다. 이와 같은 이원분류표는 행동은 가로로, 내용은 세로로 분류한다. 그래서, 가로 세로가 부딪히는 칸에 해당하는 목적이 있는 경우엔 그 칸 속에 ×표 같은 것을 기입해 둔다. 이렇게 이원분류표가 완성되면, ×표가 있는 칸에는 해당하는 교육목적이 있고, ×표가 없는 빈 칸에는 교육목적이 없음을 일목요연하게 알 수 있게 되며, 검사문항을 제작할 경우 ×표가 있는 칸의 목적을 다루기만 하면 된다. 이와 같이 이원분류표의 작성은 바로 평가의 제1단계에 들어가고 있음을 의미한다.

검사상태의 구성안

檢査狀態－構成案

전 단계에서는 교육목적을 구체적으로 분석·정의하여 이원분류표를 만들었고, 이번에는 이원분류표에 나타난 구체적인 행동상을 평가할 수 있는 평가도구의 구성안(構成案) 및 제작을 하지 않으면 안 된다. 이것은 마치 무게를 달아 보기 위해서 무게를 잴 수 있는 여러 가지 저울의 종류를 마련하고 그렇기 때문에 검사상태(test situation)의 안(案)을 구성한다는 것은 교육목적에 나타난 행동을 평가하는 데 어떠한 장면과 기회를 마련해야만 행동의 증거를 가장 잘 드러낼 수 있느냐 하는 데 있다. 즉, 어떠한 검사상태의 안을 구성한다 하더라도 평가자의 창의력에 의하여 이원분류표에 정의된 행동상을 정확하게 드러낼 수 있게 된다면 그것으로 충분하다. 이와 같이 타당한 검사상태를 구성한다는 것은 평가의 기술로서, 평가자의 능력과 전문적인 소양에 달려 있다. 가령 '물을 분해할 수 있는 기능'이 단원 상의 목적에 나타난 행동이라면, 과연 이것을 평가하기 위해 어떤 검사상태의 안을 구성해야만 타당할 것인가? 이것은 필답검사나 면접 또는 질문지 등의 검사상태로 측정하느니보다는 실험실에서 실험도구를 사용하여 실제로 분해하는 과정을 관찰할 수 있는 검사상태를 마련하는 것이 타당할 것이다. 이처럼 검사상태의 구성안(構成案)은 교육목적의 성질에 따라 평가자 자신의 전문적 소양에 따라 다양하게 나올 수 있는 것이다.

검사도구의 종류

檢査道具－種類

검사상태가 다양하게 나올 수 있는 것처럼 검사도구의 제작도 평가자의 소양에 따라 다양하고 새로운 형태가 나올 수 있다. 즉, A검사 상태에 A검사도구만이 가능한 것은 아니다. 일반적으로 학력측정에 많이 사용되는 검사형태로 필답검사(paper pencil test)를 들 수 있다. 그러나 필답검사가 모든 교육목적의 달성도를 측정하는 데 있어서 만능의 검사상태로 생각하면 큰 잘못이다. 왜냐하면, 지적인 행동 즉 기억력·이해력·사고력·해석력·표현력 등의 행동증거는 이 검사상태로 적당하지만, 태도·흥미·습관·기능 등의 행동발달상황은 필답검사로써 뚜렷하게 드러내기 어려운 것이다. 지금까지 많이 사용되고 있는 필답검사의 유형에는 선택형(selection type)과 서답형(supply type)이 있는데, 선택형은 진위형(true-false type)·선다형(multiple choice type)·배합형(matching type)으로 분류되며, 서답형은 논문형(essay type)·단답형(short-answer type)·완성형(completion type)으로 분류되어 사용되고 있다. 이 밖에 검사도구로서 흔히 사용되고 있는 검사형태에는 질문지법(questionnaire)·관찰법(observation)·면접법(interview) 등이 있다.

필답검사의 제작

筆答檢査－製作

필답검사의 문항형식 분류방법에는 여러 가지가 있겠으나 일반적으로 크게 선택형(selection type)과 서답형(supply type)으로 분류하는 것이 보통이다.

선택형

選擇型

몇 개의 답지(答肢)를 주어, 그 중에 하나 또는 몇 개를 선택시키는 방법으로, 선다형(選多型)·진위형(眞僞型)·배합형(配合型) 등이 여기에 속한다. 선다형(multiple choice type)이란 필답검사에서 가장 널리 사용되고 있는 형식으로서, 앞에 문두(問頭,item stem)가 있고 이에 따르는 2개 이상의 답지(responses)로 이루어진 형태이다. 답지는 4-5가 이상적이고 문두는 대개 서설적(序說的)이거나 불완전한 문장으로 되어 있고, 답지는 1개의 정답이나 오답 또는 최선답(最善答), 아니면 몇 개의 정답과 몇 개의 오답으로 되어 있다. 따라서, 지시에 따라 선택행위를 하게 되는 것이 선다형의 특색이며, 최선답형 · 정답형·다(多)답형·미완성형·부정답형(否定答型)· 대입형(代入型)·합답형(合答型)·복합(複合)완성형·제외항목형(除外項目型) 등이 선다형의 범주에 포함된다. 진위형(true-false type)은 주어진 진술내용이 진(眞)이냐, 위(僞)냐, 정(正)이냐, 오(誤)냐를 가려내는 양자택일의 형식으로 단순한 지식이나 사실 등을 재생시키는 데 많이 사용되어 왔으며, 추측이나 우연의 오차가 끼어들 염려가 많다는 것이 단점이다. 여기에서는 진위형·군집형·진위형의 변형 등으로 만들어 쓰고 있다. 배합형(配合型,matching type)은 전제(前提,premises)와 답지의 2군(群)으로 구성되는 것이 보통이며 그 2군을 배합시키는 지시문이 반드시 있어야 한다. 선다형의 단점인 자기표현 기회의 배제를 보완하는 데 많이 사용되며, 대개 기호를 넣게 하든가, 또는 기억해서 써 넣도록 구성한다. 여기에도 응용하는 범위와 내용에 따라 단순배합형·복합배합형·분류배합형·관계분석형·결합분류형·양적(量的)비교형·공변관계형(共變關係型)·충분조건형 등이 있다.

서답형

書答型

답을 써 넣는 방법에 단답형·완결형·논문형 등이 있다. 단답형(short-answer type)은 한두 마디의 단어나 숫자·기호·그림 등의 극히 간단한 사실에 대하여 제한된 형태로 답하게 하는 문항형식으로 단순재생법(simple-recall type)이라고도 한다. 이 형식은 대개의 경우 누가 언제 어디서 무엇을 어떻게 하였다는 사실적인 지식을 다루는 게 특징이다. 출제가 간단하여 좋으나 이해력이나 문제해결력을 측정하는 데는 부적합하다.

완결형은 진술문의 일부분 또는 몇 부분을 비워 놓고 거기에 적합한 단어·어구·기호 등을 써 넣어서 완결시키는 문항형식이다. 이 형식은 빈 칸에 보충할 자료를 제시하여 선택시키는 제한완결형과 자유롭게 답을 쓰도록 하는 자유완결형이 있다. 그런데 제한완결형은 일종의 선다형의 변형이라 할 수 있다.

논문형

論文型

논문형은 보통 주관식 진술방식으로 불려지며 제시된 어떤 질문이나 지시에 따라 피험자가 자유롭게 반응할 수 있는 문항형식이다. 논문형에는 뚜렷한 문항형식이 없이 반응할 수 있다는 것이 특색이다. 모레노(W. S. Moreno)와 카터(R. E. Carter)가 1932년에 논문형을 20가지의 형태로 분류한 예는 특기할 만하다. 이 논문형에는 선별적 재생(選別的再生)·평가적 재생, 두 사상(事象)의 비교·결정·원인·결과·비판(批判)·정의(定義) 등이 있다.

선택형과 서답형의 장·단점

選擇型－書答型－長·短點

선택형과 서답형은 장·단점이 다르고 보완적인 성격을 가진다. 먼저 선택형은, ① 채점이 객관적이고 간편하다. ② 학습내용과 영역을 포괄적으로 다룰 수 있다. ③ 통계적 분석이 쉽고 해석이 용이하다는 것이 장점이며, 반면에 단점으로는, ① 자기표현의 기회가 제한된다. ② 문항제작에 많은 시간과 노력이 소모된다는 점이다. 한편, 서답형의 장점으론, ① 반응의 자유가 보장된다. ② 복잡한 정신기능을 측정하는 데 유용하다. ③ 인성진단(引性診斷)의 자료를 얻는 데 유용하다. ④ 바람직한 학습방향을 제시해 준다. ⑤ 전체적인 연관성과 조화가 강조된다. ⑥ 문항제작에 시간과 노력이 절약된다는 점이 포함될 수 있고, 반면에, ① 채점에 시간이 많이 걸리고 까다롭다. ② 표준의 편파성을 면하기 어렵다. ③ 결과된 점수에 신뢰도와 객관도가 부족하다는 단점을 가지고 있다.

검사실시

檢査實施

전 단계에서 평가도구를 제작했으면 이제 교육목적에 표시된 행동의 증거를 수집해야 한다. 여기서는 피험자인 학습자로 하여금 충분히 행동발현을 할 수 있는 장면을 제공해 주어야 하며 그러기 위해서는 검사종목에 다른 실시계획을 세워야 한다. 실시횟수·실시시기·분위기 조성 등에 걸쳐 세밀한 계획이 필요하다. 너무나 소란한 분위기, 손이 곱아서 잘 쓰기 어려운 시기, 피로에 지친 맨 끝시간, 채광이 좋지 못한 어두운 교실, 정서적 동요와 심리적 긴장이 고조된 상태 등을 회피하여야 한다. 즉, 평가자는 검사실시에 좋지 못한 장면을 피하도록 해야 하며 좋은 장면을 만들도록 노력해야 한다.

채점 및 성적표시

採點－成績表示

검사실시가 끝난 후에는 그것이 필답검사든, 면접이든, 현장에서의 관찰이든 피험자들이 남겨 놓은 행동변화의 증거를 정리해야 한다. 수집된 행동증거를 채점하고 기록하여 간결하게 정리함으로써 보다 쉽고 명료하게 평가할 수 있다.

채점

採點

학습자가 설정된 교육목적에 얼마나 달성했느냐의 양적 정도를 과학적 방법으로 정리하고 표시하는 작업이다. 이때 주로 정리하는 방법으로는 숫자로 표시하는 것이 보통이다. 가령 "이 아이는 저 아이보다 더 우수하다"라고 말하는 것보다는 양자간의 정도를 숫자로 다루면 더욱 개념(槪念)이 명백하게 된다. 종래의 전통적(傳統的)인 채점방법은 너무나 단순(單純)했기 때문에 이를 지양하고 보다 의미있는 채점을 모색해야 한다. 이는 곧 결과 해석을 의의있게 하기 위함이다. 여기서 문제되는 몇 가지 유의점을 살펴보면, 첫째, 관례적인 채점법으로 정답에는 ○표, 오답에는 ×표를 한 후, 정답만 세어서 합계를 내는 식은 너무 단순하며 그 본래의 의미가 상실되어 있다. 즉, 교육목적에 중점을 두어 행동과 내용 영역별로 채점을 해야 한다. 이는 목적달성의 여부를 쉽게 판정할 수 있기 때문이다. 둘째, 흔히 정답에만 주시하고 오답은 말살해 버리는 버릇을 재고해야 할 것이다. 학습결함의 진단이라든지 유효한 지도방법을 모색하기 위해서는 정답보다는 오답을 중시해야 한다. 즉, 오답분석(error-analysis)을 하여 오답이 많이 나타난 영역이나 그 빈도를 양화(量化)하여 해석하는 것이 보다 의의가 있다. 셋째, 문제의 성질에 따라 채점이 정오(正誤) 또는 진위(眞僞)로만 이루어질 수 없는 경우가 있다. 지식·이해·기능·사고력 등은 정(正)과 오(誤)로써 분석이 가능하나 태도·흥미·도덕성 등의 영역은 정(正)과 오의 채점만으로는 불가능하다. 결국 채점은 평가상에 놓여 있는 교육목적에 비춰 다양성 있는 방법을 모색해야 한다.

성적표시

成績表示

성적표시란, 채점에서 나온 점수를 의미있는 숫자로 고쳐 해석에 편리하도록 함을 말한다. 채점해서 나온 그대로의 점수를 원점수(原點數) 혹은 소점(素點)이라 하는데 그 자체로선 별 의미가 없다. 가령 어떤 두 검사에서 75점과 95점을 얻었다고 해서 후자가 전자에 비해 월등히 상위에 속해 있는 점수라고 단정할 수는 없다. 전자가 상(上) 5%내에 속할 수 있는 반면, 후자가 중간쯤에 속할 수도 있기 때문이다. 이는 원래의 점수는 상대적인 측정치라는 것을 의미한다. 흔히 사용되고 있는 성적 표시방법에는, ① 원점수척(尺), ② 백점만점척, ③ 등위(等位)점수척, ④ 백분위점수척, ⑤ 표준점수척 등이 있다.

원점수

原點數

원점수(raw score)란 구태여 점수의 거점을 두지 않고, 어떤 검사에서 나온 그대로의 점수를 말한다. 예로서 객관형 문항 150개를 만들었다면 채점시 문항당 1점씩 하여 150점 만점으로 한다든지 논문형 3문항을 각 문항당 30점씩 하여 90점 만점으로 하는 등의 경우를 말한다.

백점만점척

百點滿點尺

가장 많이 쓰여지고 있는 성적 표시법으로, 100점에다 기준을 두고 채점하는 방법이다. 원점수 250점 만점에 어떤 학생이 150점을 얻었다면 100×150/250＝60점으로 환산해 볼 정도로 이때 얻어진 60점도 근본적으로는 원점수와 같은 것이다. 따라서 그 기능은 원점수와 함께 서열척도에 지나지 않는다.

등위점수

等位點數

등위점수는 곧 석차(席次)를 말하는 것으로, 원점수의 최고점에서부터 1, 2, 3, … 등으로 매겨 나가는 점수척이다. 등위점수(rank-order grades)를 사용할 경우는 분수식으로 1/60·50/60과 같이 분모에 총인원수를, 분자에 등위(等位)를 표시해야 한다.

백분위점수

百分位點數 이것도 근본적으로 등위점수와 같다고 하겠지만, 기반을 100으로 생각하여 등위를 매기는 셈인고로 공통기반이 생겨 다른 집단이나 백분위점수(percentile scores)와 상호간에 비교할 수 있다는 것이 최장점(最長點)이다. 즉 대소 서열과 집단내의 상대적 위치, 집단간의 상대적 비교가 가능하다. 그 계산은 원점수를 순서대로 배열하고 이에 누가빈도(累加頻度)를 내어 총인원수로 나누고 이에 100을 곱해 주면 된다.

백분위점수의 계산
X	f	cf	cfn×100	'
90 80 76 75 27	1 1 1 1 1	20 19 18 17 1	20/20×100 19/20×100 18/20×100 17/20×100 1/20×100	100 95 90 85 5
N=₂₀

Z점수

Z點數 Z점수는 표준점수의 하나로, 원점을 0으로 하고 표준편차(標準偏差, σ)를 단위로 하는 기호를 말한다.

Z＝표준점수의 일종

X＝각개인의 소득점수

M＝개인이 속하는 집단의 평균점수

σ＝표준편차

x＝X－M

T점수

T點數 T점수는 표준점수의 일종으로, 원점을 50으로 하고 표준편차의 10분의 1을 단위로 하는 기호를 말한다. 그 공식은 다음과 같으며, 이때 T를 T-score라 한다.

X＝각측정치

M＝평균

σ＝표준편차

결과의 해석 및 활용

結果－解釋－活用

검사를 실시해서 평가할 행동의 증거를 수집하고 그것을 숫자로 일목요연하게 정리·채점하여 기록해 놓았으며, 이것을 본래의 교육목적에 비추어 그 달성도를 따져보아야 할 것이다. 즉, 개별적 또는 집단적으로 해석해야 한다. 우선적으로 교육목적의 달성 여부를 알아보아야 하며 이에 따른 여러 단계의 해석이 필요하게 된다. 혹 기대에 어긋난 결과가 도출되었다면 그 원인은 무엇인가? 교육과정(敎育課程)의 조직에서 타당치 못한 교육목적의 설정 때문인가? 학습지도상의 결함인가? 평가도구 자체의 불완전성 때문인가? 또는 행정적 뒷받침이 약했기 때문인가? 등의 교육의 전 과정에 걸친 진단적 해석이 요청된다. 이처럼 해석적인 평가에서 나온 결과는 그대로 교육과정(敎育課程)전반에 걸쳐 활용되어, 후속되는 교육계획에 반영되어야 한다. 즉, 학습자인 아동·학생의 바람직한 성장발달에 이바지해야 할 것이다. 이같이 적재적소에서 평가의 기능이 제대로 발휘될 때 비로소 교육적 가치를 인정받게 되는 것이다.