글로벌 세계 대백과사전/교육/교육의 이론과 실제/교육의 측정과 평가/교육측정과 평가의 의의

글로벌 세계 대백과사전

교육측정의 의의

敎育測定－意義

교육측정은 광의의 교육평가의 일부로서, 평가자료의 작성수집(作成收集)에 관계된 것이나 전부는 아니다. 그 중에서 주관적인 방법, 예를 들어 관찰법(觀察法)에 의한 것은 제외하고 비교적 엄격한 객관적 자료를 구하는 방법이다. 예를 들면 신장·체중·주력(走力)·중량 들어올리기 등은 미터척도·저울 및 스톱워치 등을 사용하여 측정하고, 지식·사상·사고력 같은 것은 테스트, 특히 표준화(標準化)검사를 써서 수량적 자료를 구하는 것 등이 교육측정인 것이다.

일반적으로 말하여 교육측정이란, 일정한 측정의 단위와 측정의 기점(基點)을 보지하고 있는 척도로써 교육사상(敎育思想)의 수량적 자료를 구하는 조작(操作)을 말한다. 측정의 단위는 자나 저울 등을 사용하면 센티미터(cm)나 그램(g)이 되지만, 지식검사나 학력표준 검사의 편차치척도(偏差値尺度)에서는 1/10S·D의 치(値)를 측정단위로 삼고 있다. 측정의 기점(基點)은 길이나 무게에 있어서는 영점(零點)이 기점인데, 후자의 측정기점은 물이 어는 온도를 기점(영점)으로 하며, 앞에서 말한 편차치척도에 의한 측정에서는 －5S·D의 점을 측정의 기점으로 생각하는 방법이다.

물론, 학력이나 성격 등에 관한 교육측정은 물리학적 측정만큼 정밀하게는 할 수 없으나, 그래도 가능한 한도내(限度內)에서 측정에 의한 자료를 사용함으로써 객관적·적극적인 평가를 하려는 발상(發想)이다. 이 교육평가는 19세기 말엽부터 금세기 초엽에 걸친, 이른바 교육측정운동이 가져온 것이다.

<李鍾鶴>

교육평가의 의의

敎育評價－意義

평가라고 하는 것은 인간이 사회적 존재이므로 일정한 목적이나 이상을 가지고 사회적으로 활동하고, 항상 어떤 결정이나 판단을 강요당하고 있는 이상 어디서나, 어떤 일에 있어서나 존재하는 행위이다. 교육평가는 교육이라는 사업에만 연관된 평가영역(評價領域)이다. 무엇보다도 적확(的確)하고 고원(高遠)한 목적을 가지고 있고, 항상 가치나 이념과 연관되어 있다. 이 교육의 목적이나 이념을 규준으로 하여, 일정한 교육계획이나 시설 및 지도의 실제가 어떤 성과를 얻을 수 있었느냐를 증거자료에 의해 분명히 밝히는 것이 교육평가이다. 그 평가의 증거로서 가장 중요한 것은 학생의 신상에 일어나는 변화, 그리고 의식과 행동의 변화이다. 이 학생의 행동의 변화를 관찰·포착하여 그것을 평가자(評價者)가 가지고 있는 평가규준(評價規準,價値尺度)에 비추어 해석하고, 이것을 금후의 행동에 피드백(feedback)하는 것이 교육평가이다.

이리하여 교육평가에서는 관찰된 교육사업과 평가자의 가치척도나 가치규준의 2가지 요소가 포함된다. 그리고 이들 중 학자가 교육사상(敎育事象)을 관찰하고 평가의 증거를 만들어내는 일이 바로 다음에 말하는 교육측정에 관계되는 일이다. 후자의 평가규준에 비추어서 의미를 추출(抽出)하는 일이 곧 협의적(狹議的)인 교육평가이며, 예를 들어 절대평가(絶對評價)라든가 상대평가(相對評價) 혹은 개인내평가(個人內評價) 등으로 불리는 것은 그 협의의 평가를 의미하는 것이다.

이처럼 교육평가라는 말은, 올바르게 말하면 광의(廣義)의 평가, 즉 관찰이나 측정에 의해서 평가의 자료를 모으는 일에서부터 그 자료의 해석까지 포함시킨 평가와 자료의 해석부분만을 가리킨 협의적 평가의 2종으로 구별된다.

교육평가의 역사

敎育評價－歷史

면접·구두시험 혹은 필기시험에 의해서 교육효과나 사람의 능력·학력을 평가한다는 그 필요성은 예부터 존재하던 것으로, 예를 들어 1천여 년 전, 고대중국에서 시작된 과거제(科擧制) 등은 세계적으로 가장 현저한 예이다.

그러나 이러한 예부터의 평가방법은 주관적이어서, 신뢰성이 희박하다는 반성이, 서구에 있어서는 특히 19세기 후반부터 일어나, 이것을 어떻게 객관화할 것인가의 연구가 선각자(先覺者)들에 의해 시도되어 왔다. 예를 들어 1864년, 척도부(尺度簿)라는 것을 연구한 영국의 피셔(G. Fisher), 1894년에 영어의 스펠링에 관한 객관 테스트를 만들어, 커리큘럼 근대화의 수행을 완수한 미국의 라이스(J. M. Rice) 등은 그 현저한 예이다.

20세기가 되어 교육의 보급과 함께 커리큘럼 제작, 학생의 편성, 교육자료 등 해결해야 할 여러 과제와, 심리학의 진보 등을 배경으로 더욱 객관적인 측정의 필요성과 가능성이 높아졌다. 이로써 교육계는 후일 측정운동(測定運動)이라고 불리는 시대를 맞게 되었다. 미국의 손다이크(E. L. Thorndike)가 그 대표자였다.

교육의 측정운동은 이른바 표준화된 테스트를 요구하였고, 이것으로써 지도효과를 되도록 객관적으로 측정하려는 것은 당연한 일이었다. 스토어(C. W. Store)가 1908년에 만든 산수에 관한 표준화검사를 계기로 하여 교과에 관한 표준화검사가 속속 제작 공표되었고, 이에 의해서 교육측정의 가능성이 확정되었던 것이다.

그러나 교육효과의 객관적 측정은 단순히 표준화검사에 의해서만 가능하다는 것은 아니다. 물론 이에 비해서 뒤지는 점도 있지마는 교사가 자작(自作)한 객관 테스트로써도 가능하며, 적어도 그때까지의 논문체(論文體) 테스트에 비하면, 그 채점(採點)의 객관성과 여러 문제를 제시할 수 있는 점에서는 훨씬 뛰어나다.

이리하여 이른바 객관 테스트가 고안되었고, 그 보급·선전이 이루어졌다. 이러한 움직임도, 일종의 교육측정운동으로서 간과(看過)할 수 없는 사실이다. 이점에 관해서는 메콜(W. A. Mecall)의 공적이 높이 평가된다.

이상 말한 것은 주로 학력의 측정면인데, 지능측정에 있어서도 1905년 프랑스의 비네(A. Binet)에 의해 처음으로 지능검사가 고안되었다. 그 후 미국에서 지능검사는 다양한 발전을 이루어 오늘날과 같은 융성을 가져온 것이다.

성격분야(性格分野)에 있어서도 측정은 시도되었는데 퍼널드(G. G. Fernald)의 시도가 그 최초의 것으로 추정된다. 그러나 이 분야의 교육측정은 다른 분야에 비해서 항상 더 큰 어려움이 가로놓여 있었다.

그런데 1930년을 전후하여 이상과 같은 교육측정운동에도 하나의 반성이 가해져서 새로운 교육평가의 사상이 대두하였다. 교육측정이 지난 날의 주관적 평가를 배격하고, 이것을 객관적으로 평가하기 위해 수량적인 자료를 구하려 하였던 점에서는 분명히 큰 진보였으나, 다른 면에서 볼 때 교육이 목적이나 가치를 추구하는 데만 그 의의가 있다는 타파적(打破的) 인식이 결여되고, 오직 수량적 자료를 구하는 일에만 중점을 두었다는 점에서는 애석한 느낌이 있었다. 교육의 목표로 말하면, 예컨대 학생의 가치관·태도·감상의 진보와 같이 객관적 측정이 뜻대로 되지 않는 사항들을, 객관적 측정이 용이한 목표와 동일하게 중요시해서 평가해야 함에도 불구하고, 측정하기가 어렵다 해서 자칫 무시해 버리는 경향이 있었다.

그뿐만 아니라 1920년경이 되어 겨우 그 체제를 정비한 새로운 심리학의 탄생과 같은 시기에 발전한, 신교육운동이 모두 객관적 측정운동에 새로운 전기(轉機)를 마련하였다. 즉 이와 같은 새로운 심리학, 새로운 교육의 탄생은 단순히 인간을 지적 존재(知的存在)로 파악하지 않고 지적·사회적·적극적·신체적 종합체(綜合體)로서 파악하여 그 전체의 교육이 교육으로서의 위치를 잡기 시작했다. 이러한 입장에서 보아도 수량적인 측정만으로는 문제를 해결할 수 없게 되었다.

이리하여, 측정에서 평가로 기본구상의 전환이 초래된 것이다. 용어도 '교육측정'보다 '교육평가'라는 말이 더욱 적절하다는 생각을 갖게 되었다.

총평의 의의

總評－意義

흔히 평가라는 개념 중의 하나가 총평(assessment)이다. 이 용어는 머레이가 1938년에 지은 <성격의 탐구>라는 책에서 사용했던 것이 처음이며, 그 뒤 O. S. S. 총평(1948)에서 사용했던 것이 이 용어가 널리 알려지게 된 주된 이유이다. 이 두 경우에 사용되었던 총평의 개념은 개인의 행동특성을 특별한 환경·특별한 과업·준거상황(準據狀況)에 관련시켜 판정하려는 것이다.

총평의 가장 주된 개념은 개인과 환경의 상호작용(相互作用)에 관심을 갖는다. 머레이는 인간의 행동특성을 평가하기 위해 인간이 갖고 있는 욕구체제(欲求體制)와 인간을 둘러싸고 있는 환경이 주는 압력체제(壓力體制)로 나누어 그 사이의 역동관계를 분석했는데, 이와 같은 욕구 ― 압력체제의 특징은 곧 인간과 환경과의 상호작용을 분석하려는 것이다. 마찬가지로 역할이론(role theory)도 환경이 요구하는 역할과 개인이 이 환경 속에서 수행해야 할 역할과의 상호관계를 효능적으로 분석·진단하는 데 있다.

따라서 총평의 분석방법은 개인이 달성해야 할 어떤 준거의 분석과 이 개인이 생활하고 학습하고, 작업해야 할 환경이 강요하는 심리적 압력, 요구하는 역할을 결정할 뿐만 아니라 그 사이에 존재하는 계층적 질서, 일관성 및 갈등을 분석·결정하는 것이 중요한 목표가 된다.

총평에서 개인에 관한 정보의 수집은 양적·질적 형태의 다양한 형태가 되며, 어떤 것은 고도로 구조화된 객관식 검사형태가 될 수 있는가 하면 어떤 것은 비구조화된 투사적 방법(projective technique)도 쓰일 수 있다. 흔히 총평에서 사용하는 증거수집의 방법으로 객관화된 검사 이외의 것으로는 자기보고·관찰·면접·장면검사·역할연출·자유연상법 등이 쓰인다.

총평의 용도는 흔히 예언·실험·분류에 쓰인다. 그러나 지금까지 총평에서는 주로 환경의 특성, 준거의 특성에 관한 분석에 치중한 편이고 이 상호작용에 관한 분석의 새로운 방법은 별로 창안하지 못한 편이다.

측정·평가·총평의 관계

測定·評價·總評－關係

앞에서 교육평가의 개념이 측정·총평의 개념과 어떻게 다른가를 논의했다. 평가는 여러 가지 측면에서 측정이나 총평의 개념과 차이가 있다. 비록 같은 증거를 수집하는 검사도구를 사용한다 해도 어느 관점에서 행하느냐에 따라 다르다. 즉 평가의 관점에서 사용하는 것과 측정의 관점에서 사용하는 것과 총평의 관점에서 사용하는 것들은 상반된 방향으로 접근할 가능성이 있음을 시사받을 수 있다. 즉 측정에서는 규준집단에 비추어 본 개인의 양적(量的) 기술에 강조점을 두나 평가는 사회치(교육목적)에 비춰본 양적 및 질적 기술을 강조하고, 총평에서는 효능적(效能的) 기능 혹은 전체 적합도에 비추어 본 질적 기술을 강조한다. 또 측정에서는 객관도와 신뢰도를 중시하나 평가에서는 객관도와 신뢰도는 부차적인 문제이고 내용의 타당도를 중시한다. 총평에서는 신뢰도와 객관도도 고려하나 구인타당도(構因妥當度)를 중시한다. 또 검사의 주안점을 측정은 개인의 정적(靜的) 행동을 횡단적 방법으로 하나 평가에선 개인의 변화에 주안을 두되 종단적 방법으로 연구한다. 총평에서는 개인과 환경과의 역동성(力動性)에 주안을 두되 상황에 비춰 종단적으로 연구한다.

용도로는 측정은 예언·분류·자격 부여·실험에 쓰이며 진단에는 관심이 없다. 평가는 예언·실험·교수 프로그램의 효과 판정에 쓰이며 사회가치에 비추어 본 교육목표의 달성도를 진단한다. 총평은 예언·자격·부여·분류·실험·선발에 쓰이며 준거상태에 비추어 진단·예진(豫診)을 한다.

이상에서 살핀 바와 같이 교육평가의 개념은 측정의 개념, 총평의 개념과 다소 중복되는 측면도 있으나 그 목적·가정·활용 등에 있어 분명한 차이가 존재한다. 검사에 쓰이는 여러 가지 개념, 예컨대 규준·타당도·신뢰도·객관도 등의 개념도 평가에서 접근할 때와 측정·총평에서 접근할 때와는 전혀 달라질 수 있다.

평가는 특수한 경험에 의해 학생에게 일어난 변화의 정도를 결정하는 데 관심이 있다. 그러나 이 변화를 기술하고 검사하는 보다 능률적이고 정확한 측정의 방법은 힘에 의존하는 바 크다. 또한 한 개인이 주어진 어떤 상황에서 가장 능률을 잘 나타내고 적응할 수 있는가를 알기 위해서는 적합도를 문제삼는 총평의 방법을 차용(借用)해야 한다. 이와 같은 평가·측정·총평은 서로 그 관점이 다르기 때문에 구별되기도 하지만 교육실제에서는 서로 보완적(補完的)인 관계에서 차용되어야 한다.

또한 한 개의 검사를 측정에서 사용할 경우와 평가에서 사용할 경우는 목적·기능·역할이 달라진다. 이 말은 검사란 어느 목적으로도 변용(變容)해서 사용할 수 있다는 뜻이 된다. 비록 그것이 측정관에서 만들어진 검사라 하더라도 필요에 따라서는 평가관의 목적에 맞게 변경해서 사용할 수 있다.

<李鍾鶴>