现代教育测量与评价第一章:教育测评概述第一节:教育测量概述 1、从广义上来讲,测量是根据法则给事物分派数字。此定义包含了三个方面的特性:法则、事物、数字。2、法则是测量的标准,也就是测量的依据和准则,即我们根据什么来进行测量。事物是测量的对象,也就是对什么进行测量。数字是测量结果的表现形式。3、测量的三个要素:单位(如米、克,教育测量的单位不能直接加减乘除);参照点(计算的起点,有绝对零点和相零点);量表(测量工具)。4、将量表从低级到高级排列主要有四种量表水平:类别量表水平、顺序量表水平、等距量表水平、比率量表水平。5、教育测量是根据测量学的原理和方法对教育现象及其属性进行数量化研究的过程。它主要包括对学生的内在精神属性的测量,教育测量主要是一种间接的测量。6、教育测量的特点有测量结果的间接性,度量单位的相对性,测量对象的复杂性,测量目的的针对性。7、教育测量过对象的复杂性:首先,他是内在的,不能直接测量;其次它是多变的;另外,有些主客观因素也会影响测量 的结果。第二节:教育评价概述1、评价是根据某种价值观对事物及其属性进行判断、衡量。2.、哲学史上三种价值观:客观主义价值观;主观主义价值观;辩证唯物主义价值观。3、教育评价是指根据一定的教育价值观或教育目标,运用可行的科学手段,通过系统地收集信息、分析解释,对教育现象进行价值判断,从而为不断优化教育和教育决策提供依据的过程。4、国外学者关于教育评价的观点:泰勒:确定教育目标在实际上被理解到何种程度的过程;克龙巴赫:评价是为决策提供信息的过程;斯克里文和豪斯:评价是一种对优缺点和价值的评估,是一种既有描述又有判断的活动;大桥正飞夫:教育评价就是对照教育目标,对教育行为产生的变化进行价值上的判断。4、教育评价与教育测量的关系:教育测量不是教育评价,但是两者有密切的联系。教育测量是教育评价获得数据资料的重要手段。测量是评价的依据,评价是测量的具体体现。两者又是有区别的,测量关心的是数量的多少,评价关心的是价值的高低,测量是一种纯客观的过程,评价带有主观性,是主观估计和客观测量的统一,测量是一种单一的活动,评价是一种综合的活动。5、教育评价具有导向功能、监督检查功能、激励功能 、筛选择优功能、诊断改进功能。6、教育评价的种类:根据评价的对象和范围的不同,可以分为宏观、中观、微观教育评价;根据评价的时间和作用不同,可以分为诊断性、形成性和总结性评价;根据评价的基准不同,可以分为相对评价和绝对评价;根据评价的性质不同,可以分为需要性、可行性和配置性评价;根据评价的主客体不同,可以分为自我评价和他人评价。7、在教育、教学活动开始之前,为使计划更有效地实施而进行的预测性、摸底性评价是诊断性评价。8、形成性评价指在教育、教学活动计划实施的过程中,对计划、方案执行情况进行的评价。9、总结性评价指某一教育、教学活动项目,是告一段落或完成以后进行的评价。第三节:教育测评的发展阶段1、 教育测量的历史知识: 学记记载中国在西周实行了教育考评; 1702年英国剑桥大学首先用笔试代替口试; 1845年美国在初等教育中以笔试代替口试; 1864年英国费舍收集学生成绩样本汇成量表集开启了标准化测量的萌芽; 1897年莱斯的拼字测验推动教育测验的发展; 冯特的测量方法和高尔顿的统计方法对教育测量产生重大影响; 1905年法国比纳-西蒙智力量表具有经典型; 1904年美国的桑代克为教育测量之父,其名言:“凡是存在的东西都有数量,凡是有数量的东西都可以测量”。 美国的教育测验运动分三个时期:1904-1915开拓期,1915-1930为兴盛期,1930-1940为批判期。1931年塞蒙兹主张人格测量应用评定发、问卷法、交谈法、轶事记录法等。2、1904年桑代克发表了精神与社会测验学导论,标志着教育测验运动的开始。3、泰勒主持了课程设置和成绩测试的“八年研究”(1933-1940年),首次提出了“教育评价”的概念,并发表了史密斯泰勒报告,此报告誉为“划时代的教育评价宣言”,泰勒被称为“教育评价之父”。4、1963年,克龙巴赫发表了通过评价改革课程。5、1967年,斯克里芬发表了评价方法论第一次对形成性和终结性评价等不同类型的评价之间做了区分。第二章:教育测量的质量指标 第一节:信度1、信度是测量结果的稳定性或可靠的程度,即测量的结果是否真实、客观地反映了考生的实际水平。可以从三个方面来理解信度:实测值与真值相差程度;统计量与参数之间接近程度;两次重复测量或等值测量之间的关联程度。2、计算信度的几种常用的方法:稳定性系数:又称为重测信度,它是指用同一测验试卷,在先后两个不同时间内同一组被试进行测验,两次测验实得分数的相关系数。这是估量信度最简单的方法。等值性系数:先实施第一次测验,然后在最短的时间内实施第二份等值的测验,再求他们得分的相关系数,这个相关系数就是信度的等值性系数。内部一致性系数:把一次测验人为地分成两部分,比较两个部分的一致程度,从而估计信度系数。估计方法有两种:分半信度和库德尔-理查森公式法。论文式测验信度系数;评分者信度。3、信度系数以多大为宜:对于学科测验,信度系数要求达到0.9以上,智力测验要求达到0.8以上,品德测验能达到0.6以上。4、测量误差的来源基本可分为三类:第一类误差产生于测验的本身;第二类误差与特定的实施条件有关;第三类误差包括被试本身的变化。5、提高测验信度的方法:适当增加测验题目的数量;测验的难度要适中;测验的内容应尽量同质;测验的程序要统一;测验的时间要充分;评分要尽量做到客观化、减少评分误差。第二节:效度1、效度是测量结果的准确性和有效性程度,也是指测量是否达到了预期的目的。2、效度分为三大类:内容效度、效标关联效度、结构效度。3、内容效度是指测验目的代表所欲测量的内容和引起预期反应所达到的程度。估计内容效度的方法有:逻辑分析的方法和用测验题目与教材内容比较的方法。4、效标关联效度又称为经验效度和统计效度,是以测验分数和效标之间的相关系数来表示测验的效度的高低的。5、结构效度是指一个测量能实际测量出理论上的狗年或者心理特性的程度。6、影响效度的因素:测验的组成;测验的实施;被试主观状态方面;估计效度所依据的效标;样本方面。7、提高效度的方法:控制系统误差;精心编制量表;妥善组织测验;扩充样本的容量和代表性;合理处理效度和信度的关系;适当增加测验的长度。第三节:难度1、难度是测验试题的难易程度,是试题对学生知识和能力水平的适合程度的指标。公式:P=、R/N;P表示难度指标;N代表参加考试的总人数;R表示答对某道客观题的人数。2、难度对测验的影响:影响测验分数的分布形态;影响测验分数的离散程度;影响测验的鉴别能力。3、影响题目难度的因素:考查知识点的多少;考查能力的复杂程度或层次的高低;考生对题目的熟悉程度;命题的技巧性。4、在常模参照性测验中要求试题难度适中,即大多数题目的难度在0.3- 0.7之间,整个试卷平均难度在0.5左右。第四节:区分度1、 区分度是指测验对考生实际水平的区分程度。公式:D=PH-PL;D代表区分度;PH表示高分组的难度;PL表示低分组的难度。D0为正区分,D0为负区别,D=0为零区。 2、要想达到理想的测验信度,提高区分度是一个好方法。难度适中可以使区分度达到最大值。3、提高区分度的方法:使题目的难度适中,使整个考试的难度适中;着重考察复杂的学习结果。第三章:教育测验的编制与实施第一节:测验目标的确定1、 测验目标:测验所要达到的某种具体目的,它明确规定测验所要达到的预期结果或标准。是编制测验的出发点和依据。2、布卢姆把教育目标分为认知领域、情感领域和动作技能领域的目标。他把认知领域的教育目标分为知识、应用、理解、分析、综合和评价六类。3、1964年,布卢姆等人发表了教育目标分类学:第二分册:情感学习领域。4、1977年,加涅