浅析人才测评技术的发展历史与技术原理

吉宁博士 2015年12月10日人力资源管理培训

人才测评技术是以现代心理学、管理学为基础，运用先进的科学方法，通过心理测验、情景模拟等客观化方法，对社会各类人员的知识水平、能力及其倾向、工作技能、个性特征和发展潜力，实施测量和评鉴的人力资源管理活动。它是一门融现代心理学、测量学、社会学、统计学、行为科学及计算机技术于一体的综合性科学。人才测评是人力资源管理的基础环节，科学地对人才进行评价是一切人才工作的起点。

　　1、人才测评技术的发展历史

　　人才测评最早可以追溯到尧舜先古时代，那时帝王决定继承者就已萌芽让贤与能的思想火花。西周皇帝用“试射”来选拔人才，测评项目包括其行为是否合乎礼仪，动作是否合乎乐律，射中的次数有多少。这是中国人才测评的雏形。自隋始至清中叶推行的科举考试则是世界上规模最宏大的人才测评实践。在长期的用人实践中，先人对当时的人才测评作了丰富多彩的记述，并阐述提炼了许多值得后人借鉴研究的宝贵的思想。遗憾的是，古代人才测评技术的论述偏见于经史子集。而三国时魏人刘劭所着的《人物志》对人才测评作了较为系统完整的论述，是古代人才测评技术思想集大成之作，其思想宏富，内容深湛，被认为是中国心理学经典。

　　中国古代积累了丰厚的人才测评技术思想，但严格来说，这些思想由于社会历史条件、经济发展水平和文化心理的局限，决定着它是零散的、经验性的且是以定性测评为主的。1897年德国心理学家冯特设立了世界上第一个心理实验室，开始了对个体行为差异的研究，从而引发旷日持久的心理测验运动。心理测验从早期的心理缺陷诊断，后来演变为心理评价，从教育领域拓展到社会管理的其他领域，为学生升学、就业、人才选拔、晋升、培训等提供指导和服务，在西方已成为一个重要的产业。

　　随着社会的进步，人才测评技术已被广泛的应用到各个领域。20世纪五六十年代，来自西方人才测评思想和方法日新月异，开发了名目繁多，内容丰富的人才测评技术，主要有智力测验、能力测验、性向测验、成就测验、情景模拟等。

　　人才测评概念在许多场合广泛使用，也经常见诸报纸、杂志，可以说在人事工作领域到了言必称“测评”的程度。而当前的人事工作在很多管理环节都不同程度地借鉴、引用人才测评技术，小到小型公司录用新员工，大到机关考录公务员、干部竞争上岗，人员招聘考核等方面都在利用人才测评技术。

　　古代军事家孙膑曾说：“天地之间，莫贵与人。”北宋苏洵在其名篇《心术》中也开宗明义：“为将之道，当先知人，知人之道，当先知心。”又有成语：“知人善任”，古人的这些言论及成语无一不说明了选人选才之道，即现在常说的人才测评技术。

　　人才测评技术的具体对象不是抽象的人，而且是作为个体存在的人其内在素质及其表现出的绩效。人才测评技术的方法包含在概念自身中，即测量和评价。测量是指根据一定的法则给人的各项素质要素指派数字。使其有类似“数”的性质和形式，从而用数字的方法对人的素质进行描述。马克思在现代科学刚开始发展的时候就指出：一种科学只有成功地运用数学时，才能达到真正完善的地步。这就是说，定量分析是人才测评科学化的重要保证。评价(评定)则是应用在这种数学描述来确定测量对象的价值和意义。两者既有区别，又有联系。区别是：测量是定量分析，评定是定性分析，测量是客观描述，评定是主观判断。其联系是：测量和评定的对象是同一事物(个体的素质及绩效)质和量的两个方面，即量值和价值。两者相辅相成，互为一体。测量是评定的基础和前提，评定是测量的归宿和目的。

　　现在无论企业机关考录公务员、干部竞争上岗、还是公司企业录用新员工或个人进行职业生涯设计均要实施严格的测评。据美国人力资源协会有关资料报道，发达国家的50％的企业通过人才测评选拔应聘者。
2、人才测评技术的原理

　　人才测评技术要求比较高，为提升测评结果的有效性，需要有若干技术保障条件，如测评工具(试题)的难度、区分度、信度、效度等。

　　2.1难度

　　难度是指应试者解答试题的难易程度，它是衡量测评试题质量的一个重要指标参数，它和区分度共同影响并决定人才测评技术的鉴别性。难度一般用以下分式计算：P=R／N(P代表试题的难度指数，R代表试题的答对人数，Ⅳ代表考生人数)。难度指数越高，表示试题越容易；难度指数越低，则表示试题越难。一般认为，试题的难度指数在O．3～0．7之间比较合适，整份试卷的平均难度指数最好掌握在0．5左右，高于0．7和低于0．3的试题不能太多。

　　2.2区分度

　　区分度是反映测评试题区分应试者能力水平高低的指标。试题区分度高，可以有效拉开不同水平应试者分数的距离，使高水平者得高分，低水平者得低分，而区分度低则反映不出不同应试者的水平差异。试题的区分度与试题的难度直接相关，通常来说，中等难度的试题区分度较大。另外，试题的区分度也应试者的水平密切相关，试题难度只有等于或略低于应试者的实际能力，其区分性能力能充分显现出来。区分度可以用以下公式计算：D=(H-L)+Ⅳ(D代表区分度指数，H代表高分组答对题的人数，代表低分组签对题的人数，Ⅳ代表一个组的人数即高分组与低分组人数之和)。区分度指数越高，试题的区分度就越强。一般认为，区分度指数高于0．3，试题便可以被接受。

　　2.3信度

　　信度是指人才测评技术所测得的结果的一致性或稳定性，也就是测评所得到的分数的稳定、一致性程度。它既包括时间上的一致性，也包括内容和不同评分者之间的一致性或稳定性。稳定性越大，一致的程度越高，就意味着测评结果越可靠。相反，如果用某套试题对同一应试者先后进行两次测试，结果第一次得80分，第二次得50分，结果的可靠性就值得怀疑了。采用测评对人进行评价，都需要对人进行定量评价(也就是给人打分)，这样才能根据所有被评价者的得分情况，确定录用谁不录用谁。在这里有个潜在的假设，也就是对一个人的评价结果就是他的实际情况。比如，如果对某一个人进行评价，其基础能力得分为80分，则认为他的基础能力就是80分。其实，评测者永远不可能完全准确地知道被评价者在某一特征上的真实情况，也就是其真实水平(可以称为真分数)，只能借助一定的工具对其进行评价，然后得到这个人在这个特征上的分数(可以称之为测验分数)。理想的结果是，真分数和测验分数完全一致，即真分数等于测验分数。实际上，这种结果是很难得到的。举例来说，如果一个人的身高是165cm(真实分数)，也许由同一个人用同一把尺子来量，昨天得到的结果是166em(测验分数)，今天得到的结果是164cm，而明天又可能又会得到另外一个结果。

　　从上面这个例子，可以看出：真分数不等于测验分数。这就让评测者不得不去考虑，究竟在多大程度上可以相信使用测评工具所得到的结果。在上面的例子里，也就是在多大程度可以相信这把尺子测量结果。要回答这一问题，就必须计算“真分数”与“测验分数”之间的一致性(从统计的角度来讲，就是两者“相关”)，这就是“信度”。上面的例子中，其“真分数”是165cm，两次测量分数分别是166cm，164cm。如果采用这把尺子进行多次测量，得到解决的结果都在165cm附近，则所用的这把尺子的一致性比较高，也就是“信度”比较高：而如果进行多次测量，每次测量的结果与真分数相比很大，最后计算出来的“真分数”与“测验分数”的相关很低，则可以断定这把尺子的信度比较低，采用这把尺子所得到的结果不一致。信度通常以两次测量结果的相关系数来表示。

　　相关系数为1，表明测评工具如试卷完全可靠；相关系数为0，则表明该试卷完全不可靠。根据美国人才测评专业委会员的建议，一个好的评价工具、人才测评技术或者过程其信度指数应该至少达到0．7O以上，其测评结果才是一致的，可靠的。信度可用再测信度、复本信度和内部一致信度三种方法来进行了评估。再测信度是指同一试卷在相同的条件下对同一组考生先后实施两次，两次测评结果的相关系数。复本信度是指用两份或几份在构想、内容、难度、题型和题量等方面都平行的席卷进行测试，测评结果之间的相关系数。内部一致信度是指试卷内部各题之间的一致性，通常是将试卷一分为二，然后计算一半试卷与另一半试卷之问的相关系数。

　　信度对于人才测评来说有着极为重要的意义，如果一个测评工具的信度比较低，而评测者采用这一工具来对人才进行评价，则极有可能今天得到的是一个结果，明天得到的是另外一个结果，使得人才任用决策结果极不准确。然而对于这一点，很多企业部门及企业并没有足够重视，在购买外部的人才测评工具时，并没有重视测评工具的“信度”指标；在内部的评价过程中，并没有重视“信度”这一指标，常见的问题就是出现在不同评价者对同一被评价者会有极为不同的评价。

　　在实践操作过程中，企业部门和企业可以以这一指标作为准绳来检验自己所采用的工具、技术和评价过程，并采用各种方式和手段来提升测评的信度，比如购买信度较高的测评工具，对评价者进行相关的培训等。
2.4效度

　　效度是指测评的有效性和正确性程度，即测评是否能够测量出其所需要测评的特征的程度，测量出它要测定的东西，是否达到它所预定的测评目标。效度是一个相对概念，而不是一个绝对概念，即效度只有高低之分，而没有全部有效和全部无效之分。效度从种类上可分为卷面效度、内容效度、构想效度、预测效度、共时效度和效标关联效度。比如，当评测者需要评价一个人的计划能力时，如果采用某个测评工具测评的是被评价者的计划能力，则可以说这个测评工具有较高的效度；而如果采用该测评工具测评的并不是被评价者的计划能力，而只是被评价者关于计划的知识，或者其他的内容，则可以认为这项工具的效度比较低。采用效度测评工具最终得到的肯定是荒唐的结果，就像采用“尺子”来量“体重”(尺子量体重，效度接近零)得到的也是荒唐的结果一样。遗憾的是，在现实的人才测评技术中，人们对测评工具或者手段的效度并没有引起足够的重视，在对人才进行评价时所采用的测评工具或者手段的效度往往非常低。

　　2.4.1内容效度测评工具所包括的题本，能否真正代表所需要测评的内容。

　　比如，在结构化面试的时候，为了对候选人的计划能力、组织能力、应变能力等进行评价，评测者设计了一套结构化面试的题目。如果这套题目能涵括所需要评价的能力，包括计划能力、组织能力和应变能力，则可以认为这套题目的内容效度比较高；而如果不能涵括所需要评价的能力，则其内部效度比较低。在实际的工作中，企业一定要购买、设计和使用内容效度比较高的测评工具。为了确保测评工具的内容效度，有条件的企业最好购买国内比较权威机构研制的测评工具，或者聘请相关方面的专家对所编制测评工具的内容效度进行评价。在这一方面，国内很多企业并没有引起高度重视，在对候选人进行评价时，公司并没有提供统一、规范和内容效度比较高的测评工具，而由招聘人员根据他们自身的经验对候选人进行提问。殊不知而很多招聘人员由于经验的不足，或者专业训练的不够，提出的问题并没有真正代表所需要评价的内容。就像前面提到，本来想评价候选人的“计划能力”，最后变成了评价候选人关于“计划的知识”，使得整个评价“牛头不对马嘴”。在这一方面，企业还需要注意的一点就是，在评价之前，一定要真正分析所需要评价的内容，也就是说一定要进行职位分析，或者建立胜任特征模型，这样才能根据所确定需要评价的内容，并根据需要测评的内容采用内容效度高的测评工具。而如果在确定需要评价的内容时发生了错误，比如确定所需要评价的内容不是真正所需要的内容，确定需要评价的内容过多，或者确定需要评价的内容过少，则不管评测者采用什么样的评价工具，最后的内容效度都会比较低。

　　2.4.2效标关联效度

　　内容效度是指人才人才测评工具所包括的题本能否真正代表所需要测评的内容；效标关联效度则是指测评的结果与被预测的内容关联程度，这里把需要预测的内容称为“效标”。比如，如果评测者采用某一测评工具对候选人的计划能力进行评价，结果发现在测评中得分比较高的候选人计划能力强，而得分比较低的候选人计划能力差，则评测者所使用的测评工具的效标关联效度比较高；反之，如果在测评中得分比较高的计划能力并不一定强，得分比较低的计划能力并不一定差，则评测者所使用的测评工具的效标关联效度比较低。

　　根据所使用的效标的不同，可以把效标关联效度分为两种：预测效度和同时效度。预测效度是指先采用测评对研究对象进行测评，等过一段时间之后再对研究对象的“效标”进行测评，然后计算两者之间的关系。比如，公司在招聘销售人员的时候，先采用某一测评工具对所有候选人进行了测评，这样每名候选人员都有一个得分(测验分数)。等这些候选人在公司工作了一段时间之后，搜集这些人员的效标数据(这里为实际业绩)。然后，计算测验分数和实际业绩之间的相关。如果测验分数和实际业绩之间的相关很高，则所使用的测评工具的预测效度很高，公司在今后招聘销售人员时可以继续使用测评工具；反之，如果两者之间的相关很低，则所使用的测评工具的预测效度很低，公司在今后招聘销售人员时应该放弃使用这一测评工具。

　　由于预测效度需要的时间长，所以很多时候评测者都采用同时效度。比如，公司需要考察某一测评工具的预测效度(即采用这一工具来招聘新的员工是否合适)，可以先采用该工具对公司内部人员进行测评，然后获取公司内部人员的效标数据(这里一般为实际业绩)，然后计算测评结果与实际业绩之间的相关(同时效度)。同时效度在获取上相对来说更为容易，但是因为同时效度会受到参加测评人员的工作经验的影响，因而从预测准确性的角度来看要略低于预测效度。

　　3、总结

　　由此可知，人才测评技术的基础特点就是针对评价目标，通过定性、定量的方式对人的能力、个性等基础素质进行测试、分析和评价。它能够深入了解人本身的特质，能够发现许多其他方法难以考察的信息，比其他方法更具有客观性。更多的定量化使所测内容更精确，且具有较好的可比性，能在较短的时间内提供人才的某些重要才能和心理素质的比较信息，提升人才评价的准确性和客观性。

吉宁博士观点

浅析人才测评技术的发展历史与技术原理

About 吉宁博士

讲师推荐

浅析人才测评技术的发展历史与技术原理

About 吉宁博士

讲师推荐

经典创业书籍推荐

创业者和企业家必备的三本书籍推荐

财务人员必看的四本书，你读过哪些？