国家统计局统计科学研究所 何 平
一、我国综合评价活动的发展
改革开放前,我国评价活动主要运用的是单个指标通过简单比较而进行的,这是与当时的计划经济体制密切相关的。在计划经济体制下,统计制度的设计是围绕着计划管理展开的,政府宏观管理重视的是物质生产领域的产值、产量统计,指标的运用相对比较简单,非物质生产领域的统计活动可以说几乎是一片空白,不可能进行较为复杂的评价。对于物质生产领域的统计评价,也多侧重于计划完成程度和计划进度的评价,以及发展速度和增长速度的评价。再有,计划经济体制的特点是“全国一盘棋”,地方和企事业单位的资金、人员、任务、工作量均通过计划来调节,地方或企事业单位的“优”是计划安排下的“优”,地方或企事业单位的“劣”也同样是计划控制下的“劣”,从而缺少“评优评劣”这一评价永恒主题存在的土壤。党的十一届三中全会以后,地方或企事业单位自主权的增加以及个性化发展,随之而来的市场化进程,客观上提出了从多个角度进行综合评价的要求;改革开放促进了统计方法的国际接轨,使得我国政府统计的范围得到了拓展,统计内容也日益丰富,为实施综合评价提供了必要的条件;国外一些专题研究成果,如可持续发展、知识经济、创新等的引入为国内研究提供了可借鉴的素材。在这样的背景下,多指标、多单元(多地区、多单位)的综合评价活动得到迅速的发展。二、综合评价实践中存在的问题
认真总结我国各领域综合评价的实践,主要存在以下一些问题:
(一)评价指标体系不能很好地体现选题
选题是一项研究活动的开始,是研究对象与研究目的相互结合的焦点。在一些理论研究项目中,研究进程需要自始至终地围绕选题展开。与理论研究项目有所差别的是,在综合评价中,选题还需要通过指标体系来得到具体而清晰的体现,而后,评价活动围绕着指标体系而展开并最终得到结果。从一定意义上讲,评价指标体系是综合评价活动成败的关键。但是,在近年来的一些综合评价中,经常出现评价指标体系与选题,即研究对象和研究目的不协调或不十分协调的问题。
一是往往不能够突出选题的特点。如,对可持续发展的评价过多地罗列一些经济增长指标,而忽视了“可持续”的要点。对现代化的评价只注重一些反映经济外延规模或水平的指标,以及人民生活水平提高的指标,而丢失了现代化与先进生产力水平的重要联系。对竞争力的评价也是如此,往往注重的是经济规模的扩大、流量水平的提高、高新技术产业的增长等一些表面上的东西,而忽视了竞争力最为本质的方面——与投入节约相关联的产出增长及内在质量的提高、存量的增加和市场化程度的提高等。
二是为追求“全面”,罗列过多的指标使不同选题的指标体系雷同,很难体现出选题的个性。我们都知道,对“实力”、“绩效”、“竞争力”、“进步”、“创新”的评价应该是各具特色的,但在实际操作中为了追求全面可靠,往往将有点联系的指标不管三七二十一都罗列上去。如果我们将目前已完成的一些关于科技实力、科技绩效、科技竞争力、科技进步、科技创新的综合评价指标体系加以比较,就会发现这些评价指标体系中罗列的指标大体是相同的。
三是为规避资料取得的难度,而自创一些似是而非的指标。在综合评价中,为了扩充评价指标体系包含的信息量,而同时又保持指标体系的简明,在一些情况下需要将若干基础指标加以综合,以综合指数的形式来反映某一方面的特征。例如,在全国科技进步监测中,将若干个反映环境改善的指标加以综合而计算出环境改善指数,将不同的国家级成果奖项和获奖等级进行加权处理综合而成获国家级奖成果系数等。但这一方法在许多综合评价中却往往成为规避资料取得难度的变通的方法。如,有的综合评价中列出差异指数,从其评价的目的看理应是根据中国的特殊国情反映城乡差异、地区差异的指标,但实际上深究其综合的基础指标,只是男女就业上的差异和男女受教育程度的差异。在反映产业竞争力上常常选择产业相似系数,但有些评价中由于资料的限制,只能变通为用工业行业的相似系数来代替,使得评价效能大打折扣。
四是评价指标与评价目的不一致,甚至相互矛盾。即使是同一研究对象,研究目的也可能有所不同。如同样是对科技进步进行评价,评价的目的有可能是科技进步水平,也有可能是科技进步的速度,还有可能是科技进步的贡献。又如,同样是对可持续发展进行评价,有可能是可持续发展的水平,也有可能是可持续发展状况改善的速度。不同的目的必然要求在指标设置上有所体现。但在一些综合评价指标体系中,与评价目的不符的指标时有出现,如评价目的是产业结构的优化,但指标体系中既包括第二产业、第三产业增加值占比重,又包括第一产业增加值占比重。三个产业占比重指标全部列入指标体系,显然难以真正达到反映出结构优化的目的。还有,目前的综合评价中将反映规模、反映一般水平、反映速度的指标罗列在一起的现象也是十分常见的。
(二)评价方法运用不当
80年代以来国内综合评价活动中运用的评价方法可划分为两类:一类属于经验方法,另一类属于数学方法。经验方法的优点是计算简单、适用面广,且方法应用过程的解释较为直观。数学方法的优点是理论基础牢固、可排除人为因素的干扰,如能够正确应用可大大提高综合评价的客观公正性。但这两类方法又都有一些缺陷。经验方法受人为因素的干扰较大,且评价效果与评价实施者对评价对象了解的深入程度、对方法运用上的细节把握的好坏有关。数学方法较为突出的缺点在于其约束条件太多,而现实的评价对象往往又不能满足这些条件,只能在许多假定的基础上,或在进行一系列变通处理后应用。例如,在80年代中后期一度十分流行的技术进步贡献率的测算,因其资本投入和劳动投入不能很好地落实到现实中较为理想的指标上,且α和β的设定上的人为因素太大,有些地区得出的技术进步贡献率居然与美国等发达国家平起平坐。再有,数学方法的研究过程难以被外行所理解,例如,因子分析中因子是个什么?是不能用通常被大家理解的评价指标的具体含义来解释的。主成分分析中第一主成分、第二主成分、乃至第三主成分的具体涵义是什么?是怎么得出来的?许多评价并没有给予解释或给予较为清楚的解释,结果往往是由于不好解释而一带而过。从而影响到评价结果的可信度。
综合评价方法许多专业书籍中都有所介绍,作为经验方法而言可谓是通俗易懂,即使是数学方法,随着计算机的发展,运用一些专业软件进行运算也不是什么难事了。但是,要成功地完成一项综合评价,不仅要知其然,还需要知其所以然。基础数据为什么要用相对化处理而不用标准化处理,或为什么用标准化处理而不用相对化处理,一层层的指标值为什么用层次分析法综合而不用距离法综合,看似随意,实际上是有一些讲求的。但从现实中的一些综合评价看,方法的选择过于随意,过于“粗放”。
(三)权重的确定缺乏科学的依据
多数综合评价都要涉及到权重的确定,对此可以采用多种多样的方法。在目前进行的评价活动中,大多数采用德尔菲法与层次分析法相结合的方法,即初始权重的确定采用德尔菲法,之后通过层次分析法对初始权重进行处理和检验,以生成各层指标的权重。就这一方法而言,问题并非出在技术层面上,而往往出在专家的聘请及经费的投入上。采用德尔菲法的前提条件是,专家应该是对本领域具有深入透彻了解的人。但在中国的现实中这样的人多是纯粹的专业技术人员,没有什么“名气”,缺乏权威性,影响力也小,因此,一般都是请具有一定级别和影响力的官员来“压阵”。再有,一般的研究项目,大多是对权重确定的费用忽略不计的,但在实际操作上,认真地、按部就班的确定权重,特别是在专家的聘请上花费是较大的。按照德尔菲法的要求,聘请二、三十位专家是必要的,而且是一个不断“反馈——集中”的过程,最少应有两个轮回才能达到较为理想的效果。显然,这一笔费用在当前软科学项目研究经费本来就不多的情况下却是十分可观的。况且,由于众所周知的原因,即使聘请的是真正的专家,专家认真地赋权,研究者认真地按规程操作,得到了权重也不一定“好使”。这样,在现实的评价过程中,大多采用“虚拟”赋权的方法,即,把权重当成“调整系数”,用来调整评价结果,以使评价结果与大家的感受,特别是研究项目甲方的意向相附和。
(四)标准的确定存在随意性
评价离不开比较,要比较就要有比较标准,或称为评价标准。如何确定评价标准,评价标准是否科学,这两个问题直接关系到评价结果的科学性。但是从现实的许多综合评价活动看,在评价标准的确定上随意性十分明显。例如,在用功效系数法时,满意值和不允许值两个阈值多选择实际值的最大值和最小值,用相对化处理方法时,标准值多选择实际值的最优值。上述做法确实简便,但从综合评价理论上讲,这只是一种不得已的最差的选择。
三、原因及建议
综合评价无论是指标体系的设计、评价标准的选择,还是权重的确定,以及指标的无量纲化处理方法等,从方法论的角度看,都已经相对成熟,而且技术难度不大。即使是一些数学方法,由于统计软件的普及,操作起来也并不困难。那么为什么在目前的综合评价活动中会出现上述诸多带有普遍性的问题呢?笔者认为,虽有技术层面上的原因,但真正的症结往往出在非技术层面上。
首先,我国现阶段的多数综合评价都是官方主导下开展的。其优点在于可以获得经费支持,且具有权威性。但是缺点也是显而易见的。一是评价结果必然带有官方色彩,官方的意见往往成为主导评价结果的“定向标”;二是评价结果与官方的“荣辱”有着一定的联系。评价结果的正确性向来是仁者见仁,智者见智,出现不同意见是很正常的。但如果某一评价结果与一些官员的感觉出现明显不一致时,可能就会带来一些不必要的“麻烦”。因此,这就迫使评价的实施者非常谨慎地、十分稳妥地处理评价结果,努力做到与官方保持一致。相反,有些评价结果,虽然能够自圆其说,但由于不能保持这样的一致性,而倍受各层面的谴责,甚至遭到某些媒体的封杀。
其次,我国现阶段软科学项目的经费支持水平太低。一个项目一般至多也就是8~10万元。扣除经费管理费、成果印刷费、专家鉴定费等固定支出,项目能够动用的经费至多也只有5~7万元。如果在权重的确定上,在标准的确定上,或在资料的搜集上花费过多,真的是所剩无几了。对于目前基本靠项目经费维持的研究机构而言,只能是因陋就简地做一些表面文章。
第三,我国现阶段统计资料公开的程度太低。这与计划经济体制遗留下来的政府统计机构资料保密制度有关。许多资料,即使是统计部门的工作人员使用也是要费一番周折的,何况是局外人。
第四,我国现阶段缺少真正独立的、公正的评估机构。不像自然科学项目或工程项目,软科学项目缺少一些硬性标准。即使是社科基金项目,都是请一些圈内人士做个鉴定,说好话的多,挑毛病的少。
以上四点可以说影响目前综合评价活动科学性的十分重要的外部原因,相信这些问题在当前体制变革的过程中最终会得到解决。但作为评价的实施者,应意识到“人言”、“口碑”对自身的重要性,特提出以下建议。
首先,综合评价的实施者应保证遵守公平公正的原则。既然是评价,就必须做到公平和公正,这就要求评价的实施者在制定评价指标体系时,在确定评价标准时,在选择评价方法时,不能带有任何带有倾向性的思维。面对我国各地区发展各具特色且差异较大的状况,在观念上不能出现偏向。特别是要摆脱研究项目甲方的有形或无形影响。要尽可能避免“研究项目甲方是北京,评价结果替北京说话;研究项目甲方是上海,评价结果替上海说话”的情况出现。
其次,综合评价要避免急功近利。综合评价需要一定的资金支持,这是毫无疑义的。综合评价涉及到评价实施者的名声,这也是毫无疑义的。因此,综合评价切不可为了经费的结余而偷工减料,同样也不可为了功利目的,在一些条件尚不成熟时,或外部压力较大时,采取故弄玄虚的方式以达到哗众取宠的目的。这样对评价实施者并没有什么好处。
第三,要正确理解和正确发挥综合评价的功能。综合评价的功能可以概括为两点:其一是评优,即通过排序而评判出先进和落后,这是综合评价的基本功能,也可以说是最直接的功能;其二是揭示问题,即通过总排序和各层的排序与基础指标之间的联系,对其存在的问题进行揭示,从而对决策都提供有益的参考,这是综合评价较为深层次的功能。综合评价不是到排序就结束了,而是刚刚开始。只有真正发挥好揭示问题的功能,综合评价才具有现实意义。
第四,要吃透选题。从我国综合评价活动发展的轨迹看,主题推动的特点十分明显。80年代初,理论界有关经济效益的讨论成为综合经济效益评价的先导;80年代中期,邓小平同志“科学技术是第一生产力”的理论与科技领域的各种综合评价密切相关;进入90年代后,创新理论、可持续发展、知识经济、竞争力、现代化等主题都掀起了一轮又一轮综合评价的热潮。但是,一些研究者却没有很好地在吃透选题是下功夫,缺乏以上这些主题的相关理论研究基本功,只是从主观臆断上,或从别人的研究成果上寻求“突破”,导致了相关理论的空洞化和评价体系的庸俗化。再有,一些研究者没有从中国的基本国情出发,而是不加选择地照搬国外的体系和方法,并以此作为科学性的依据来加以宣传,给人以拉大旗做虎皮的感觉。
吃透选题是设计指标体系,确定评价标准的关键。只有根据选题的特殊性而设计的指标体系和评价标准才能达到正确评价的目的,也是避免指标体系与选题分家的有效途径。