等级-频次分布在R&D资源管理中的应用
庞景安 (中国科学技术信息研究所)
一、中国 R&D 资源分布的集中化趋势
由于 R&D 活动具有高度的专业性和创新性,它不仅需要较大的资金投入,同时也具有很高的风险性。因此,只有少数具有资金支持,技术基础和人才优势的国家和地区才能够有效地开展 R&D 活动。在世界范围内, R&D 资源主要集中在少数经济发达的国家。中国的 R&D 资源也主要分布于经济相对发达的地区和国家重点支持的机构。
例如, 2000 年中国 R&D 经费支出集中分布在北京、广东、上海、江苏、山东、陕西、四川、辽宁、湖北、浙江等 10 个地区,这 10 个地区的 R&D 经费之和占全国总量的 74.3% ,而最后 10 个地区的 R&D 经费之和仅占全国总量的 4% 。

图 1 2000 年中国 R&D 经费支出的地区分布

图 2 2000 年中国 R&D 人力投入的地区分布
同样, 2000 年中国 R&D 人力投入集中分布在北京、广东、江苏、陕西、四川、上海、辽宁、山东、湖北、河南等 10 个地区,这 10 个地区的 R&D 人力之和占全国总量的 65.1% ,而最后 10 个地区的 R&D 人力投入之和仅占全国总量的 7% 。
从图 1 、图 2 可以看出,中国 R&D 资源地区分布的集中趋势非常明显,图形呈现为典型的偏斜双曲分布。为定量研究中国 R&D 资源分布的集中化趋势,达到有效预测和管理 R&D 资源的目的,本文利用文献计量学的数学模型对中国 R&D 资源的地区分布与集中度进行定量化研究和实例分析。
二、文献计量学理论与等级 - 频次分布方法
文献计量学是运用数学和统计学的方法,对文献工作中的某些问题进行定量化研究的学科。大多数的文献计量学研究着重讨论观测事件出现频次的分布问题,利用等级 - 频次 (Frequency-Rank) 或规模 - 频次( Frequency-Size )等数据处理方法,建立数学模型,研究文献计量指标相对变化情况,以及变化过程中各种因素间相互影响的量化关系。
等级 - 频次分布是文献计量学中常用的一种函数分析关系 X-f(X) ,其中自变量 X 是信息发生源按照其生产物数量递减顺序定义的等级序号;而因变量 f(X) 为频次,表示等级为 X 的信息发生源的产出数量或所占比例。这种类型的分布属于等级统计学的研究范畴,在文献计量学研究中占有十分重要的地位。许多具有历史发展意义的奠基性定律,如齐普夫定律、布拉德福定律等都是通过等级 - 频次分布建立的。
由于社会现象的复杂性, 与自然科学领域众多随机现象大多服从泊松分布、高斯分布不同。在社会科学及生物、经济学领域,绝大多数现象大多服从负幂分布、指数分布或布拉德福分布,即 P(X) = A + BlogX 。例如,较长文章中词的出现次数,科技论文在刊载期刊中的分布,作者发表文章的篇数,企业的规模,居民的收入,城市人口分布等等。这些现象的发生、发展往往受人的意志作用,通过人的思维判断、选择鉴别进行,因此带有十分明显的倾向性,在经验分布上则表现出很大的一致性,被专家学者称为布拉德福现象。
三、 中国 R&D 资源地区分布及集中度的定量研究
在以上的讨论中,将期刊和论文等具体定义转化为抽象的概念信息发生源( Source )和各种生产物 (Iterm) ,例如,开展 R&D 活动的单位投入的 R&D 经费和 R&D 人力,就可以利用文献计量学的等级 - 频次分布 对中国 R&D 资源地区分布及集中度进行定量化研究。
( 一 ) R&D 经费的等级 - 频次分布
从 《 中国科技统计年鉴》中,查出 1999 ~ 2001 年中国 31 个省市 R&D 经费支出的统计数据 [1] [2] [3] ,将全部数据进行降序等级排列,并利用最大等级法归并相同或相近的数据项。通过建立双对数或半对数坐标系,分别导出 R&D 经费指标在 lgX-lgY , X-lgY 和 lgX-Y 三种坐标系中的等级—频次分布。从图 3 、图 4 和图 5 可以看出,无论是哪种坐标系, R&D 经费指标的分布曲线都呈现自左上至右下递减的线性走向。其中, lgX-lgY 坐标系,三年的分布曲线非常相似,在大部分近似直线的情况下,曲线的尾部都出现下垂的趋势; X-lgY 坐标系,三年的分布曲线基本近似直线,与 2000 和 2001 年相比, 1999 年的曲线呈现一些波动;而 lgX-Y 坐标系,三年的分布曲线也都近似直线,但三条曲线差别较大, 2000 和 2001 年的分布接近直线,而 1999 年的分布则呈现部分下弯。

图 3 1999 ~ 2001 年中国各省市 R&D 经费的等级 - 频次分布( lgX-lgY )
图 4 1999 — 2001 年中国各省市 R&D 经费的等级 - 频次分布( X — lgY )

图 5 1999 — 2001 年中国各省市 R&D 经费的等级 - 频次分布( lgX — Y )
表 1 给出中国各省市 R&D 经费等级 - 频次分布在三种坐标系中的线性回归参数值和相关系数。在作回归分析时,除 lgX-lgY 坐标系中略去尾部下垂的 3 ~ 4 个省市的数据,以更好地模拟曲线的线性部分外,在 X-lgY 和 lgX-Y 坐标系中基本包括全部数据项,仅略去取负值的数据。
根据等级 - 频次分布模型的数学特性,设 lgX-lgY 坐标系中的线性方程为
lgY = lgC + algX
设 X-lgY 坐标系中的线性方程为
lgY = lgC + aX
设 lgX-Y 坐标系中的线性方程为
Y = C + algX
r 为相关系数。
表 1 中国各省市 R&D 经费投入的等级 - 频次分布
年度 |
lgX-lgY 坐标系 |
X-lgY 坐标系 |
lgX-Y 坐标系 |
||||||
C |
a |
∣ r ∣ |
C |
a |
∣ r ∣ |
C |
a |
∣ r ∣ |
|
1999 |
154.88 |
-0.96 |
0.9705 |
87.10 |
-0.058 |
0.9854 |
93.90 |
-68.08 |
0.9571 |
2000 |
229.09 |
-0.95 |
0.9558 |
134.90 |
-0.059 |
0.9850 |
134.78 |
-97.02 |
0.9803 |
2001 |
281.84 |
-0.98 |
0.9531 |
165.96 |
-0.063 |
0.9818 |
156.01 |
-113.13 |
0.9838 |
比较表 1 中不同坐标系和不同年度的 C 、 a 、∣ r ∣值,可以发现一些规律,并得出一些结论。
第一,所有 a 值均小于零,表明各回归直线都具有负斜率,这与分布曲线左上 – 右下的走向是一致的。
第二,在 lgX-lgY 和 X-lgY 坐标系中,三个年度分布曲线的 a 值基本相同,表明近几年中国各省市 R&D 经费投入的模式大致相同,各省市 R&D 经费投入的变化幅度不大,在宏观上表现出相似的分布曲线。
第三,在 lgX-Y 坐标系中,三个年度分布曲线的 a 值差别较大,绝对值呈逐年递增的趋势,表明各曲线变化规律不尽相同,这与图 5 中反映出的情况是一致的。说明未求对数的较大频次值 Y ,与不成比例的极小 lgX 相匹配,掩盖了曲线斜率的波动。 因此,可以认为 lgX-Y 坐标系一般不适于从整体上描述频次值较大的等级 - 频次分布规律。
第四,在不同坐标系中,随着年度的变化, C 值逐渐增大,表现出中国各省市 R&D 经费投入不断增长的趋势。
第五,比较不同坐标系的∣ r ∣值, X-lgY 坐标系中的∣ r ∣最大,也最稳定; lgX-lgY 坐标系中的〡 x 〡最小。这表明在 X-lgY 坐标系中,回归直线的拟合程度最好,这可以从图 4 中直观看出。因此,研究中国各省市 R&D 经费的等级 - 频次分布时,半对数坐标系 X-lgY
是最理想的坐标系。相应地,将负指数函数 Y = C10 -ax (a > 0) 或 Y = Ce - bx (b > 0) 作为描述 中国各省市 R&D 经费状况的等级 - 频次分布也是最适合的。
( 二 ) R&D 人力的等级 - 频次分布
通常某国家或地区的经济指标与人口指标的分布及排序往往是不一致的。因此, R&D 经费与 R&D 人力 的等级 - 频次分布也可能很不相同。从 《 中国科技统计年鉴》中,查出 1999 ~ 2001 年中国 31 个省市 R&D 人力投入的统计数据 [1] [2] [3] ,将全部数据进行降序等级排列,并利用最大等级法归并相同或相近的数据项。通过建立双对数和半对数坐标系,分别导出 R&D 人力指标在 lgX-lgY , X-lgY 和 lgX-Y 三种坐标系中的等级 - 频次分布。从图 6 、图 7 和图 8 可以看出,无论是哪种坐标系, R&D 人力指标的分布曲线与 R&D 经费指标的分布曲线的变化情况 都非常相似。同时,三年的分布曲线表现出更好的一致性。

图 6 1999 ~ 2001 年中国各省市 R&D 人力的等级 - 频次分布( lgX-lgY )

图 7 1999 ~ 2001 年中国各省市 R&D 人力的等级 - 频次分布( X — lgY )
图 8 1999 ~ 2001 年中国各省市 R&D 人力的等级 - 频次分布( lgX-Y )
表 2 中国各省市 R&D 人力投入的等级 - 频次分布
年度 |
lgX-lgY 坐标系 |
X-lgY 坐标系 |
lgX-Y 坐标系 |
||||||
C |
a |
∣ r ∣ |
C |
a |
∣ r ∣ |
C |
a |
∣ r ∣ |
|
1999 |
125.89 |
-0.717 |
0.9371 |
72.44 |
-0.038 |
0.9897 |
81.74 |
-52.68 |
0.9869 |
2000 |
173.78 |
-0.756 |
0.9352 |
95.50 |
-0.038 |
0.9946 |
105.02 |
-67.85 |
0.9928 |
2001 |
173.78 |
-0.762 |
0.9164 |
95.50 |
-0.039 |
0.9962 |
102.68 |
-66.07 |
0.9894 |
表 2 给出中国各省市 R&D 人力等级 - 频次分布在三种坐标系中的线性回归参数值和相关系数。在作回归分析时,除 lgX-lgY 坐标系中略去尾部下垂的 3 ~ 4 个省市的数据,以更好地模拟曲线的线性部分外,在 X-lgY 和 lgX-Y 坐标系中基本包括全部数据项,仅略去取负值的数据。
比较表 1 和表 2 的数据可以发现 R&D 人力等级 - 频次分布 的几个特点:
第一,与 R&D 经费等级 - 频次分布相比,不同年度的 R&D 人力等级 - 频次分布具有更好的一致性,其中 lgX-lgY 和 X-lgY 坐标系中的 a 值非常近似,甚至相等。说明近年来,中国各省市 R&D 人力投入模式基本相同,没有太大的变化。
第二,在不同的坐标系中, 2000 年与 2001 年的 C 值和 a 值非常接近,甚至相等,说明这两年中国各省市 R&D 人力投入在数量与模式上都无大的变化,所以分布曲线趋于重合。这从图 6 、图 7 中可以直观地看出。
第三,比较不同坐标系中的∣ r ∣值,发现还是 X-lgY 坐标系中的∣ r ∣最大, lgX-lgY 坐标系中的∣ r ∣最小,说明对于描述 R&D 人力投入状况,负指数函数 Y = C10 -ax (a > 0) 或 Y = Ce -b x (b > 0) 仍然 是最适合的分布模型。
第四, lgX-Y 坐标系中的∣ r ∣值也很大,但从图 8 中看出,分布曲线的一致性较差,所以并不是一个理想的分布模型。
( 三 ) R&D 资源等级 - 频次分布的统计检验
表 3 是 2000 年中国 R&D 经费等级频次分布的统计及检验数据。通过 表 3 的数据可以看出,由 lgX-lgY 坐标系导出的负幂分布,其理论计算值在等级序列的首部和尾部都有较大的误差;由 lgX-Y 坐标系导出的布拉德福分布,其理论计算值在等级序列的尾部也有较大的误差,最后部分甚至出现了负值;而由 X-lgY 坐标系导出的负指数分布,其理论计算值只是在等级序列首部的个别点存在一定差距,尤其是等级为 1 的点误差比较大。数据说明我国中心城市 R&D 经费投入与其他省市有较大差距, 这与文献计量学中高产作者、高频词等所表现出的情况是非常一致的。
表 3 2000 年中国 R&D 经费等级 - 频次分布统计检验数据表
等 级 |
观测值 |
lgX-lgY |
离 差 |
X-lgY |
离 差 |
lgX-Y |
离 差 |
lgX-lgY |
X-lgY |
lgX-Y |
1 |
155.7 |
229.09 |
-73.39 |
117.76 |
37.94 |
134.78 |
20.92 |
23.51 |
12.22 |
3.25 |
2 |
107.1 |
118.58 |
-11.48 |
102.80 |
4.30 |
105.57 |
1.53 |
1.11 |
0.18 |
0.02 |
4 |
73.5 |
61.38 |
12.12 |
78.34 |
4.84 |
76.37 |
-2.87 |
2.39 |
0.30 |
0.11 |
5 |
52 |
49.66 |
2.34 |
68.39 |
-16.39 |
66.97 |
-14.97 |
0.11 |
3.93 |
3.34 |
6 |
49.5 |
41.76 |
7.74 |
59.70 |
-10.20 |
59.28 |
-9.78 |
1.43 |
1.74 |
1.61 |
7 |
44.9 |
36.07 |
8.83 |
52.12 |
-7.22 |
52.79 |
-7.89 |
2.16 |
1.00 |
1.18 |
8 |
41.7 |
31.77 |
9.93 |
45.50 |
-3.80 |
47.16 |
-5.46 |
3.10 |
0.32 |
0.63 |
9 |
34.8 |
28.41 |
6.39 |
39.72 |
-4.92 |
42.20 |
-7.40 |
1.44 |
0.61 |
1.30 |
10 |
33.4 |
25.70 |
7.70 |
34.67 |
-1.27 |
37.76 |
-4.36 |
2.30 |
0.05 |
0.50 |
11 |
26.3 |
23.48 |
2.82 |
30.27 |
-3.97 |
33.74 |
-7.44 |
0.34 |
0.52 |
1.64 |
13 |
24.8 |
20.03 |
4.77 |
23.07 |
1.73 |
26.71 |
-1.91 |
1.13 |
0.13 |
0.14 |
14 |
21.2 |
18.67 |
2.53 |
20.14 |
1.06 |
23.58 |
-2.38 |
0.34 |
0.06 |
0.24 |
15 |
20 |
17.49 |
2.51 |
17.58 |
2.42 |
20.68 |
-0.68 |
0.36 |
0.33 |
0.02 |
16 |
19.2 |
16.45 |
2.75 |
15.35 |
3.85 |
17.96 |
1.24 |
0.46 |
0.97 |
0.09 |
17 |
14.9 |
15.53 |
-0.63 |
13.40 |
1.50 |
15.40 |
-0.50 |
0.03 |
0.17 |
0.02 |
18 |
13.4 |
14.71 |
-1.31 |
11.69 |
1.71 |
12.99 |
0.41 |
0.12 |
0.25 |
0.01 |
20 |
10 |
13.31 |
-3.31 |
8.91 |
1.09 |
8.55 |
1.45 |
0.82 |
0.13 |
0.24 |
22 |
8.3 |
12.15 |
-3.85 |
6.79 |
1.51 |
4.54 |
3.76 |
1.22 |
0.33 |
3.12 |
24 |
7.1 |
11.19 |
-4.09 |
5.18 |
1.92 |
0.87 |
6.23 |
1.49 |
0.72 |
44.49 |
25 |
4.2 |
10.76 |
-6.56 |
4.52 |
-0.32 |
-0.85 |
5.05 |
4.00 |
0.02 |
-30.05 |
27 |
3.3 |
10.00 |
-6.70 |
3.44 |
-0.14 |
-4.09 |
7.39 |
4.49 |
0.01 |
-13.35 |
29 |
1.5 |
9.35 |
-7.85 |
2.62 |
-1.12 |
-7.10 |
8.60 |
6.59 |
0.48 |
-10.42 |
31 |
0.5 |
5.73 |
-5.23 |
2.00 |
-1.50 |
-9.91 |
10.41 |
4.78 |
1.12 |
-10.94 |
表 4 1999 ~ 2001 年中国 R&D 经费等级 - 频次分布 x 2 检验表
|
显著性水平α |
自由度 n |
x² 临界值 |
x² 统计值( X-lgY ) |
1999 |
0.05 |
20 |
31.41 |
9.81 |
2000 |
0.05 |
19 |
30.14 |
13.37 |
2001 |
0.05 |
20 |
31.41 |
21.01 |
表 5 1999 ~ 2001 年中国 R&D 人力等级 - 频次分布 x 2 检验表
|
显著性水平α |
自由度n |
x² 临界值 |
x² 统计值( X-lgY ) |
x² 统计值( lg X-Y ) |
1999 |
0.05 |
21 |
32.67 |
20.90 |
13.69 |
2000 |
0.05 |
22 |
33.92 |
25.17 |
16.34 |
2001 |
0.05 |
20 |
31.41 |
17.89 |
13.78 |
表 6 是 2000 年中国 R&D 人力等级 - 频次分布的统计及检验数据。通过 表 6 的数据可以看出,由 lgX-lgY 坐标系导出的负幂分布,其理论计算值在等级序列的首部和尾部都有较大的误差;而由 X-lgY 坐标系导出的负指数分布和 lgX-Y 坐标系导出的布拉德福分布,它们的理论计算值都只是在等级序列的尾部存在一定差距。数据说明我国西部省市 R&D 人力投入比其他省市落后较多, 这与文献计量学中许多分布曲线的低端所表现的情况是非常一致的。
表 6 2000 年中国 R&D 人力等级 - 频次分布统计检验数据表
等 级 |
观测值 |
lgX-lgY |
离 差 |
X-lgY |
离 差 |
lgX-Y |
离 差 |
lgX-lgY |
X-lgY |
lgX-Y |
1 |
98.8 |
173.78 |
-74.98 |
87.50 |
11.30 |
105.02 |
-6.22 |
32.35 |
1.46 |
0.37 |
3 |
71.1 |
75.73 |
-4.63 |
73.45 |
-2.35 |
72.65 |
-1.55 |
0.28 |
0.08 |
0.03 |
4 |
64.1 |
60.93 |
3.17 |
67.30 |
-3.20 |
64.17 |
-0.07 |
0.16 |
0.15 |
0.01 |
5 |
60.2 |
51.47 |
8.73 |
61.66 |
-1.46 |
57.59 |
2.61 |
1.48 |
0.03 |
0.12 |
6 |
59.5 |
44.85 |
14.65 |
56.49 |
3.01 |
52.22 |
7.28 |
4.79 |
0.16 |
1.01 |
8 |
48.4 |
36.08 |
12.32 |
47.42 |
0.98 |
43.75 |
4.65 |
4.21 |
0.02 |
0.50 |
9 |
44.5 |
33.01 |
11.49 |
43.45 |
1.05 |
40.27 |
4.23 |
4.00 |
0.03 |
0.44 |
10 |
34.6 |
30.48 |
4.12 |
39.81 |
-5.21 |
37.17 |
-2.57 |
0.56 |
0.68 |
0.18 |
12 |
28.9 |
26.55 |
2.35 |
33.42 |
-4.52 |
31.80 |
-2.90 |
0.21 |
0.61 |
0.26 |
14 |
25.5 |
23.63 |
1.87 |
28.05 |
-2.55 |
27.26 |
-1.76 |
0.15 |
0.23 |
0.11 |
15 |
25 |
22.43 |
2.57 |
25.70 |
-0.70 |
25.22 |
-0.22 |
0.29 |
0.02 |
0.00 |
16 |
24.1 |
21.36 |
2.74 |
23.55 |
0.55 |
23.32 |
0.78 |
0.35 |
0.01 |
0.03 |
17 |
23.2 |
20.41 |
2.79 |
21.58 |
1.62 |
21.53 |
1.67 |
0.38 |
0.12 |
0.13 |
18 |
22.5 |
19.54 |
2.96 |
19.77 |
2.73 |
19.85 |
2.65 |
0.45 |
0.38 |
0.35 |
20 |
18.2 |
18.05 |
0.15 |
16.60 |
1.60 |
16.75 |
1.45 |
0.01 |
0.16 |
0.13 |
21 |
16.2 |
17.39 |
-1.19 |
15.21 |
0.99 |
15.31 |
0.89 |
0.08 |
0.07 |
0.05 |
22 |
14.3 |
16.79 |
-2.49 |
13.93 |
0.37 |
13.94 |
0.36 |
0.37 |
0.01 |
0.01 |
23 |
13 |
16.24 |
-3.24 |
12.76 |
0.24 |
12.63 |
0.37 |
0.65 |
0.01 |
0.01 |
24 |
11.1 |
15.72 |
-4.62 |
11.69 |
-0.59 |
11.37 |
-0.27 |
1.36 |
0.03 |
0.01 |
26 |
8.3 |
14.80 |
-6.50 |
9.82 |
-1.52 |
9.01 |
-0.71 |
2.86 |
0.23 |
0.06 |
27 |
4.2 |
14.38 |
-10.18 |
8.99 |
-4.79 |
7.90 |
-3.70 |
7.21 |
2.56 |
1.73 |
28 |
2.6 |
13.99 |
-11.39 |
8.24 |
-5.64 |
6.83 |
-4.23 |
9.28 |
3.86 |
2.62 |
29 |
2.2 |
13.63 |
-11.43 |
7.55 |
-5.35 |
5.80 |
-3.60 |
9.58 |
3.79 |
2.23 |
30 |
1.2 |
13.28 |
-12.08 |
6.92 |
-5.72 |
4.80 |
-3.60 |
10.99 |
4.73 |
2.70 |
31 |
0.3 |
12.96 |
-12.66 |
6.34 |
-6.04 |
3.83 |
-3.53 |
12.36 |
5.75 |
3.25 |
为了更加准确地描述实际观测值,在文献计量学中通常采用分段函数的方法,处理不同性质的数据序列,以达到对现实情况客观、准确地模拟和预测。表 3 与表 6 给出的数据均是绝对数量,如果替代相对数量,即我国各省市 R&D 资源占全国 R&D 总资源的比率,准确性将会更高。
X² 检验法常被用于检验一个总体分布是否属于某一类型的分布。 表 4 和表 5 给出 1999 年~ 2001 年负指数分布与布拉德福 分布的 X 2 检验值,在 0.05 显著水平下,均通过了 X 2 检验。通过 表 4 和表 5 的数据可以 看出, 负指数分布 对于 中国 R&D 经费等级 - 频次分布的模拟程度较好,而 布拉德福分布对于 中国 R&D 人力等级 - 频次分布的模拟程度较好。
( 四 ) 中国 R&D 资源地区分布的集中度研究
集中度是一个建立在等级 - 频次分布基础之上的概念,它表征某项指标等级位次居前的若干计量单元,其频次之和占全部计量单元频次总和的份额。集中度的概念已被广泛应用于各个领域,以反映等级较高的区域、机构的实力和作用。
集中度的计算方法很多,文献计量学中是以 Price 定律为基础设计的。 Price 定律是这样说的;如果某一科学家集合中有 n 位科学家,共计发表了 P 篇论文,那麽最高产的 n 1/2 位科学家发表的论文数大约是 P/2 篇 [ 4 ] 。
借鉴文献计量学中计算集中度的方法,可以计算中国 R&D 经费和 R&D 人力投入的集中度。按照 Price 定律,在中国 31 个省市中, R&D 经费和 R&D 人力较高的省市数为 31 1/2 = 5.5 。 分别取中国 R&D 经费和 R&D 人力指标排序前 5 位省市的频次值,加上第 6 位省市频次值的一半,得到 R&D 资源较高省市频次值之和 S p 。设 31 个省市的频次值之和为 S ,则集中度就是 S p /S 。表 7 给出了 1999 ~ 2001 年中国各省市 R&D 经费与 R&D 人力的集中度。
从表 7 数据可以看出,尽管 1999 年、 2000 年和 2001 年的 R&D 经费与 R&D 人力的投入情况各不相同,但基本符合 Price 定律。其中, R&D 经费集中度为 0.56 , R&D 人力集中度为 0.43 ,最大项与最小项之间的差值仅为 0.0167 和 0.0137 。表 7 数据表明,中国各省市的 R&D 经费投入比 R&D 人力投入更加集中,其集中度也更符合 Price 定律。
表 7 中国各省市 R&D 经费与 R&D 人力的集中度 (1999 ~ 2001 年 )
|
R&D 经费投入集中度 |
R&D 人力投入集中度 |
1999 |
0.5597 |
0.4364 |
2000 |
0.5430 |
0.4284 |
2001 |
0.5593 |
0.4227 |
四、结论
总结以上分析和研究的结果,可以得出下面一些结论:
1.由于 R&D 资源地区分布的高度集中性,可以借鉴 文献计量学 关于信息发生源与信息单元 出现频次的分布理论,利用等级 - 频次或规模 - 频次等数据处理方法,建立定量化的数学模型 ,模拟 R&D 资源在不同地区分布的状况和趋势。
2.lgX-lgY , X-lgY 和 lgX-Y 三种坐标系中,利用统计回归分析方法,分别导出负幂分布、负指数分布和布拉德福分布。通过相关系数比较分析得出,负指数分布 Y = C10 -ax (a > 0) 或 Y = Ce -b x (b > 0) 是描述中国各省市 R&D 经费和 R&D 人力分布状况与发展趋势最适合的方法;布拉德福分布 Y = C + algX 描述中国各省市 R&D 人力分布状况与发展趋势也比较准确,但不同年代分布的一致性较差。
3.对于 1999 ~ 2001 年间不同年度,中国各省市 R&D 经费和 R&D 人力的等级 - 频次分布曲线呈现很好的一致性,有些甚至接近重合。表明中国各省市 R&D 经费和 R&D 人力的投入,始终以相同的模式、平稳增加的态势发展,适于建立用于预测与管理的数学模型。
4.R&D 经费与 R&D 人力指标 是分属于经济类与人口类的统计分析指标,其分布与排序往往是不一致的。但是在对数坐标系下,中国各省市 R&D 经费与 R&D 人力 的等级 - 频次分布却非常的相似,参数值与相关系数的变化规律都趋于一致,表明在社会科学领域确实存在布拉德福现象。
5.利用 Price 定律计算出中国 R&D 经费和 R&D 人力投入在 1999 ~ 2001 年度的集中度,统计结果规范一致, R&D 经费集中度为 0.56 , R&D 人力集中度为 0.43 ,非常接近 Price 定律的结论。研究表明在等级 - 频次分布的基础上,可以将文献计量学的理论和方法,以及经验统计模型应用于 R&D 资源管理及其他社会科学领域。
6.以上研究表明,文献计量学 关于信息发生源与信息单元 出现频次的分布理论,以及等级 - 频次、规模 - 频次等数据处理方法,可以较好地应用于 R&D 资源管理,例如 R&D 资源的地区分布、 R&D 资源的机构分布,以及 R&D 资源的学科分布等,对于我国深入开展 R&D 资源的定量化管理具有一定的理论和实际意义。
参考文献
[1] 中国科技统计年鉴, 2002
[2] 中国科技统计年鉴, 2001
[3] 中国科技统计年鉴, 2000
[4]Price D. , Lolkas Law: A Problem in Its Interpretation and Application, Social Studies of Science, 1976 (6), 269 ~ 276
[5] 庞景安,科学计量研究方法论,科技文献出版社,北京, 1999 , 10
[6] 梁立明,科学计量学指标、模型、应用,科学出版社,北京, 1995 , 10