|
22
220
从主要不是为统计目的而设的文件中取得统计数据的过程,叫作摘录 1(extraction)。一般来说,不论其来源为何,统计资料都是要经过数据处理 2(processing)的。处理可以用手工 3(manual)、机器 4(mechanical)、或电子计算机 5(electronic)进行,也可以用以上几数方式同时进行。手工处理所使用的设备,最复杂的为台式计算器 6(desk calculator)(224-2)或穿孔卡片机(224-3);电子处理使用计算机(132-2*)。不论采用哪种处理方式都要进行以下各种工作过程 7(types of operations):编辑 8(editing)(130-6*)、计算(132-3)和制表 9(table preparation)。进行以上工作的复杂程度决定于所选用的处理方式。
221
数据的编辑通常需要先将基本文件 2(basic document)的某些项目进行编码 1(coding)。编码方案 3(coding scheme)把每一项目材料与其数字代码或字母代码之间建立了一个互相对应关系。代码簿收集了也说明了某套基本文件所用的编码方案。编码方案的目的是为了便于以后对数据进行分组。与编码方案不同的是分类 4(classification),它是列载个别代码的一张表。在表中对每个标题 5(heading)[4](213-3*)。编辑的第二阶段工作就是清理 6(cleaning)档案材料,用有效性核查 7(validity checks)和一致性核查 7(consistency checks)(参阅110-1)的范围内进行,也可以在不同单位之间对比进行。差错一经查出之后,可以用自动化方式对原始文件或档案材料加以修正。
222
对于编辑过的数据需要分组(130-7)和汇总(130-6*),制定出统计表(131-4)。统计表可以用重组 1(sorting)法编制,按照事先确定的规则或按照某一特性,系统地重新组合。重组法可以用手工进行,也可以用机器进行。统计表也可以仅仅是对具有某一特征的各个单位进行的简单计数。单位或特征的选择可以依据一个或数个数量特征进行,也可以依据一个或数个数量特征的各种形式 2(modalities)(225-2)可以作以前人工很难作的计算。因此数据分析 3(data analysis)(参阅730-)经常需要进行大量计算,模拟(730-6)也是如此。
223
制表(220-9)的目的是把数据处理的结果,用列单 1(listings)(131-4)或统计图(155-2)]表示出来。这些表和图在叙述统计 2(descriptive statistics)中是普遍应用的。计算机制图法 3(computer graphing)和计算机地图学 3(computer cartography)的应用使研究者一开始就大量使用图表。
224
单纯的机器处理(220-4)不包括使用电子设备 1(electronic equipment)。这样的设备已经取代了过去使用的制表机 2(tabulating machines)或单位记录机 2(unit record machines)(221-1*),然后用键盘穿孔机 4(keypunch)记录在穿孔卡片 3(punch cards)上。卡片复核机 5(card verifier)是用来核查穿孔的准确性的装置。这两种单位记录机依然普遍使用,因为穿孔卡片仍然是将数据输入计算机的常用的方法。其他类型的单位记录设备[如卡片分类机 6(card sorter)和制表机 7(tabulator)《参阅226-4)或磁盘(参阅226-5)中,而不再用穿孔卡片。
225
人口学的研究大量依靠计算机 2(computer)进行电子数据处理 1(electronic data processing)。硬件 3(hardware)一词是指机器部件,而软件 4(software)则向用户 5(user)提供使用计算机的方法。计算机专家 6(computer specialists)中包括程序员 7(programmers),他负责编写系统分析员 9(system analysts)所设计的程序 8(programs)。
226
计算机(225-2)的硬件(225-3)有一个或数个中央处理机 1(central processing units)、一个中央存贮器 2(central memory)、一个或多个使用磁带 4(magnetic tapes)或磁盘 5(disks)的大容量存贮装置 3(mass storage devices)和一套输入输出设备 6(input-output devices)(225-4)包括操作系统 7(operating system)(225— 5)管理所有设备 8(facilities)和操作用户的程序 9(users programs)(225-8)都是为解决标准问题而事先编写好的。
227
用户(225-5)可以用编写程序(225-8)的方法处理其问题。编写程序可以使用普通的程序设计语言 1(programming language)(226-2)中的处理程序(226-9)而设计的专门语言。中央存贮器如同一个数据库管理系统 2(data base management system),用它来建立并保持一个数据库 2(databank)、一个调查处理程序 3(survey processing program)或一个统计程序包 4(statistical package)。向计算机输入和从计算机接受信息所用的装置可以因使用的加工处理的方式而不同。在成批处理 7(batch processing)时,标准的输入和输出装置是卡片阅读机 5(card reader)和行式打印机 6(line printer)。在分时方式 9(timesharing mode)中,控制台 8(console)是进行加工处理的标准的输入和输出装置。在以上两种方式中,输入装置都可以不同计算机放在一个地方,这时,加工处理要用远程终端设备 10(remote terminal)进行。
- 1. 除了上述的程序设计语言外,为了控制操作系统,也可以使用其他类型语言;这样的语言,通常称之为作业控制语言(job control language)。
228
计算机(225-2)处理数据要经历三个主要阶段。第一个阶段是数据输入 1(data entry或input)(224-3*)进行,也可以使用联机 2(on line)(227-8)进行。已经存贮在计算机中的数据,既可以经由中央存贮器(226-2)存取,也可以经由本容量存贮装置(226-3)存取,并将之用作输入数据。第二个阶段是处理(220-2),可以分为两种主要类型:数值处理 4(numerical processing)和非数值处理 5(non-numerical processing)。统计和算术计算通常属于数值处理运算,数据控制操作则主要是非数值处理。第三个阶段,有时称之为输出阶段。在这一阶段中,可以把处理结果 6(processed results)或输出 6(output)(227-6)上,也可以将其作为文件贮存在大容量存贮装置(226-3)中,以备进一步处理。也可以把结果输入绘图机 7(plotter),从而将处理结果以图或象形的方式表达出来。
* * *
|
![[首页]](/logo-demopaedia-withothers.png)