数据选择题

数据选择题（精选8篇）

数据选择题篇1

1.单个用户使用的数据视图的描述称为（）(2001年10月全国卷)a.外模式 b.概念模式 c.内模式 d.存储模式

2.子模式ddl用来描述（）(2001年10月全国卷)

a.数据库的总体逻辑结构 b.数据库的局部逻辑结构 c.数据库的物理存储结构 d.数据库的概念结构

3.在dbs中，dbms和os之间的关系是（）(2001年10月全国卷)a.相互调用 b.dbms调用os c.os调用dbms d.并发运行

4.数据库物理存储方式的描述称为()(2003年1月全国卷)a.外模式 b.内模式 c.概念模式 d.逻辑模式

5.在下面给出的内容中，不属于dba职责的是(C)(2003年1月全国卷)a.定义概念模式 b.修改模式结构 c.编写应用程序 d.编写完整性规则

6.在数据库三级模式间引入二级映象的主要作用是()(2003年1月全国卷)

a.提高数据与程序的独立性 b.提高数据与程序的安全性 c.保持数据与程序的一致性 d.提高数据与程序的可移植性

7.db、dbms和dbs三者之间的关系是()(2003年1月全国卷)

a.db包括dbms和dbs b.dbs包括db和dbms c.dbms包括db和dbs d.不能相互包括

8.dbs中“第三级存储器”是指()(2002年10月全国卷)a.磁盘和磁带 b.磁带和光盘 c.光盘和磁盘 d.快闪存和磁盘

9.位于用户和操作系统之间的一层数据管理软件是（）

a.dbs b.db c.dbms d.mis

10.数据库系统中的数据模型通常由（）三部分组成

a、数据结构、数据操作和完整性约束 b、数据定义、数据操作和安全性约束

c、数据结构、数据管理和数据保护 d、数据定义、数据管理和运行控制

11.codasyl组织提出的dbtg报告中的数据模型是（）的主要代表

a、层次模型 b、网状模型 c、关系模型 d、实体联系模型

12.数据库技术的三级模式中，数据的全局逻辑结构用（）来描述

a、子模式 b、用户模式 c、模式 d、存储模式

13.用户涉及的逻辑结构用（D）描述

a、模式 b、存储模式 c、概念模式 d、子模式

14.数据库的开发控制，完整性检查，安全性检查等是对数据库的（）

a、设计 b、保护 c、操纵 d、维护

15.（）是控制数据整体结构的人，负责三级结构定义和修改

a、专业用户 b、应用程序员 c、dba d、一般用户

16.文件系统的一个缺点是（）

a、数据不保存 b、数据冗余性 c、没有专用软件对数据进行管理 d、数据联系强

17.（C）完成对数据库数据的查询与更新

a、dcl b、ddl c、dml d、dql

18.关系模型的程序员不需熟悉数据库的（）

a、数据操作 b、完整性约束条件 c、存取路径 d、数据定义

19.dbms提供dml实现对数据的操作。可以独立交互使用的dml称为（C）

a、宿主型 b、独立型 c、自含型 d、嵌入型

20.dbms提供dml实现对数据的操作。嵌入高级语言中使用的dml称为（C）a、自主型 b、自含型 c、宿主型 d、交互型

21.数据库管理系统由三级模式组成，其中决定dbms功能的是（A）

a、逻辑模式 b、外模式 c、内模式 d、物理模式

22.数据库系统的体系结构是数据库系统的总体框架，一般来说数据库系统应具有三级模式体系结构，它们是

a、外模式、模式和内模式 b、子模式、用户模式和存储模式 c、模式、子模式和概念模式 d、子模式、模式和用户模式

23.数据库管理系统与操作系统、应用软件的层次关系从核心到外围依次是（）

a、dbms、os、应用软件 b、dbms、应用软件、os c、os、dbms、应用软件 d、os、应用软件、dbms

24.数据库是在计算机系统中按照一定的数据模型组织、存储和应用的__，支持数据库各种操作的软件系统叫__，由计算机、操作系统、dbms、数据库、应用程序及用户等组成的一个整体叫__。（）

a、文件的集合、操作系统、文件系统 b、数据的集合、数据库管理系统、数据库系统

c、命令的集合、数据库系统、软件系统 d、程序的集合、命令系统、文件系统

25.数据库管理系统中数据操纵语言dml所实现的操作一般包括（）

a、查询、插入、修改、删除 b、排序、授权、删除 c、建立、插入、修改、排序 d、建立、授权、修改

26.er图中的主要元素是（）

a、结点、记录和文件 b、实体、联系和属性 c、记录、文件和表 d、记录、表、属性

27.下列有关数据库的叙述中正确的是（）

a、对于查、添、删、改操作都需由数据库管理员进行完整性定义和安全性授权，由数据库具体执行；

b、数据库系统目录（工程数据库字典）也由一些关系组成，所以用户可以同样对其进行查、添、删、改操作；

c、嵌入式的数据库语言构成的应用程序环境包括主语言和数据子语言，前者能处理记录和遇，后者只能处理表，光标机制起着两种语言的桥梁作用。

d、既然数据库能实现数据对不同用户的共享，那么数据库中不存在任何冗余。

28、在er图中，用长方形表示__，用椭圆表示__（）

a、联系、属性 b、属性、实体 c、实体、属性 d、什么也不代表、实体

29、在数据库技术中，面向对象数据模型是一种（B）

a、概念模型 b、结构模型 c、物理模型 d、形象模型

30、er图是表示概念模型的有效工具之一，在er图中的菱形框表示（）

a、联系 b、实体 c、实体的属性 d、联系的属性

31、下列关于数据库系统特点的叙述中，正确的一项是（）

a、各类用户程序均可随意地使用数据库中的各种数据

b、数据库系统中概念模式改变，则需将与其有关的子模式做相应改变，否则用户程序需改写

c、数据库系统的存储模式如有改变，概念模式无需改动

d、数据一致性是指数据库中数据类型的一致

32、在数据库管理系统中所处理的对象是数据，按照数据的组成情况，数据可分为（）层次

a、字符和数字两个 b、记录、文件和数据库三个 c、记录、文件、数据库和关系数据库四个 d、字段、记录、文件、数据库和关系数据库五个

33、绝大多数数据库系统的总体结构，都具有外模式、模式和内模式三级模式结构。描述数据库中全体数据的全局逻辑结构和特征的是（）

a、模式和内模式 b、内模式 c、模式 d、外模式

34、概念模型表示方法最常用的是（）

a、er方法 b、数据的方法 c、分布式方法 d、面向对象的方法

35、下列各种模型中不是数据模型的是（）

a、概念模型 b、层次模型 c、网状模型 d、关系模型

36、数据库系统是在__的基础上发展起来的。

a、文件系统 b、应用程序系统 c、数据库管理系统 d、编译系统

37、数据库三级模式体系结构的划分，有利于保持数据库的（）

a、结构规范化 b、数据安全性 c、数据独立性 d、操作可行性

38、同网状模型和层次模型相比，关系模型具有很多的特点，下列各项中哪一个不是关系模型所具有的特点？

a、概念单一 b、规范化 c、直观性好 d、以二维表格表示

39、数据库系统依靠__支持了数据独立性（）

a、具有封装机制 b、模式分级、各级之间有映像机制 c、定义完整性约束条件 d、ddl语言和dml语言互相独立

abbbc abbca bcdbc bcccc aacba bccba cbcaa accb 第二章

1.五种基本关系代数运算是（）(2001年10月全国卷)

a.∪，-，×，π和σ b.∪，-，∞，π和σ c.∪，∩，×，π和σ d.∪，∩，∞，π和σ

2.当关系r和s自然联接时，能够把r和s原该舍弃的元组放到结果关系中的操作是（）(2001年10月全国卷)

a.左外联接 b.右外联接 c.外部并 d.外联接

3.设有关系r和s，与r-s等价的元组关系演算表达式是(B)(2003年1月全国卷)a.{t|r(t)∨┐s(t)} b.{t|r(t)∧┐s(t)}

c.{t|(u)r(t∨┐s(u))d.{t|(u)r(t)∧┐s(u)}

4.设关系r(a，b，c)和s(a，d)，与自然连接rs等价的关系代数表达式是(C)(2003年1月全国卷)

a.σ(r.a=s.a)(r×s)b.r（等值连接1=1）s c.∏b,c,s.a,d(σr.a=s.a(r×s))d.∏r,a,b.c,d(r×s)5.在关系模型中，关系的“元数”(arity)是指()(2002年10月全国卷)a.行数 b.元组个数 c.关系个数 d.列数

6.有关系r和s，r∩s的运算等价于()(2002年10月全国卷)a.s-(r-s)b.r-(r-s)c.(r-s)∪s d.r∪(r-s)

7.设关系r和s的属性个数分别为r和s，则(r×s)操作结果的属性个数为()(2002年10月全国卷)

a.r+s b.r-s c.r×s d.max(r,s)8.设关系r和s的值如下：

r s

a b c b d e

a1 b1 c1 b1 d1 e1 a2 b2 c2 b2 d2 e2 a3 b3 c3 b3 d3 e3

r与s左外联接的结果的元组个数是()(2002年10月全国卷)a.1 b.2 c.3 d.4

9.下列运算中（）不是关系代数的基本操作。

a、笛卡儿积 b、自然连接 c、投影 d、并

10.在关系中能唯一标识元组的属性集称为关系模型的（B）。

a、主键 b、超键 c、候选键 d、外键

11.当两个关系没有公共属性时，其自然联接表现为（）。

a、笛卡儿积 b、等值联接 c、结果为空 d、出错

12.σf1(σf2(e))与（）等价。

a、σ(f1∧f2)(e)b、σf1(e)c、σf2(e)d、σ(f1∨f2)(e)

13.关系代数的四个组合操作是：交、自然联接、联接和（）

a、笛卡儿积 b、差 c、除 d、并

14.在关系r和关系s进行自然联接时，只把r中原该舍弃的元组保存到新关系中，这种操作称为（）。

a、外联接 b、内联接 c、左外联接 d、右外联接

15.在k元关系r中，公式σ2<’4’表示（）

a、从r中选择值为2的分量小于第4个分量值的元组组成的关系

b、从r中选择第2个分量值小于第4个分量值的元组组成的关系

c、从r中选择第2个分量的值小于4的元组组成的关系

d、从r中选择第2个分量小于第4个分量值的元组组成的关系

16.在下列查询语言中，与关系代数最接近的语言是（）

a、isbl b、quel c、qbe d、sql

17.四元关系r的属性a、b、c、d，下列叙述中正确的是（）

a、∏b,c(r)表示取值为b，c的两列组成的关系

b、∏2,3(r)表示取值为2，3的两列组成的关系

c、∏b,c(r)与∏2,3(r)表示的是同一个关系

d、∏b,c(r)与∏2,3(r)表示的不是同一个关系

18.如果f只涉及x中的属性，则∏x(σf(e))等价于（）

a、∏x(e)b、σf(e)c、∏f(σx(e))d、σf(∏x(e))19.对关系r进行投影运算后，得到关系s，则（）

a、关系r的元组数等于关系s的元组数

b、关系r的元组数小于关系s的元组数

c、关系r的元组数大于关系s的元组数

d、关系r的元组数大于或等于关系s的元组数

20.关系r与关系s只有一个公共属性，t1是r与s等值联接的结果，t2是r与s等值自然联接的结果，则（C）

a、t1的属性个数等于t2的属性个数

b、t1的属性个数小于t2的属性个数

c、t1的属性个数大于t2的属性个数

d、t1的属性个数大于或等于t2的属性个数

21.在关系代数表达式优化策略中，应尽可能早执行（）操作

a、投影 b、联接 c、选择 d、笛卡儿积 22.关系数据库的查询语言是一种（B）语言。

a、过程性 b、非过程性 c、第三代 d、高级程序设计

23.如下两个关系r1和r2，它们进行（）运算后得到r3。

r1： r2： r3：

a b c b d e a b c d e------------------------a 1 x 1 m i a 1 x m i c 2 y 2 n j d 1 y m i d 1 y 5 m k c 2 y n j

a、交 b、并 c、除 d、联接

24.下面哪一个不是一种关系数据库语言（）

a、关系操作 b、关系代数 c、元组关系演算 d、域关系演算

25.定义在{1，2}和{1，2}上的二元关系数为（）

a、2 b、4 c、8 d、16

26.关系代数、元组关系演算和域关系演算这三种数据库语言之间的关系是（）

a、相互依赖 b、相互独立 c、相互等价 d、相互转化

27.假定学生关系是s(s#,sname,sex,age),课程关系是c(C#,cname,teacheer)，学生选课关系是sc(s#,c#,grade)

要查找选修“computer”课程的女学生的姓名，将涉及到关系（）

a、s b、sc，c c、s，sc d、s，c，sc

28.在关系代数中，对一个关系做操作后，新关系的元数个数（）原来关系的元素个数。

a、小于 b、等于 c、大于 d、小于或等于

29.一般情况下，当对关系r和s使用自然联接时，要求r和s至少含有一个共同的（）

a、记录 b、行 c、数据字典 d、属性

30.在关系数据模型中，通常可以把__称为属性，而把__成为关系模式。（）

a、记录、元组集 b、字段、记录类型 c、模式、元组 d、基本表、记录

31.下列各种对关系数据库的基本操作中，__是从表中取出满足某种条件的属性成分操作，即从列的方向进行选择所需的值；__是表中选取满足某种条件的元组的操作，相当于在横向进行选择。

a、选择、检索 b、扫描、投影 c、检索、选择 d、投影、选择

adbcd bacbb aaccc acddc cbdad cdddb d

第三章

1.下列聚合函数中不忽略空值(null)的是（）(2001年10月全国卷)a.sum(列名)b.max(列名)c.count(*)d.avg(列名)

2.sql中，下列涉及空值的操作，不正确的是（）(2001年10月全国卷)a.age is null b.age is not null c.age = null d.not(age is null)3.视图是一个“虚表”，视图的构造基于()(2003年1月全国卷)a.基本表 b.视图 c.基本表或视图 d.数据字典

4.sql语言中，select语句的执行结果是()(2003年1月全国卷)a.属性 b.表 c.元组 d.数据库

5.sql语言中，条件“年龄between 20 and 30”表示年龄在20至30之间，且()(2002年10月全国卷)

a.包括20岁和30岁 b.不包括20岁和30岁

c.包括20岁但不包括30岁 d.包括30岁但不包括20岁

6.为了使索引键的值在基本表中唯一，在建立索引的语句中应使用保留字()(2002年10月全国卷)

a.unique b.count c.distinct d.union

7.在sql语言中，用户可以直接操作的是（）

a、基本表 b、视图 c、基本表和视图 d、基本表或视图

8.在sql的select语句中，与选择运算对应的命令动词是（）

a、select b、from c、where d、group by

9.在数据库与宿主语言之间传递信息是通过（B）

a、全局变量 b、局部变量 c、公共数据区 d、系统缓冲区

10.在sql语言中，对输出结果排序的是（）

a、order by b、where c、group by d、having 11.在select语句中使用*，表示（）

a、选择任何属性 b、选择全部属性 c、选择全部元组 d、选择主码

12.使用create schema语句建立的是（）

a、数据库 b、表 c、视图 d、索引

13.在select语句中使用max(列名)时，列名应该（）

a、必须是数值型 b、必须是字符型 c、必须是数值型或字符型 d、不限制数据类型

14.在select语句中使用group by sno时，sno必须（）

a、在where中出现 b、在from中出现 c、在select中出现 d、在having中出现

15.在嵌入式sql中，当sql语句中引用宿主语言的程序变量时，程序变量应（）

a、加前缀$ b、加后缀$ c、加前缀: d、加后缀:

16.在select语句中，对应关系代数中“投影”运算的语句是（）

a、select b、from c、where d、set

17.视图建立后，在数据字典中存放的是（）

a、查询语句 b、视图的内容 c、视图的定义 d、产生视图的表的定义

18.在sql语言中，delete语句的作用是（）

a、删除基本表 b、删除视图 c、删除基本表和视图 d、删除基本表和视图的元组

19.在sql语言中使用foreign key时，与之配合的语句是（）

a、exists b、except c、table d、references

20.对基本表s，执行操作drop tables restrict的作用是（）

a、删除基本表s中的所有元组

b、把基本表s及产生的一切视图全部删除

c、当没有由s中的列产生的视图或约束时将表s删除

d、删除表s，将引用表s的视图中的一切视图的属性值置为空值

21.下列关于视图与基本表的对比正确的是（）

a、视图的定义功能强于基本表

b、视图的操作功能强于基本表

c、视图的数据控制功能弱于基本表

d、上面提到的三种功能二者均相当

22.若用如下的sql语句创建了一个表s create table s(s# char(6)not null, sname char(8)not null, sex char(2), age integer)

今向s表插入如下行时，哪一行可以被插入

a、(’991001’,’李明芳’,女，’23’)b、(’990746’,’张为’,null,null)c、(null,’陈道一’，’男’,32)d、(’992345’,null,’女’,25)

23.下列关于视图的说法错误的是（）

a、视图是从一个或多个基本表导出的表，它是虚表

b、某一用户可以定义若干个视图

c、视图一经定义就可以和基本表一样被查询、删除和更新

d、视图可以用来定义新的视图

24.下列关于关系数据库语言sql语言的说法不正确的是（）

a、sql支持数据库的三级模式结构

b、sql的功能包括查询、操作、定义和控制等四个方面

c、sql是作为独立语言由联机终端用户在交互环境下使用的命令语言，它不能嵌入高级语言内

d、sql除应用在数据库领域外，还在软件工程、人工智能领域有广泛的应用

25.sql与c语言处理记录的方式是不同的。当将sql语句嵌入到c语言程序时，为协调两者而引入（C）

a、堆 b、栈 c、游标 d、缓冲区

26.有关系s(s#,sname,sex),c(c#,cname),sc(s#,c#)。其中s#为学生号，sname为学生姓名，sex为性别，c#为课程号，cname为课程名。要查询选修“计算机”课的全体女学生姓名的sql语句是select sname from s，c，sc where 子句。这里where 子句的内容是（）

a、s.s#=sc.s# and sex=“女” and cname=“计算机”

b、s.s#=sc.s# and c.c#=sc.c# and cname=“计算机”

c、sex=“女” and cname=“计算机”

d、s.s#=sc.s# and c.c#=sc.c# and sex=“女” and cname=“计算机”

27.对所有的视图都可以进行下面哪一个操作？（）

a、插入 b、选择 c、更新 d、删除

28.sql语言具有数据定义、数据操纵和数据控制的功能，它的一次查询的结果是一个（）

a、表 b、记录 c、元组 d、数据项

29.sql的ddl语句不包括（）

a、select b、create table c、drop view d、drop index 30.索引的描述存放在下列哪一项所指示的对象中（）

a、视图 b、模式 c、数据字典 d、文件

31.试图是由下面哪两者导出的表（）

a、模式、关系 b、基本表、视图 c、基本关系、关系 d、内模式、外模式

32.sql语言具有多种优点，那么sql是（）成为关系数据库语言的国际标准的。

a、1986年 b、1987年 c、1988年 d、1989年

33.在下列的sql语句中，属于数据控制的是（）

a、create b、select c、update d、grant e、drop f、delete g、alter h、insert i、revoke a、aefg b、di c、bcfh d、aeg

34.sql语言具有两种使用方式，它们在使用的细节上会有些差别，特别是select语句。这两种不同使用方式的sql，分别称为交互式sql和（）

a、提示式sql b、多用户sql c、嵌入式sql d、解释式sql cccca accba badcc acddc abccc dbaac bdbc 第四章

1.设关系模式r(a，b，c)，f是r上成立的fd集，f = {b→c}，则分解ρ = {ab，bc}相对于f（）(2001年10月全国卷)

a.是无损联接，也是保持fd的分解 b.是无损联接，但不保持fd的分解 c.不是无损联接，但保持fd的分解 d.既不是无损联接，也不保持fd 的分解

2.关系模式r分解成ρ = {r1，„，rk}，f是r上的一个fd集，那么r中满足f的每一个关系r，与其投影联接表达式mρ(r)间的关系满足（A）(2001年10月全国卷)a.r包含于mρ(r)b.mρ(r)包含于r c.r = mρ(r)d.r≠mρ(r)

3.在关系模式r(a，b，c)中，有函数依赖集f={(a,b)→c,(b,c)→a},则r最高达到()(2003年1月全国卷)

a.inf b.2nf c.3nf d.bcnf

4.如果r的分解为ρ={r1,r2},f是r上的一个fd集，且

ⅰ.r1∪r2→(r1-r2)ⅱ.r1∪r2→(r2-r1)ⅲ.r1∩r2→(r1-r2)ⅳ.r1∩r2→(r2-r1)

那么分解ρ具有无损联接性的充分必要条件为()(2003年1月全国卷)a.ⅰ、ⅲ b.ⅱ、ⅲ c.ⅰ、ⅱ d.ⅲ或ⅳ

5.设有关系模式r(a，b，c，d)，f是r上成立的fd集，f={b→c,c→d},则属性c的闭包c+为()(2002年10月全国卷)a.bcd b.bd c.cd d.bc

6.关系模式分解的无损联接和保持函数依赖两个特性之间的联系是()(2002年10月全国卷)a.前者成立蕴涵后者成立 b.后者成立蕴涵前者成立 c.同时成立，或者同时不成立 d.没有必然的联系

7.在关系模式r(u)中，如果x→y和x→z成立，那么x→yz也成立。这条推理规则称为（）

a、自反律 b、合并律 c、增广律 d、分解律

8.设有关系模式r(a，b，c)，f是r上成立的fd集，f={a→b，c→b}，则相对于f，关系模式r的主键为（）

a、ac b、abc c、ab d、bc

9.设有关系模式r(a，b，c)，f是r上成立的fd集，f={a→c，b→c}，那么f在模式r上的投影πab(f)为（）

a、{a→c，b→c} b、{a→b} c、{ab→c} d、不存在非平凡的fd

10.设有关系模式r(a，b，c)，f是r上成立的fd集，f={a→b，b→c}，那么f在模式r上的投影πac(f)为（）

a、{a→b，b→c} b、{a→c} c、{a→b，a→c} d、不存在非平凡的fd

?11.设有关系模式r(a，b，c)，f是r上成立的fd集，f={b→c，c→a}，那么ρ={ab，bc}，相对于f（）

a、是无损联接分解，也是保持fd的分解 b、是无损联接分解，但不保持fd c、不是无损联接分解，但保持fd

d、既不是无损联接分解，也不保持fd

12.在关系模式r(u，f)中，如果x→y，存在x的真子集x1，使x1→y，称函数依赖x→y为（）

a、平凡函数依赖 b、部分函数依赖 c、完全函数依赖 d、传递函数依赖

13.在关系模式r(u，f)中，如果x→u，则x是r的（）

a、侯选键 b、超键 c、主键 d、外键

14.在关系模式r(u，f)中，如果f是最小函数依赖集，则（）

a、r∈2nf b、r∈3nf c、r∈bcnf d、r的规范化程度与f是否最小函数依赖集无关

15.在关系模式r(u，f)中，r中任何非主属性对键完全函数依赖是r∈3nf的（）

a、充分必要条件 b、必要条件 c、充分条件 d、既不充分也不必要条件

16.在二元关系模式r(u，f)中，x，y都是单一属性，如果x→y，则r最高可以达到（）

a、2nf b、3nf c、bcnf d、4nf

17.设有关系模式r(a，b，c，d)，f是r上成立的fd集，f={b→c，d→c}，属性集ab的闭包(ab)+为（）

a、abcd b、abc c、cd d、bcd

18.设有关系模式r(a，b，c，d)，f是r上成立的fd集，f={a→d，c→d}，则相对于f，关系模式r的主键为（）

a、ac b、acd c、abc d、abcd

19.规范化理论是关系数据库进行逻辑设计的理论依据。根据这个理论，关系数据库中的关系必须满足其每一属性都是（）

a、互不相关的 b、不可分解的 c、长度可变的 d、互相关联的

20.关系模式r(a,b,c,d,e)中有下列函数依赖：a→bc，d→e，c→d。下述分解中哪一个(或哪些)分解可保持r所有的函数依赖关系()i(a，b，c)(c，d，e)ii(a，b)(a，c，d，e)a、都不是 b、只有i c、只有ii d、i和ii 21.下列关于规范化理论各项中正确的是（）

a、对于一个关系模式来说，规范化越深越好

b、满足二级范式的关系模式一定满足一级范式

c、一级范式要求一非主码属性完全函数依赖关键字

d、规范化一般是通过分解各个关系模式实现的，但有时也有合并

22.根据关系数据库规范化理论，关系数据库中的关系要满足第一范式，下面“部门”关系中，因哪个属性而使它不满足第一范式（）

部门（部门号，部门名，部门成员，部门总经理）

a、部门总经理 b、部门成员 c、部门名 d、部门号

23.在下面的两个关系中，职工号和部门号分别为职工关系和部门关系的主键(或称主码)职工(职工号、职工名、部门号、职务、工资)部门(部门号、部门名、部门人数、工资总额)

在这两个关系的属性中，只有一个属性是外键(或称外来键、外码、外来码)，它是（）

a、职工关系的“职工号” b、职工关系的“部门号”

c、部门关系的“部门号” d、部门关系的“部门号”

24.关系模式r(a，b，c，d，e)中有下列函数依赖：a→bc，d→e，c→d。下面对r的分解中哪一个(或哪一些)是r的无损连接分解()i(a，b，c)(c，d，e)ii(a，b)(a，c，d，e)a、都不是 b、只有i c、只有ii d、i和ii

25.在一个关系r中，若每个数据项都是不可分割的，那么关系r一定属于（）

a、bcnf b、1nf c、2nf d、3nf

26.对于关系r，第三范式是r中的每个非主属性应满足（）

a、与主关键字存在单值依赖关系 b、与主关键字存在多值依赖关系 c、函数传递依赖主关键字 d、非函数传递依赖主关键字

27.在关系模式ｒ(姓名，年龄，职位，出生日)中最有可能做主关键字的是（）

a、姓名 b、年龄 c、职位 d、出生日

28.设有关系模式w(c,p,s,g,t,r),其中各属性的含义是：c课程,p教师,s学生,g成绩,t时间,r教室，根据定义有如下数据依赖集

d={c→g，(s,c)→g,(t,r)→c,(t,p)→r,(t,s)→r}关系模式w的一个关键字是__，w的规范化程度最高达到__（）。

a、(s,c),1nf b、(t,r),3nf c、(t,p),4nf d、(t,s),2nf aaddc dbadb abbdb dacbd bbbdb dad 第五章

1.在数据库设计中，将er图转换成关系数据模型的过程属于（B）(2001年10月全国卷)a.需求分析阶段 b.逻辑设计阶段 c.概念设计阶段 d.物理设计阶段

2.在数据库设计中，表示用户业务流程的常用方法是(A)(2003年1月全国卷)a.DFD b.er图 c.程序流程图 d.数据结构图

3.把er模型转换成关系模型的过程，属于数据库的()(2002年10月全国卷)a.需求分析 b.概念设计 c.逻辑设计 d.物理设计

4.在er模型中，如果有6个不同实体集，有9个不同的二元联系，其中3个1∶n联系，3个1∶1联系，3个m∶n联系，根据er模型转换成关系模型的规则，转换成关系的数目是(B)(2002年10月全国卷)a.6 b.9 c.12 d.15

5.数据库设计属于（）。

a、程序设计范畴 b、管理科学范畴 c、系统工程范畴 d、软件工程范畴

6.设计数据流程图(dfd)属于数据库设计的（B）

a、可行性分析阶段的任务 b、需求分析阶段的任务 c、概念设计阶段的任务 d、逻辑设计阶段的任务

7.在数据库的概念设计中，最常用的模型是（）

a、实体联系模型 b、数学模型 c、逻辑模型 d、物理模型

8.数据库设计中，概念模型是（）

a、依赖于dbms和硬件 b、依赖于dbms独立于硬件 c、独立于dbms依赖于硬件 d、独立于dbms和硬件

9.er图是数据库设计的工具之一，它适用于建立数据库的（）。

a、需求模型 b、概念模型 c、逻辑模型 d、物理模型

10.er方法中用属性描述事物的特征，属性在er图中表示为（）

a、椭圆形 b、矩形 c、菱形 d、有向边

11.在关系数据库设计中，设计关系模式的任务属于（）

a、需求设计 b、概念设计 c、逻辑设计 d、物理设计 12.设计子模式属于数据库设计的（）

a、需求设计 b、概念设计 c、逻辑设计 d、物理设计

13.设计db的存储结构属于数据库设计的（）

a、需求设计 b、概念设计 c、逻辑设计 d、物理设计

14.数据库设计中，外模型是指（）

a、用户使用的数据模型 b、db以外的数据模型 c、系统外面的模型 d、磁盘上数据的组织

15.概念结构设计的目标是产生数据库的概念结构，这结构主要反映（）

a、组织机构的信息需求 b、应用程序员的编程需求 c、dba的管理信息需求 d、dbs的维护需求

16.在db的概念设计和逻辑设计之间起桥梁作用的是（）

a、数据结构图 b、功能模块图 c、er图 d、dfd

17.在db的需求分析和概念设计之间起桥梁作用的是（）

a、dfd b、er图 c、数据结构图 d、功能模块图

18.er模型转换成关系模型时，一个m:n联系转换为一个关系模式，该关系模型的关键字是（）

a、m端实体的关键字 b、n端实体的关键字 c、m端实体的关键字和n端实体的关键字的组合 d、重新选取的其他属性

19.在一个er图中，如果共有20个不同实体类型，在这些实体类型之间存在着9个不同的二元联系(二元联系是指两个实体之间的联系)其中3个是1:n联系，6个是m:n联系，还存在1个m:n的三元联系，那么根据er模型转换成关系模型的规则，这个er结构转换成的关系模型个数为（）

a、24 b、27 c、29 d、30

20.在数据库设计中，弱实体是指（）

a、属性只有一个的实体 b、不存在关键码的实体 c、只能短时期存在的实体 d、以其他实体存在为先决条件的实体

21.关于er图，下列说法中错误的是（）

a、现实世界的事物表示为实体，事物的性质表示为属性

b、事物之间的自然联系表示为实体之间的联系

c、在er图中，实体和属性的划分是绝对的、一成不变的

d、在er图中，实体之间可以有联系，属性和实体之间不能有联系

22.在er模型转换成关系模型的过程中，下列叙述不正确的是（）

a、每个实体类型转换成一个关系模型

b、每个联系类型转换成一个关系模式

c、每个m:n联系转换成一个关系模式

d、在1:n联系中，“1”端实体的主键作为外键放在“n”端实体类型转换成的关系模式中

23.在数据库设计中，超类实体与子类实体的关系是（）

a、前者继承后者的所有属性 b、后者继承前者的所有属性

c、前者只继承后者的主键 d、后者只继承前者的主键

24.综合局部er图生成总体er图过程中，下列说法错误的是（）

a、不同局部er图中出现的相同实体，在总体er图中只能出现一次。

b、在总体er图中可以添加属于不同局部er图实体间的联系

c、在总体er图中可以添加局部er图中不存在的联系

d、在总体er图中不可以删除任何实体间的联系。

25.在关系数据库中，通过（）来表示概念记录之间的关系。a、外来关键字 b、关键字 c、数据字典 d、元组

26.学生(学号，姓名，年龄)，老师(教师号，姓名，专业)如果一个老师可以教多个学生，那么学生与老师的关系是（）

a、1:1 b、2:2 c、m:n d、1:n

27.在需求分析阶段，通过调查要从用户处获得对数据库的下列要求（）

a、输入需求和输出需求 b、信息需求和处理需求

c、存储需求和结构需求 d、信息需求和结构需求

28.从er模型向关系数据模型转换要遵循一定的规则，下面四项中哪一个不是这种转换所要求的规则？

a、一个实体类型转换成一个关系模型

b、一个联系类型转换成一个关系模式

c、对于m:n联系来说，转换成的关系的键为诸相关实体的键的组合d、对于1:n联系来说，转换成的关系的键为n+1实体的键

29.对数据库的物理设计优劣评价的重点是（）

a、时间和空间效率 b、动态和静态性能 c、用户界面的友好性 d、成本和效益

30.下列关于数据库设计的说法正确的是（）

a、在数据库设计过程中，数据库的安全性、完整性、一致性和可恢复性等的设计总是以牺牲效率为代价的

b、数据库的实现只是对数据库结构装入实际的数据、建立实际的数据库的过程。

c、对数据库的概念、逻辑和物理结构的改变称为再构造

d、数据库设计中考虑的故障恢复方案，一般都是基于数据库的逻辑模型提出的。

31.数据库的物理设计的目的是（）

a、找到一个有效、可实现的数据库存储结构

b、导出特定的dbms可以处理的数据库模式和外模式

c、产生反映企业组织信息需求的数据库概念结构

d、收集支持系统目标的基础数据及其处理方法

32.在关系数据库中实现了数据表示的单一性，实体和实体之间的联系都用一种什么数据结构表示

a、数据字典 b、文件 c、表 d、数据库

33.数据字典可以（）

a、用sql语言查询 b、由任何用户使用 c、没有 d、由用户创建

34.新奥尔良方法将数据库设计分为四个阶段，它们是（）

a、系统规划阶段、分析设计阶段、实施阶段、运行维护阶段

b、需求分析阶段、设计阶段、实施阶段、运行阶段

c、系统规划阶段、概念设计阶段、详细设计阶段、实施阶段

d、需求分析阶段、概念设计阶段、逻辑设计阶段、物理设计阶段

35.聚集是一种（）措施

a、ddl b、dml c、优化 d、面向对象

36.逻辑设计阶段包括下面四个步骤：

a、形成初始模式 b、子模式设计 c、修正模式 d、模式评价

这四个步骤的先后顺序是（）

a、abcd b、bacd c、badc d、abdc

37.数据库的设计包括两个方面的设计内容，它们是（）

a、概念设计和逻辑设计 b、模式设计和内模式设计 c、内模式设计和物理设计 d、结构特性设计和行为特性设计

bacbd badba ccdaa cacbd cbbda cbdaa acadd dd 第六章

1.如果事务t获得了数据项q上的排它锁，则t对q（C）,其他事物对r既不能读也不能写(2001年10月全国卷)

a.只能读不能写 b.只能写不能读 c.既可读又可写 d.不能读不能写

2.dbms中实现事务持久性的子系统是（）(2001年10月全国卷)

a.安全性管理子系统 b.完整性管理子系统 c.并发控制子系统 d.恢复管理子系统

3.sql的全局约束是指基于元组的检查子句和（）(2001年10月全国卷)a.非空值约束 b.域约束子句 c.断言 d.外键子句

4.如果事务t获得了数据对象r上的排它锁，那么()(2003年1月全国卷)

a.t对r只能读不能写 b.t对r只能写不能读 c.其它事务对过r只能读不能写 d.其它事务对r既不能读也不能写

5.事务的隔离性是由dbms的()(2003年1月全国卷)

a.恢复子系统出现 b.完整性子系统实现 c.安全性子系统实现 d.并发控制子系统实现

6.在数据库系统中死锁属于()(2002年10月全国卷)a.系统故障 b.程序故障 c.事务故障 d.介质故障

7.sql中的视图提高了数据库系统的(D)(2002年10月全国卷)a.完整性 b.并发控制 c.隔离性 d.安全性

8.数据库中数据的正确性、有效性和相容性称为（）

a、恢复 b、并发控制 c、完整性 d、安全性

9.授权是dbs采用的（）

a、恢复措施 b、并发控制措施 c、完整性措施 d、安全性措施

10.db的转储属于dbs的（）

a、完整性措施 b、安全行措施 c、并发控制措施 d、恢复措施

11.事务的原子性是指（）

a、事务中包括的所有操作要么多做，要么都不做

b、事务一旦提交，对数据库的改变就是永久的

c、一个事务内部的操作及使用的数据对并发的其他事务是隔离的d、事务必须是使数据库从一个一致性状态变到另一个一致性状态

12.若一个事务执行成功，则它的全部更新被提交；若一个事务执行失败，则db中被其更新过的数据恢复原状，就象这些更新从未发生过，这保持了数据库处于（）

a、安全性状态 b、一致性状态 c、完整性状态 d、可靠性状态

13.事务的并发执行不会破坏db的完整性，这个性质称为事务的（）

a、原子性 b、隔离性 c、持久性 d、一致性

14.事务的执行次序称为（）

a、调度 b、过程 c、优先级 d、步骤

15.“运行记录优先原则”只指应该在对数据库更新（）

a、前先写一个日志记录到日志文件 b、后写一个日志记录到日志文件

c、前先运行记录 d、后在日志缓冲区运行记录

16.以下四个概念中，可用来解决“一个并发调度是否正确”问题的是（）a、串行调度 b、并发事务的可串行化

c、并发事务的可并行化 d、并发事务的有效调度

17.在正常的dbs中，“所有事务都是两段式的”与“事务的并发调度是可串行化的”（D）

a、前者是后者的必要条件 b、后者是前者的充要条件

c、前者是后者的必然结果 d、后者是前者的必然结果

18.db技术中，“脏数据”是指（）

a、未提交的数据 b、未提交的随后又被撤消的数据

c、违反访问权而写人db的数据 d、输入时就有错的数据

19.数据恢复的基本策略是数据冗余，被转储的冗余数据包括（）

a、日志文件和数据库副本

b、应用程序和数据库副本

c、数据字典、日志文件和数据库副本

d、应用程序、数据字典、日志文件和数据库副本

20.设有两个事务t1和t2，它们的并发操作如下所示，则正确的结论是（）

t1 t2

---------------------从db读s 从db读s s=s-2 s=s-4

向db回写s 向db回写s

a、不存在问题 b、丢失修改 c、读了“脏”数据 d、产生不一致分析

21.设有两个事务t1和t2，它们的并发操作如下所示，则正确的结论是

t1 t2

-----------------------从db读s s=s-2

向db回写s 从db读s s=s-4 rollback

a、不存在问题 b、丢失修改 c、读了“脏”数据 d、产生不一致分析

22.sql的rollback语句的主要作用是（）

a、终止程序 b、中断程序 c、事务提交 d、事务回退

23.sql中的主键子句和外键子句属于dbs的（）

a、完整性措施 b、安全性措施 c、并发性措施 d、恢复措施

24.Oracle系统中“commit work release”语句表示事务提交并且（）

a、释放封锁 b、撤消db已作的修改

c、释放所有数据资源 d、释放所有资源

25.视图的概念具有很多优点，下面哪一个不是它的优点（）

a、视图对于数据库的重构造提供了一定程度的逻辑独立性

b、简化了用户观点

c、视图机制方便了不同的用户以同样的方式看待同一数据 d、视图机制对机密数据提供了自动的安全保护功能

26.在数据库的如下两个表中，若雇员信息的主键是雇员号，部门信息表的主键是部门号，在下列所给的操作中，哪个操作不能执行？

雇员信息表部门信息表

雇员号雇员名部门号工资部门号部门名主任

001 张山 02 2000 01 业务部李建

010 王宏达 01 1200 02 销售部应伟东

056 马林生 02 1000 03 服务部周垠

赵敏 04 1500 04 财务部陈力胜

a、从雇员信息表中删除行(’010’，’王宏达’，’01’，1200)b、将行(’102’,’赵敏’，’01’，1500)插入到雇员信息表中

c、将雇员信息表中雇员号=’010’的工资改为1600元

d、将雇员信息表中雇员号=’101’的部门号改为’05’

27.授权定义经过编译后存储在（）中

a、文件系统 b、数据字典 c、表 d、数据库 d`m iuOu tjs*Jt [ 本资料来源于贵州学习网 IT认证计算机软件水平考试 http:// ] d`m iuOu tjs*Jt 28.下列有关数据库的恢复的说法中不正确的是（）

a、应定期将数据库做成档案文件

b、在进行事务处理过程时数据库更新的全部内容写入日志文件

c、发生故障时用当时数据内容和档案文件更新前的映象，将文件恢复到最近的检查点文件状态。

d、数据库恢复，还可用最新的档案文件和日志文件的更新映象，将文件恢复到最新的检查点文件状态。

29.当多个用户的（）同时存取或修改数据库时，可能发生相互干扰而造成的错误的操作结果或死锁。

a、应用程序 b、并发进程 c、数据库 d、操作

30.所谓的冗余数据是指（）的数据

a、产生错误 b、由基本数据导出 c、删除 d、提高性能

cdcdd cdcdd abbaa bdbab cdacc dbcbb 第七章

1.分布式数据库系统中分片模式和分配模式均是（）(2001年10月全国卷)a.全局的 b.局部的 c.分布的 d.集中的

2.ddbs的数据分片是指对()(2003年1月全国卷)a.磁盘分片 b.系统分片 c.db分片 d.内存分片

3.数据库系统中，“分片”概念是指(B)(2002年10月全国卷)a.对磁盘分片 b.对数据分片 c.对内存分片 d.对外存分片

4.简单地说，分布式数据库的数据（）

a、逻辑上分散，物理上统一 b、物理上分散，逻辑上统一

c、逻辑上和物理上都统一 d、逻辑上和物理上都分散

5.与分散式db相比，分布式db具有（）

a、逻辑整体性 b、逻辑独立性 c、分布整体性 d、分布独立性

6.在支持用户的应用方面，ddbs的主要特点是支持（）a、局部应用 b、全局应用 c、分散应用 d、场地自治

7.ddbs的“分片”概念是指（）

a、对磁盘分片 b、对系统分片 c、对db分片 d、对内存分片

8.分布式数据库系统中，选择各片段数据存放场地的模式是（）

a、分片模式 b、分配模式 c、概念模式 d、外模式

9.分布式数据库系统中，数据分配的策略是集中式、分割式、（）

a、分布式和关联式 b、分布式和混合式 c、全复制式和混合式 d、全复制式和关联式

10.在定义分布式数据库的片段时必须遵守完备性条件、重构条件和（）

a、数据一致性条件 b、数据完整性条件 c、完全性条件 d、不相交条件

11.分布式数据库系统的分片模式和分配模式均是（）

a、全局的 b、局部的 c、分布的 d、集中的

12.分布式数据库系统的透明性主要表现在位置透明性和（）

a、处理透明性 b、数据透明性 c、复制透明性 d、映射透明性

13.位于分片视图和分配视图之间的透明性是（）

a、位置透明性 b、分配透明性 c、全局数据模型透明性 d、局部数据模型透明性

14.分布式数据库系统的“分片透明性”位于（）

a、全局模式与全局概念模式之间 b、分片模式与分配模式之间

c、全局概念模式与分片模式之间 d、分配模式与局部概念模式之间

15.分布式数据库系统的“局部数据模型透明性”位于

a、全局模式与全局概念模式之间 b、全局概念模式与分片模式之间

c、分片模式与分配模式之间 d、分配模式与局部概念模式之间

16.如果各个场地采用同一类型的数据结构，使用不同型号dbms，那么这种分布式数据库系统的类型属于（）

a、同构同质型 b、同构异质型 c、异构同质型 d、异构异质型

17.客户/服务器体系结构的关键在于（）

a、计算的分布 b、功能的分布 c、cpu的分布 d、数据的分布

18.客户/服务器体系结构功能分布的结果是减轻了（）

a、服务器的负担 b、i/o通道的压力 c、客户端的负担 d、cpu的负担

19.在客户/服务器体系结构的dbs中，数据库功能分为前端和后端两部分，下列功能中属于后端的是（）

a、数据输入 b、报表输出 c、用户界面 d、存取结构

20.在客户/服务器体系结构的dbs中，数据库功能分为前端和后端两部分，下列功能中属于前端的是（）

a、存取结构 b、查询优化 c、用户界面 d、并发控制

21.分布式数据库系统中，查询处理的时间主要取决于（）

a、cpu执行时间 b、数据库的数据量 c、i/o花费的时间 d、网络中数据传输量

22.关系代数的半联接操作由下列操作组合而成（）

a、投影和选择 b、联接和选择 c、联接和投影 d、笛卡儿积和投影

23.分布式数据库是数据库技术和（）结合的产物。

a、面向对象技术 b、计算机网络 c、数据分离技术 d、数据分布技术

24.对数据库按其存放方式进行分类：一个数据库存放在一台计算机之中为__数据库，一个数据库存放在若干个计算机之中称为__数据库。

a、集中式、分布式 b、集中式、关系式 c、关系式、连接式 d、关系式、分布式

acbba bcacd acacd bbadc dcba 第八章

1.属性类型允许是基本数据类型、结构类型和集合类型的模型是（）(2001年10月全国卷)a.平面关系模型 b.嵌套关系模型 c.复合对象模型 d.分布式关系模型

2.“is-part-of”联系是指数据间的()(2003年1月全国卷)a.包含关系 b.分类关系 c.继承关系 d.并关系

3.在对象关系模型中，如果一种类型是同类元素的无序集合，并且允许一个成员多次出现，则称该类型为()(2002年10月全国卷)

a.结构类型 b.数组类型 c.多集类型 d.集合类型

4.在对象联系图中，表示对象类型的图形符号是（）

a、椭圆 b、矩形 c、小圆圈 d、菱形

5.对象联系图中双线箭头表示（）

a、函数值是多值 b、对象类型间的包含关系 c、属性是复合数据类型 d、对象类型之间泛化/细化联系

6.对象关系数据库是从传统的rdb技术引入（）

a、网络技术演变而来的 b、虚拟技术演变而来的 c、对象共享技术演变而来的 d、面向对象技术演变而来的

7.在对象关系数据库中，同类元素的有序集合，称为（）

a、数组类型 b、多集类型 c、结构类型 d、集合类型

8.在对象关系数据库中，不同类型元素的有序集合，称为（）

a、数组类型 b、多集类型 c、结构类型 d、集合类型

9.在对象关系模型中，属性的复合类型有结构类型、集合类型、（）

a、文件类型和数组类型 b、文件类型和连接类型 c、多集类型和数组类型 d、多集类型和连接类型

10.面向对象思想最初出现在（）

a、仿真语言sminula67中 b、smalltalk68中 c、lisp语言中 d、ada语言中

11.对象由以下三部分组成：一组变量、一组消息和一组（）

a、数组 b、方法 c、模型 d、用户

12.在面向对象模型中，实体的每个属性应该用一个变量和两个消息表示，（）

a、一个消息用于存储属性当前的值，另一个消息用于存储属性修改前的值

b、一个消息用于读取属性当前的值，另一个消息用于存储属性修改前的值

c、一个消息用于存储属性当前的值，另一个消息用于修改属性的值

d、一个消息用于读取属性当前的值，另一个消息用于修改属性的值

13.面向对象技术中，封装性是一种（）

a、组合技术 b、混合技术 c、信息隐藏技术 d、传递技术

14.继承性是一种“is-a”联系，是数据间的（）

a、聚集联系 b、泛化/细化联系 c、封装联系 d、包含联系

15.在面向对象数据库中，类(class)是（）

a、实体的集合 b、类似对象的集合 c、数据类型的集合 d、表的出集合

16.在面向对象数据库中，使数据结构的嵌套和递归成为可能的原因是使用了（）

a、实体标识概念 b、类标识概念 c、联系标识概念 d、对象标识概念

17.在面向对象数据模型中，（）

a、包含和继承是两种不同的数据联系 b、泛化和继承是两种不同的数据联系 c、包含和组合是两种不同的数据联系 d、泛化和细化是两种不同的数据联系

18.odmg国际组织一直致力于把（）

数据选择题篇2

随着信息社会的发展, 计算机技术、多媒体技术与网络通讯技术的涌入, 我们所处的时代走进了“知识爆炸”时代, 世界知识总量十年翻一番, 在生化、电子、宇航等科学领域内, 二到三年就翻一番[1]

知识的急剧增长和知识废旧率加快, 使得知识生产周期缩短, 知识生产的前期, 即课题的检索、调研时间已大为缩短, 目前最先进的图书情报系统, 平均每10分钟就可以完成一个课题的检索。知识生产的后期, 即知识鉴别和出版的速度也在随着科技的发展在缩短, 国际上论文发表平均为周期为6~8个月, 我国科技期刊论文的发表周期平均为14.1个月。[2]

知识生产周期的缩短, 使得文献发表速度急剧增加。其中期刊以时效性强, 信息量大而在各种信息源中具有较大的优势。全世界共有医学期刊2万种。据统计65%~75%的医学信息来源于医学期刊。

期刊种类的不断增加以及读者对文献信息资源需求的不断增加, 形成了图书馆与读者之间的供需矛盾, 手工检索工具应运而生, 但仅仅靠手工检索已经满足不了科研工作者的需求, 电子资源的出现和发展, 知识的获取变得相当的便捷。尤其为医学学术研究的现代化提供了种种便利, 可随时了解国际国内最新的医学信息, 有效的利用医学数据库资源为学习、教学、科研等服务, 加快密切的区域和国际合作、开展广泛的信息交流。如何更好的选择和利用好医学数据库, 越发的显得重要。

1 数据库的选择和利用

1.1 国外数据库的选择和利用

国际重要外文数据库包括MEDLINE数据库、PUBMED网络数据库、OVID、EBSCO等.其中MEDLINE为题录数据库, OVID、EBSCO、Springerlink为全文数据库。

MEDLINE作为美国国立医学图书馆 (NLM) 生产的国际性综合生物医学信息书目数据库, 是当前国际上最权威的生物医学文献数据库。在外文的数据库中, MEDLINE数据库已经逐渐成为必检的数据库。建议牙科和护理专业的科研工作者选择使用该数据库, 因库中除了美国《医学索引》的全部内容, 还包括有《牙科文献索引》、《国际护理索引》的部分内容, 涉及临床医学、基础医学、环境医学、营养卫生、药理和药剂学、卫生管理、医学保健和情报科学等领域。创刊于1879年是世界最最具权威性的医学文献检索数据库, 其报道的文献量大、质量高;检索功能很齐全, 标引的质量也高, 响应速度快兼容性较强, 可以随机使用[3]。因涉及的语种达到43个语种, 并且覆盖了70多个国家和地区, 且是以英文刊物为主体, 故在国内外都具有极高的使用率。

没有购买MEDLINE数据库的医学院校, 通常会链接一个PubMed网络数据库, 它是由美国国立医学图书馆 (NLM) 所属的美国生物技术信息中心 (NCBI) 开发研制的网络文献检索系统。在网上以www方式向用户提供的一项免费检索数据库服务。由于PubMed数据库中, 每天都收录新文献, 所以它的报道速度比MEDLINE更快, 更新。且Pubmed题录文摘完全开放。[4]Pubmed数据来源有三个方面, MEDLINE数据库, PREMEDLINE数据库和由出版商提供的电子文献。因其内容涵盖范围的广泛, 检索界面的方便实用, 以及题录完全免费, 并可以下载部分全文。受到广大医学爱好者的好评。医学科研工作者可定期在该平台使用主题检索的方法, 了解当今世界上最新的医学信息。

1.2 国内数据库的选择和利用

国内重要的数据库主要包括维普数据库、万方系列数据库、中文生物医学文献光盘数据库、中国期刊网全文数据库, 超星medalink等。

对需要中华类核心期刊文章的读者, 可把万方数据库作为首选数据库, 因其对中华类期刊有独家版权。中华类的期刊在别的数据库中无法查询到。

中文生物医学文献数据库 (简称CBMdisc) , 是国内应用最为广泛的文摘数据库, 其检索界面模拟Medline, 使用非常便捷, 现在改版为网络版本, 题录的检索和下载功能较好, 收录了1978年以来1600多种中国生物医学期刊, 以及汇编、会议论文的文献题录, 是我国最早成功开发的医学文献数据库之一, 学科覆盖范围与medline相似, 信息容量大传递速度快, 对于医护工作者掌握本学科动态、进行查新前检索和医学信息专业人员进行科技查新检索具有重要的参考价值。

中国期刊网全文数据库 (CJFD) , 是目前世界上最大的连续动态更新的中国期刊全文数据库, 内容覆盖自然科学、工程技术、等各个领域, 因学科范围比较广泛, 也叫做“同方全库”。对研究交叉学科的读者, 建议选择并使用该库。并且由于该库的检索界面非常的人性化, 可根据自己的需求查找所需资源, 比如期刊检索、基金检索等, 对科研工作者提供了很多的有效工具。

超星medalink作为一个非常实用的平台, 重点向所有科研工作者推荐, 他的一站式检索, 解决了读者一个一个数据库去查找资料的困扰, 如果本地有资源, 可直接下载, 本地没有购买的资源, 可以通过自助式的远程传递的方式实用该资源, 非常的快捷方便。

参考文献

[1]埃德加·富尔.学会生存[M].

[2]张惠民.中国科技期刊:亟需打造国际品牌[N].光明日报.

[3]孙思琴, 韩丰谈.四个国内外医学数据库检索功能的比较研[J].现代情报, 2003 (11) :58, 62.

数据代表的选择篇3

例 1 某小企业共有员工16人，月工资及相应的人数如表1所示.

（1）指出企业月工资的平均数、中位数、众数.

（2）请问：企业月工资的平均数能客观反映该企业的工资水平吗？

解：（1）通过加权平均数公式，求得企业月工资的平均数为

x==1 400.

从表中还容易找出，企业月工资的中位数为800，众数为800.

（2）观察表格中的数据不难发现，企业所有16个员工中，有13个员工的工资是在平均数以下的，而且大部分都是800元，大大低于平均数；只有3个员工的工资高过平均数.显然平均数1 400不能客观反映该企业的工资水平.而这里的中位数或众数800，则比平均数1 400更能客观反映该企业的工资水平.

比较该企业月工资的平均数、中位数、众数，可以发现它们不尽相同，而且平均数和中位数、众数之间的差距还很大.作为同一组数据的代表，三个量之间的差别为什么会这么大呢？选取数据集合的代表时，我们又该如何在它们中间取舍呢？下面，分别就中位数、众数、平均数的作用结合上面例子进行分析.

一组数据的中位数把数据分成同等数目的两组，一半小于等于这个数，而另一半大于等于这个数.于是将一组数据由小到大排列，数据为奇数个时，处于中间位置的数就是中位数；数据为偶数个时，则以中间两个数的平均数为中位数.可见，中位数不一定是原数据，但它很好代表了一组数据的中点，而且只要把数据按照由小到大的顺序排列，就很容易找出中位数，不需要什么计算.另外，中位数不受极端值的影响.例如，由于6 000这个数据的存在，很大程度上抬高了平均数，但是不影响中位数，甚至把6 000改为60 000，中位数还是不会变，仍是800，而这时的平均数却会变得比原来大很多.事实上，确定中位数时，仅仅利用了中间值，对其他数据则利用了它们和中间值之间的相对位置关系，而没有利用它们的具体大小这些信息.因此，仅知道一组数据的中位数而不给出这组数据时，无法知道这组数据中那些比中位数大（小）的数据究竟比中位数大（小）到什么程度.例如，如果只告知企业月工资的中位数为800，我们就没法知道比中位数大的那些工资跟800的差距有多大，也无法知道比中位数小的那些工资跟800的差距有多大.

中位数不受极端值影响，某些情况下是优点.上面例子中，中位数没有受极端值6 000的影响，比较客观地反映了企业的工资水平.

中位数不受极端值影响，某些情况下也是一个缺点.比如，税务部门调查、征收个人所得税时，则6 000这一极端值不能被忽略，仅凭中位数就很难发觉极端值的存在.

众数是指一组数据中出现次数最多（或称最典型）的数据，相对来说是三个数据代表中用得比较少的一个.众数一定是数据集合中的原数据，有时可能不止一个.找众数只需要观察原数据并进行计数，不需要什么计算.众数反映了数据的最大集中点，因此只能告诉我们这个值出现的次数比其他的值出现的次数多，但并未告诉我们它具体出现了多少次，它比其他数据出现次数多的程度有多大.例如，如果只告知企业月工资的众数是800，我们并不能知道工资是800的人具体有多少，工资是800的人比其他人多多少.和中位数一样，众数也不受极端值的影响.

平均数是所有数据相加的和除以数据的个数所得的商，是我们最常用的一个数据的代表.平均数往往不是原数据集合中的数据.平均数的计算，利用了原始数据集合中的每一个数据，因此任何一个数据的变化，都会影响平均数，而中位数和众数都不具有这个性质.因此，和中位数、众数比较起来，平均数可以反映出更多关于数据集合的信息.也正因为如此，平均数容易受极端值的影响.这在某种情况下是优点，在某种情况下则是缺点，上面例子就是一个很好的佐证.

从上面对中位数、众数和平均数的分析可以看出，它们作为数据的代表各有优缺点.要根据数据特点及实际问题选取合适的数据代表.一般地，如果数据中有极端值时，最好不要使用平均数；当小的数据与大的数据的个数大致相同时，则用平均数作为代表比较合适.如果小的数据个数明显比大的数据多，或者大的数据个数明显比小的数据多，我们最好用中位数作为代表.有时，为了决定对一个数据集合是使用平均数还是中位数，最好两者都算出来.如果它们的值很接近，则我们使用平均数；如果它们有很大的不同，则我们使用中位数.

另外，我们还可以发现，对数据的概括会使得数据高度简单化.但同时，任何简化都意味着某些信息的丢失.

选择合适的加密技术保障数据安全篇4

因此，这已经不再是公司是否应该使用加密技术的问题，而是一个公司应该如何对数据进行加密的问题。制定加密策略计划的第一步是理解主要的加密技术类型，包括存储加密技术、网络加密技术、应用程序级加密技术。虽然各种方法都有各自的优点，但它们也有不足的地方，我们也需要把这些因素考虑进去。

权限管理

权限管理是一个更高级的应用程序级加密技术，越来越多的人正在使用它。权限管理是一项可以给加密文档分配权限的技术。举例来说，这种加密政策会阻止用户从文件中拷贝数据，或者打印一个受保护的文档。

权限管理的一个优点是权限可以在后台服务端进行分配。这意味着如果一个用户打算把授权限控制的文件拷贝到移动介质上带出公司，管理员只需把相应的权限移除，就可以阻止这个用户获得该文档的数据。

Windows系统本身就支持权限管理，一些第三方的产品也提供了类似的功能。大多数情况下，权限管理在安全方面起着很好的作用，但是由于产品的不同，初始化安装有时会很复杂。并且，根据权限管理的设定方式，移动用户如果不连接到公司的权限管理服务器上，则将无法打开受权限控制的文档，

另外一个潜在的不足是，并非所有的数据类型都支持权限控制。理想情况下，权限控制的确可以把应用程序级加密功能结合起来，从而解决这些管理难题。

如何选择

由于存在多种类型的加密技术，选择一种最适合自身需要的技术对公司而言将成为一件很困难的事情。第一步，确定你的公司是否需要遵守联邦或行业的法规，这些法规强制规定了数据该如何进行安全保护。如果需要遵守的话，可以把这些法规当成指导，进而决定应该选择何种加密方案。

多数企业想要采取分层的方法。当涉及到加密时，一般的规则要求数据在静态和动态下都可以对其进行保护。如果数据只是在存储级、或者只在传输中进行加密，那么面对那些潜在的风险，数据并没有得到完整的保护。尽管应用程序级加密均满足这两个准则，但它也只能用来加强你的网络安全，并不能作为一种唯一的加密手段，因为不是所有的应用程序都提供了内置加密的功能，而那些具有加密功能的软件，其加密的强度也有所不同。

如果一个公司不受要求加密的行业规则影响，那么关键的问题就是技术部署和维护上的总成本以及对员工的要求。加密可能会在硬件、软件和技术支持上花费大量的费用，所以确保合理的收支效益很重要。

无论一个公司选择什么样的加密方案，对于终端用户来说都应该是透明的，并且要与自身的网络基础设施相兼容。一些加密方案会使得备份数据，或是对存储区网络上数据的访问、加密变得困难起来。一旦完成最初的安装，要确保你所考虑的方案不会造成重大的行政负担。

随机选择表格里的行数据库教程篇5

作者： ZDNet ChinaFriday, November 28 4:08 PM

你可以使用很多种方式随机选择数据行;这在你想要往网站里加入动态特性的时候特别有效，例如，你可以随便选择一个产品，将其作为“今天的特色产品”来展示，或者质量评估人员(QA)可以生成一个随机的调用表，以测量用户的满意度。

但是其中的障碍是SQL不允许随机选择列。好消息是，有一个简单的技巧能够在SQL里实现这一功能。

该解决方案基于uniqueidentifier这个数据类型。唯一的标识符，也叫做全局唯一标识符(Guaranteed Unique Identifiers，GUID)，看起来就像下面这样：

4C34AA46-2A5A-4F8C-897F-02354728C7B0

SQL服务器在很多情况下都会使用GUID，最明显的可能就是复制过程了。当正常增长的单位数据列(identity column)没有提供足够的关键字时，你可以使用它们，

要做到这一点，你就要创建一个uniqueidentifier类型的数据列，而这个类型缺省的值是NewID，就像下面一样：

CREATE TABLE MyNewTable(PK uniqueidentifier NOT NULL DEFAULT NewID(),AnotherColumnvarchar(50) NOT NULL,. . .

这个函数就像是解决我们选择随机列问题的钥匙。我们可以简单地调用NewID()，将其作为我们查询里的一个虚拟列，就像下面这样：

SELECT TOP 10 OrderID, NewID() as RandomFROM OrdersORDER BY Random

最近我创建一个页面，上面发表有10个随机用户的引言来赞美公司服务，在做这个的时候我用到了这个解决方案。用户也可以在他们每次访问网站的时候看到新的引言。

这是向网站加入新吸引点的简单方法。既然你知道了如何发布随机选择的数据列，你看起来就像是一个SQL的明星了。

数据选择题篇6

在通信大楼内的计算机、控制终端、监控系统、终端设备由于自身对过电压、过电流比较敏感，各系统之间内部连线错综复杂，连接线路可达100～200m,而且连接类型较多（有屏蔽线和非屏蔽线，也有对称线和非对称线），这些线路因雷电电磁感应，可将雷电脉冲传到系统之间接口的电路中去，对敏感的接口电路产生影响和冲击。

信号端口的损坏主要是雷击时使得端口上附加了额外的电位差并且超过了其承受能力。以下情况可能会对信号端口造成影响甚至损坏：信号线路两端的设备，分别处于两个不同的地网之上；信号线两端的设备虽然处在同一地网上，但接地引接点不同；虽然接地引接点相同，但信号线路两端的设备分别处于不同的汇流排上，当发生雷击时，汇流排有雷电流泄放，并引起2个汇流排之间产生电位差；信号线路没有屏蔽措施，引线较长，在20～50米以上（应根据机房的屏蔽、接地系统和线路垂直走线长度等具体情况确定）。

许多局（站）的出入电缆和光缆没有按照标准进行接地处理，致使PCM接口、PCM逻辑盘、话路板以及2M接口被雷击损坏的事故时有发生。因此，出入局站的电缆，应在进线室将金属铠装外层接地；出入局站的光缆，应将缆内的金属构件在终端接地。

关于信号保护器的选型需要考虑以下方面：信号线路的工作电压；信号线路的工作频段或传输速率；信号线路的阻抗特性；插入损耗；最大通过的电流或功率。下面以通信局（站）的各端口为引线，将保护器的选择作一讨论：

（1）2M传输线路。主要为通信局（站）内移动通信基站设备直传输设备传输通道，通常使用75欧同轴线缆，有时也用120欧双绞线，均有屏蔽层。SPD的要求：最大通流量：不小于7.5kA（8/20μs波形）；工作电压：6-12V之间；插入损耗：< 0.5dB;通频带为1.024MHz，传输速率2.048Mb/s。

（2）数据串行/并行接口（RS232）。通常用于计算机和其它设备间数据互联，交换机、DDN设备的数据输入、输出等，串行接口为9针，并行接口为25针。SPD的要求：冲击通流容量：不小于3kA（8/20μs波形）；工作电压：12--18V；插入损耗：< 0.5dB;传输速率20Mb/s。

（3）RS422/RS485接口。常用在动力/环境监控系统，一般作为远距离数据传送。线缆使用4根铜线（收/发各一对），采用15针插接口（第2、9和4、11脚）或直接连接方式，有时也使用25针插接口非标连接。SPD的要求：最大通流量：不小于5kA（8/20μs波形）；工作电压：6-24V；插入损耗：< 1dB;传输速率10Mb/s。

（4）以太网数据接口。在通信局（站）内主要用于97网、局域网、寻呼台终端与服务器HUB、168台等计算机网络设备之间100M和10M数据连接，部分寻呼基站与服务器之间、动力环境监控也有使用。对SPD的要求：最大通流量：不小于7.5kA（8/20μs波形）；工作电压：6--12V；插入损耗：< 3dB;传输速率100Mb/s。

（5）视频信号接口。主要用于通信局（站）控制室的安全监视。SPD的要求：

医院数据中心机柜的选择与管理篇7

IT设备安装密度最大化, 目前已经成为机架式服务器的发展趋势。1U刀片式服务器的大量运用, 使得42U机柜最多可能安装42台服务器。如此多的服务器, 对于机柜的承重提出了更高的要求, 而每个服务器中所使用的CPU多为2个 (甚至更多) , 硬盘也多采用内部阵列的形式, 运行中会释放更多的热量, 导致机柜内热量密度非常大。忽视机柜内部设备的制冷问题, 也可能导致IT设备发生故障、寿命降低。

1 机柜的选择

如何选到一款质量好的机柜是我们关心的问题, 下面归纳总结几个重要参数, 希望对大家选购有帮助。

1.1 承重保证

随着机柜内所放置产品密度的加大, 拥有良好的承重能力, 是对一款合格机柜产品的基本要求。不符合规格的机柜, 可能因为机柜品质差劣, 不能有效妥善保护机柜内的设备, 结果可能会影响整个系统。一台好的网络机柜或者服务器机柜, 它的立柱至少为1.2mm以上, 侧板应该保证为1mm。只有这样机柜才能承担起昂贵的设备的重量。如果机柜立柱在1.5mm或2.0mm或以上, 质量就更好。

1.2 安全保证

现在市场上出现一些采用钢化玻璃作为前门的机柜, 这样方便技术人员在不打开机柜门的情况下检查设备。然而, 市场上一些价格低廉的机柜厂开始使用普通的玻璃, 这种普通的玻璃最大的缺点是易破碎、易磨损, 最大的危害就是造成人身伤害。而且机柜使用时间长了, 普通玻璃磨损严重, 造成在不打开机柜门的情况下无法检查机柜内的设备。市场上一些质量不好的机柜大多在使用这种普通玻璃。良好的机柜内壁应光滑, 不应有毛刺或刃口。

1.3 散热性

机柜内部有良好的温度控制系统, 可避免机柜内产品的过热或过冷, 以确保设备的高效运作。如果设备工作时产生热量较大, 建议选购网孔型机柜, 以保障机柜内热量及时散发。机柜可选择全通风系列, 可配备风扇 (风扇有寿命保证) , 在炎热的环境下可安装独立空调系统。

2.4线缆管理

整齐有序的线缆布置和标识, 能使管理和维护工作更加方便高效, 不仅在机柜内部, 即使在很多机柜并列时, 各类线缆也容易接近和操作。机柜需配置垂直缆线管理器和水平缆线管理器来帮助机柜内线缆的整理。

2 我院目前选用的机柜平台特点及架构

我院在机房建设时, 充分考虑到机柜的重要性, 机房机柜的选择考虑到了机柜初期布线和日后维护的这些需求, 以及机柜散热方面的要求。

2.1 机柜承重性选择

我院选择网络服务器型机柜, 长×宽×高:800mm×1000mm×2000mm, 该机柜门框使用9折型材料, 增强载重强度, 确保产品的安全;立柱在2.0mm以上, 其他在1.5mm以上, 最大静载达800kg, 移动承载350kg。

2.2 机柜安全性选择

机柜有可关闭的上部、下部多处走线通道, 底部大走线孔尺寸可按需调整。可方便拆卸的左右侧门和前后门, 全方位操作, 多方位察看。高效坚固的并柜连接方式, 可选配安装底座, 达到固定机柜、底部过线、底部送冷风, 以及防鼠的要求。对于安装大量刀片服务器的机柜使用带透气孔的前门和后门, 方便通风散热, 提高网络设备运行的稳定性;对于安装综合布线类产品的机柜, 柜门采用钢化玻璃门, 方便查看设备。

2.3 机柜散热性选择

机房散热的效果与机房内空调的设置和机柜选择以及机柜的摆放密切相关。有关机柜很容易被忽略。为了追求美观气派, 很多机柜都采用玻璃门, 导致机器设备的散热效果不佳, 故障频繁发生。

(1) 我院机柜顶盖安装4个优质轴流风扇, 其风量大、噪音低, 配合机柜的底部送风口, 能有效地降低机柜内的散热。

(2) 机柜架式散热单元模块的安装 (图1) :对于网孔门机柜, 为了解决数据中心的散热问题, 减少对昂贵的散热设备的需求, 我院机柜采用了被动冷却技术来控制机柜中的气流。该机柜采用机架式散热单元竖直悬挂在机柜后部侧立柱上, 处于核心设备的上方100mm, 其数量可根据放置在机柜中核心设备的数量决定, 可配置多个机架式散热单元, 可以将更多冷空气输送到机柜中核心设备的位置。这些冷空气能够降低导入机柜的空气的温度, 同时减少流经机柜而进入冷通道的热空气造成的负面影响, 形成一个前进后出的有效散热通道, 达到降低机柜局部温度的目的。

2.4 机柜的理线

从机柜内部线缆附设的角度看, 数据中心中的机柜配置密度更高, 容纳的IT设备更多, 大量采用冗余配件 (冗余电源、存储阵列等) , 机柜内设备配置频繁变换, 数据线和电缆随时增减。所以, 机柜必须提供充足的线缆通道, 能从机柜顶部、底部进出线缆。在机柜内部, 线缆的敷设必须方便、有序, 与设备的线缆接口靠近, 以缩短布线距离, 减少线缆的空间占用, 保证设备安装、调整、维护过程中不受到布线的干扰。

我院机柜选用服务器型机柜, 充分考虑到设备的宽度和深度, 使其易于整理电源线和数据缆线。机柜深度要求满足规划安放的设备的要求, 包括在设备前面和后面预留足够的布线空间, 装有方便走线的缆线管理器和冷却设备。在布线工程中通过垂直缆线管理器和水平缆线管理器实现对机柜或机架空间的整合, 提升缆线管理效率, 使系统中杂乱无章的跳线管理得到很大的改善。水平理线器主要用于容纳内部设备之间的跳线。垂直理线器分前部机柜理线器和后部机柜理线器2种, 内部的垂直理线器主要用于管理机柜内部设备间的跳线, 一般配备滑槽式盖板。

3 结束语

我们在规划1个包含服务器、存储产品在内的数据中心时往往不会在意机柜、电源这些“细枝末节”, 但在系统实际安装和使用中, 这些配套设施同样对系统的可靠性有着举足轻重的影响。从价格看, 机柜、机架从几千元到上万元不等, 完全无法和内部设备的价值相比。由于机柜内部设备集中, 决定了对机柜和机架的一些特别“苛刻”的指标要求, 如果在选择的时候不加以注意, 那么使用时带来的麻烦可能是巨大的。

参考文献

[1]李鹏.台达推出新一代数据中心服务器机柜[J].电源世界, 2009, (9) :19.

[2]美国西蒙.美国西蒙ersaPOD机柜解决方案在数据中心的规划[J].智能筑与城市信息, 2010, (1) :33-35.

[3]杨世忠, 等.如何使节能与安全兼得[J].中国计算机用户, 2009, (24) :26-27.

[4]马伟.威图:机柜也能做成时尚[J].中国机电工业, 2008, (7) :52-53.

[5]白波.新型节能降耗机柜系统NetAccess[J].低压电器, 2008, (2) :59-62.

[6]赵文江, 李崇辉, 关志伟.数据中心机房高负载密度机柜制冷技术探讨[J].中国金融电脑, 2009, (9) :80-85.

数据选择题篇8

自2012年底起，在众声沸腾之中，“大数据”成了被广泛讨论的概念之一。这股热潮似乎意味着，一个预示着思维方式和商业模式变革的大数据时代已经到来。而2012年也是我国传统出版业向数字化转型的高速发展期，大数据潮流和我国传统出版业的数字化进程息息相关，二者正面合流，必然会给我国传统出版业带来一定冲击。

然而，大数据到底是什么？它会如何影响传统出版，带来怎样的思维方式和商业模式的变革？它又会给我国传统出版业带来哪些问题和挑战？对于上述问题，传统出版业需要做好思想和行动上的准备。

一、大数据是一种思维：相关关系取代因果关系

大数据经常被认为是“巨大、海量的数据”，这并不十分准确。在维克托·迈尔-舍恩伯格和肯尼斯·库克耶所著的《大数据时代：生活、工作与思维的大变革》一书中，大数据的概念得到了较为权威的辨析。所谓大数据，更接近于“全数据”。与传统分析抽样的、部分的数据的方法不同，大数据近乎总体的、所有的数据。

实际上，有关数据处理的实践早已存在于历史之中。比如，零售业巨头沃尔玛在20世纪90年代就开始分析销售和存货的数据以降低风险和成本。但是，受计算能力和数据资源的限制，关于数据处理的大规模实践仅局限于零售、金融等专业圈子。如今，随着电子商务、社交网络和移动设备的普及和兴盛，规模数以亿计的用户都在网络中留下了自己的“痕迹”。这些“痕迹”形成了海量的数据资源。有了这样庞大的数据资源，再加上云计算的出现突破了过去计算条件的限制，使得大数据分析成为可能，潜藏在其中的商业模式和巨大的利润空间开始被不断地挖掘出来，展现在人们面前。这一切成为推动大数据实践前进的源源不断的动力。

因此，大数据并不是空泛的概念，而是与实践息息相关。大数据对传统出版业来说更大的价值不在于技术本身，而在于为出版业提供一种思维方式和思考模式，大数据强调相关关系，重视总体数据，宽容数据中的“噪音”，实时地发现其中从未被了解过的相关性现象和趋势，挖掘并创造意想不到的价值，改变了传统数据时代一味追求因果关系和精致化数据处理的思维习惯。对传统出版业来说，大数据思维带来的应该是商业和整个行业赢利模式的变革，这种思维已经开始并正在影响着传统出版业的现状和未来发展方向。如同等待挖掘的大数据一般，传统出版在大数据时代也潜藏着许多变革的可能性和机遇等待探索和发现。

二、大数据对传统出版业的影响

1. 出版的数字化并不等于“大数据化”

近年来，我国传统出版业迅速向数字化转型。据统计，2012年我国数字出版全年收入规模达1935.49亿元，较2011年增长了40.47%；占全行业营业收入的11.6%，较2011年提高2.1个百分点。其中，电子书、互联网期刊、数字报纸的营业收入增长52.6%，超过数字出版整体增长速度。这表明，我国传统出版业的数字化进程势头正猛。但需要注意的是，出版的数字化并不等于“大数据化”。

首先，如果说数据化是把现象进行量化的表现，那么关于数据化的实践在数字化进程之前就已经广泛存在。比如，古代的计数工具如算盘的出现就是为了更好地量化现实现象的尝试。但是，数据化也不等于“大数据化”。只有通过数字化，将不同形式的复杂数据转换为数字计算机可以处理的数字数据，才使得大数据分析得以实现。所以，数字化是大数据分析的基础和必要条件。加快传统出版业向数字化转型，是出版业迎接并实现“大数据化”的必要条件。

然而，出版的“大数据化”并不仅仅是数字化。出版业要实现大数据化，需要将大数据思维贯穿于传统出版业产业链上的各个环节中，用大数据思维变革传统出版业的商业运作逻辑。目前，我国出版业或许由于现有条件限制，还不足以充分实现“大数据化”。但是在大数据时代到来的前夕，我们需要先充分做好思维上变革的准备。

2. 大数据变革传统出版产业链的对策

广义的传统出版的产业链主要可以分为出版、复制（印刷）、发行、物资供应等环节。在出版数字化进程不断加快的今天，不少产业链环节仍处在传统思维的运作下，这与数字化的趋势相违背，更与大数据化的方向相背离。我们需要将大数据的思维应用于各个环节，变革其中的运作逻辑，探索效率提升和价值创造的可能性。

（1）选题：大数据确定市场需求

传统文化生产组织（如书籍、杂志、电影生产商）由于面临着市场需求的不确定性，往往需要生产过剩的文化产品，再重点推广其中某些产品，以期望这些产品能够满足消费者的需求。这种传统的生产模式不仅增加了成本，还造成了一定程度的资源浪费。

出版业在出版一本书之前，往往会经过市场调研，以了解市场需求。在“小数据时代”的思维主导下，市场调研往往采用随机抽样问卷调查的形式。通过市场调研，到出版编辑提出内容选题，再经过层层论证，最终到审批通过。一套流程走下来，无论在调研环节中的随机抽样，还是在论证环节中对因果关系的讨论，都费时费力，更可能落后于瞬息多变的市场环境。

大数据思维要求我们抛弃以随机抽样和因果推论为典型代表的小数据思维。通过大数据分析，可以更实时、准确、小成本地分析现有市场的潜在需求和趋势。这样，出版社不必再忙于传统市场调研的随机抽样问卷调查，也不必再受制于调查得出的滞后的市场数据，更不必再通过过剩生产的方式来满足受众需求。出版社通过对用户数据的分析，可以了解到用户的产品偏好，这样就可以相对定向地策划、生产出符合用户潜在需求的文化产品。

例如，美国电视剧《纸牌屋》的制作就是利用大数据分析进行生产的典型例子。其制作方Netflix每天都会对其海量用户的行为数据进行分析。通过分析，Netflix知道其用户喜欢哪个导演，喜欢哪个演员，偏好搜索什么类型的内容，把三者结合，就产生了一炮而红的《纸牌屋》。这种模式同样可以用于出版业。比如，出版社可以和掌握相关用户数据的网站（如豆瓣）合作，分析用户使用搜索和“想读”功能而积累起的海量数据，从中挖掘出用户的偏好趋势和书籍市场的潜在需求。社交网站和搜索引擎也掌握着庞大的数据。例如，可以通过对微博上与书籍相关的关键词进行排序，挖掘出近期热门的内容题材和作家。

nlc202309041124

因此，大数据分析可以让出版社将生产流程的标准化和产品内容的个性化统一起来。出版社可以通过对用户偏好的组合（如《纸牌屋》的案例），将用户喜欢的作家、风格、题材类型组合起来，创造出一系列畅销书。这在一定程度上类似于传统大工业的流水线标准化生产，只需要将不同的原始“零件”拼接在一起再进行深加工，就能生产文化产品。这不仅缩短了一本书从策划到出版的时间周期，减少了生产成本，还极大降低了传统出版社之前所面临的需求不确定性和风险。

而且，这种生产流程的“标准化”并不一定会导致大量重复文化产品的出现。通过大数据分析，出版社可以相对清楚地了解到各个细分市场的偏好，针对不同目标市场进行偏好组合，就可以生产出符合不同目标市场需求的书籍。有着专业市场定位的出版社通过大数据分析，也可能获得比传统市场调研更可靠的结果。

（2）营销：有的放矢、精准营销

传统的文化产品生产商在制定营销策略时，由于用于营销的资源是有限的，往往将资源重点分配于几个选定产品，通过广告宣传和联系评论人（如书评人、影评人、乐评人）等造势手段，展开对新产品的营销活动。由于文化产品的过量生产，营销资源并不能平等地分给所有的产品。因此，在传统的文化产品营销活动中，一些产品由于缺少营销甚至而刚上市就“退市”，甚至，一些被投入大量资源重点推广的产品，也可能因为不符合充满不确定性的市场需求而遭遇“滑铁卢”。

传统的营销方式——对评论人的公关及广告的全面铺开耗费了极大的成本，而大数据的分析方式，可能会使得这样的营销策略逐渐式微。亚马逊就是典型的例子。最初，亚马逊作为在线售书商，专门成立了一个由20多名书评家和编辑组成的团队。这个团队通过撰写书评、推荐新书的形式，承担起传统评论人的角色，对书籍销量产生了巨大的影响。然而，当亚马逊意识到数据的作用后，通过对用户的大数据分析，建立起亚马逊的购书推荐系统。这个系统能够自动向用户推荐经数据分析后其最有可能会买的书籍，最终，推荐系统起到了比书评团队更好的效果，书评团队也走向解散。

另外，淘宝根据对自身用户数据的分析而发布的《2012年全国县域地区网购发展报告》指出，全国一、二线城市用户的人均购书花费虽然高，但县域用户在人均购买次数上却更高。比较来说，县域用户更喜欢励志和创业的书。在他们的购书偏好中，教育、考试类书籍占了较大比重。这些来自电子商务的数据分析，都可以为出版社在制定图书营销策略和渠道时提供极为重要的参考。

社交网站上的用户关系也可用于大数据分析。利用社会网络分析法对社交网站用户间关系进行分析，可以辨别出有着不同属性、兴趣爱好和消费能力的“小圈子”。这些小圈子就是典型的细分的目标市场。专业出版物往往只符合小众市场的需求，而在这些小圈子进行专业出版物的营销活动，利用社交网络强关系和弱关系的连结，可以取得良好的营销效果。在大数据分析的帮助下，对不同的用户进行定向的新书推荐和广告投放，也可以使营销更有效、更富有针对性。

北京磨铁图书有限公司最近通过“众筹”模式出版《社交红利》一书就是利用社交网络进行营销的先例：这本书在首印前就在众筹网上展开营销活动，在用户中预售了3300本，募集到10万元书款，收回了成本。此后，在社会化营销的影响下，《社交红利》成为一个月发行5万本的热门畅销书籍。此例一开，继磨铁后，更多的书籍开始登陆众筹网尝试这种新的社会化营销。例如，乐嘉的新书《本色》通过众筹网，在一天时间内就获得了330位网友的支持，筹资超过15000元。

虽然磨铁的案例并没有用到多少大数据分析，但是，这种利用社交网络营销的模式为大数据分析可能带来的营销效果提供了预见和有力的证明。传统出版物的预售与征订工作耗时良久，且成本较高。专业化书籍更是面临着更大的需求不确定性。将新书在出版前就在社交网络上预售，既可以在出版前验证一本书的潜在需求，又可以在出版后利用用户社交关系之间的相互影响展开书籍的营销活动，而且，《社交红利》作为涉及微博、微信、社会化营销等内容的书籍，其市场定位在一定程度上也符合社交网络用户的需求，其单本较低的定价，也特别适合用“众筹”的方式进行出版和营销。

因此，可以将大数据分析和社会化营销结合起来，将其用于制定新书的营销策略中：前期，通过大数据分析潜在的市场需求和目标市场受众的特征，减少琐碎的市场调研，选定营销的目标圈子；后期，基于大数据的分析结果制定不同的营销策略，利用社交关系进行社会化营销。这种方法特别适用于专业化书籍，因为在越是深层次的细分领域，随机抽样的问卷调查可能越不可取。

大数据分析既可以减少耗时，降低成本，还减少了小众书籍面临的需求不确定性的风险。另外，传统出版对新书首印数的判断往往依赖于经验和简单的历史数据判断，有很大风险。利用大数据分析加上社会化营销，也可以在最大程度上降低这种风险。

（3）商业模式：改变传统基因

大数据的思维不仅仅可能影响传统出版业的各个产业链环节，还可能为出版社提供新的商业赢利模式。在传统出版业中，出版是主要环节，带动其他环节形成出版业的生产链条。在大数据时代，数据本身就是重要的资产。这种资产就像冰山一角，没有深入挖掘就不能发现其潜藏的巨大价值。出版社需要认识到，自身所拥有的庞大内容资源，本身就可以是一个巨大的数据库。

将自身的内容资源数据化，并不仅仅是将纸质版书籍扫描转变成电子版这么简单。将内容资源数据化，是要将内容资源变成可以被检索、计算、分析的数据库。例如，谷歌于2010年推出的图书数据库就包括了从1500年到2008年间出版的各类图书的5000亿个单词，大约有2000万图书被扫描成了数字图书。用户可以在电脑上输入单词，查看这些单词历年的使用频率。这样的数据库对于人文社科研究有着巨大的价值。因此，拥有较多内容资源的出版社可以通过对内容的数据化，创建自己的数据库，展开数据库营销。大学、图书馆、相关研究机构对这类型的数据库都存在一定的需求。

nlc202309041124

当然，出版社的内容资源并不仅仅于此。如果出版社拥有自己的电子阅读器用户，那么出版社就可以对电子阅读器用户的阅读习惯和阅读行为进行量化。例如，亚马逊不仅仅拥有大量的数据化书籍，还说服了众多出版社在它的电子阅读器Kindle上发布图书。这样，亚马逊就能够掌握电子阅读器用户的各类数据，比如，用户喜欢阅读什么格式的电子书，喜欢在书中的哪些地方划重点、做笔记，喜欢重复阅读书中的哪些段落，跳过了书中的哪些章节，阅读一页需要多少时间，喜欢用什么搜索词。这些碎片化的数据信息可以作为一项重要资产卖给出版社。经过大数据分析，出版社可以从中了解电子书读者的阅读偏好，从而改善自己电子书的内容、结构、风格和销售渠道。

巴诺书店就利用自己的Nook电子阅读器收集用户的阅读行为数据。通过数据分析，巴诺发现非小说的阅读，尤其是篇幅较长的书的阅读，总是断断续续，往往容易较早被放弃。这些数据促使巴诺推出“Nook快照”，加入了从减肥到“占领华尔街”运动等一系列与健康和时事有关的短小作品，鼓励读者阅读非小说类作品和长篇的新闻作品。甚至，数据还能帮助出版社在电子书中合适的地方加入多媒体功能，让读者继续保持兴趣。出版社还能通过读者的阅读速度或放弃阅读的比例来判断读者对此书是否还有兴趣。

因此，出版社本身就可能成为大数据的拥有者。通过对自身内容的数据化和深度挖掘，出版社可以利用自己的数据库创造新的商业盈利模式。通过与其他数据拥有者的合作，出版社可以获得更多来自读者的原本潜藏着的反馈，以改善自己的产品和服务。

三、大数据给传统出版带来的挑战

1. 谁掌握着大数据

当数据成为资产时，谁拥有这份资产就成了至关重要的问题。在大数据的产业链上，拥有数据本身的公司和拥有大数据分析技术的公司占据着最为重要的位置。然而，传统出版社可能既没有足够的数据，也没有分析大数据的技术水平和硬件设备，从而处于一个极为尴尬的位置。

若要实行大数据策略，出版社先要获得数据拥有者如社交网站、搜索引擎、电子阅读器等公司授予的数据使用权，再需要和数据分析者合作，使得数据得到二次挖掘获得新的价值。由于数据资产本身的价值难以准确衡量，这种多方博弈可能会经历重重的困难，有着更多的不确定性。某些在出版产业链上已经实现纵向一体化的公司可能会出于自身利益考虑或其他原因，不向出版社提供数据使用权。例如，拥有电子阅读器Kindle的亚马逊就没有把用户数据信息卖给出版社或作者。

2. 大数据能否代替一切

在大数据时代，传统出版确实能有更多的发展机遇和空间。但是，大数据是否是万能的呢？

答案是否定的。首先，虽然大数据推崇采用近乎总体的数据，但由于种种客观条件的限制，大数据并不会囊括整个市场。这在互联网、电子商务和移动设备不够普及的国家尤其显著。而且，大数据并非绝对准确，而是充满“噪音”和混杂性。大数据反映的是概率问题，而非客观关系。过于依赖大数据制定策略而失去个人本身的主观思考，容易走入“数据决定一切”的误区。

其次，如果过于依赖大数据，在一定程度上会导致非常规性创新的缺失。大数据思维是依赖于机器计算的思维，由于计算过分复杂，计算过程也无法被解释得明晰。如果人们过于依赖大数据分析，可能会渐渐失去自己的思维能力。虽然，通过大数据分析可以发现以往未曾发现的现象，但是基于大数据分析而制定的策略，是否是一种对人的创新能力的扼杀？人们是否会陷入迎合市场需求的忙碌中而失去艺术创造的灵感和热情？这一点值得文化产业深思。创意之所以为创意，是因为在产生之前，创意并不存在于这个世界上。对当前的大数据的分析无法挖掘出非常规性创意，也无法代替创意，更无法代替文化产业属于人的精神创造活动。

3. 大数据在我国出版业的实现条件并不成熟

目前，我国的传统出版业是否有条件实现大数据？条件可能还不太成熟。我国传统出版业正处于向数字化的转型时期，要谈大数据化，得先彻底地数字化。目前，传统出版业的数字化转型尚未成功，进行大数据化实践也只是纸上谈兵。从数字化到数据化，从数据化再到运用大数据思维，还需要经历相当漫长的过程。但是，即使我国传统出版业的大数据时代还未到来，我们也要做好思想上变革的准备，充分认识到大数据能给传统出版产业的发展带来哪些机遇和潜力。

（作者单位：中国人民大学新闻学院）

参考文献

[1]Paul M. Hirsch. Processing Fads and Fashions： An Organization-set Analysis of Cultural Industry Systems. [J] American Journal of Sociology，Vol. 77，No. 4 （Jan. 1972）：639-659.

[2][英]维克托·迈尔-舍恩伯格，肯尼斯·库克耶. 大数据时代：生活、工作与思维的大变革 [M]. 杭州：浙江人民出版社，2013.

【数据选择题】推荐阅读：

数据中心06-25

GDP数据09-11

班组数据11-04

大数据论文01-22

数据开题报告01-24

数据加工01-30