现象研究计划

现象研究计划（精选8篇）

现象研究计划篇1

一选题的背景、目的与意义

伴随着大学扩招，大学生累计失业人数也在一直增加，大学生就业难的话题一年热过一年。特别是自经济危机以来，这种趋势尤为明显。而另一方面，企业招工难也越来越明显。自20世纪初，东南沿海地区陆续出现了用工荒的现象，而现如今，这一现象已经在全国范围内频繁出现。涉及的行业也由低端服务业、劳动密集型企业蔓延到企业高级技术人才的匮乏。一方是大学生“就业难”、一方是企业“招工难”，这两种现象初看是完全相反的，只能在某一时段内发生一种，但现在两者同时发生，而且都愈演愈烈。这其中到底有什么关系？

因此，本研究将调查大学生“就业难”的原因和企业“招工难”的原因，分析两者的内在联系，结合当前的国家帮助大学生就业的政策，为大学生实现就业提供建议。

对企业招工难和大学生就业难问题的研究，并从经济结构调整，产业升级，经济协调发展，构建和谐社会的高度提出解决对策，具有重大的现实意义和价值。

二相关文献综述

民工荒引起了学术界的广泛关注，各个领域的学者们从不同角度对该问题进行了大量的分析和探究。本文在总结部分文献的基础上，从以下几个方面对“民工荒”问题进行了综述和全面剖析。国外相关研究动态（1）刘易斯二元模型

1954年美国发展经济学家阿瑟•刘易斯指出在发展中国家一般存在着性质不同的两个经济部门，一个是“资本主义”部门、一个是“维持生计”部门。刘易斯模式的劳动力转移机制是：在工业化的初始阶段，只要工业部门能够提供最低生活水平以上的实际工资，农业部门就能够向工业部门无限供给劳动力，而工业部门在这一过程中得到发展；这种发展情况，一直延续到农业部门的边际生产力增大而使实际工资上升至与工业部门实际工资相等时，劳动力的转移便结束了。（2）国外职业搜寻理论

劳动力市场信息是不完全的，同时每个企业给劳动者的报酬不同，劳动者为了获得报酬满意的工作，必须在劳动力市场搜寻。这种为寻找工作而采取的失业时间越长，劳动者就越能找到满意的工作，获得的工作报酬就越高，但是随着他在劳动力市场寻找职业时间的延长，未来寻找到的工作岗位报酬的提高幅度递减，即职业搜寻时间的边际收益递减。2 国内的研究成果（1）结构短缺论

“民工荒”在很大程度上是指年龄、性别、地域和技能型民工荒。“民工荒”并不是由于农村劳动力绝对数下降，而是由特定人群短缺而造成的结构性供给不足，或者可以说是结构性有效供给总量不足，是劳动力市场区域性和结构性失衡的结果。吕小燕、杨文选（2006）从“经济理性人”学说出发，假设农民工是经济理性人，会精确地考虑进城务工的成本和收益，只要收益大于其成本，农民工就会选择进城。我国部分地区出现的“民工荒”就是农民工对进城务工的成本和收益进行理性分析的结果。与我国较快的经济增长率相比，农民工工资增长缓慢，再加上雇主拖欠工资时有发生，这些都打击了农民工进城务工的积极性。与此同时，王呈斌、毛晓燕（2010）通过市场问卷调查分析了“民工荒”的现状、特征，认为劳动力流动相对收益减少是其根本原因。（2）基于劳动力市场二元分割的就业难

在一个典型的二元劳动力市场下，由于就业机会分布的高度不均匀，而且进入一级劳动力市场与进入二级劳动力市场存在明显的反差，因此工作搜寻对于劳动者来说显得十分重要。相比于发达国家，我国劳动力市场的分割特征尤为明显，并且表现出多重二元性质，制度性分割、城乡分割、地区分割、职业分割、行业或部门分割并存，这种状况大大提高了劳动力市场中大学毕业生的流动成本，降低了劳动力市场的流动性。

（3）除了以上几种种主流观点外，还有一些学者从不同的理论视角解释“民工荒”现象。例如，黄婧、纪志耿（2010）从科斯特的“生存理论”视角分析说明“民工荒”问题的根源在于农民对就业机会、全年收入预期的不稳定性，以及难以承受的生活成本、迁移成本的上涨压力。对国内外研究成果的分析，及研究设想

通过对国内外研究成果的概述，再从工作搜寻理论的角度出发，笔者认为目前的大学生就业难可以简单从工作搜寻的成本和收益的角度来探讨。从成本角度出发，基于拓展型的工作搜寻理论，大学毕业生的搜寻成本可以分为直接成本和机会成不。而从收益的角度来看，工作搜寻是从最有希望的工作开始，同时由于搜寻中获得的工资越来越高，进一步搜寻获得更高工资的难度也越大。

三研究假设

在经济好转背景下，部分地区、企业在招工中存在的结构性短缺现象是企业用工需求与劳动力供给结构失衡的一种反映。招工难与就业难并存的局面，也反映了以高校毕业生和新生代农民工为主体的青年劳动者的就业预期，与一些企业的薪酬待遇、劳动环境、用工方式不相适应。剖析两者的背后成因，不难发现两者之间有着内在的逻辑关联，其根本症结在于产业结构不合理、产业链条不完善导致低端制造业对廉价劳动力的过分需求，而知识层次相对较高的大学毕业生既不能和农民工形成差异化的就业竞争，又不具备制造业的就业成本优势，于是就形成了这种奇异的一边是招工难、另一边是就业难的现象。

四基本观点

具体原因剖析：劳动力市场结构方面：劳动力市场需求与人才培养两者的信息不对称，千万适龄劳动力上大学被“白领化”，高校扩招给农村适龄孩子更多上学机会的同时，也间接“剥夺”了他们成为产业工人的可能性。企业用人机制方面：首先，有些以廉价劳动力为核心竞争力的企业，由于生产成本攀高，利润不断缩水，薪酬待遇未能满足大学生的要求。其次中小企业职工福利、保障制度不完善，导致了部分中小企业招工难。最后部分企业在用人机制方面也存在着偏失。产业结构方面：主要是三大产业发展不协调，农业基础薄弱、工业大而不强、服务业发展滞后、部分行业产能过剩、产业内部结构不合理。4 教育制度方面：一是教育方向与劳动力需求方向严重脱节。主要在于高校专业设置与社会需求不匹配，使得学生毕业后找不到相应岗位，而社会紧缺的各种高级技工却又是各大高校不屑于培养的。二是就业供给结构与现实就业需求相背离。普通工人所从事的低端岗位劳动量大且工作时间长，无法吸引大学生，而且新生代大学生的择业需求关注的层面更为多样，如开阔视野、增加经历、注重企业培训、晋升。5 大学生自身素质和就业观念方面: 一是，某些学生自我评价较高，客观上不能全面认识自己，缺乏科学认知的方法和手段；大学生就业能力不足，他们的综合能力又满足不了用人单位的要求。新形势下的人才标准一改过去单靠文凭或职称来认定人才的普遍做法，提出了把品德、知识、能力与业绩作为衡量人才的主要标准。五研究内容结构与对应目标

本研究分为五个部分，各部分主要内容安排如下：第一部分——引言。基于现有的时代背景，通过分析目前中国当前的大学生就业形势及大学生就业的优劣势，阐述研究的目的及意义，总结已有的文献，分析现有的研究水平与进展，并提出研究内容及研究方法。第二部分——研究的理论基础。主要针对研究中涉及到的关键点：大学生就业形势的现状与企业招工的形势，对己有研究基础进行阐释，为本次研究奠定理论基础。

第三部分——研究设计。在对已有文献、理论进行研究的基础上，提出本文的研究理论模型及研究假设，介绍研究的问卷工具，对问卷进行预测试，并选取合适的被试样本。

第四部分——研究结果分析。运用统计软件SPSS13.0对收集的数据进行统计分析，即在检验研究结果的信度及效度之后对数据进行描述性统计分析、差异分析、相关分析及回归分析。第五部分——研究结论与展望。对研究结果进行讨论，验证研究假设及模型，并总结得出论文的主要结论，分析研究的局限及创新点，对未来的研究进行展望。

六研究方法、技术路线

（1）以定量分析为主，定性分析与定量分析相结合。研究初期，通过广泛的文献阅读，找出研究的问题和初步构思。并通过文献归纳，找到需要研究的变量，确定研究拟采用的变量维度，利用SPSS13.0检测问卷的信度、效度状况；研究中期，采用问卷调查法，以武汉理工大学部分抽样学生为正式测试的被试样本而进行调查，利用SPSS13.0对所发放问卷收集到的数据进行集中统计、差异性分析、相关分析、多元线性回归分析。

（2）统计分析和实证研究相结合。研究后期，采用观察法和个案专访调查法，浏览校园BBS网站和专业C2C网站，观察学生的交易状况，并走访网络创业的成功人士，完善调出结论，提出网络创业存在的问题和相应意见。（3）技术路线

七预期七主要研究成果及其形式

（1）调查报告一篇：大学生网络创业现状调查及研究；（2）发表学术论文：公开发表学术论文1篇。

现象研究计划篇2

1 资料和方法

1.1 资料来源

本研究资料来源于我院2015年全年出院患者病案信息数据库。通过医院住院病案综合统计管理信息系统,根据研究目的及要求设置检索条件。主要采集了本年度出院患者姓名、性别、年龄、出院诊断、入院时间、出院时间、入院科室、出院科室、住院费用、医保类型等10项数据资料。

从采集到信息的出院患者中筛选计划重返人次,筛选标准为:同一患者住院次数≥2次;相同出院诊断次数≥2次;入院时间距离上次出院时间≤24h。

计划重返频数计算方法为:计划重返人次-1。同理,将患者计划重返频数累加,即得到科室(病区)和医院某个时间段总的计划重返频数。

计划重返率为:计划重返频数÷出院患者数×100%。

1.2 统计学方法

采用描述性统计方法,通过SPSS 19.0统计软件,分别对计划重返科室(病区)、病种和重返频率进行排序。采用卡方检验比较计划重返患者与自然出院患者的年龄、医保类型、住院费用、疾病种类等指标的构成比。

2 结果

2.1 住院重返现象高发的科室及此类患者的疾病诊断情况

我院2015年出院患者总数为78 319人次,计划重返2 761人次,计划重返率为3.53%。将计划重返频数、频率排在前10名的科室(病区)以及计划重返数排在前10名的主要疾病诊断进行分析发现,内科及非手术科室为计划重返患者的主要科室。监护室患者即危重症患者的计划重返率最高,占据前3位。从重返病种方面看,以肿瘤、肺炎等慢性病为主。详见表1~表3。

2.2 计划重返患者与自然出院患者不同情况的比较

计划重返患者与自然出院患者在年龄、性别、医保类型的构成比方面,差异有统计学意义。具体说来,计划重返患者以高龄为主,60岁及以上占67.55%。性别以男性为主,占66.28%。计划重返患者中医保患者占78.74%,说明患者支出的医疗费用是否有医保的支持影响重复住院率。见表4。

本研究中还发现,计划重返住院患者每次的平均住院日、每次住院总费用也明显高于自然出院患者,差异有统计学意义(P<0.01),见表5。

3 讨论

降低患者平均住院日被认为是一种可有效利用卫生资源、提高医疗效率的措施,随着医疗保险改革、公立医院改革的进一步深入,卫生行政部门对医院的考核更加综合,也更加严格,其中患者平均住院日是一条重要考核指标[3]。

3.1 医保政策促使出院患者计划重返率不断增加

很多地区医保行政部门明确要求医院应当规范医疗保险服务,不得将不符合出院条件的参保人员先办理出院再收治入院(分解住院)。但是,医院为减轻财务负担、获得更高的医保支付比例,会“理性”地为住院时间长的患者办理分解住院[4]。目前,我国大部分医院的医疗付费方式还是按服务项目收取,按疾病诊断相关分组(DRGs)、病种、总额预付等综合医疗付费方式的改革迫在眉睫。

3.2 医院对缩短平均住院日提出的要求过高

卫生行政部门对医院平均住院日提出了较高的要求,因而很多省份对各大医院患者平均住院日均有定期的考核排名,并以医政医管文件公布。这导致了医院对各个临床科室过高地提出了缩短平均住院日的要求,进而增加了患者计划重返率。

3.3 建议将计划重返率作为医院考核指标[5]

“计划重返”很多时候是医生的无奈之举,为了科室的整体利益,不得已让现住院患者办理一次甚至多次出入院手续。各家医院每月对临床科室都有绩效考核,考核指标中鲜有“计划重返”这一条。因此,建议增加这项考核指标,并严格考核,每增加1例当日出入院的再院患者就计入该科室当月的质效考核当中,从而减少该分解住院情形对医保费用控制和平均住院日计算的影响[5]。

3.4 进一步完善双向转诊医疗模式[6]

双向转诊在我国已经倡导多年,但真正实施起来并不顺畅,这说明好的方案需要相关的政策配套才能得以实施。因此,卫生行政部门应在资金、政策等方面支持分级诊疗制度的实施,进一步丰富基本药物目录,创造更好的条件让优秀的医生下基层,切实能够让病情较稳定的慢性病患者转至二级医院或卫生院治疗,从而为大型公立医院降低平均住院日提供有利条件。

参考文献

[1]陈明,潘松林,郭圣龙,等.影响平均住院日的原因分析及对策研究[J].中国病案,2015,16(5):49-50.

[2]刘娟,李系仁,周士金.医保超支与分解住院的原因及对策[J].医院管理论坛,2011,28(10):14-16.

[3]孙维甲,杨轶,赵雯,等.医院等级评审对平均住院日的影响及意义[J].中国医院管理,2014,34(8):64-65.

[4]明星辰,方孝梅,杭富云,等.住院患者出院31天内再入院影响因素分析[J].中国病案,2013,14(3):35-36.

[5]明星辰,方孝梅,杭富云,等.住院患者出院31天内再入院影响因素分析[J].中国病案,2013,14(3):35-36.

现象研究计划篇3

关键词：英语学习;中式英语;迁移

一、中式英语的定义及发展历史

1.中式英语的定义

中式英语（chinglish）是指带有中国式词汇、中国式语法、中国式表达习惯的英语，简单来讲，就是一种具有中国特色表达的语言。

中国学生在学习和使用英语的时候，因缺乏英语使用环境，因此在汉语思维和大文化背景的影响下，拼造出不符合英语本土者语言表达习惯的英语，这是一种不可避免的语言现象，中国人在学习英语过程中都会出现。

随着英语的普遍使用，中式英语（chinglish）在中国仿佛也慢慢成了一个流行的语言。俄罗斯新闻公布全球语言监听会公布的2005全球最流行的十个词汇清单，chinglish位列第四位。中国学生也乐此不疲的将“好好学生，天天向上”翻译为“good good study， day day up”，将“给你点颜色看看”翻译为“give you some color to see see”，类似于这样的中式英语，英语本土者是不太会明白的。还有些中式英语就真的会令人捧腹大笑，例如：马马虎虎会有人直接译为“horse horse tiger tiger”。

汉语及英语的英文混合而成的合体字也叫中式英语，机械的将汉语一字字的地转换成英语，不仅带有明显的汉语痕迹，而且不被以英语母语者所理解，笔者认为这是种错误的语言。

2.中式英语的发展历史

中式英语最早出现应该是在香港、广东等沿海城市。清朝打开了大门，香港被割让给了英国，随着贸易经济等的往来，本地人在与英国人交流中，慢慢的学会了些简单的日常英语，然后就用自己的母语思维方式（即汉语）把这些刚学会的英语组成字句。虽然中式英语给英语母语者带来了一定的理解困难，但是补课否认的是一部分中式英语已经被接受甚至广泛使用，例如：英语本土者都会用“Long time no see！”（好久不见）来打招呼。

二、语言迁移（language transfer）

迁移本来为一个心理学的术语，本意为一种学习对另外一种学习的影响，是指学习者已经掌握了的知识或技能对学习新知识和新技能过程产生的影响，可能会出现俩类语言迁移，即语言正迁移（positive transfer）和语言负迁移（negative transfer）。

Fries和Lado在20世纪50年代左右，第一次将迁移用在了语言学的研究之中，表示“一种语言对学习另外一种语言产生的影响”（即language transfer，也叫母语迁移）。正确而又流利的使用一种语言，前提是要该语言形式和语境知识的有机结合，若缺乏该语言的语境，就可能照成母语的迁移。语言迁移理论，经历了三个阶段，分别是对比分析假说、标记理论和认知理论，许多学者从语音、语义、语用、结构规则等方面来探讨和解释语言迁移。

Ellis（1994）于 the study of second language acquisition发现母语是汉语的学生学英语中犯的错误51%来源于母语的干扰，虽然干扰并不等于迁移，但迁移型错误却是母语干扰的结果并构成干扰型错误的一个重要部分。

1.正迁移（positive transfer）

指有利于语言学习的迁移，在母语和目的语有相同的形式时会出现这样的情况。例如法语和英语都有table这个单词，且在俩种语言中均表示相同的含义。

2 .负迁移（negative transfer）

也叫干扰，是指套用母语模式或规则而产生的错误或不合适的目的语形式。例如，学习英语的法国人会将 I have been here since Monday（我星期一就在这儿了）说成 I am here since Monday，原因是法语模式je suis ici depuis lundi.中国人学习英语时也会发现很多不同之处，汉语的名词没有单数和复数的区别，但是英语名词用法却大不相同。汉语思维中多使用主动语态，但是英文中多使用被动语态。

三、语言学习过程中中式英语及迁移的影响

王初明教授的补缺假说很好的诠释了中式英语的现象，以及迁移发生的环境背景，中国学生从很小的年龄（城市里学生开始于幼儿园，农村学生开始于小学），但经过多年的学习，英语还是不敬人意，总所周周的“哑巴英语”，“聋子英语”，很多专家学者认为是学习语境的缺失，诚然，目的语语境缺失了，母语知识就补上，慢慢的就行了中式英语，其中母语的知识也对目的语有迁移作用。

四、结语

汉语和英文中有很多习惯和语法规则在使用上都有不同，研究也表明，中国学生在学习英语的过程中51%的错误来自于母语的干扰，中式英语的出现不能说是完全错误，但至少是不正确的英语，在教学和学习过程中，应避免理所当然的使用，有意识的纠正自己的主观表达习惯，慢慢的摆脱中式英语的过程。

参考文献：

[1]Jack C. Richards and so on. Dictionary teaching and applied linguistics[M].foreign language teaching and research press（Third edition）.

[2]王初明.2003b.補缺假设与哑巴英语和汉式英语[J].外语界.2003（5）.

[3]王初明.自我概念与英语语音和英语学习[J].

[4]刘倩.a study on chinglish from the perspective of compensation hypothesis and its implications to foreign language teaching[D].2009（4）.

[5]邓薇.2006.从补缺假说的角度对汉式英语的实证研究[D].广东外语外贸大学.

静电现象的早期研究篇4

静电现象的早期研究江苏省丰县中学胡世良 1月15日

人们对电现象的初步认识很早就有记载，早在公元前585年，古希腊哲学家塞利斯，已经发现了摩擦过的琥珀能吸引碎草等轻小物体.我国在东汉时期的王充在《论衡》一书中提到“顿牟掇芥”等问题，所谓顿牟就是琥珀，掇芥意即吸引籽菜，就是说摩擦琥珀能吸引轻小物体。西汉末年，有关于“玳瑁吸(细小物体之意)的记载，以及”元始中(公元三年)……矛端生火“，即金属制的矛的尖端放电的记载。晋朝(公元三世纪)还有关于摩擦起电引起放电现象的记载：”今人梳头，解著衣，有随梳解结，有光者，亦有声。

在对电现象的早期研究中，最早进行系统研究的首推英国医生威廉.吉尔伯特，他在文章中说：“随便用一种金属制成一个指示器……在这个指示器的另一端，移近一个轻轻摩擦过的琥珀或者是光滑的磨擦过的宝石这指示器就会立即转动”，他通过大量的实验驳斥了许多关于电的迷信说法，并且发现不仅摩擦过的琥珀有吸引轻小物体的性质，而且其它物质象金刚石、水晶、硫磺、硬树脂、明矾等也有这种性质，他把这种性质称为电性。1660年，马德堡的盖利克发明了第一台摩擦起电机，他用硫磺制成形如地球仪的可转动物体，用干燥的手掌擦着干燥的球体使之停止可获得电，盖利克的摩擦起电机经过不断改进，在静电实验中起着非常重要的作用。

18世纪中叶，电学实验逐渐普及，在法国和荷兰有不少人公开表演认为娱乐。1731年，英国牧师格雷从实验中发现，由摩擦产生的电在玻璃和丝绸这类物体上可以保持下来而不流动，而有的物体如金属，它们不能由摩擦而产生电，但却可以用金属丝把房里摩擦产生的电引出来绕花园一周，在末端仍具有对轻小物体的吸引作用，他第一次分清了导体和绝缘体，并认为电是一种流体。电既是一种流体，而流体比如水是可以用容器来蓄存的，1745年，德国牧师克茉斯脱，试用一根钉子把电引到瓶子里去，当他一手握瓶，一手摸钉子时，受到了明显的电击。1746年，荷兰莱顿城莱顿大学的教授彼得.冯.慕欣布罗克无意中发现了同样的现象，用他自己的话说：“手臂和身体产生了一种无形的恐怖感觉，总之，我认为自己的命没了”，。就这样穆欣布罗克公布了自己意外的发现：把带电的物体放进玻璃瓶里，就可以把电保存起来。

穆欣布罗克的发现，使电学史上第一个保存电荷的容器诞生了。它是一个玻璃瓶，瓶里瓶外分别贴有锡箔，瓶里的锡箔通过金属链跟金属棒连接，棒的上端是一个金属球，由于它是在莱顿城发明的。所以叫做莱顿瓶，这就是最初的电容器莱顿瓶很快在欧洲引起了强烈的`反响，电学家们不仅利用它们作了大量的实验，而且做了大量的示范表演，有人用它来点燃酒精和火药。其中最壮观的是法国人诺莱特在巴黎一座大教堂前所作的表演，诺莱特邀请了路易十五的皇室成员临场观看莱顿瓶的表演，他让七百名修道士手拉手排成一行，队伍全长达900英尺(约275米)。然后，诺莱特让排头的修道士用手握住莱顿瓶，让排尾的握瓶的引线，一瞬间，七百名修道士，因受电击几乎同时跳起来，在场的人无不为之口瞪目呆，诺莱特以令人信服的证据向人们展示了电的巨大威力。

莱顿瓶的发明使物理学第一次有办法得到很多电荷，并对其性质进行研究。1746年，英国伦敦一名叫柯林森的物理学家，通过邮寄向美国费城的本杰明.富兰克林赠送了一只莱顿瓶，并在信中向他介绍了使用方法，这直导致了1752年富兰克林著名的费城实验。他用风筝将“天电”引了下来，把天电收集到莱顿瓶中，从而弄明白了“天电”和“地电”原来是一回事。

十八世纪后期，贝内特发明验电器，这种仪器一直沿用到现在，它可以近似地测量一个物体上所带的电量。另外，1785年，库仑发明扭秤，用它来测量静电力，推导出库仑定律，并将这一定律推广到磁力测量上。科学家使用了验电器和扭秤后，使静电现象的研究工作从定

认识中意会现象的研究篇5

认识中意会现象的研究

意会是认识中十分重要的现象,探讨了意会的.含义,意会形成的机理,以及意会的重要意义.

作者：王晓勤 WANG Xiao-qin 作者单位：哈尔滨商业大学,黑龙江,哈尔滨,150076刊名：哈尔滨商业大学学报(社会科学版)英文刊名：JOURNAL OF HARBIN UNIVERSITY OF COMMERCE(SOCIAL SCIENCE EDITION)年，卷(期)：“”(1)分类号：B842.1关键词：认识意会机理

研究生学术不端现象透视篇6

【摘要】由于社会、学校、研究生自身等诸多方面的原因,造成研究生培养过程中存在种种学术不端现象,本文将从学校和研究生自身两个层面探寻解决研究生学术不端问题的方法与途径,以求改进研究生学术风气,提高研究生培养质量。

【关键词】研究生;学术不端;应对措施

近年来,研究生学术不端行为时有曝光,这一问题已引起了社会各方的广泛关注。但被曝光的问题毕竟是少数,无法反映出这一问题的全貌,正如布劳德与韦德所指出的,“每有一个大作弊者被揭露出来,就会有一百多个类似的大作弊者逍遥法外。……每一起被揭露出来的大作弊,代表了大约十万起隐藏在沼泽般的科学文献废纸中的大大小小的作弊。”[1]目前,从各方反映的情况来看,研究生学术不端行为已成为高校里一种非常普遍的问题,且有愈演愈烈之势,严重影响着研究生的培养质量。本文拟对研究生学术不端行为的表征及根源展开分析,进而探寻解决这一问题的应对措施。

一、研究生学术不端现象的表征

1.论文写作过程中的不端行为

(1)抄袭剽窃现象。抄袭剽窃是研究生学术不端最明显的表现之一,也是最恶劣的学术不端行为。抄袭剽窃分为显性抄袭剽窃和隐性抄袭剽窃,显性抄袭剽窃是将他人作品通篇或大篇幅、大段落据为己有,网络技术的发达为显性抄袭者提供了便利条件,通过简单的“复制”、“粘贴”就可完成;隐性抄袭剽窃主要是偷用别人的观点和思想,再胡乱拼凑一些论据就改装成为另外一篇论文。

(2)弄虚作假现象。弄虚作假主要指伪造、纂改实验数据和引文不实。为了数据能为自己的观点服务,就随意伪造、纂改他人或自己的实验数据,以方便论文顺利完成。引文不实是指引用他人观点却不加注明,或二次引用他人论文中的引文却未查证,或在参考文献中列出大量并未参考甚至没有阅读过的文献,以证明自己掌握此学科的学术前沿实现迷惑他人的目的。

(3)滥竽充数现象。滥竽充数是指研究生把某一门课程的作业当做“万金油”,“一稿通吃”,以应付一门或多门课程的作业任务;或借用其他专业的论文以应付本专业的论文任务,最常见的就是借马克思主义哲学专业的论文应付政治公共必修课的论文任务。

(4)粗制滥造现象。粗制滥造现象多出现于研究生参与编著的图书作品中,研究生编书或编著主要有两类:一类是与专业相关的图书,但不是严格意义上的学术书而是普及类读物;一类是与专业无关的图书,这类图书多是研究生为了赚取生活补贴,为一些文化出版公司打工,按照相关要求为其炮制的图书。这两类编著的共同点就是观点老套、毫无新意,于读者于社会都毫无裨益,只会浪费社会资源,为读者买书徒增选择的烦恼。

2.论文发表中的不端现象

(1)一稿多发现象。一稿多发主要包括一稿多投和一文分发两种形式。一稿多投是指把一篇论文投向不同期刊,其结果往往导致一稿两发或多发。一文分发是指把一篇论文的主干保留、思想保留,只是将部分段落稍作修饰调整便再次或多次投稿。一稿多发浪费了学术出版资源,欺骗了广大读者,易引发版权纠纷,社会影响极坏。

(2)署名不端现象。署名不端主要包括署名互搭便车、署名中的不合理排序两种现象。署名互搭便车主要发生在同学和朋友间,将署名权互相赠与,这次你赠我,下次我赠你,以增加发表论文的数量。署名不合理排序主要发生在师生间,学生为了在核心期刊发表完全由自己撰写的论文,只有借助导师的知名度才能顺利发表,这时只好把第一作者的位置让给导师,自己屈居第二作者。

二、产生研究生学术不端现象的根源

造成研究生学术不端行为的原因很复杂,本文拟从社会、学校、研究生自身三个方面进行初步分析。

1.社会方面

(1)社会及学术界不良风气的影响。高校、科研机构不是与世隔绝的,不可避免地也会受到社会上浮躁、急功近利、拉关系等不良风气的侵扰。受官本位思想的影响,国内一些高校、科研机构行政味十足,“学而优则仕”成为众多学者的奋斗目标,潜心搞学术的越来越少,这一现状对广大研究生产生了较大影响。同时,学术界自身不良的学术氛围如北大王铭铭事件、上海吴黎明丑闻等对研究生的影响更为直接。

(2)学术期刊把关不严。现在有的学术期刊为了在激烈的市场竞争中生存下去,迫于经济压力,向作者收取版面费。收取版面费的直接后果就是不计论文质量,只要交版面费论文就会发表,这就为研究生的学术不端行为打开了便利之门。“一篇论文能否发表取决于作者、编辑和审稿人间的相互作用”[2]由于没有完善的编辑责任制,审稿人和责任编辑一般不承担因发表抄袭剽窃之作的事后追究责任,再加上学科交叉,编辑对新兴学科无法把握最新动态,学术刊物激增,编辑没办法对所有刊物发表的文章一清二楚,这些为研究生的学术不端行为提供了可乘之机。

(3)就业竞争压力大。现在,由于就业形势严峻,加大了研究生的就业压力。虽然多数学校对研究生毕业时是否发表论文不再要求,但是毕业生为了增加自己的就业砝码,他们仍旧会想尽办法发表论文。研究生特别是博士研究生毕业时的就业意向多为科研单位,科研单位在接收毕业生时会考虑毕业生发表论文的数量和质量。此外,博士研究生毕业时,如果没有三五篇论文发表,他们也会觉得颜面无光。

2.学校方面

(1)奖学金的马太效应。通常情况下,学校评定研究生奖学金的硬性指标主要看是否有论文发表。研究生们为了获得奖学金,不管论文质量,加速发表论文并尽量降低发表周期。这笔经济账是很划算的,因为奖学金完全可以支付期刊收取的版面费用。因为奖学金的马太效应,他们通过发表的论文可以获得当年的奖学金,在此基础上还可获得其他奖励。

(2)导师纵容以及导师学术不端。研究生学术不端行为被导师发现后,导师对其行为纵容。研究生在学期论文中抄袭剽窃,导师发现后不但不对其教育反而给其及格以上的成绩。因为学校要求学生在每学期结束时给导师打分,导师为了维持虚假的良好师生关系不得已纵容学生。还有的导师本身就没有良好的学术素养和职业道德,他们自身就存在着学术不端行为,没有给研究生树立良好榜样。

(3)研究生课程质量低下和没有统一的学术规范体例。很多导师给本科生、研究生上课内容基本相同,针对研究生并未开设最前沿的学术课程,研究生自然会将本科时的论文交给导师。高校对研究生的学术规范没有统一体例要求,也未设置专门的课程进行教育。即使在同一所学校、同一院系甚至同一学科,不同导师对学生论文写作的规范要求也是不一样的。没有规范的学术教育,研究生对引用、注释等学术论文中最基本的要求都没有明确统一的认识,自然无法坚持学术道德操守。

3.研究生自身

(1)学术素养低。由于高校的连年扩招和就业竞争压力的加大,为了躲避本科的就业而读硕士研究生,为了躲避硕士就业的压力又读博士研究生,研究生们并未真心向学,不想寒窗苦读,也不想“十年磨一剑”,而只是为了获得一纸更高的学历从而获得更高的就业门槛。此外,中国的应试教育使研究生为了应付各种考试花去了大量的时间和精力。有的研究生因为生活困难不得不在外做各种兼职,无法将全部精力放在学术研究中。这些原因导致研究生的学术素养低下,没有广博的学识,无法创新,就会出现学术不端行为。

(2)学术道德意识淡薄。学术素养与学术道德是相互关联的,学术素养的低下在一定程度上导致了学术道德意识的淡薄。此外,导师作为施教者,往往只侧重技术规范的传授,忽视学术道德素质的培养,这就使得研究生缺乏学术规范意识,在面临角色利益冲突时,守不住学术道德底线。

三、解决研究生学术不端现象的措施

研究生学术不端现象影响恶劣,它会影响到一个民族的创新精神,进而影响国家的长远发展。所以,我们要采取一切有效措施,严惩和根治这一不良现象。通过以上分析我们可以看出,造成研究生学术不端行为的原因多种多样,遏制学术不端行为是一件长期而艰巨的任务,需要各方面同心协力和不懈努力,但最重要的还是应该在学校管理和研究生教育上下功夫。

1.学术道德操守教育。在研究生开启学术生涯之初,应特别注重培养他们的基本学术道德素质,使学术规范内化为他们的学术良心,这对研究生严肃、规范地开展学术研究工作非常重要。应将学术道德操守教育纳入研究生入学教育和日常学术活动中,同时将学术道德教育和研究生公共政治理论课相结合,通过多种途径提高研究生的学术道德素养。

2.学术体例规范教育。2004年8月,教育部发布了我国建国以来第一部《高等学校哲学社会科学研究学术规范(试行)》(以下简称《规范》)。《规范》详细阐述了学术基本规范、学术引文规范、学术成果规范、学术评价规范和学术批评规范。为了统一体例,各高校可以在《规范》的基础上结合本校的实际情况,把研究生在论文写作过程中可能遇到的格式细节都进行详细规定。对研究生规范学术体例,可以使研究生在从事学术研究之初即建立起规范的学术体例,用学术规范来指导自己的学术研究活动。

3.引进先进的防论文抄袭技术。建立一个以网站为平台的“论文防抄袭扫描系统”软件,这个软件可集合已出版的经典文献、学术著作、核心期刊和商业数据库等,同时涵盖了公众可以在互联网上查到的存档文件,以及提交到这个网站的所有学术论文。如果通过这个软件扫描测试相似度超过一定的比例,即视为抄袭,学校将对其给以严肃处理。

4.建立导师责任追究体制。导师不仅是研究生学业上的导师,更应是人生的导师。导师与研究生之间存在着某种契约关系,如果研究生出现学术不端行为,导师将负有不可推卸的责任,因为这是导师监督指导研究生不力的结果。通过建立导师责任追究体制,研究生发表的论文必须经过导师审核同意,使导师真正对研究生的学术行为负起责任,这将在很大程度上有效遏制研究生学术不端行为的发生。

参考文献

[1]W.布劳德,N.韦德.朱进宁,方玉珍译.背叛真理的人们[M].北京:科学出版社,1988.[2]彼德?A?劳伦斯.王丹红,编译.学术论文产出的“政治经济学”[N].科学时报,2003,4.作者简介:

李建伟,男,中国矿业大学(北京)党政办公室,助理工程师。

冯伟光,女,北京师范大学哲学与社会学学院,助理研究员。

数据断层现象的研究篇7

随着科技的发展,人们的生活中充斥着各种各样的数据,获取需要的信息方式很多,但是要得到完全符合需求的信息却不易。如何有效地管理海量的数据,并从中快速准确地获取有用信息,已经成为管理者面临的一大难题。数据仓库便是发展成熟且应用广泛的管理技术之一,它是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合[1]。数据仓库技术是人们尝试对数据库中的数据进行再加工,形成一个综合的、面向分析的环境,以更好支持决策分析[2]。

数据仓库中的数据来源于大量的源数据库,不同的数据在多个方面存在着不一致性,从而不能直接为人所用。根据用户需求的不同,数据仓库中存在的一些无关主题或异构的数据,这些数据对数据的分析处理和数据挖掘造成一定影响,使得数据仓库产生一种数据断层的现象。

数据断层在人们的生活中随处可见,例如企业信息化[3]、金融投资[4]、财政[5]、医学[6]、电子政务[7]等多个领域中都存在着各种形式的数据断层。常见的诸如受到时间因素影响,历史资料与实时运行的资料之间始终存在断层,使得分析人员永远少了当下时间点的关键数据,尤其是在商业节奏的加速下,这种时间差可能会导致失去良好的商业契机。IBM的行业咨询总监赵枏在第三届中国制造业供应链峰会上就指出:要搭建和优化信息系统,建立智能的数据分析库,必须和谐平衡各项系统间的数据断层[8]。

由此可见,数据断层现象是维持行业发展平衡和稳定的重要考虑因素,有关它的研究不仅对解决现实应用中的问题有重大的支撑作用,同时对数据资源的结构化描述具有十分重要的诠释意义[9]。然而,尽管各个行业普遍提及数据断层的概念,国内外却没有数据断层的系统理论描述。因此,本文结合数据仓库的环境,借鉴地质学的理论,首次在数据领域提出数据断层的理论体系,通过数据断层剖面的分析,系统阐述数据预处理过程中的数据断层现象,给出数据断层在显隐断层、内间断层之间相互转化的规则和算法,初步说明了数据断层理论体系的基础。

1 数据断层的基本定义

断层的概念来源于地质学。地质储层由于在形成过程中受到沉积环境、成岩作用及构造作用的影响,在空间分布及其内部各种属性上都存在不均匀的变化,这种变化称为储层非均质性[10]。由储层非均质性引起的岩石断裂且两侧发生明显位移的构造称为断层。断层在自然界里发育广泛,是岩石圈中最重要的地质构造类型之一[11]。大的断层常常构成区域地质的格架,一些中、小型断层直接决定某些矿床和矿体的产状,活动性断层则直接影响水利工程建筑,甚至引发地震[12]。因此,对断层的研究具有重要的理论意义和实际意义。

相对于地质断层是由储层的非均质性引起的,数据断层则是由数据仓库的非均质性引起的,两者在很多方面具有相似性。因此本文借鉴地质断层的理论,对数据断层现象加以研究,通过定义数据断层相关概念,分析断层剖面,介绍宏微观数据断层之间相互转化的规则和算法等方式,为数据断层的理论发展、数据仓库的管理和数据挖掘提供新的思想和方法。

1.1 数据断层

为了描述数据仓库中的断层现象,首先借鉴地质学中的非均质性概念,引入数据仓库的非均质性。

定义1 数据仓库的非均质性(Inhomogeneity) 数据仓库中各个数据对象的各类性质随着各种维度变化而变化的具体表象。

数据仓库的非均质性决定了在数据仓库中各个数据对象之间存在着相互影响力,这些相互影响力需要通过某种结构进行描述,由此引入磨合力(Grinding Force)和数据断层(Data Faultage)的概念。

定义2 磨合力磨合力是数据仓库中数据对象之间受数据对象的主题、结构、时效属性等某些维度影响,而相互之间产生相关性的描述。

定义3 数据断层数据仓库中数据对象之间的磨合力处于某一状态的面,称为数据断层,记为DF。

1.2 数据断层产生的原因

在地质学中,由于宏观和微观两方面非均质性的存在,使得储层中存在断层现象。同理,数据断层的产生也主要来源于数据仓库的非均质性及其不同的类型。

定义4 微观非均质性(Microscopic Inhomogeneity) 相对于数据仓库而言,存在于数据仓库中各个数据对象之间的、随着各种维度变化而变化的具体表象,称为微观非均质性。

微观非均质性广泛存在于任意的数据库中,通常分为以下三种类型:

(1) 结构微观非均质性n(str)

数据库从横向来看是非均质性的,即在一个数据库中各数据对象实体的存放形式和构造形式等都不一致。

(2) 成分微观非均质性n(mat)

数据库从纵向来看是非均质性的,即在一个数据库中各数据对象实体的内容上存在着差异性。

(3) 数据关系微观非均质性n(rel)

同一个数据库中的数据对象之间的关系相对于不同数据库中的数据对象之间的关系更为密切,因此各个数据对象之间的关系密切程度不尽相同。

定义5 宏观非均质性(Macroscopic Inhomogeneity) 相对于数据仓库而言,存在于数据仓库中各个数据库之间的、随着各种维度变化而变化的具体表象,称为宏观非均质性。

宏观非均质性以数据仓库为单位,广泛存在于数据仓库中的基本元素——数据库——之间,通常分为以下三种类型:

(1) 主题宏观非均质性N(sub)

数据仓库中每个数据库都有各自的主题,数据库之间的主题不尽相同。

(2) 结构宏观非均质性N(str)

数据仓库中各个数据库之间的存储结构一般也不尽相同。

(3) 时效宏观非均质性N(eff)

数据仓库中的各个数据库并非在同一个时间进行更新,也并非在同一个时间失效。

1.3 数据断层的分类

按照不同的分类原则,数据断层有不同的分类。根据数据断层的表现形式,可以将其划分为数据显断层和数据隐断层。

定义6 数据显断层(Dominant Data Faultage) 相对于数据仓库而言,常存在于数据库与数据库之间,受到主题宏观非均质性、结构宏观非均质性、时效宏观非均质性等因素影响的数据断层称为数据显断层,记为DDF。

定义7 数据隐断层(Tacit Data Faultage) 相对于数据仓库而言,常存在于数据库内部,受到结构微观非均质性、成分微观非均质性、数据关系微观非均质性等因素影响的数据断层称为数据隐断层,记为TDF。

另一种分类方法是根据数据断层在数据仓库中的位置,可以划分为数据内断层和数据间断层。

定义8 数据内断层(Inner Data Faultage) 相对于数据仓库而言,数据库内部存在某一数据隐断层TDF1,如果它满足某一种内在特性,那么称其为数据库内断层,记为IDF。

内在特性通常又称EMR特性,有三种特性描述:

(1) 客观存在性(E性)

在数据库中任何数据对象之间都客观存在数据断层,这是由数据对象的独立性所决定。

(2) 隐秘性(M性)

从整个数据库来看,它内部虽然客观存在数据断层,但依旧是个整体。由此可见数据内断层的存在是隐秘的。

(3) 规律性(R性)

数据内断层是隐性的,数据隐断层在一定条件下可以转化为数据显断层,这个转化是遵循一定规则的,规则由数据库本身特性所决定。

定义9 数据间断层(Outer Data Faultage) 相对于数据仓库而言,存在某一数据断层DF1,如果DF1是数据库之间的数据显断层,则称DF1为数据间断层,记为ODF。

数据间断层有以下两个特性:

一是数据显断层只存在于数据库与数据库之间,数据间断层就是数据显断层。

二是数据显断层可以是数据仓库建立之初就存在的,也可以是在以后某些应用中由数据隐断层转化而来,同样也可以在一定条件下由数据显断层转化为数据隐断层。

2 数据断层的剖面分析

剖面分析工作是地质研究的基础性工作。通过地质断层的剖面分析,可以了解当前地质断层的地层年代、地层顺序、岩性特征和厚度、古生物演化特征、含矿层位和接触关系等综合信息,以便恢复古地理、古气候的特征,推断地壳运动的时期及特点,推测断层的发展趋势[13]。

相对于地质断层剖面分析需要兼顾断层走向、倾向、倾角等不确定性问题,数据断层的剖面分析研究则只需要基于数据仓库的主题、结构、时效等内容进行展开,其不确定性因素的影响更多地在于数据仓库的管理方与决策方。

剖面分析的对象是数据仓库的截面,从数学上解释,截面是指一个平面与几何体的各面相交,由交线围成的平面图形[14]。本文中的截面是指根据不同的用户需求截取的某一层面数据,例如截取所有数据对象的同一特性属于数据隐断层的纵截面,截取不同数据库的同一主题数据属于数据显断层的横截面等。

2.1 数据内断层的剖面分析

围绕数据内断层,其内部的数据断层更多受到结构微观非均质性、成分微观非均质性、数据关系微观非均质性等因素的影响,其剖面的分析也分别体现着这些非均质性的信息。

(1) 数据隐断层的横截面

在数据库中,若将每个横截面代表一个数据对象的元组集合,则每个横截面之间的间距是相等的;若将每个横截面面纹的稀疏表示各数据对象特性之间数据内断层的距离,则各特性长短不一,导致其对应面纹之间的稀疏程度不一。

由此,在同一数据对象特性下的数据类型是相同的,每个横截面都是相似的;但是不同数据对象实体的元组集合之间的数据对象是有差异的,所以每个横截面又不是完全相同的,如图1所示。

(2) 数据隐断层的纵截面

在数据库中,若将每个纵截面代表截取的某一特性,则由于特性长短不一,每个纵截面之间的间距并不相等;若将每个纵截面面纹的稀疏表示同一个特性下各个数据对象实体的元组集合之间差异程度,则差异程度大的面纹稀,差异程度小的面纹密。

虽然每个纵截面上的稀疏程度不同,但相应数据对象实体的元组集合之间是对应的,如图2所示。

2.2 数据间断层剖面分析

围绕数据间断层,其数据断层更多存在于数据库与数据库之间,往往受到主题宏观非均质性、结构宏观非均质性等因素的影响,其剖面的分析也分别体现着这些非均质性的信息。

(1) 数据显断层的横截面

数据仓库中每个数据库都有各自的主题,数据库之间数据显断层的横截面通常基于不同的主题而形成,横截面是凹凸不平的。如图3所示,数据显断层的横截面中距离较近的区域表明它们之间的主题一致性较明显。

(2) 数据显断层的纵截面

数据仓库中各个数据库之间的存储结构存在着差异性,这导致数据库之间数据显断层的纵截面也存在着差异性,即纵截面也是凹凸不平的。如图4所示,数据显断层的纵截面中距离较近的区域,则其结构的相似性较大。

3 微观上的数据断层

在数据仓库环境中,数据隐断层往往存在于数据库内部的数据对象之间,数据显断层往往存在于数据库之间。当然,在某些特定的条件下,数据隐断层与数据显断层之间是可以互相转化的。

3.1 数据隐断层到数据显断层转化的基本规则

在微观环境下,数据隐断层转化为数据显断层的基本规则有两条:

一是数据隐断层只能是横截面或者纵截面的,不允许产生纵横交错的情况。

二是数据隐断层向数据显断层的转化可以嵌套发生,即数据库内部某一数据隐断层转化成数据显断层之后,数据库内其他数据隐断层可以继续转化为数据显断层。

3.2 数据隐断层到数据显断层转化的定量描述

随着时间的推移,很多领域的数据呈指数级增长,数据量不断增加,但对于建立在数据仓库基础上的应用来说,那些无关主题的噪声数据,反而对应用的效率会有负面影响,因此必须将这些噪声数据分离出去。根据前述定义可知,同一数据库中噪声数据对象与其他数据对象之间形成了数据内断层。因此分离噪声数据对象的过程也就是将噪声数据对象与其他数据对象之间的数据隐断层转化为数据显断层的过程。为此我们引入以下定义。

定义10 溶蚀(Corrosion) 在数据库DB中,将所有DB信息记为INF(db),INF(need)为DB中的有用信息,其初始为空集,如果DB中任一单元信息UNIT∈INF(client)用户信息,则将该单元归入INF(need),使UNIT∈INF(need),最后INF(need)⊆INF(client)。

其中当UNIT为实体信息时,这种溶蚀就称为实体集溶蚀;当UNIT为特性信息时,这种溶蚀就称为特性集溶蚀。

理想情况下,我们可以对每一个数据库都进行溶蚀,以尽可能地将噪声数据对象分离出去,以利于后续的数据仓库操作。然而,数据仓库中数据处理通常都是海量级的,不可能对各个数据库逐一进行溶蚀,因此只需要对噪声数据对象相对比较多的数据库进行溶蚀。为此我们定义溶蚀程度来表示噪声数据对象在数据库中所占的比例。

$S_{d} = \frac{Q_{s}}{Q_{t}} \times 100 % = \frac{Q_{t} - Q_{r}}{Q_{t}} \times 100 %$ (1)

式中,Qs是溶蚀的数据量,Qt是数据库的总数据量,Qr是数据库相关数据量,数据量Q=Y×S,Y是实体个数,S是特性个数。

溶蚀程度越低,说明被溶蚀部分占总数据量越少,即总数据量中包含的有用信息越多。当溶蚀程度低至其中的溶蚀部分可以忽略不计或高到其中的有用信息部分可以忽略不计时,该数据隐断层转化为数据显断层不会对用户挖掘信息有什么帮助。若溶蚀程度中等,可视其重要程度来判断数据隐断层转化为数据显断层对挖掘信息的帮助大小。

为了衡量哪些信息会被溶蚀,需引入一个衡量各实体与用户需求之间相似性的量。用以衡量相似性的数学指标有距离系数和相似系数,这里引入距离系数来分析元组实体是否符合需求。距离系数中常用的是欧氏距离,其计算公式如下:

$d_{i} = \sqrt{\sum_{k = i}^{Μ} (X_{i k} - X_{k})^{2}}$ (2)

式中,di是第i个元组与用户需求的相似性,M是用户需求中涉及的属性个数,Xik是数据库中第i个元组的第k个属性,Xk是用户需求中第k个属性。

di越小,说明距离越小,则越符合用户主题,反之则越远离用户主题。在计算过程中,凡是数据库中有的而用户主题中没有的特性,在计算中均忽略。反之数据库中没有而用户主题中有的特性则视用户对主题的严格程度来酌情处理。

3.3 数据隐断层到数据显断层转化的转换算法

从数据库第一个数据对象实体开始,根据每个数据对象实体与用户主题的符合程度依据式(2)计算它的趋向值,即它与用户需求之间的距离,然后依据趋向值的大小进行排序,趋向值越大,说明它与用户主题的关系越密切,反之,趋向值越小,说明它与用户主题的关系越疏远。然后依据用户定的标准,所谓趋向值大的数据对象实体尽量趋向用户主题,而其他数据对象实体将尽量远离用户主题。在关系型数据库中,可以将相关数据对象实体集中在数据库顶部,这样用户可以在有关和无关数据对象集合之间区分出一个明确的界限,在此界限处的数据内断层将转化为数据间断层。

算法1 面向主题趋向算法

首先由用户给出一个相似性阈值K,将数据库集合定义为SUB(db)。

从数据库第一个实体开始,根据式(2)计算出每个实体与用户主题的距离d。

设第i个实体的距离为di。

若di≤K,则SUB(ITEM(i))∈SUB(client),即第i个实体符合用户主题,其中SUB(client)为用户主题集合。

若di>K,则SUB(ITEM(i))∉SUB(client),即第i个实体不符合用户主题,则这个实体将被溶蚀掉。

将所有实体处理完毕,即实现了数据内断层到数据间断层的转化。

4 宏观上的数据断层

在宏观环境中,数据显断层在某些特定的条件下也能够转化为数据隐断层,但这些条件相对而言比较苛刻。

4.1 数据显断层到数据隐断层的转化条件

第一,通常情况下只有同类数据库之间的数据显断层才能转化为数据隐断层。

第二,数据显断层向数据隐断层的转化必然是在用户需求的驱使下发生。其中,由数据库之间主题的变化所引起的显隐断层转化,称为主题驱使SUBQ;由数据库之间结构的变化所引起的显隐断层转化,称为结构驱使STRQ;由数据库之间时效的变化所引起的显隐断层转化,称为时效驱使EFFQ;由数据库之间主题、结构、时效共同变化所引起的显隐断层转化,称为主题、结构、时效共同驱使HHQ。

PHHQ=[S(SUBQ)+S(STRQ)+S(EFFQ)]×Y (3)

式中,PHHQ称为驱使的严格性;S()称为涉及因素,若用户需求中涉及,则S=1,否则S=0;Y称为需求范围程度系数,用户需求范围越广,则对数据库中数据的筛选要求越低,通常0<Y<1。

第三,每一次数据显断层向数据隐断层转化必然发生在两个数据库之间,而且转化过程可以重复进行。

4.2 数据显断层转化为数据隐断层的定量描述

在进行数据对象分析处理的过程中,其数据对象可能来自于不同的数据源。为了便于后期的决策管理,必须将这些不同的数据源整合在一起,而数据显断层转化为数据隐断层的过程就是数据源整合的过程。

定义11 磨合(Integration) 把数据库之间数据显断层转化为数据库内数据隐断层,实现数据源整合,这种转化称为磨合。

由于数据对象分析处理过程可能需要用到大量的数据源,而对所有的数据源都进行磨合即不可行也不必要,因此只需要根据数据源之间存在的相似性来有选择地进行数据源的磨合。

基于定义2磨合力G来说明两个数据库之间存在的相似性大小。磨合力的计算公式为G=K×H。

一个数据库在数据仓库中将受到其他各个数据库对它的磨合力影响。磨合力可正可负,磨合力的大小不是实际力的大小,它是一个相对值,通过其大小可以进行比较。

G>0:表明这两个数据库之间在某个用户需求下部分相似。G越大,相似性越大。

G<0:表明这两个数据库之间在某个用户需求下完全无相似性且差距很大。 $| G |$ 越大,相似性越小。

G=0:表明这两个数据库之间几乎不存在相互影响。

H:磨合力系数。若两个数据库之间涉及用户需求下的相似性,则H=1,否则H=-1。

K:磨合力强度因子。其计算公式如下:

$Κ = Ρ \sqrt{π \sum_{i = 1}^{3} θ_{i}} \sum_{Ι = z, j, s} F_{Ι} \times 100 %$ (4)

P:严格性系数。用户根据其对数据库磨合要求的严格性来确定,0<P<1,用户要求越高,则P越小。

FI:数据库之间关联因子。FI由主题一致率差分Fz、结构一致率差分Fj和时效一致率差分Fs组成。其中,主题一致率差分Fz的计算公式如下。

$\begin{array}{l} F_{z} = \frac{| F (A) Ζ (B) - F (B) Ζ (A) |}{Ζ (A) Ζ (B)} = | \frac{F (A)}{Ζ (A)} - \frac{F (B)}{Ζ (B)} | \\ = | Y (A) - Y (B) | \end{array}$

Fz是数据库A与数据库B之间的主题一致率差分;F(A)是数据库A中符合用户主题的实体数;F(B)是数据库B中符合用户主题的实体数;Z(A)是数据库A中总的实体数;Z(B)是数据库B中总的实体数;Y(A)是数据库A的主题一致率;Y(B)是数据库B的主题一致率。结构一致率差分Fj和时效一致率差分Fs的计算方法与Fz类似,凡涉及到一致率差分的量均可以由用户选择配合使用。

θi:数据库之间关联因子系数。θi由涉及主题一致率差分系数θ1=π、涉及结构一致率差分系数θ2=π/2和涉及时效一致率差分系数θ3=0组成。其中涉及时效一致率差分系数θ3必须与涉及主题一致率差分系数θ1和涉及结构一致率差分系数θ2配合使用。

因此,式(4)可以简化为: $Κ = Ρ \sqrt{π θ} F \times 100 %$ 。

4.3 数据库间的磨合力学模型

数据仓库是一个空间,以三维数据库为例。数据库之间磨合力的产生是由这些数据库之间的相似程度或者相异程度来决定的。不论磨合力是正或是负,表现为相吸还是相斥,在研究单个数据库受力方式时可以简化为如图5所示的数据库间的磨合力学模型[15]。

图5中,σ1为最大主磨合力,σ2为中间主磨合力,σ3为最小主磨合力,其中σ1>σ2>σ3。

基于图5,数据库之间的关系则可以简化为如图6所示的简单模型。

图6中,F1,F3,F4,F6>0,F2,F5,F7<0。其中箭头仅表示有这样一个作用力存在,而非矢量。力的多少由数据仓库中数据库的数量来决定。其中F2,F5,F7为相斥力,其施力者就此应用需求而言,它与该数据库间的数据显断层绝对不会转化为数据隐断层。F1,F3,F4,F6为相吸力,其施力者与该数据库间的数据显断层可能转变为数据隐断层。但并不是G>0时就一定会促使数据显断层转变为数据隐断层,需视具体情况而定。

5 验证性实验

动感101是上海收听率第一的音乐电台,日前推出了电台的移动客户端,用户可通过ios设备、安卓手机等方式在全世界范围内收听该电台的节目。本实验以该移动应用的日志数据作为实验对象,通过分析2012年5月28日至2012年6月3日一周的访问日志中存在的数据断层现象,进而验证本文所提出的数据断层理论的有效性。

通过统计和查询等初步处理步骤得到本周内全球各地区的听众访问人数。本实验选择中国地区的数据作为主要研究对象,因此国外的收听数据不属于用户需求信息的范围,属于噪声数据,通过溶蚀的方法可以将原数据库中的噪声数据分离出去,使数据库中的隐断层转化为显断层,从而得到有用信息。

溶蚀的具体方法为:以各个地区的代码作为计算欧氏距离的数据,如上海的代码为86021,即国家代码+地区区号,国外地区如澳大利亚的代码为61,普遍为1～4位数。令Xk的取值为86000,根据实际情况可确定用户阈值范围为10～990,计算di的值,在阈值范围内的属于中国地区,不满足阈值条件的则为国外地区。最后,通过统计和计算得到听众人数的分布和溶蚀程度的情况,如图7所示。

中国各个省市在一周内的听众人数分布情况如图8所示,上海、浙江、江苏三地的听众人数远远大于其他地区,产生了明显的数据断层现象,除此之外的其他地区在每一天的听众人数分布波动不大。为了详细地了解数据断层的分布情况,从众多的信息中找出其存在的具体位置和产生原因,需要对图8所示的数据进行磨合,隐藏次要的信息,将数据显断层转化为隐断层,从而在整体上把握数据分布情况。

磨合主要分为两个层面:一是将本周每一天的数据整合到一个数据库中,形成本周收听数据库;二是将32个省市的数据根据地理位置和行政区域划分为九个大的集合。由于本实验数据经过初步处理后具有较好的数据质量,因此在以上两个层面的磨合时不需要计算磨合力的大小。时间因素上,在数据导入数据库时,已将每一天的数据转化为结构化数据,磨合时不存在主题和结构不一致的现象;地区因素上,根据客观地理位置进行划分集合,也不需要计算各省市之间的磨合力。通过磨合,多个数据库整合为一个数据库,使得数据显断层转化为隐断层。最后得到中国各个区域的听众分布如图9所示。

经过磨合以后,从图9中仅可以看出区域集合在分布上存在的数据断层,而不能分辨具体哪个省市或哪天的断层。通过对这九个集合进行断层分析,找出需要重点分析的集合对象,然后由表及里,层层深入,确定数据断层存在的具体位置和状态。这部分内容将在后续探索过程中进行重点研究。

6 结语

数据断层现象在理论研究和实际应用中都体现出它的必要性和重要性。本文将地质学中的断层概念引入到数据仓库的数据断层描述中,从微观和宏观两方面进行分析,给出了数据断层相关概念的定义、显隐断层相互转化的规则、定量描述以及算法实现过程,系统地描述了数据仓库中存在的数据断层现象,并通过验证性实验证明了数据断层理论的有效性,对数据分析处理和获取有用信息有较大的帮助。然而,数据断层的理论体系仍然不够成熟,有待深入地研究,比如本文所分析的是规则断层,而在数据仓库中必然还存在着不规则断层,如何来描述不规则断层等之类的问题值得进一步探讨。

摘要：随着各个领域数据量的与日俱增,数据仓库技术在进行海量数据资源的管理过程中,数据断层现象已经成为亟待解决的一个重要问题。断层的概念来源于地质学上对于由储层非均质性而引起的岩石断裂且两侧发生明显位移的构造描述,对能源开采、地震预防等问题具有重大的现实意义。借鉴地质断层的理论,引入数据断层的系列概念定义数据与数据之间发生局部位移的趋势,首次从宏观和微观两方面对数据仓库中的各种数据非均质现象进行知识描述,通过数据断层剖面的分析,系统地阐述数据预处理过程中的数据断层现象,给出数据断层在显隐断层、内间断层之间相互转化的规则和算法,初步形成了数据断层理论体系的基础,并通过实验验证了该理论的有效性。

网络社区广告现象研究篇8

摘要：随着移动互联网的兴起和微博影响力的日益增大，微博做为广告投放渠道越来越受到广告主的认可。微博广告有企业官方账号、明星账号、草根账号和原创账号4种发布主体，微博广告可以通过有趣或夸张的内容、明星真实案例、微博现场打折、反复出现的方式加以推广，把握用户心理，综合运用多种推广手段，集中推广产品最重要的特点，以提高广告的影响力。

关键词：网络社区；微博；广告

中图分类号：F713.8 文献标识码：A 文章编号：1673-2596（2014）02-0128-03

CNNIC于2013年7月28日发布的《第32次中国互联网络发展状况统计报告》显示，截至2013年6月底，我国微博网民规模为3.31亿，较2012年底增长了2216万，增长7.2%。网民中微博使用率达到了56.0%，较上年底增加了1.3个百分点。虽然中国的微博用户在经历了2010年至2011年的爆发增长之后，增长率与活跃度都有所下降，但综合广告推广成本、推广效果等因素来看，微博仍旧是性价比最高的广告推广渠道。

新浪微博提供的数据显示，微博平台中单条广告的转化率约为3‰，即1000个打开广告的读者中会有3人进一步了解广告中的相关产品，微博单条广告的平均成本大约在2000元左右，投放广告的性价比非常高。而且在微博投放广告有一个独有的优势是广告的转化成本非常低，消费者看到广告，接着上网查找广告中产品的资料，最终购买产品，这个过程不需要厂家再做额外的投入，这是传统的广告投放渠道所不能比拟的。因此，在多种因素的影响下，微博的广告营销依然活跃。

一、微博广告的发布主体

（一）企业官方账号

如今很多企业都开始把微博微信这类社会化媒体作为其重要的营销渠道之一。随着微博的用户群体日益壮大，影响力日渐增强，许多企业都开始把微博作为投放广告的重要渠道。企业通过微博的认证建立自己的官方账号，在微博推广产品、经营品牌形象，并通过与微博用户的互动来提高用户对品牌的认可度与忠诚度。例如以微博营销著称的小米手机，在小米手机青春版产品上市之前，就在官方微博发布了一个系列微电影——“我们的150克青春”。通过勾起80后的童年回忆，在微博产生了非常大的反响，这张温情牌为小米手机吸引了众多粉丝。在微电影的影响达到高潮之际，小米公司适时推出了150克重的小米手机青春版，并通过转发送手机等方式扩大影响力，第一批小米手机很快被抢购一空。

（二）明星账号

许多明星都在微博开设了账号，他们的微博账号有着数量庞大的粉丝群。因此，许多企业会选择邀请明星以发微博的方式帮助宣传产品。不同于传统的广告代言，明星们在微博的广告往往是以产品使用者的角度发一条体验微博，做软性植入，这大大提高了受众对广告的接受度和信任度。例如，郭敬明曾经为唯品会做过一条广告，他在自己的微博发了一张唯品会的送货箱，并在图旁配文说唯品会是买正品的好地方，让大家猜他买了什么。再比如，杨幂为HIKE X1做广告时，发布了一条微博，上面是一台HIKE X1和她的自拍照，并配文“朋友送了我自拍神器，效果真好”。虽然她没有直接说明自拍神器是HIKE X1，但是图片中可以清楚地看到这个型号，相关数据显示当日HIKE X1淘宝搜索量大幅上涨。由于明星从产品体验者的角度发布的广告暗含着明星本人的担保，再加之粉丝效应，因而此类广告往往会收获非常好的效果，但是此类广告的成本较高。

（三）草根账号

草根账号即微博中的段子账号，如“每天学点心理学”、“互联网那些事儿”、“励志语录”等。由于此类账号的粉丝数量非常庞大，因此许多商家会联系这些草根账号发布广告，此类账号发布广告大多是通过转发商家广告的形式。例如，小米在做手机营销时，就曾大量收买草根账号帮忙转发，一时间各路心灵鸡汤的账号都在转发小米手机广告，这为小米手机广告带来了大量的曝光量。然而，在草根账号投放广告的针对性较弱，因此，虽然成本较为低廉，但是效果普通。

（四）原创账号

微博上有许多拥有大量粉丝的原创账号，如天才小熊猫、留几手、暴走漫画等。原创账号与草根账号最大的区别是原创账号具有人格特征，因而也会有明星账号的粉丝效应。例如微博原创账号留几手，以点评女性照片闻名，微博人称“手哥”。留几手经常发布一些长文章博教女生如何打理自己，广受粉丝欢迎。留几手曾经在一篇名为《手哥教你如何护肤》中推荐女生使用高质量洗脸刷洗脸，文章发布的两天内，淘宝网丝芙兰洗脸刷销量大增。在原创账号投放广告的效果往往非常好，投放广告的费用也比明星账号更为低廉。但是，由于原创账号的定位各有特色，原创账号往往只为与自己平时发布内容有交集的产品做广告，因此，找原创账号发广告需要精准匹配。

二、微博广告推广的典型手段

（一）通过有趣或夸张的内容

这种手段常常运用于在微博内容里软植入广告，营销者通过把产品信息渗透在有趣或夸张的内容里来达到宣传产品的目的，受众在出于娱乐的目的看微博的同时，不知不觉也记住了营销者宣传的内容。与直接在微博中插入广告相比，这样的方式不会招致受众的排斥，能够让用户在潜移默化中接受营销者想要输灌的内容。例如百度魔图的一条营销微博，它的微博内容是一张简历截图，简历的IT技能栏里写着：会用QQ、百度魔图等工具。图片配文：那天看到这份简历，当时我就凌乱了。这条微博貌似是在给大家展示一份搞笑的简历，但实际上，大多数用户看到后都会去搜索百度魔图是什么，这就达到了营销者的目的。根据粗略搜索统计，这条微博整体转发数超过一万次，覆盖人数高达一千万人，百度魔图应用的下载量也在这条微博登上热门微博排行榜后有了大幅增长。

（二）通过明星真人案例

不管在哪种媒介投放广告，明星的加入对广告曝光量的提升都是不容小觑的。微博上的明星广告大多是明星以用户的身份发微博谈一些产品的使用体验，引起受众兴趣自发了解产品。endprint

（三）通过微博现场打折

这是微博投放广告最常见的一种方式，用“转发送礼”、“转发可赢抽奖机会”等方式鼓励受众转发商家的广告。这种方式可以在短时间内收获大量的曝光，但缺点是成本的投入比较大，而且这样的方式不会使产品本身在受众心里留下深刻的印象。大多数用户在转发之后的印象都是“我刚才转了一个送礼的微博，希望能被抽中”，而对他转发的内容是什么并不在意。

（四）通过反复出现的方式

该种方式的核心是提升曝光量，即在各种类型的账号投放广告，在短时间内让广告大量出现。例如以微博营销著称的小米手机，在小米手机发布之时，小米公司发动全体员工、互联网界大佬转发小米手机广告，并且收买了“每天学点经济学”等多个草根营销账号转发广告。一时间，微博上到处可以看到小米手机的消息。这种方式效果非常好，但也有一个很大的弱点即投入成本过高。

三、微博广告的营销策略

（一）把握用户心理

微博的用户心理主要有3种：喜闻乐见、感同身受、做标记。营销者可以把广告软植入到有趣的人和事、社会热点话题等能引起大多数微博用户兴趣、或让用户感同身受的内容里，在潜移默化中把产品的信息灌输给用户。很多用户还会在微博上搜集对自己有用的信息，营销者在营销时可以把与产品相关的信息做一个整合，这样用户会抱着搜集信息的态度来看你的内容，营销者也就达到了传播的目的。例如草根账号“互联网那些事”曾经为创业者社区“缘创派”做的一条广告微博——互联网创业者不能错过的5个网站，微博中除了提到缘创派这个鲜为人知的社区外，还提到了在业界颇有名气的36kr等网站，无形中就把缘创派和36kr拉到了一个高度。这样受众抱着收藏有用信息的心理阅读这条微博时，无形中也会增强对新生网站缘创派的认可程度。

（二）综合运用多种推广手段

微博的广告推广手段主要有内容植入、明星和草根大号转发、转发送礼和反复出现增加曝光量4种方式。单一地使用某种推广方式的效果并不够强，要想收获最佳的传播效果，必须灵活、综合运用4种手段。

拿以微博营销的小米手机为例。小米手机在推出小米手机青春版时，在产品上市前半个月，即通过系列微电影“我们的150克青春”在微博上为小米手机的开卖预热。小米的微电影看似在帮助80后重温少年记忆，引起了网民的共鸣，但是事实上，微电影是一种内容的软植入，受众在看电影感动之际也通过电影主角“米兔”记住了小米公司。在小米上市的前半个月里，“150克青春”的微电影让微博用户对小米公司都有了印象。在小米上市的当天，小米公司收买了大量明星、草根大号转发小米手机上市的广告，在短时间内强势地夺得了大量的曝光，又在同时开启“转发送小米”的活动，利用受众的投机心理，进一步巩固了小米手机开卖的曝光量，再加之限量销售的饥渴营销策略，在短短几天内迅速在微博掀起了小米热潮。小米公司在每一个推广环节都充分利用了不同推广方式的特点，组合各种手段为小米手机广告做推广，收获了良好的效果。

（三）选择适当的广告植入方式

微博上的广告营销者往往认为，软植入的广告更易于被受众接受，软植入广告优于硬植入。但是，当产品本身具有独一无二的竞争力时，硬植入广告的效果远远优于软植入。例如之前广受追捧的极路由，它有可直接翻墙、大幅度提高网速、限制青少年儿童上网内容等其它路由器不具备的特点。因此它在微博投放的广告都很直白地打出这些优点，直接宣传极路由。但是如果一个洗衣粉广告这样做的效果却可能招致受众的反感，因为它没有独一无二的竞争力。因此，营销人员在选择广告硬植入还是软植入前，要充分考虑产品本身的特点，以收获最优的传播效果。

（四）集中推广产品最重要的特点

很多广告营销者都会在广告中尽量全面地介绍产品的优点。然而，这种方法适用于电视报纸等传统广告投放渠道，却不适用于微博。在电视报纸等传统广告投放渠道，受众对于看什么样的广告没有充分的选择权，因为报纸每一期的广告数和电视每一个时间段的广告数都是有限的。在这样的情况下，受众一旦选择了看这条广告，往往会对广告的内容有较深的印象。微博是一个信息爆炸的地方，受众在微博接受的信息要远远高于在报纸和电视接受的信息，在大量信息的冲击下，受众很难记住某条广告的具体内容。因此，在微博做广告需要抓住产品最重要的特点，反复在不同地方强调，来强化受众的印象。例如京东商城为2013年双十一活动做的一系列广告，都强调的是一个元素：送货快。在微博投放广告的核心是信息集中，最重要的不是传达内容的多少，而是让受众记住。

在移动互联网浪潮的影响下，微博已经成为了性价比非常高的广告投放渠道。虽然微博做为社会化媒体还没有成为广告主普遍认可的投放渠道，但是微博广告的潜力是不容小觑的。因此，研究微博广告的特点、微博受众的心理，在此基础上探寻微博投放广告的策略对于微博广告营销者来说是很有必要的。

参考文献：

〔1〕于潇.Web2.0时代下微博广告传播策略分析[J].新闻界，2011，（3）：135.

〔2〕黄海涛.微博在网络社区广告中的新应用[J].青年文学家，2010，（9）：230.

〔3〕范玉明.“微博”传播的社会价值及经济价值[J].新闻爱好者，2010，（11下）.

【现象研究计划】推荐阅读：

双十一现象研究05-02

大学生逃课现象调查研究报告02-05

歧义现象浅析06-01

社会现象写作06-20

经济现象论文09-10

社会现象论文01-09