大数据-信息检索论文(精选8篇)
学 院: 专业名称:
学 号: 姓 名:
信息科学与技术学院 计算机应用技术
指导教师: 时 间:
大数据的概念、技术与挑战
【摘要】计算、物联网、社交网络等新兴服务促使人类社会的数据种类和规模正以前所未有的速度增长,大数据时代正式到来.数据从简单的处理对象开始转变为一种基础性资源,如何更好地管理和利用大数据已经成为普遍关注的话题.大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,数据管理方式上的变革正在酝酿和发生.对大数据的基本概念进行剖析,并对大数据的主要应用作简单对比.在此基础上,阐述大数据处理的基本框架,并就云计算技术对于大数据时代数据管理所产生的作用进行分析.最后归纳总结大数据时代所面临的新挑战.
【关键词】大数据,技术,挑战,数据分析,云计算
近年来,伴随着物联网、云计算、移动互联网等新技术的迅猛发展,数据正以前所未有的速度不断增长和积累,大数据时代已经到来,这引起了产业界 学术界 科技界和政府机构的广泛关注。
大数据的火热并不意味着对于大数据的了解深入,反而表明大数据存在过度炒作的危险.大数据的基本概念、关键技术以及对其利用上均存在很多的疑问和争议。
一、大数据的基本概念及大数据时代产生的必然
数据是云计算技术的延伸,更是社会进步和发展的必然结果,大数据时代的到来引领了未来IT技术发展的战略走向。在信息和网络技术飞速发展的今天,越来越多的企业业务及社会活动实现了数字化,特别是随着数据生成的自动化及数据生成速度的加快,数据量也随之快速增长。同时,随着存储设备、内存、处理器等电脑元件成本的稳定下降,使得之前较昂贵的大规模数据存储和处理变得十分经济,也使得大数据的存在成为可能。传感器数据也是大数据的主要来源之一。在物联网时代,成万上亿计的网络传感器嵌入在数量不断增长的智能电表、移动电话、汽车等物理设备中,不断感知、生成并传输超大规模的有关地理位置、振动、温度、湿度等新型数据。
二、大数据的特点及关键技术分析
1.大数据的特点
大数据不是一种新技术,也不是一种新产品,而是一种新现象,是近来研究的一个技术热点 大数据具有以下4个特点,即4个V:(1)数据体量(Volumes)巨大大型数据集,从TB级别,跃升到PB级别;(2)数据类别(Variety)繁多 数据来自多种数据源,数据种类和格式冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据;
(3)价值(Value)密度低 以视频为例,连续不间断监控过程中,可能有用的数据仅仅一两秒钟;
(4)处理速度(Velocity)快 包含大量在线或实时数据分析处理的需求,1秒定律。
随着互联网技术的不断发展,数据本身就是资产云计算为数据资产提供了保管访问的场所和渠道,但如何盘活数据资产,使其为国家治理企业决策乃至个人生活服务,是大数据的核心议题,也是云计算的灵魂和必然的升级方向。
2.关键技术
2.1云计算;大数据的基础平台与支撑技术
如果将各种大数据的应用比作一辆辆“汽车”,支撑起这些“汽车”运行的“高速公路”就是云计算.正是云计算技术在数据存储、管理与分析等方面的支撑,才使得大数据有用武之地.文件系统是支撑上层应用的基础。原始的数据存储在文件系统之中,但是用户习惯通过数据库系统来存取文件.因为这样会屏蔽掉底层的细节,且方便数据管理.直接采用关系模型的分布式数据库并不能适应大数据时代的数据存储。据查询是数据库最重要的应用之一,而索引则是解决数据查询问题的有效方案。而数据分析技术是最核心的业务。
2.2大数据处理工具
关系数据库在很长的时间里成为数据管理的最佳选择,但是在大数据时代,数据管理、分析等的需求多样化使得关系数据库在很多场景不再适用.而HadOop是目前最为流行的大数据处理平台.而Hadoop最先是Doug Cutting模仿GFS,MapReduce实现的一个云计算开源平台,后贡献给Apache.Hadoop已经发展成为包括文件系统(HDFS)、数据库(HBase、Cassandra)、数据处理(MapReduce)等功能模块在内的完整生态系统(Ecosystem).某种程度上可以说Hadoop已经成为
大数据处理工具事实上的标准.
三、大数据时代面临的机遇与挑战
综上所述,大数据时代的数据存在着如下几个特点:多源异构;分布广泛;动态增长;先有数据后有模式.正是这些与传统数据管理迥然不同的特点,使得大数据时代的数据管理面临着新的机遇与挑战。
(一)大数据带来的机遇
1.大数据的挖掘和应用成为核心,将从多个方面创造价值。
大数据的重心将从存储和传输,过渡到数据的挖掘和应用,这将深刻影响企业的商业模式 据麦肯锡测算,大数据的应用每年潜在可为美国医疗健康业和欧洲政府分别节省3000亿美元和1000亿欧元,利用个人位置信息潜在可创造出6000亿美元价值,因此大数据应用具有远超万亿美元的大市场。
2.大数据利用中安全更加重要,为信息安全带来发展契机。
随着移动互联网物联网等新兴IT技术逐渐步入主流,大数据使得数据价值极大提高,无处不在的数据,对信息安全提出了更高要求 同时,大数据领域出现的许多新兴技术与产品将为安全分析提供新的可能性;信息安全和云计算贯穿于大数据产业链的各个环节,云安全等关键技术将更安全地保护数据 大数据对信息安全的要求和促进将推动信息安全产业的大发展。
3.大数据时代来临,使商业智能信息安全和云计算具有更大潜力。大数据产业链按产品形态分为硬件基础软件和应用软件三大领域,商业智能信息安全和云计算主题横跨三大领域,将构成产业链中快速发展的三驾马车就国内而言,商业智能市场已步入成长期,预计未来3年复合年均增长率(CAGR)为35%,十二五期间潜在产值将超300亿元;信息安全预计未来3年CAGR有望保持35%~40%的快速增长,十二五期间潜在产值将超4000亿元;云计算刚进入
成长期,预计未来5年CAGR将超50%,2015年产业规模预计将达1万亿元。
(二)面临的挑战 1.大数据集成
数据的广泛存在性使得数据越来越多地散布于不同的数据管理系统中,为了便于进行数据分析需要进行数据的集成.数据集成看起来并不是一个新的问题,但是大数据时代的数据集成却有了新的需求,因此也面临着新的挑战.
1)广泛的异构性.传统的数据集成中也会面对数据异构的问题,但是在大数据时代这种异构性出现了新的变化,大量出现的各种数据本身是非结构化的或弱结构化的,如留言、博客、图像、视频数据等,如何将这些数据转化成一个结构化的格式是研究者面临的一项重大挑战.
2)数据质量.数据量大不一定就代表信息量或者数据价值的增大,相反很多时候意味着信息垃圾的泛滥.2.大数据分析
大数据最为严重的风险存在于数据分析层面。数据量的增大会带来规律的丧失和严重失真。传统意义上的数据分析主要针对结构化数据展开,且已经形成了一整套行之有效的分析体系.首先利用数据库来存储结构化数据,在此基础上构建数据仓库,根据需要构建数据立方体进行联机分析处理(online analytical processing,OI。AP),可以进行多个维度的下钻(drill一down)或上卷(roll—up)操作.对于从数据中提炼更深层次的知识的需求促使数据挖掘技术的产生,并发明了聚类、关联分析等一系列在实践中行之有效的方法.这一整套处理流程在处理相对较少的结构化数据时极为高效.但是随着大数据时代的到来,半结构化和非结构化数据量的迅猛增长,给传统的分析技术带来了巨大的冲击和挑战。据阿里巴巴称,虽然其各类业务产生的数据为数据分析创造了非常好的基础条件,然而却招聘不到合适的数据科学家而影响了研发进展。
3.大数据的隐私问题
隐私问题由来已久,这基本也是大家最关心的问题。计算机的出现使得越来越多的数据以数字化的形式存储在电脑中,互联网的发展则使数据更加容易产生和传播,数据隐私问题越来越严重.
大数据高度依赖数据存储与共享,必须考虑寻求更好的方法消除各种隐患与漏洞,才能有效地管控安全风险。数据的隐私保护是大数据分析和处理面临的重要问题,既是技术问题也是社会学问题。如果对私人数据使用不当,尤其是泄漏有一定关联的多组数据,将导致用户的隐私泄漏。
4.大数据能耗问题
在能源价格上涨、数据中心存储规模不断扩大的今天,高能耗已逐渐成为制约大数据快速发展的一个主要瓶颈.从小型集群到大规模数据中心都面临着降低能耗的问题,但是尚未引起足够多的重视,相关的研究成果也较少.在大数据管理系统中,能耗主要由两大部分组成:硬件能耗和软件能耗,二者之中又以硬件能耗为主.理想状态下,整个大数据管理系统的能耗应该和系统利用率成正比.但是实际情况并不像预期情况,系统利用率为0时仍然有能量消耗。
5.大数据处理与硬件的协同
硬件的快速升级换代有力地促进了大数据的发展,但是这也在一定程度上造成了大量不同架构硬件共存的局面.大数据处理必须要有舍才有得。可以通过舍弃一些不必要的性能和精确性来获取更为重要的性能和精确性。.
6.大数据管理易用性问题
从数据集成到数据分析,直到最后的数据解释,易用性应当贯穿整个大数据的流程.易用性的挑战突出体现在两个方面:首先大数据时代的数据量大,分析更复杂,得到的结果形式更加多样化.其复杂程度已经远远超出传统的关系数据库.其次大数据已经广泛渗透到人们生活的各个方面,很多行业都开始有了大数据分析的需求.
7.性能测试基准
数据库产品的成功离不开以TPC系列为代表的测试基准的产生.正是有了这些测试基准,才能够准确地衡量不同数据库产品的性能,并对其存在的问题进行改进。在过去20年里,产业基准起到了很大的作用。在制定行业的标准时,性能、持有成本和能源效率是成功的三大关键。产业界标准的基准都扮演了非常重要的作用,进一步推动了计算机产业科学的发展【33】。
四、结果和结论关系
像互联网、云计算以及物联网等技术一样,大数据时代的到来势必会再次让
信息技术领域焕然一新。大数据时代下,每个个体都是数据的产生者,企业的任何一项业务活动都可以用数据来表示,如何保证大数据的质量,如何建模、提取并利用隐藏在大数据中的信息以提升企业信息系统绩效、提升企业决策能力,成为摆在业界和学术界面前的重大难题。
总的来说,目前对于大数据的研究仍处于一个非常初步的阶段,还有很多基础性的问题有待解决.大数据的几个特征中究竟哪个最重要?面对大数据管理我们需要的是简单的技术上的演变(evo1ution)还是彻底的变革(revoIution)?不同学科的研究者之间怎样协作才能更有利于大数据问题的解决?诸如此类的问题还有许多,要解决大数据问题仍有很长的路要走。
感谢:
郭彦红老师给予的的指导和提供的课件,以及所参考的文献的所有作者。
【参考文献】
[1]孟小峰,慈祥: 大数据管理:概念、技术与挑战。计算机研究与发展[146-169,2013] [2]朱志军,闰蕾,等.大数据——大价值、大机遇、大变革[M】.电子工业出版社,2012.
1 大数据的概念、特点及重点技术分析
1.1 大数据的概念
大数据,又可以被称之为巨量资料,是指所含有的信息量较多,巨大到无法利用目前主流软件工具,在规定时间内完成管理、处理的工作。最早提出这一概念的是美国著名科学家阿尔温托夫勒,之后引起了社会各界人士的关注。目前,随着电力企业的不断发展,所关联的数据量越来越大。怎样快速存储并检索大数据就成为了影响企业生存及发展的重要事项。
1.2 大数据的特性
对于大数据来讲,其并不是一种新的技术,也不是一类新的产品,而是一种全新的现象。其特性具体包含以下四方面内容:其一,大数据的体量十分巨大,由以往的TB,提高到PB等级;其二,大数据的类型相对较复杂,同时数据的来源也多种多样,其类别及形式突破了以往界定的结构范围,包含了非结构形式的数据及半结构形式的数据;其三,价值密度相对较低。例如:视频在不间断连续的监控期间,可能有用的信息仅为1s--2s;其四,处理速率相对较快。包括大量在线及实时数据分析需求。
伴随着互联网科技的逐步发展,数据自身成为了企业发展的重要内容,是确保访问途径与场所的基础,怎样灵活应用大数据,创建高速存储及检索技术成为了电力企业相关从业者需要深入探究的事情。
2 对典型电网的业务体系数据存储、检索及计算技术结构进行分析
如今,电力企业所面临的市场竞争越来越激烈,想要更好的寻求发展,就需要深入对电网信息技术进行探究。当前,用电信息的采集体系等每天所形成的信息量十分庞大,面向的用户数量较多,进而十分容易造成业务体系在分析业务方面发生相应迟缓的问题,使使用者等待时间过长。所以,相关工作人员就需要对用电信息采集体系的数据检索、存储、计算等技术结构进行深入探究,分析并总结结构化信息及非结构化信息运用的数据检索与存储性能,保证业务体系满足满足目前电力企业发展的需求,增强企业的市场竞争能力。
3 并行采样技术
对于高速数据采集体系来讲,其是系统内最核心的指标,想要实现高采样频率,可以借助单片高速数据转化器的芯片。然而此种芯片的售价相对较高,同时因为该芯片的分辨率相对较低,所以,如果对数据收集要求较高,可以借助并行采样的方法,同时应用多片低采样率的芯片,从而缩减高采样芯片的成本投入。并行采样技术的工作原理为:通过交叉时间采样的方法,让多片低频芯片并行,从而达到高频数据采集的效果。加设有M路的低频芯片,其采样频率为整个体系采样频率的1/M,经过相关调整,保证各个途径的相位差固定,将多个路径急性合并,则其采样的频率可以提高M倍,从而更好的加快信息的收集及传递速率,为电力企业发展夯实基础。
并行采样技术应用的ADC转换器大致有二类,第一类为闪电形式的ADC转换器。能够将模拟的信号直接同参考电压进行对比,进而获取相关数字信号的大小。该方法仅需较短时间就能够获取结果,效率较高,然而分辨率较差;第二类为逐次逼近形式的ADC转换器。其工作原理为借助比较器将模拟信号与转换标准电压进行对比,控制二者的差距在ILSB之间。表1为两种转换类型的对比。
4 电力信息大数据高速存储方案及技术
4.1 存储方案
在电力企业中,信息的采集具备数据吞吐率较高的特性,那么就需要系统能够在短时间完成传递及存储工作。所以,数据收集及高速存储的能力对工作质量有着至关重要的影响。高速的信息收集速率是确保信息采集精确度的关键指标,然而在处理信息时,却并不需要过快的速度,不然会提高对系统硬件的要求标准,使成本增长。那么,及需要设置一个数据缓存的单元,能够将信息存储在内,然后结合体系的需求进行运用与处理。一般来讲,高速缓存的方法大致可以划分成以下三类:
(1)先进先出形式的缓存。应用的设备为FIFO存储器。其就如同信息管道,资料能够由其中一头流进,然后由另一端流出,先进入的资料先流出。此种缓存方法拥有两套数据线,但是没有地址线,能够在一端进行操作,另一端进行读取,信息在其中进行顺序运用,所以,传递效率较高,并且能够节省布置地址线。但是此种技术的缺点在于仅能进行顺序读写,所以过于死板,同时容量较大、速率较高的FIFO存储器价格相对较高。
(2)双口PAM形式的缓存。该技术拥有两套相对独立的地址、数据、控制总线,所以能够分别由两个端口同时进行读写操作,互相不发生干扰,同时可以将采集的信息由一端输入后在控制器的另一端读出。该缓存方法传递效率较高,同时可以随时进行存取。但是其缺点在于价格十分昂贵。
(3)高速SRAM切换形式的缓存。此技术仅有一套地址、数据、控制总线,能够利用三态缓冲门将其连接在控制器及ADC转换器上。在ADC完成数据采集工作后,由SRAM设备在控制器上进行读写操作。其优点在于能够随时进行读写,缺点在于集成化水平较低,需要占用较大的面积。
4.2 存储设备的类别划分
当前,较为常见的存储设备依据其特性可以被划分成只读存储器及随机存储器。只读存储器按照存储的机构进行分类,包含SRAM及DRAM两类。其中,SRAM存储器的工作稳定性强、效率较快、操作灵活,但是价格相对较高,除了在部分特殊的场所外,很少应用该存储设备。而DRAM存储器较前者价格低很多,伴随着科技的不断发展,该设备的容量相应增大,同时存储速率越来越快,稳定性越来越好,假如应用得当,能够提高信息的存储效率。
5 电力信息大数据高速检索的过程
当用户提出检索需求后,同时将重点词提交给检索代理,则检索代理就会把重点词发送到索引的存储器内,然后遵照相关度将结果排列出来,传递到用户界面上,从而能够极大程度提高检索的速率及质量。
5.1 对提交的检索内容进行分析
检索用户在搜索界面上输入关键词语,提交检索申请,按照步骤最后找寻到需要应用的内容。搜索引擎需要对检索的内容进行细致分析。一般来讲,需要对检索内容进行分词,可以采用以下三种形式:其一,以字符串为基础进行匹配。此种方法包含三种形式,即正向最大匹配形式、逆向最大匹配形式及最少切分形式。正向最大匹配形式指的是由左向右把检索的内容分成部分词语。逆向最大匹配形式指的是由右向左把检索的内容分成词语。最少切分形式指的是把词组进行细化,然后逐个进行检索;其二,理解分词后进行匹配。检索模拟人们的思维对语句进行判断、理解,其基本原理为:在分词的过程中把语法中歧义的语句分析并进行处理。一般由三部分构成:即分词体系、语法、语义体系及总控制体系。在总控制体系的配合下,语法、语义体系获取词语、句子的含义,将其模拟人类思维进行理解;其三,统计分词后进行匹配。邻近字出现的频率越高,分词就将其视为一个词进行检索。需要注意的是,在检索期间,类似“的”、“吗”等词语在分词时会被去除。
5.2 对搜索请求进行匹配
就在搜索引擎接受到检索内容以后,进行细致分析,就会对其名称进行匹配,怎样将匹配的内容显示出来呢?就需要遵照匹配程度对其进行排序。通过此种方法,能够方便使用者更快找寻到需要的内容,从而提高工作质量,缩减检索时间,发挥更好的价值。所以,相关工作人员应对检索技术进行深入研究,不断进行创新,大胆尝试,并且引入一些国外先进的技术与方法,更好的推动电力企业发展。
6 总结
总而言之,伴随着目前市场经济的稳步发展,企业所面临的竞争越来越激烈,电力企业想要在竞争激烈的局面下获取生存并不断发展,就需要改进自身的管理方法,同时实现智能化发展,提高大数据的存储及检索速率。相关工作人员应对该内容进行深入研究,从而推动企业稳步发展,为人们提供优质服务。
摘要:伴随着目前科学技术水平的不断提高,信息技术被广泛应用在电力企业中,并获取了良好的成果。本文简要针对电力信息大数据告诉存储及检索技术进行探讨,目的在于进一步提高信息技术水平,推动电力企业更好向前发展。
关键词:电力信息,大数据,高速存储,检索
参考文献
[1]宋亚奇,周国亮,朱永利.智能电网大数据处理技术现状与挑战[J].电网技术,2013(04).
[2]吴锋.“大数据时代”科技期刊的出版革命及面临挑战[J].出版发行研究,2013(08).
[3]库俊平.大数据环境中企业文书档案的信息化管理及利用[J].创新科技,2013(09).
[4]乔向杰.基于大数据的旅游公共管理与服务创新模式研究[A].北京两界联席会议高峰论坛文集[C],201 3.
[5]易柏胜.基于z00keeper的虚拟机动态变更机制的设计与实现[D].华南理工大学,2013.
关键词 数据挖掘 网络信息检索 数据挖掘
中图分类号:TP311.138 文献标识码:A
目前,网络信息资源数据形式丰富多样,数量巨大,并呈几何级数的速度增长,基本满足了人们的信息检索的量的需求,然而如何快速、高效地找到自己所需要的信息,网络信息檢索在查全率和查准率上还相对欠缺。网络搜索引擎通常会返回给用户成千上万检索到的网页,其中大部分与用户的检索要求无关,另外就网络上的知识发现而言,即使检索精度再高,搜索引擎也不能够胜任。因此,人们需要比信息检索更精确高效的、能包含网络数据库在内的新的数据挖掘技术,数据挖掘正是在这样的应用需求下产生并迅速发展起来的。但是,数据库领域采用的数据挖掘技术所涉及的多是结构化数据,为了处理网络上的异质、非结构化或半结构化数据,网络数据挖掘成为数据挖掘研究的一个重要分支。
1 网络信息检索
网络信息检索一般指因特网检索,是通过网络接口软件,用户可以在一处终端查询各地上网的信息资源。网络信息检索主要依靠计算机科学技术、网络技术和数据的确切特征来创建相应的索引结构、数据库等,能很好地处理已经发生或存在的静态信息。网络信息检索工具包括传统的服务工具:远程登录、文件传输服务、电子邮件、电子公告牌、广域消息服务、Gopher、WWW、基于Z39.50的信息检索服务、代理服务器和NAT,以及搜索引擎和中外著名网络数据库检索。这些工具都能有效地组织和检索海量数据,但对数据未来的变化趋势等动态信息缺乏有效的统计和预测。
2 数据挖掘及Web数据挖掘
数据挖掘(Data Mining),即从大量模糊的数据中发现隐含的规律性内容,解决数据的应用质量问题的技术,是一种还处于发展中,已经部分投入实际生产实践的技术框架。
Web数据挖掘是从数据挖掘技术发展而来,简单地说是将数据挖掘技术应用到Web上,也称为Web挖掘。其技术性的定义是:Web数据挖掘,是一项涉及Web、数据挖掘、信息学、计算机语言学等多个领域的综合技术。Web数据挖掘的目的是为了揭示网络信息中隐含的知识,它是比信息检索层次更高、更精确的一种技术。它能够根据用户个性化定义的要求,根据目标的特征信息在网络上或者数据库中进行有目的的信息检索。Web数据挖掘中几种常用的技术是:关联规则技术、分类技术、聚类技术、路径分析技术和序列模式技术。
3 数据挖掘在网络信息检索中的应用
目前,作为网络信息检索最重要最常用的工具:搜索引擎,只能处理用户给出的特定关键词形式表示的简单目标,而无法处理用户给出的样本形式的复杂模糊目标,对网络数据未来的变化趋势等动态信息也缺乏有效的统计和预测。而将数据挖掘技术运用的网络信息检索中,可以使网络信息检索过程及结果更加快速、精确、个性化。
(1)数据挖掘提高网络信息内容自动摘要的准确率。网络信息资源一般都有关键词和内容摘要供用户检索选择之用,但大部分的自动摘要都是简单的抽取网页文档的前几句内容,而仅仅是通过位置来确定的,这种方式很不准确,不能精确的反映网页的全部内容,所以保证自动摘要的正确性非常重要。数据挖掘中的文本抽取就是从文档中抽出关键信息,对文档本身的内容而不是位置来进行文本内容的总结,以自然语言理解为基础,更可揭示网络信息的主题特征知识及其之间的相互关联知识,对文档进行语义甚至语用的标注,因此它更能反映出Web文档中的真正信息,然后以简单的形式进行摘要或表示,可以提炼出文档最重要的信息生成关键字或摘要,使自动摘要的质量和准确性很大的提高。
(2)数据挖掘拓宽网络信息资源量。网络信息资源数量众多,分布范围很广,大部分可以直接用网络信息检索工具查询到的信息都是网页中的文字、表格、图形、图像、声音、视频或好友网页的链接及目录结构等。但是还有一些潜在网络信息不容易被搜索引擎等工具查询到,如用ASP,JSP或PHP生成的动态网页;一些专业数据库系统中的数据;在Robot Exclusion框架协议下被拒绝搜索访问的网站;由用户的提问而动态生成的结果;存在于商业数据库管理系统中的数据等,它们无法被索引,从而无法提供有效的检索方式,这些结构化的或用html标记的半结构化数据都可以用数据挖掘中的内容挖掘进行处理,网络页面内容挖掘常采用的技术是文本挖掘和多媒体挖掘,可为这些网络信息提供明确的摘要或索引,使得本来不容易搜索到,潜在隐藏的信息能被明确的搜索到,从而大大拓宽了网络信息的资源量。
4 网络信息检索的未来展望
数据挖掘能发现网络中隐含的有价值的信息和知识,从而提高标引、自动摘要、自动分类和自动聚类等的准确率;能促进用户兴趣模型的构建,从而为用户提供更好的个性化信息服务。此外,它独特的分析方法能发现网络数据知识之间的各种关系,使网站建设和检索结果的分布更加合理。随着本体、网络、自然语言处理、信息可视化和人工智能等技术的发展,将数据挖掘与这些技术进行结合,未来的网络信息检索将朝这更加精准、个性和智能化方向发展。
参考文献
[1] 陈维.网络环境下的信息检索与数据挖掘技术[J].现代情报,2009(5).
[2] 李村合.网络信息挖掘技术及其应用研究[J].情报科学,2008.
关键词:信息化;招标代理;企业管理
一、高校档案管理工作面临的现状
第一,重视程度不够。由于高校对档案管理重视程度不够,在档案管理工作中,沿用传统的工作模式,对档案进行人工检索、整理、立卷和归档。即使大部分高校引进了先进的计算机设备,但是仍然只是发挥基本的输入、输出功能。由于缺乏现代化的管理系统,使得高校的档案管理工作繁琐,效率低下,限制了档案管理的价值。教师及学生的`档案采集不全,档案卷内目录填写不完整,档案序号、文件编号、责任者、卷内文件的起始时间等信息有遗漏,档案文件保密级别不限定。第二,从事档案管理的人员素质不够。部分高校没有严格按照规定,完成档案管理工作,甚至缺乏专门的档案管理,只是简单的将档案堆在墙角里,使得档案丢失,这给档案查找工作带来非常大的困难。而且从事档案管理的人员,大部分是为了解决高校代课老师或教授配偶的工作,临时安排的,他们大部分人员缺乏计算机操作技能,不能利用计算机技术对档案信息进行开发和研究,并且缺乏工作积极性。第三,档案管理平台不健全。近些年来,高校电子文档、表格、音频、视频等各种数据信息,种类繁杂,这些庞大的数据信息难以有效的管理及存储。高校档案数据资源不断扩张,若不引入虚拟云存储技术,就有可能引发资源存储容量不够,导致数据库膨胀危险。
二、大数据技术在高校档案管理中的应用
大数据的意义不是数据信息庞大,而是对数据信息进行高质量的处理。面对大数据时代的到来,高校如何在招生、教学、管理、就业方面进行大数据整合和管理,为高校的发展提供技术支持,是学校发展的重点工作。目前,很多学校已经建立了信息门户、统一用户管理与身份认证、综合信息服务门户,已经在信息管理中取得了进步,但是目前高校档案管理仍存在很多挑战。第一,组织维度。高校内各个部门应该优势互补,实现不同类型的大数据资源的优质整合。例如在高校内各部门建立数据管理机构、将数据整合和管理常态化,该机构由各个部门分管领导直接负责,协调部门内部事务,并将数据整合工作纳入年终评价体系,保障数据整合工作的效果。为加强高校档案管理,建议高校成立活动领导小组和工作小组。如下:其一,领导小组。组长;副组长;成员;职责;其二,工作小组。组长;副组长;成员;职责:统筹安排档案管理,研究制定管理措施;负责对档案信息进行协调、监督、考核。工作小组办公室设在公司后勤,负责日常工作联系及相关组织工作。第二,数据维度。高校档案来源丰富,包括教师和学生的人事档案、学籍档案、医疗保健档案、试题库、学校的基建档案、学校的资产档案、财务原始报销凭证、公文、电子邮件等。在档案大数据应用时,要将档案资源进行数据模型的转换,将二维的信息转换为多维的模型。第三,技术维度。在高校大数据时代,信息应用服务引领高校档案由常规分析向广度、深度分析转变。师生用户可以共享档案信息,并从海量档案信息中,挖掘出自己可用的信息,并从这些信息资源中进行价值判断和趋势分析,找出用户和档案之间的逻辑关系。4G移动通信终端、云技术与云存储服务、校园APP等媒介渠道的引入,可以解决档案资源存储的问题。
三、大数据技术在高校档案管理中应用的有效措施
第一,增强服务意识,提高服务水平,争取领导重视。大数据时代的来临,档案管理工作会面临许多新情况、新特点、新问题。实现现代化的管理,需要提高领导干部的档案意识,配备先进的设备,实现档案管理的现代化,网络化。第二,加强档案管理教育培训,提高管理人员的综合素质。大数据的管理不在是传统的简单数据和信息的归集,在信息化管理工作中,提高管理人员的素质是有必要的。加强人才培养,实现竞争上岗,培训上岗,加强业务宣贯,为档案管理创造一个新台阶。第三,提高档案管理信息化利用水平。引进现代化档案管理设备,用于快速档案查阅、检索、分析,提高工作效率,实现档案管理的现代化办公。一是加大资金投入,不断完善档案信息数据库,不断摸索档案应用软件和实际工作的结合,建立可行的档案信息系统,提高档案数据的实用性,使得档案查阅更快捷、更方便、更可靠。二是建立规范的制度保障体系,提高信息化管理的技术水平。
四、结束语
今年两会,大数据第一次出现在政府的工作报告中,这表明,大数据已经上升到国家层面。为了适应大数据时期,档案管理工作对管理人员的要求越来越高,学习现代计算机技术、网络技术、多媒体技术,跟上当代时代的节拍,对高校的发展有着重要的意义。
作者:张贤恩 高秀英 单位:枣庄市团校
参考文献:
[1]杨似海,闫其春.大数据背景下的高校图书馆档案管理策略研究[J].四川图书馆学报,,4(35):81.
[2]傅笑然.大数据背景下高校教学档案管理探析[J].财会通讯,,19(128):80-82.
作者:张百玲 宋羽婷
摘要:随着大数据的不断发展,个人对信息的控制能力逐步削弱,大数据通过数据关联整合挖掘,轻易恢复数据的身份属性,如何保护个人的数据安全成为电子商务发展中需要解决的问题。
关键词:大数据、个人信息
一、什么是大数据?
大数据:是指以多元形式,自许多来源搜集而来的庞大数据组,大数据的意义是由人类日益普及的网络行为所伴生的,受到相关部门、企业采集的,蕴含数据生产者真实意图、喜好的,非传统结构和意义的数据。
二、个人信息的概述及分类
(一)、个人信息
个人信息: 是指与个人相关的,能够直接或间接识别特定自然人的信息。
(二)、个人信息的分类
1.直接个人信息和间接个人信息
直接个人信息: 是指可以直接识别特定个人的数据信息,比如,信息的主体姓名、身份证号、肖像、指纹等。
间接个人信息: 是指仅拥有这些数据信息还不能直接识别出特定个人,需要通过与其他数据信息组合分析,才可以勾勒出特定个人的某种形象信息。2.个人敏感信息和个人一般信息
个人敏感信息:是指关涉个人隐私核心领域、具有高度私密性、对其公开或利用将会对个人造成重大影响的个人信息,各行业个人敏感信息的具体内容根据接受服务的个人信息主体意愿和各业务特点确定。
个人一般信息:是指除个人敏感信息以外的个人信息。3.个人基本信息、个人网络活动信息和个人存储信息
个人基本信息:是指姓名、性别、电话号码、家庭住址、邮箱地址等。
个人网络活动信息:是指消费者在网络交易过程中浏览过的网页,关注过的产品,对产品的评论及发布的相关信息等内容。
个人存储信息:是指网民存储在电脑上、移动存储设备上的信息,包括电子邮箱、网络硬盘等虚拟空间存储的各类信息。
三、大数据时代怎样保护公民的个人信息安全?
我国个人信息保护现状:侵害个人信息的案件越来越多。随着徐玉玉案件发酵,个人信息保护引起大众注视,其实在之前已有多起个人信息遭侵害的案例CSDN 遭受攻击、12306 网站信息泄露、Yahoo 邮箱泄露案、Equifax 征信信息泄露案等。如何保障数据安全已成为企业个人都尤为关注的现象级问题。
政府机关在执行公务时也会遇到很多问题。在个人信息泄露案件频发的现在,政府机关没有可依据的法律法规,在执法过程中困难加剧,急需得到法律的支持。公民保护个人信息意识与日增加,随各种个人信息案件的发生,公民个人也发觉个人信息的重要性,也随之呼吁保护个人信息,并在生活中有所注意。
案例:据外媒报道,Instagram 此前曾对外宣称,其应用程序界面存在一处安全漏洞,允许黑客利用恶意代码窃取目标用户帐号电子邮件地址、手机号码。不过,虽然该漏洞已被修复,但影响范围远比想象还要严重。知情人士获悉,该漏洞似乎正是导致赛琳娜 ·戈麦斯账号突然发出大量前男友贾斯汀·比伯裸照的缘由。官方最新消息披露,虽然一开始 Instagram 表示此次攻击仅影响到获得认证的账号,但最新更新数据却指出未获得认证的用户账号也在影响范围之内。据了解,在这一网络攻击曝光数小时后,黑客建立了一个名为 Doxagram 的搜索数据库,即用户可花费 10 美元在其获得一次搜索受害者联系信息的机会。目前,黑客总共在上面发布了 1000 个账号,包括 50 个关注者最多的账号。Instagram 至今仍未公布受影响账号数量。据历史统计 Instagram 总共拥有 7 亿多个活跃账号,然而黑客声称他们手上已掌握逾 600 万个账号信息。另外,Instagram 还表示在这次攻击中用户的账号密码并未被盗。截止当前,虽然 Doxagram 已经下线,但并不清楚它是否还会卷土重来。不过,即便 Doxagram 已经关闭,但网络安全公司 RepKnight 发现包括演员、歌手与运动员在内的多数名人信息于暗网出售:
演员:艾玛·沃特森、艾米莉亚·克拉克、扎克·埃夫隆、莱昂纳多·迪卡普里奥。歌手:维多利亚·贝克汉姆、碧昂斯、Lady Gaga等。运动员:齐达内、内马尔、大卫·贝克汉姆、小罗纳尔多等。目前,虽然尚不清楚此次大规模网络攻击幕后黑手真正身份,但 Instagram 已与执法部门展开合作。①
成因:Instagram对外宣称其应用程序界面存在安全漏洞,导致黑客可利用恶意代码窃取到用户的账户信息。该漏洞现已被修复,黑客通过攻击该应用漏洞窃用他人个人信息并赚取不当收入。
防范措施:我认为此次案件犯罪嫌疑人与平台都有责任,Instagram方应对应用程序进行正常的维护,发现漏洞及时修复。应该重视程序的日常维护,提高技术手段保障系统的安全性。此外,安全专家提醒 Instagram 用户启用双因素身份验证并始终通过复杂密码保护账号信息
建议:国家政府方面要对大数据时代下公民的信息安全进行保护,对企事业单位收集公民个人信息的公司进行监管,对于个人信息违法者必须严格惩罚 企业对收集来的用户个人信息应当严格保密,并采取必要的技术保密措施保障信息安全,不断提高网络安全的防护水平,禁止私自篡改、泄露或非法向他人提供。
公民个人要提高对个人信息安全的保护意识,在生活中要谨防个人信息的泄漏,比如,网购的快递单和火车票等。接触互联网时不要随意点击不明的网站或链接以及问卷调查和测试等。
然而在保护个人信息的同时也维持大数据时代的发展,如何在二者之间取得平衡,此次云栖大会数据安全专场上讨论对大数据时代个人信息保护,数据安全的问题: 阿里提出数据安全能力成熟度模型(DSMM),此模型内部有以阿里为中心认证、评估咨询、产品解决三项相制衡由产业生态支撑,外部有经济环境,公民常识、技术发展、政策法规几项构成,经济环境有大数据服务大数据交易;公民常识有个人隐私保护;技术发展有云计算、大数据、移动互联网、物联网;政策法规有国家安全个人隐私保护数据跨境。此模型外部环境对个人信息保护很是符合,政策法规上可以建立个人信息保护法,与企业合作试验建立法律规范。据阿里巴巴集团标准化总监朱红儒介绍,DSMM 除了正在制定国家标准外,阿里也在 ITU-T 牵头制定《Security reference architecture for lifecycle management of e-commerce business data》的国际标准,同时在 ISO 牵头制定《Big data security capability maturity model》的国际标准研究项目,还在 CCSA 牵头制定行业标准《面向互联网的数据安全能力技术框架》,DSMM 今年年底有望正式成为国家标准,向全行业推行。②
①引自:赛迪网
摘要:大数据征信使个人信息安全处于空前的威胁与挑战,本文简述了大数据征信的概念与发展,探讨其在个人信息安全的保护过程中存在的主要问题,并为完善大数据征信中个人信息保护提出对策与建议。
关键词:大数据征信;保护;个人信息
一、大数据征信的概念与发展
大数据征信是指对海量在线交易记录、社交网络数据等个人的信息进行收集整理,并运用大数据分析和刻画出信用主体的违约率和信用状况,进而控制金融信用风险。解决了传统征信因信息分散导致的采集成本高,效率低下等问题,与传统征信天然互补。由于大数据采集的覆盖面广、信息维度丰富,评估个人信息的信用风险全面而广泛,成为互联网金融和众多相关行业的基石。
二、大数据征信中个人信息安全保护现状及存在的问题
由于互联网征信企业极度依赖于大数据技术的收集与分析,一切信息皆信用,使得个人信息的安全性受到了空前挑战和威胁。近年来违法倒卖、泄露个人信息事件屡见不鲜,极大地影响了社会正常的经济秩序。由于个人信息在我国立法中仍处于薄弱环节,相关法规的制定存在较大的不足与滞后,商业化的大数据征信可能会成为侵害个人信息的工具,需用法律手段加以规制。
(一)立法保护滞后于现实需要
我国目前尚未出台专门的个人信息保护法,尽管个人信息安全保护不断出现在各种法律法规、司法解释中,但相关法律法规的制定过于分散且层次效力不一,在实践中缺乏可操作性,无法满足当前对个人信息保护的高质量法规的需求。现行的《征信业管理条例》与大数据征信的发展不适配,对于大数据征信中个人信息的采集、整理、保存、加工和公布等环节缺乏明确的界定,条例规范范围过于狭窄,对于涉及网络个人信息保护问题未作出合理规范。
(二)征信信息泄露严重监管缺乏
大数据征信涉及大量用户敏感信息,随着越来越多的数据被采集利用,用户面临着面临的信息安全风险变得更加严峻。与普通个人信息相比,征信信息由于价值和敏感性,泄露的危害更为严重。当前信息泄露已经形成产业链,数据黑市犯罪成本低利润高。再加上互联网征信公司内部管理制度不完善,存在业务操作和人员道德双重风险,近年来许多互联网公司人员存在监守自盗的风险,例如京东泄露了12G的`用户数据造成其严重后果。的“526信息泄露案”,湖南银行行长非法出售个人信息257万余条,包括身份证号、征信记录、账户明细等众多敏感信息。而在国外全球第一大个人征信机构益博睿涉及2亿的身份信息泄露,涉案金额超过6500万美元。
(三)个人维权法律救济困难
随着未来信息开发和利用的日益成熟,个人信息尤其是信用信息具备相当的商业、社会和法律价值。大数据时代使个人信息的权利边界消失,给个人信用信息主体维护自己合法权益带来巨大的挑战。由于个人信息主体往往处于弱势地位,与征信信息管理机构存在着信息和技术不对称,让受侵害的个人信息举证维权之路难上加难。在个人信息受到非法收集泄露等侵害时,由于通过法律救济途径解决纠纷可能产生的成本和风险过高,只好选择放弃诉讼维权,使得本应该成为最终保障的司法救济渠道起不到应有的保护作用。
三、大数据征信中保护个人信息安全的对策与建议
(一)完善个人信息立法保护
针对大数据征信的特点,以征信业规制和网络个人信息保护的专门立法现有成果出发,通过立法出台统一的个人信息国家技术标准,给已有的普遍分散立法以操作的指引,制定最低标准网络个人信息保护法,明确规定个人隐私的信息、个人信息采集基本原则和使用目的,采集收集的负面清单制度,防止个人信息被滥用。通过构建完善的个人信息保护法律体系,为征信体系安全建设提供更有力的法律支撑。
(二)加强行政监督管理与行业自律
加强数据安全体系和信息监管体系建设,防范非法入侵造成信息泄露,对于信息泄露问题完善危机应急预案和补救措施。加强信息安全执法监管,严厉打击非法泄露、买卖信用数据的行为,加大对泄露个人信息企业的问责和处罚。对征信管理机构开展内部安全认证和行业自律机制建设,充分发挥征信行业协会其协调沟通征信机构与监管机构的作用,加强征信行业业务交流和制定技术标准,开展征信信息保护宣传提高民众意识。
(三)探索多元化个人信息保护救济方法
建立征信机构内部的纠纷处理机制,完善信息异议处理解决机制,缩短错误征信数据信息的更正时限,提高征信信息录入质量。完善个人对征信机构的投诉渠道,引入征信行业调解、仲裁和第三方纠纷非诉解决的法律机制。对于公民维护个人合法权益面临取证难、诉讼难等问题,完善互联网情景中个人信息侵权赔偿制度,并在个人信息保护中引入举证责任倒置和集体诉讼机制,优化个人信息司法保护程序,提供便捷高效的法律救济渠道。
[参考文献]
[1]刘红熠,杨妮妮.互联网征信背景下个人信息主体权利保护问题研究[J].征信,2016(06).
[2]赵红梅,王志鹏.大数据时代互联网征信发展中的问题及应对策略[J].金融经济,2016(18).
关键词:网络信息,检索策略,专题数据库,解放,海南
对于海南岛地理位置和在国防战略上的重要地位,王会均曾将其比喻为人的“右眼”、“右拳”,渡海解放海南岛战役是为争夺海南岛而展开的,1949年12月至1950年5月1日,中国人民解放军第43军和第40军在琼崖纵队以及当地群众的积极接应配合下,与退守海南岛的国民党军进行艰苦战役,最终打败了国民党军,解放了海南岛。这次战役的胜利创造了世界战争史上的奇迹,是解放军战士、琼崖纵队及当地群众克服千难万险的革命斗争精神的伟大胜利。今天回顾这段历史,有弘扬爱国主义精神、纪念革命烈士、鼓舞团结人民群众建设美好明天、记录历史、总结军事经验、完善军事理论等重大意义。
“渡海解放海南岛战役专题数据库”是海南师范大学图书馆几位工作人员根据读者需要创建的海南地方特色专题数据库,网址是http://210.37.2.188/libary/index.asp,收集的是与渡海解放海南岛战役有关的纪实性文献。迄今为止,与这段历史相关的文献资料经过了60年的积累,数量非常多,而且,每年五、六月份,海南各媒体都会有关于战役的新信息报道出来,海南当地有关社会实体组织、政府网站等都有大量相关信息发布。本专题数据库要做的就是收集、组织这些文献信息,对其进行二次开发,以丰富地方文献特色馆藏,便于读者快速、系统地获取这些信息。为了收集这些文献信息,本课题组成员查阅了部分纸质史料,实地寻访红色遗迹,采访党史专家及英烈家属,收集知情者的“口述历史”。在文献资料收集的过程中,作者发现与本专题密切相关的网络信息非常丰富,但分散、无序。如何从分散无序的网络信息中,找到符合本专题需要的文献资料,本文从以下几个方面进行探讨。
一、渡海解放海南岛专题数据库网络信息的特点
1. 数量庞大。
经过六十多年的积累,目前相关信息已经相当丰富,而且绝大部分已经数字化、网络化,仅仅Google图书搜索一项,就可以检索到287条密切相关书目。
2. 分布分散。
除了专题文献信息数据库之外,我们知道,在对网络信息进行检索的时候,可以使用的检索工具很多,而且利用不同检索工具检索出的数据重复性并不大,这些文献分布相当分散。
3. 排列无序。
与本专题相关的网络信息数量庞大,载体形式及文体类型多样,包括图书、视频、音频、图片、论文、新闻报道等。这些文献信息在网络上呈无序状态排列,查找起来无迹可寻,需要花费大量时间,很不方便。怎样全面、准确地将如此海量,但分散、无序的网络数据收集起来?
二、根据要收集文献的不同类别选择不同的检索工具
我们常用的检索工具有两大类,一类是搜索引擎,一类是数字图书馆或数据库。人们习惯于使用搜索引擎,虽然搜索引擎不断改进技术,但是它的发展还是落后于网络的发展,在识别和索引数字图书馆或数据库这些非文本信息方面还是无能为力。所以为了检索到更多的有效网络信息,除了搜索引擎,我们必须选择数字图书馆或数据库作为检索工具。
经过分析,本数据库文献收集的信息检索工具分为以下六大类: (1) 图书书目类。这类文献的检索工具主要用到了以下六个:海南省教育科研数字图书馆、国家图书馆、中科院联合目录、CALIS联合目录、Google图书搜索和OCLC的WorldCat (Online Computer Library Catalog,世界上最庞大的图书馆目录)。 (2) 研究论文及论著类。这类数据的检索主要用到的数据库有:读秀学术搜索引擎、超星电子图书、中国知网(CNKI)、重庆维普、开世览文(CASHL)和海南省教育科研数字图书馆六个。 (3) 视频信息类。主要用到了百度视频、优酷视频、土豆网视频、酷6网视频和56网视频。 (4) 图片信息类。使用“解放*海南”在百度图片进行检索,仅此一个数据库,就得到数量非常丰富的图片信息,其中有历史照片、纪念章、纪念碑、新闻图片和影视剧截图等。 (5) 海南各家新闻媒体等实体单位及其网站类信息。这类检索工具:包括海南广播电视台、海南日报社、海口晚报社、海南特区报社、南国都市报社、海南海南省档案馆、海南省史志办、海南省党史办、海南省博物馆、海南军事博物馆、海南省各市县史志办、海南各大报纸刊物以及电视新闻媒体等各实体单位及其网站。 (6) 外文文献类。本专题选择的外文文献数据库有CASHL(中国高校人文社会科学文献中心)数据库、海南省教科研数图外文搜索(即读秀外文数据库检索)和CADAL(大学数字图书馆国际合作计划)数据库。
三、根据网络信息的内容特点提炼恰当的检索词
检索词的选择很关键。怎样有效地提取检索词,各个专题有不同的做法,本专题认为,选择检索词首先要熟悉网络信息内容的特点,根据信息内容提炼恰当的检索词。其次,在计算机检索系统中,检索词一般有规范词、规范化的代码和自由词三种形式,“选择检索词的时候,如果所选数据库具有叙词表或主题词表应优先选用叙词或主题词作为检索依据,联机检索的检索用词一般来源于系统词表”。如果选择的检索工具没有词表可查,可以使用自由词作为检索词,注意从专业角度出发选择自由词,尽量不使用一词多义的词。本文抽取检索词的时候主要考虑到了以下几个方面: (1) “渡海”有“跨海”“横渡”等同义词,应当用逻辑或组配; (2) “海南”是一个地域的限制词,下属有十多个市县,因此相对来说海南是个上位词,下属市县如儋州、文昌等为下位词,应当用逻辑或组配; (3) 历史时期的“海南”还称为琼州,这属于同义词,应当用逻辑或组配; (4) “战役”有“作战”“战斗”“战争”等同义词,应当用逻辑或组配; (5) 本战役中,四次重要的登陆点为儋州白马井镇超头海滩、文昌赤水港、临高角、玉包港,在数据库中具有非常重要的意义,所以,这四个词也必须是检索词,和“海南”一词之间用逻辑或组配; (6) 有若干有名的历史事件和历史人物,在这次有名的战役中占有重要地位,有的成了这次战役的专有名词,这些词有“中国人民解放军第四野战军、40军、43军、邓华、赖传珠、洪学智、琼崖纵队、木帆船、伯陵防线、儋州白马井镇超头海滩、文昌赤水港、临高角、玉包港、薛岳、世界海战史”,在检索的时候应该特别关注; (7) “毛泽东”是指挥这次海战的最高指挥官,检索时应当给予特别关注。
四、根据检索结果随时调整检索式
在检索过程中,需要根据各个检索工具的资源情况,对检索工具中设定的相关字段和本数据库设计的检索词进行全程匹配,不断调整检索式,以达到满意的检索效果。“在联机检索中……通常要对检索提问式进行‘预检’,采用‘扩检’或‘缩检’等措施,优化检索提问式。”本专题采用的就是这种做法。例如,先使用“海南*渡海*战役”在读秀学术搜索中进行预检,得到的检索结果过于庞大,就将检索式调整为“海南*渡海*战役*登陆点*白马井”,加上“登陆点”和“白马井”两个检索词进行缩检,就得到了检全率和检准率都比较高的869条数据。这样,就扩大和提高了渡海解放海南岛战役纪实数据库信息收集的广度和深度。
五、检索结果分析与评价
本文针对本专题数据库的需要,仅就评价指标中比较重要的个别点进行论述,比如信息覆盖面和范围(即检全率)、信息来源、信息真实性、权威性(即检准率)和检索工具的可检索性、易用性。
1. 渡海解放海南岛战役书目的检索结果。
首先,由于本专题信息属于海南地方文献,所以海南本地的馆藏资源———海南省教育科研数字图书馆体现出了明显的优势;其次,由于Google图书搜索是在全文范围内检索,检全率明显提高了,但相对来说检准率有所下降,所以在编写检索式的时候,要加上特殊关键词“白马井”对检索结果加以限制,否则,检索到的数据就有5680条之多,要逐一对其进行筛选,挑选出密切相关数据,需要花费很大精力。
2. 研究渡海解放海南岛战役文献的检索。
首先,特别推荐读秀学术搜索引擎,由于是全文检索,检索结果检全率非常高,故此,笔者编写的检索式为“海南*渡海*战役*登陆点*白马井”,除了多加了关键词“登陆点”作为限制之外,又增加了关键词“白马井”来限制检索结果,这样,检准率也就有了一定保障,得到的869条数据均为密切相关的文献,证明该检索工具可以做到高检全率与高检准率兼备,非常不错;其次,作为电子图书检索工具,超星电子图书也是非常不错的,在超星电子图书进行检索时,编写了五个检索式分五次进行检索,在检全率很高的情况下,笔者分别添加了“登陆点”、“登陆*伯陵防线”、“登陆*琼崖纵队”、“毛泽东*韩先楚”、“邓华*叶剑英”这些关键词进行限制,也得到了较多的检索结果,在没有排重的前提下,总数据量为465条,当然,在同一检索工具中利用不同检索式检索,得到的结果预计有一部分是重复的,需要排重。
3. 视频信息检索。
首先,百度视频的检全率与检准率最高,经过检索,得到300多条密切相关信息,其中包括影视剧、新闻访谈录、新闻纪录片等。其次是56网视频,在得到的64条数据中,44条都是密切相关数据,检全率与检准率都比较高。
参考文献
[1]王会均.海南文献资料索引[M].文史哲出版社, 1987.
[2]夏淑萍, 邓珞华.计算机文献检索[M].武汉大学出版社, 2005.
但是当大家都在讨论大数据为人们生活带来便利的同时,也不得不承认,大数据给我们带来的安全威胁也许要比其产生的价值来得快得多。
例如,有天你接到了市内某家培训公司的客服人员电话,对方非常关心你正在上初三的女儿的学习情况,声称能为她量身定做一套“一对一”的高素质教学模式;你的汽车保险6月中旬才到期,可是从5月初开始,就有不同的保险公司工作人员给你打电话,有的要给你优惠,有的要给你礼品,还有的还要请你吃饭,即使被拒绝了也“锲而不舍”;而你刚刚买了新房子,很快就收到了很多房产开放商或者代理商的电话和短信,有时候一天有好几个,不堪其扰……你是否意识到自己的个人信息已经被泄露了。
这还不是最坏的情况。随着公民个人信息的泄露,电信诈骗和非法讨债以及敲诈勒索、绑架犯罪等也时有发生,严重威胁着广大群众的生命和财产安全,人们重视自身信息安全的呼声愈来愈高。
然而,在大数据时代要保障个人的信息安全,并不是一件简单的事。
要知道,我们每天都在通过不同的形式制造着大量的数据和信息.这其中包括我们的姓名、年龄、工作经历、家庭住址、电话号码甚至是家庭成员情况、信用卡号码、医疗记录等众多的私密信息,这些内容全部都被处于某地的一台服务器“忠实”地采集和存储着,至于其保存得是否妥当,则不得而知。因此,对于承担着数据采集工作的机构、企业来说,必须严格自律,并做到从技术上加强对数据的采集、存储、导出、分析、交接、保存等各环节的安全保障,从源头上保障数据的安全。
其次,政府部门要出重拳打击各类泄露个人信息的犯罪行为。近年来,国家越来越关注个人的信息安全问题,陆续出台了一系列与之相关的法律法规,这是一个可喜的信号。然而,纵观国内对于信息泄露事件的处理, “无法可依,违法难究”仍然是无可否认的事实。虽然在全世界范围内,公民个人信息泄露的事件都有存在,但是政府的态度非常重要。相关部门若能及时拿出魄力,像治理酒驾一样治理个人信息泄露的违法行为,必将产生强大的震慑力。而在这之前,当务之急是能够出台相关的法规对泄密行为的性质、责任认定、危害赔偿等予以详细的界定,在此基础上加大对这类犯罪行为的惩处力度,加大对公民隐私的保护。
最后,作为这些个人信息的制造者,我们个人也要注意对自身隐私的保护。一些信息泄密事件的出现,有时也与用户本身对个人信息保护意识不足有一定关系。所以,我们要加强自我防范意识,在应用互联网的过程中注意保护个人的信息安全,避免隐私泄露。
2013年是我国的大数据元年,人们已经感受到了大数据发展为个人生活和产业发展所带来的变革。但“水能载舟,亦能覆舟”,目前对于大数据的运用尚处于起步阶段,而个人隐私安全亦是一场未完的战役。唯有真正处理好这个问题,大数据才能为我们创造出更大的价值,莫要让其成为大数据发展的“不可承受之重”。
【大数据-信息检索论文】推荐阅读:
大数据环境论文06-09
大数据与生活论文09-14
系统信息数据集中监测06-06
基础地理信息数据06-10
信息检索与利用论文07-19
大数据时代药物化学教育创论文09-23
城市地理信息多源数据处理研究06-26
大数据失败案例09-11
大数据品牌建设10-03
行业大数据建设方案05-28