采集技术论文

2024-12-05 版权声明 我要投稿

采集技术论文(精选8篇)

采集技术论文 篇1

舆情调查软件就从舆情监测系统的架构说起是:

1、舆情采集系统:

一、只要是互联网上发生的与“我”相关的舆情信息,都可以第一时间监测到,并且以最直观的方式显示出来,“一网打尽,一目了然”。监测网站类型包括:新闻、论坛、博客、贴吧、微博、电子报、搜索引擎等。

二、对于重点舆情以及负面信息通过手机短信等方式及时预警,不需要有专人值守就可以随时掌握舆情。

三、自动分析舆情信息的发展变化趋势、舆情信息的首发网站、作者、转载情况、热度变化、评估干预处理之后的效果等。

四、自动生成各种统计分析报表和舆情报告,助力舆情工作。配合相应的工作机制,可以有效提升舆情监管的质量和效率,提升舆情应对水平。

五、除了提供系统级7*24小时的运维服务,还配备专门的舆情分析师协助监测,人工预警。系统建设目标是整合互联网信息渠道,形成系统、有效的舆情监测机制。实现系统运行,监控互联网信息、新浪、腾讯等主要微博微博,对其进行实时数据采集、全网监控、分析、检索,对敏感信息进行预警,防止负面信息传播,对重大事件做出最及时的反应和相应处理建议。并对近一段时期的热点问题、敏感词句进行搜索,从而掌握网络舆情,辅助领导决策服务。

主要的门户网站,主要的报纸、主要的大型网络论坛、社区、贴吧、博客、微博。例如新浪新闻、各大报纸的电子报、天涯论坛、新浪微博、百度贴吧等。各类与我相关的以及区域内有影响力的网站。百度、谷歌、360搜索等搜索引擎。论论坛搜索,博客搜索、微博搜索等专业搜索引擎。重点网站提供的站内搜索等。

2、舆情分析系统:

分析引擎是本系统的关键组成部分。其主要作用是对采集系统采集的数据,自动进行智能分析。分析引擎的主要功能包括:自定分析舆情级别、自动生成热点、负面舆情研判、自动分类、自动生成专题、转载计算、自动抽取舆情要素和关键词、自动摘要、自动预警、自动生成统计图表等功能。例如:多瑞科舆情数据分析站系统引擎内置了政府舆情模型、企业舆情模型和垂直监控模型,这些分析模型,是在多年舆情行业中按照客户的实际需求,不断重构和完善起来的,具有良好的实际应用效果。在实际项目中,不用通过二次开发就可以全面满足政府、企业单独应用。或者通过SAAS平台完成从上到下的垂直监测需求。对于特殊的应用需要,分析引擎还支持扩展插件,用于快速完成二次开发,支持各种需求定制。

3、舆情服务平台:

主要是用户进行日常舆情管理的平台,能够及时接受舆情信息,进行一些常规的舆情管理工作。4.舆情系统原理: 全网舆情监测的手段:数据源的获取是做舆情监测的第一步,有了米才能做粥嘛。从获取的方法上有简单的取巧办法,也有复杂到需要应对各类网站难题的情况。方法大致如下: 使用搜索入口作为捷径

搜索入口有两类:一类是搜索引擎的入口,一类是网站的站内搜索。做舆情监测往往是有主题、有定向的去做,所以很容易就可以找到监测对象相关的关键字,然后利用这些关键字去各类搜索入口爬取数据。

当然也会遇到反扒的问题,例如你长时间、高频次的爬取搜索引擎的结果页面,网站的反扒策略就会被触发,让你输入验证码来核实是否是人类行为。使用搜索入口作为捷径也会带来一些好处,除了爬取门槛低,不需要自己收录各类网站信息外,另一个特别明显的好处是可验证性非常好,程序搜索跟人搜索的结果会是一致的,所以人很难验证出你获取的数据有偏颇。爬虫根据网站入口遍历爬取网站内容

第一步要规划好待爬取的网站有哪些? 根据不同的业务场景梳理不同的网站列表,例如主题中谈到的只要监测热门的话题,这部分最容易的就是找门户类、热门类网站,爬取他们的首页推荐,做文章的聚合,这样就知道哪类是最热门的了。思路很简单,大家都关注的就是热门。至于内容网站怎么判断热门,这个是可以有反馈机制的:一类是编辑推荐;一类是用户行为点击收集,然后反馈排序到首页。

第二步是使用爬虫获取数据。爬虫怎么写是个非常大的话题,在这里不展开说明,需要提一嘴的是,爬虫是个门槛很低但是上升曲线极高的技术。难度在于:网站五花八门;反扒策略各有不同;数据获取后怎么提取到想要的内容。数据检索与聚合

数据获取下来后哪些是你关心的、哪些是垃圾噪声,需要用一些NLP处理算法来解决这些问题。这方面门槛高、难度大。首先大规模的数据如何被有效的检索使用就是个难题。比如一天收录一百万个页面(真实环境往往比这个数量级高很多),上百G的数据如何存储、如何检索都是难题。值得高兴的是业内已经有一些成熟的方案,比如使用solr或者es来做存储检索,但随着数据量的增多、增大,这些也会面临着各种问题。

通常对热门的判断逻辑是被各家网站转载、报道的多,所以使用NLP的手段来做相似性计算是必须的,业内常用的方法有Simhash或者计算相似性余弦夹角。有些场景不单单是文章相似,还需要把类似谈及的文章都做聚合,这时就需要用到一些聚类算法,例如LDA算法。从实践经验来看,聚类算法的效果良莠不齐,需要根据文本特征的情况来测试。

目前舆情监测的现状存在很多待改进的地方。首先,手工监测存在天然局限性。通过安排固定人手24小时值班,不间断地浏览目标站点并搜索目标关键词,是在缺少自动化系统时最直接也是最初级的舆情监测方式。由于受到每个人主观思想的限制,手工监测总会有观察盲区,总会有觉得不重要但事后被证明很严重的地方,且手工无法察觉到一些站点或者一些偏僻的网页内容发生改变;同时,人不是机器,长期反复监测容易导致疲劳,经常会使得该判断出来的舆情,一不留神就漏掉了。这些都会在实时性和准确性上存在很大波动。

其次是过度依赖搜索引擎。人们往往认为在网络舆情的大海里也只有搜索引擎才可能具备捞针的本领。但是,搜索引擎仍然具有不少局限性。除了搜索结果受关键词影响很大外,搜索引擎返回的结果往往来自不受任何访问限制的网站,而诸如论坛等需要登录的网站则完全被排除在外。但是网民发表意见最多的地方,恰恰是这些提供互动功能的网站。更进一步的,搜索引擎的网络爬虫具有一定的时延性,因此不能实时搜索到最新的网页更新。因此,搜索引擎不能为我们提供问题的全貌,因为它只针对关键词而不针对问题,所以谈不上全面性;搜索引擎也不能在第一时间得到我们所想要的结果,因为不仅是它的内容更新不够快,而且它也不能提供针对时效性的服务,所以谈不上及时性;搜索引擎只能在海量网页中返回另一个海量的结果,而且是以杂乱无章的形式,对于我们关心什么,它一无所知,所以它给出的结果是所有人都关心的,而非我关心的,因此也谈不上准确性。可见,我们不能完全依赖搜索引擎来监测网络舆情,需要提出全新的技术手段来获知网络舆情,并跟踪和分析舆情。

采集技术论文 篇2

做雏自痢、鸡伤寒的平板凝集试验可用全血进行, 这样, 每只鸡采一滴血即已足够。方法很简单, 即用左手把鸡的两翼向上握住, 拔去翅膀内侧数根羽毛, 即可看见静脉, 右手执尖细手术刀, 与血管纵行, 以刀尖迅速向血管一刺, 即可见有一滴血冒出。这时, 可用末端做成圆圈形的细铜丝采取, 与平板上的抗原混合进行检测。此法简易实用, 但是, 采血时要小心, 刀要尖细锋利, 同时刺插血管时刀与血管须纵行, 如果横向刺插会切断血管, 操作熟练了不但采血速度快, 而且鸡遭受的痛苦也小 (注:国内常用经消毒的注射针头代替本文所说手术刀进行此项采血工作) 。上述方法不适于其他的血清学反应而进行的采血。现在常用的微量测验法 (microtest) 或酶联免疫吸附试验 (ELISA test) 等, 因为每个微量反应板里有96个滴孔, 而每个滴孔直径只有6 mm, 即代表一个试管, 所以应用的血清不多, 由翼静脉以注射器抽血已足够。此项操作最好是使用3 m L的注射器, 20号口径和2.5 cm长的锋利消毒针头。现在通常使用一次性 (用后即弃) 的塑料制品。如果采取血样不太多, 以注射器抽出所需的血液容量后, 再多吸一些空气, 然后平放着, 在温暖的天气里 (不要晒太阳) 不久就有血清析出。这样, 这吸筒也当试管应用了。不过, 在采血数目很多的时候, 还是要用试管。现在通常使用小型 (3 cm长) 有盖的塑料试管, 管的下部渐尖, 这种设计使血清更容易析出。用注射器抽取血液后, 除去针头, 注入试管。这些塑料试管也是只用一次即抛弃, 这不但免掉清洁消毒的劳动力, 而且免除传播疫病的可能性。

当冬季气温在8℃以下时, 血清不易析出, 因此, 在这种场合, 血液采得后立即就要放在8℃以上的温箱里。温度在26~37℃之间血清最易析出, 但在这样的温度下不能放置太久, 以免腐败。

试管架也是操作中的必要工具, 试管和试管架都要用记号笔 (不易被擦掉) 明确地写明鸡群、鸡舍和鸡场号码。否则, 化验出来的结果就没用了。采应的针头要确保清洁无菌, 以免危害鸡群。因此, 使用一次性即用后弃去的针头是有必要的, 不应看成是浪费。

在4周龄以上的鸡, 由翼静脉抽取1~2 m L的血液是完全没有问题的。鸡的固定也由左手提握双翼, 除去少许翼内侧羽毛, 为使静脉显露, 可用酒精棉在静脉处表面磨擦消毒并使静脉怒张, 有时要用左拇指压住静脉的回路 (靠近鸡体, 即近心端) , 或用右手指弹击, 使静脉明显怒张后, 右手执注射器, 无菌针头的针锋斜面向上, 与静脉纵行, 针尖由近心端向远端斜刺入血管, 刺入血管后即见有血液涌入注射器, 这时不可继续同一方向插入, 面要将注射器后端放低使针头平行进入血管, 否则针头会穿过对面血管壁而不能采到血液。这时要注意的是抽血要慢而稳定。同时尽力使针头保持原有位置。

以现代的血清操作技术, 抽取2~3 m L血就十分够用了。抽血完毕要拔出针头时, 用左拇指按住针口, 抽出针头, 拇指继续按压片刻, 使血液凝固在针口, 这不但可停止出血而且可以防止感染。注射器除去针头后, 将血注入塑料试管时, 速度要慢, 不要使血液起泡沫和损破红细胞。如果试管是有盖的, 则注入血液后, 盖上盖且平放在桌上, 在普通室温里30~45 s左右血液就会凝固, 在血液凝固前不要将试管竖立。在一般的情况下, 这样都会得到相当多的血清, 只有在不适当的气温和某些其他情况下, 才需要使用离心机。假如需要大量的血液, 则一定要由离心机抽取了。心脏采血有两种方式。多数人喜欢由前面从鸡的“V”字骨刺入到心脏, 我则惯予在侧面龙骨与龙骨突之间的缝隙处向前方斜上在肝脏前插入。不过, 抽取大量血液_一般不在鸡场而常在试验室进行, 这里不多谈了。

在极寒冷的天气里, 血样容易冰冻。冰冻后血清就不能析出。在一般的气温下, 要经12~18 h血清才可以完全析出。如果血液是在试管竖立的方式下凝固的话, 血清大部不能析出。如果红细胞受到破损, 血红素析出也使血清深红而不能应用。所以采血是需要耐性的。性急了针头插不中血管, 即使插入了也因抽吸太猛而抽不出血;将血注入试管太快会破损红细胞, 使血红素析出;如果血清析出不完全, 白细胞和其他杂质未沉到底部而连同血清倒出时, 这样的血清也不理想, 往往影响检验结果。

有时血样要寄到远处的化验室做血清学试验, 而所需血清甚少时, 可用刺翼法取血, 然后用1.3×20 cm的吸水纸吸取溢出的血, 再在室温下空气流通处阴干30 min后, 即可以胶袋封好邮寄, 化验室收到后即将血清析出作血凝抑制 (HI) 或病毒中和 (VN) 等血清学试验。

基于遥感的数据采集技术 篇3

关键词:遥感影像;空间数据;环境监测

中图分类号:TP311.52 文献标识码:A 文章编号:1674-7712 (2013) 12-0000-01

一、遥感的基本概念与原理

(一)遥感概述。遥感技术是20世纪60年代在航空摄影测量的基础上迅速发展起来的一门综合性空间数据采集技术。所谓的遥感,就是从远处在不直接接触地表目标物和现象的情况下,获取其信息的科学和技术。遥感具有以下特点:探测范围广,能够提供综合宏观的视角;获取手段多样,获取的信息量大;获取信息快,更新周期短,可进行动态监测;全天候作业;遥感技术可以根据不同的目的和任务,选用不同的波段和不同的遥感仪器,取得所需的信息等等。

(二)遥感的物理基础。不同地物具有不同的电磁波辐射特性,表现在遥感图像上就具有不同的图像特征。电磁波是由振源发出的由交变电场和磁场相互激发在空气中传播的电磁震荡。而我们将不同电磁波段透过大气后衰减的程度不一样原因进行了介绍,可知有些波段的电磁辐射能够透过大气层时衰减较小,即透过率较高,这个波谱范围,叫做“大气窗口”。

遥感除了利用上述的大气窗口作为工作波段外,有些气象卫星是选择非透明区作为大气波段(如水汽,二氧化碳,臭氧吸收区),以测量它的含量,分布,温度等,不同的大气投射窗口对应于不同的光谱范围,适于使用不同的传感器,因此,研究地面的光谱特性,选用合适的大气透射窗口和传感器对于提高遥感探测的质量具有十分重要的意义。

二、遥感平台与传感器

(一)遥感平台。遥感数据获取是在由遥感平台和传感器构成的数据获取技术系统的支持下实现的。遥感平台可以分为地面平台、航空平台和航天平台三种。由于各种平台和传感器都有自己的适用范围和局限性,因此往往随着具体任务的性质和要求的不同而采用不同的组合方式,从而实现在不同高度上应用遥感技术。

遥感平台主要依据遥感图像的空间分辨率,一般的说,近地遥感具有较高的空间分辨率,但观察范围较小,而航空遥感地面分辨率虽然中等,但其观测范围广,航天遥感地面分辨率低,但覆盖范围广。

(二)传感器传感器一般由采集单元、探测与信号转化单元、记录与通信单元组成。各种卫星通过不同的遥感技术实现不同的用途。各种卫星通过不同的遥感技术,实现了不同的用途。数字工程中常用的遥感数据有Landsat和TMM遥感、SPOT和Radarsat以及我国的资源卫星数据和高分辨率卫星遥感数据。传感器的类型大类上分为主动式和被动式,其中又各分为非图像式和扫描图像式。

三、遥感图像及其特征

遥感的核心问题就是不同地物的反射辐射或发生辐射在各种遥感图像上的表现特征的判别,当然,不同的目的的需要精心的设计对于遥感成像的方式或选择波段,这样我们才能使不同的地物在图像特征区别。遥感图像反映的信息主要有几何信息,波谱信息,空间信息和时间信息等。

(一)几何特征。遥感图像不仅反映了地物的波谱信息,而且还反映了地物的空间信息形成特征,一般包括空间频率信息,边缘线性构造清息,结构或纹理信息以及几何信息等。影响遥感空间信息的主要因素有传感器的空间分辨率、图像投影性质、比例尺和几何熵变等。

(二)光谱信息。遥感图像中每个像元的亮度值代表的是该像元中地物的平均辐射值,它是随地物的成分、纹理、状态、表面特征及所使用电磁波段的不同而变化的。遥感图像的信息虽主要取决于两个因素:波譜分辨率和空间分辨率。前者主要影响波谱信息量,后者主要影响空间信息量。多波段图像的信息量除上述两个因素外还与波段的选择和数目有关。

(三)时间特征。同一地物对象由于其在不同的阶段含有不同的成分等原因造成对象在不同阶段具有不同的光谱特性,表现在遥感图像上就是该地物在不同时间段的图像上具有不同的图像特征。时相主要影响图像的处理效果,利用对泳衣区域各个阶段分别进行遥感,加以对比而研究,则可以获取该区域的连续变化特征。

四、遥感处理的基本流程与技术

利用遥感的手段进行数字工程空间信息更新时,应用需求以及卫星影像数据处理流程会有所不同,但是主要的过程和技术方法基本一致,在利用遥感影像进行空间数据更新的关键技术和流程主要可归纳为一下几个方面:遥感波段(卫星遥感数据)选择;卫星影像读入;卫星遥感影像处理技术;信息提取技术;矢量编辑与地图更新技术。

五、遥感应用

随着卫星数据图像空间分辨率、光谱分辨率及时间分辨率的不断提高,以及遥感数据购买费用的逐步下降,卫星数据图像的应用领域越来越广,从图像中提取信息的要求也越来越多,遥感已经成为获取地面信息的主要手段。

利用遥感技术可以制作各种遥感相关产品——数字正射影像(DOM)、数字线划图(DLG)、数字高程(地形)模型(DEM/DTM)、数字栅格模型(DRG)等4D产品;提供行业或部门专题地理数据——专题影像地图;利用遥感数据进行基础地理数据的产生或更新等。

(一)基础数据更新。比如用SPOT/ERS卫星影像更新地图数据为例,可以采用影响的几何纠正、色彩转换技术、统计和算法以及影像融合技术。遥感数据又有多波段、多时相的信息源,且能快速真实地提供丰富的地表空间信息,遥感已经成为地图更新和制作的有效而又重要的手段。我国目前的若干地形图大都在20世纪70年代测绘生产的,目前也都面临这地图更新的问题。

(二)土地利用调查与动态监测。土地利用基础数据对于数字工程进行土地规划与开发、土地管理、开发利用潜力分析等很重要。目前,中小比例尺的土地利用遥感动态监测与变更,主要应用TM、ETM、SPOT等遥感影像。利用遥感技术进行土地利用现状调查,调查精度比常规调查方法高,且时间短速度快。农作物与植被方面,用于农业气象、作物监测等领域的观测参数需要有更高的光谱分辨率,一般是短波红外波段。根据农业耕作和土地利用特点,选定影响最佳的获取时间应在5月—6月或9月—10月。研究的主要技术过程主要有下面几个:数据预处理、影像合成、不同数据源图像融合、图像分类和后处理、外业调绘、内业分析以及成果输出和更新。

(三)灾害调查与监测。各种自然灾害往往需要制作大比例尺图,以判明水灾发生时的洪涝区域、地震发生后的建筑物损坏情况、火灾发生后对地区造成的破坏等。地质灾害的调查、火灾监控和油污与赤潮监测。为了能将不同的信息区别开来,一般都要进行色彩合成,即在3个通道上安装3个波段图像,然后分别负于红绿蓝并叠合在一起,形成彩色图像,合成后的彩色图像含有丰富的颜色信息,便于解释,理解和处理。

参考文献:

[1]边馥苓.地理信息系统原理和方法[M].北京:测绘出版社,1996.

扫描仪图像采集与处理技术研究 篇4

扫描仪图像采集与处理技术研究

课题主要内容:① 查阅国内外相关文献做,了解扫描仪图像采集与处理技术研究发展,以及在相关行业中的重要性;② 查阅资料,了解国内外有关书课题关系的现状,及本课题研究的目的、意义和重要性;确定本课题的主要研究内容及其研究方法,设计实验方案、实验步骤并确定数据处理的方法;③ 进行扫描仪为主相关的图像采集与处理技术研究的实验,处理测试并分析实验数据,改善实验方案,做补充实验,分析得出合理的实验结论。④ 论文结果及其分析。总结论文中的结果,分析整个过程所遇到的问题和收获,并且建议相关技术在生产中的重要性以及意义。⑤ 对优化后的技术效果进行客观测试和主观评价。① 对工具书及文献有一定的检索能力;② 能正确且熟练使用办公软件撰写论文并按要求排版;③ 实验方案合理,实验结果或数据可靠,能对论文中的论点提供依据;③ 论文:字数不少于15000字,格式规范、结构合理、行文流畅、逻辑性强;④ 能运用所学印刷基础知识为本课题研究服务,所做研究对印刷等实际生产具有指导作用。题目:扫描仪图像采集与处理技术研究1. 结合课题任务情况,查阅文献资料,撰写1500~字左右的文献综述1) 研究背景:扫描仪通过数字化输入将照片,图纸等实物数字化,变成计算机可以显示、编辑、存贮的格式,广泛应用于广告设计、现代办公领域、轻印刷、报社、出版社、包装行业乃至蒙庭、学校、个人工作室进行文字录用、文档制作、图文数据库管理、传真、复印、电子函件等领域。扫描仪可以分为两大类,普通扫描仪和专业扫描仪分别适用不同的用途。家庭办公比较适合使用普通扫描仪,专业扫描仪可以适合工程制图、艺术品复制和军事等领域要求,促进了国家信息化的建设,扫描仪出现时间比较早,现在主流平台式扫描仪,价格合理,使用方便,而扫描仪参数调整,原稿设计,后期处理也一直是专业办公系统所需,也是企业必备,在现代社会我们必须注重了解扫描仪,才能在扫描行业中得到优良产品。2) 研究的现状:扫描仪广泛应用于印刷等多领域,是重要的光机电一体化设备。在我国高速发展的今天,很多行业要求对大幅面的资料进行存档,因此对扫描仪的技术需求更是日益增加,同时促进了对扫描仪的研发与生产。而国内电子科技大学的祖力[10]发表了跟扫描仪相关的论文,主要提到扫描仪在图像采集中:CCD的图像采集软件系统的设计与实现,主要是论述基于多 CCD B0 大幅面文档扫描仪软件系统及硬件的体系结构,在大幅面扫描仪软件系统的结构清晰化提出了详细解释,解决了工程扫描仪获取到的大多图像所占内存空间比较大,在图像处理过程中需要进行大量的.运算和内存的分配释放等操作时存在的问题。同时华南理工大学的关振明[11]在扫描仪研究论文中指出针对基于CIS的图像采集处理设备的系统软件进行研究,希望提出一套通用的设计方法。论文设计了相应的系统构架,进行系统任务分配,以及对 SPORT 口主从通信、网口上位机通信等主要模块进行了设计分析。该系统具有高速实时、系统稳定、成本低、开发周期短等优点。该研究成果具有广阔的实际应用前景。扫描仪的主要工作是完成把图像的光信号转换模拟信号,之后再转换成计算机能够识别的数字信号。而扫描到的图像经过采集与原稿的对比,主要评价方式可以通过:分辨率,色彩灰度,CMYK等数据进行分析。在扫描过程中也有图像畸变问题,在这方面的研究周文[1]针对扫描仪误差校正的应用进行了研究提出扫描仪对扫描仪产生误差的原因进行了分析,在研究其变化规律的基础上,提出用分段参数修正的方法对图像进行标定,该方法在对产生畸变误差的原因和特点进行分析的基础上,将从扫描仪获取的图像进行灰度变化和细化处理,通过MFC编程获取标定板上圆心的实际坐标并存储于结构体中,然后将其与标定板的理论圆心坐标进行对比分析,得到扫描仪误差的规律,最后根据误差分布规律,采用分段系数补偿的方法,对扫描图像进行标定,实验结果表明经过误差标定后能够较好地消除图像的畸变误差。扫描在虽然方便实用,但是在扫描色差问题也一直是生产关中受到关注的。为了研究和解决扫描色差问题,按照ICC制定的开放式色彩管理标准,采用一元线性回归算法建立扫描仪色彩修正文件,实现了基于印刷反射的扫描仪色彩管理。将原告各实地色块的实测L*a*b*值与经过扫描仪扫描后得到的L*a*b*值进行对比,在此基础上采用一元线性回归的方法进行拟合,并通过分析不同纸张对扫描仪颜色偏差的影响,建立扫描仪色彩修正模型;完成不同扫描仪色彩修正,这对色彩管理应用以及扫描仪应用水平都有促进意义[8]。根据近四年的中国扫描仪研究年度报告表明扫描仪由于受到新一代的数码相机新科技冲击,原因同样是设备图文采集后与原稿质量评价对比差异的优缺,这就形成了扫描仪与数码相机相互对比的一种竞争状态,数码相机虽然技术先进,但是并未能取代扫描仪,所以现在研究扫描仪在图像采集与其采集后期处理的技术研究,并且跟数码相机系列的新科技对比,也是近年相关学术界研究的重要课题,也是扫描仪发展的规律。3)研究的意义:近几年扫描技术的发展飞速,促进平台式扫描仪的研究,在近时期,对扫描仪的原稿调整与处理工艺的应用研究并不多,究其原因有两点:经济发展飞速,扫描新技术制约了扫描仪技术性设计的发展,扫描仪现多数为简化轻型,大多数研究都是关于扫描仪技术上的改进和校正工艺技术,少有研究专研扫描仪原稿对比以及后期处理最佳效果,同时目前基本更多考虑的是满足一般大众化扫描功能的需求,没有条件在技术调整和工艺上有更高的要求;第二点,虽然在复制图像过程中有很多不同种方法,例数码相机扫描等,而扫描仪相机虽然现在不是主流研究方向,但是我们希望通过自己的研究以及对比,在扫描仪图像采集中与处理中与另外的采集方式,设计原稿并且通过实验来分析,到底如何调整才能使得复制品接近原稿,这一研究在如今新科技扫描方式中既有重要的实用意义,既然平板扫描仪依然占有大部分市场,说明其实用性还是体现其存在的可靠性。本文结合新技术背景下,传统扫描仪如何在当今科技冲击下存在意义,针对图像的特性进行实验分析,得出结论。进行主观评价以及客观评价。

参考文献:周文.扫描仪误差校正的应用研究[J].现代计算机(专业版),,5(23):25-60.杨宇翔.图像超分辨率重建算法研究[J].中国科学技术大学,,10:1-30.段俊欢,基于CIS的图像采集处理设备的硬件设计与实现[D].华南理工大学,2013:1-75.陈春霞,修连存,高扬.岩心扫描仪相机控制软件系统的研制与开发[J].现代科学仪器,2014-4:50-54.金志敏.印刷色彩管理研究[D].齐鲁工业大学,2013:1-78.陈哲.基于原稿颜色的基色选择及分色方法研究[D].北京印刷学院,2013:1-69.吕茹茹.数码复印机原稿信息采集与处理系统研究[D].南京林业大学,:1-18.胡媛,司占军.基于印刷原稿的扫描仪色彩管理的研究[J].中国印刷与包装研究,2011,1(3):1-5.赵松.三维激光扫描仪与数码相机联合标定方法研究[D].解放军信息工程大学,:1-80. 祖力.CCD的图像采集软件系统的设计与实现[D].电子科技大学,2012:1-112.关振明.基于CIS的图像采集处理设备的系统软件研究[D].2013,5:1-75.2. 选题依据、主要研究内容、研究思路及方案1) 选题依据    通过文献与图书馆查阅相关资料,和所学知识印刷工艺等更与扫描仪技术息息相关,了解到扫描仪现研究少有与新数码相机技术工艺上对比,并且研究和提出图像采集与处理的相关方案,更重要的是采集过后,处理图像使得其更接近原稿更需要通过实验验证,数据分析方可运用于生产中,与数码相机对比的优缺点。随着生活水平提高,不同生产对不同扫描技术都有各个需求,如办公室扫描、企业生产扫描、个人资料图文扫描等,这些技术都需要不同的扫描方式,人们对图文采集这一块要求越来越高,多数选择数码相机,但这并未影响扫描仪的存在,根进几年市场报告调查,扫描仪还是占有多数份额,平台式扫描仪还多数用于办公室、企业、政府、学校等场所。本文就印刷技术工艺知识,通过文献研究资料,以平板式扫描仪为主,和数码相机扫描技术进行实验探究扫描性能。后期处理为辅,使扫描仪能在企业生产或生活过程中有一定的帮助,对扫描仪发展能起到一定的建议,能满足人们对不同技术的追求。2) 主要研究内容① 扫描仪主要成像原理和新数码相机的技术区别。② 扫描原稿材料的设计。③ 扫描仪采集研究数据分析。④ 针对扫描仪图像采集分析并且进行优化处理。⑤ 对优化后的技术效果进行客观测试和综合评价。3) 研究思路及方案①查阅文献资料了解扫描仪在生产和生活中应用,它的发展历史、成像原理,以及它的发展历史。②通过市场调研了解扫描仪近几年市场情况、价格等讨论存在意义。③研究扫描仪图像采集中跟现代新数码相机等新技术的对比,找出其技术上的差异并提出原稿设计方案以及后期处理技术概要,并研究出其校正方法。④记录整理实践、理论资料、总结实验对结果进行分析,完成论文。

采集技术论文 篇5

我院“高等职业院校人才培养状态数据采集平台”填报工作在学院领导的高度重视和带领下,在评建办公室的整体组织和协调下,各部门齐心协力,完成了数据采集平台的填报工作,并作出认真的分析,现报告如下。

一、根据数据采集平台主要数据对我院办学基本情况的综述

学院现设22个专业(含三二分段、五年一贯制),学生总数5239人,教师总数357人,生师比14.67:1,具有研究生学历教师49人,占专任教师的比例为26.92%;纸质图书总数282759册,电子图书总数102677册,生均纸质图书和电子图书占有量为73.57册;教学行政用房面积90972.23平方米,生均教学行政用房17.36平方米;教学设备仪器设备总值2648.850万元,生均教学仪器设备值为5056.02元。

通过数据显示,我院的办学条件符合基本办学条件。

二、结合评估指标体系,对我院人才培养状态数据采集平台进行简要分析:

(一)发挥领导作用,重视教学工作

学院领导班子重视提高人才培养工作质量,多次组织全校教师学习教高[2006]16号文件,就人才培养模式的改革开展工学结合、校企合作的专项研讨,把学院的发展重点转移到内涵建设、提高人才培养质量上来。学院领导坚持“以教学为中心”的指导思想,制定了向教学一线倾斜的相关制度,坚持审定教学工作中的重大事项。在加强硬件建设的艰难时期,学院领导仍然经常深入教学一线听课,及时解决教学中存在的问题。08-09学年,学院领导深入课堂听课累计96人次,走访学生寝室累计46次,走访校内外实习点累计36次。学院还补充完善了一系列加强教育教学改革、提高人才培养质量的文件,保证了16号文件精神的落实,使教职工对学院的办学目标、学校定位和以就业为导向、大力推行工学结合、突出对学生的实践能力培养的办学方针都有了明确的认识,使人才培养工作的质量得到有力的支持。

(二)改善师资结构,提高队伍素质

学院注重建设一支教育理念新、师德素质优、教学水平高、实践能力强的专兼职结合的师资队伍。(见表

1、表2)。

表1:校内专任教师师资结构表

通过表1的数据分析看出,35周岁以下的教师83人,占专任教师的45.6 %,队伍比较年轻;队伍的专业技术职务结构较合理,高级职称教师占41.76%,中级职称教师占22.53%,初级职称教师占31.32%;队伍的学历学位结构较合理,随着对人才特别是对硕士研究生学历以上人才的引进,具有研究生学历或硕士以上学位的教师比例逐年增加,其中具有研究生学历的教师占26.92%,具有硕士学位以上的教师占29.67%。

表2:校内专任教师具有双师素质的统计表

表2可以看出,学院182名专任教师中,具有双师素质的教师有98人,占53.84%,但还需进一步提高,为此,学院加强了双师素质培养工作的力度,出台了有关到企业实践锻炼的政策文件,安排教师到行业、企业进行实践锻炼,继续努力提高双师素质教师的比例。

为突出对学生实践能力的培养,我院还注重加强兼职教师队伍建设,依靠行业、企业聘请了大量生产一线的能工巧匠和专业人才充实实践教学队伍(见表3),逐步形成实践技能课程主要由具有高技能水平的兼职教师指导训练的机制。

表3:教授“(理论+实践)课”和“纯实践课”课程的校外兼职教师情况

通过表3可以看到,校外兼职教师的数量和所占比例正在逐步提高,显现了“以评促建”的初步成果。

表4 :教师授课情况表

由表4可以看出,校内教师承担了学院主要的授课任务,约占全部授课任务的76.4%,任务比较繁重。尤其是82.85%的纯实践课程都是由校内教师担任,校外兼职教师只承担了17.15%的课程,相对较少。造成校内教师教学任务量较大的原因是:

1、在校内专任教师的182人中,有40名教师承担着中专的课程。

2、校内兼课教师的人数较少。

3、校外兼职教师的人员和课时量较少。为此,学院还应加强校外兼职教师队伍的建设,聘请更多数量的企业一线的能工巧匠走进实践课堂。

表5:校内专任、兼课教师教、科研项目立项及教学、科研成果情况表

从表

4、表5可以看到,我院教师科研成果相对较少,其原因:一是校内教师承担的教学任务比较繁重,二是我院建院时间较短,为提高教学质量,学院在机制上向教学改革、教学研究方面导向有些偏重,今后在机制上应引导教师在搞好教学工作的同时,向科研方面发展。

(三)抓好课程建设,丰富教学手段

课程建设与改革是提高教学质量的核心,从2007年至今,先后有21门课程在学院立项进行课程改革和重点建设。经过三年的努力,有8门课程被评为院级精品课,其中《电力电子技术》在2008年被评为市级精品课程。2009年学院又确立了29门专业核心课程为重点建设项目,计划在2010年完成建设任务。随着课程建设的不断深化,打破了学科体系的框架,开始依据职业岗位能力要求和职业资格标准整合课程内容,强化实践教学环节,改革教学方法,融“教、学、做”为一体,明显地提高了教学质量。

学院建有一个初具规模的校园网站,目前运转正常并有一定的点击率,网站已全面对外开放,开发了网络教学资源,8门院级精品课程已在网上开通,为学生开辟了新的学习途径。

(四)加强工学结合,强化实践教学

我院提出的深化教学改革的指导思想是:以主动适应社会需求为目标,以培养高素质技能型人才为主线,以职业技术领域和职业岗位群的实际需要为出发点,设计学生的知识、能力和素质结构。2008年、2009年在调查研究的基础上与企业合作重新制订了专业人才培养规格和培养方案;突出实践教学环节,重新构建了实践教学体系。

学院十分重视实践教学基地的建设,不断改善实践教学条件。现有19个校内实训基地,包括实验室、实训室71个,面向学院22个专业。实践场所建筑总面积38527.10平方米,教学仪器设备总值2648.850万元,设备总数2787台套,其中,大型设备62台套。校内实训基地成为集职业技能鉴定、基本技能训练和综合实训为一体的实践教学平台。

表6:校内实训基地建设情况表

由表6可知,我院半年来加强了校内实训基地的建设,无论是建筑面积,还是设备总值、设备数量,都有了很大的提高,且使用率逐年提高,截止至2009年8月,校内实训基地总使用率为946582人时,已超过09年2月的792773人时,但社会使用率偏低。

为了凸显职业教育的特点,学院与预应力二厂、环中钢丝厂合作共建生产性实训基地,基本满足了全院各专业实习、实训的需求,也彰显了我们学院依托行业办学,校企共建的特色。

另外,学院根据人才培养目标,积极建设校外实训基地,到目前为止,学院有教委挂牌的校外实习基地4家企业,签订协议的校外实训基地27家企业,接收09届毕业生顶岗实习和就业的多达158家企业。

我院积极实行“双证书”制度,全面提升学生的职业岗位能力。根据各职业岗位群的能力要求,安排学生参加相关的国家职业技能考证,使每个毕业生拥有一种或几种职业资格证书。虽然我们与评估标准还有一定的差距,但我们经过不懈的努力,获证率正在不断地提高(见表7)。

表7:职业资格证书情况

(五)注重专业建设,体现高职特色

我院遵循“以就业为导向,以行业为依托,构建有特色的专业体系”的建设思路,凸显特色专业、扶植优势专业、改造传统专业,不断增强学院的办学活力。

1.以服务冶金行业为目标,将冶金类专业做精做细

材料成型与控制技术专业是学院的特色专业,多年来为冶金企业培养了大批的优秀人才。作为学院的特色专业,我们的做法是努力开拓、重点建设,下大功夫精雕细刻,以求成为精品。我们投资100多万元建成了冶炼实训基地和压力加工实训基地,今年又投资100多万元建成虚拟工厂、虚拟车间。其功能是:

(1)轧钢仿真实训室的典型产品为中厚板,主要是对中厚板生产车间设备与工艺仿真,按工序设置了不同的多个工位,调整设备、制定工艺、分析故障并排除等多个实训项目,学生实训区域再现了中厚板车间生产实际情况。

(2)炼铁模拟实训室的主要设备是炼铁用高炉,展示设备结构及工作过程,模拟炼铁操作及工艺。

(3)炼钢模拟实训室的主要设备是炼钢用转炉及连续浇铸机,展示设备结构及工作过程,模拟炼钢操作、工艺及连铸操作。

虚拟工厂、虚拟车间的建成,实现了实训实习、职业技能考核一条龙的实践教学模式。

另外,建成了以天钢、大无缝、预应力二厂、轧钢二厂、轧钢一厂等大中型企业为主的10多个校外实训基地,这些基地不仅接受学生的顶岗实习,还有相当数量的学生在此就业,2005级顶岗实习学生为140人,校外实训基地接收并留用91人;2006级顶岗实习学生为149人,校外实训基地接收并留用达80人。真正做到将顶岗实习与就业有效地融合在一起。

为了加强材料成型与控制技术专业的师资力量,近两年来,学院一方面调入3名具有企业经历和实践工作经验的教师;另一方面,还从其他系部抽调2名骨干教师充实冶金专业的教学力量。(见表

8、表9)尽管如此,该专业校内专任教师的数量还相对较少,授课任务仍比较繁重,学院将继续加强该专业的师资队伍建设,加大从企业一线聘请兼职教师的力度。

表8:材料成型与控制技术专业教师团队结构情况表

表9中的教师总数28人,包括校内专任教师8名和校外兼课教师3人、校外兼职教师17人。

表9:材料成型专业教师授课情况表

为了更好地为行业服务,又与天津中兴盛达钢业有限公司签订了“订单培养”计划,并已进入实施阶段。天津中兴盛达钢业有限公司是天津市重点开发的金属制品基地建设项目,该公司需要一批具有金属制品专业知识和技能的新生力量,经校企双方协商,确定从我院冶金专业2010年毕业生中招聘选拔200名学生进行定向培养。校企双方共同制定人才培养方案和教学内容,公司委派工程技术人员作为兼职教师与学院专任教师交叉任课,共同完成为期六个月的专业知识学习和技能训练的教学任务。

2.以机、电为基础,将机、电类专业做强做大

学院的机械工程系和电气工程系共设有11个专业,拥有实力较强的中青年教师队伍,在校生2595人。多年的办学实践证明:机械与电气类专业的毕业生不仅冶金企业的需求量大,而且在其它企业也很受欢迎。因此,我们将机、电系作为学院专业建设的基础,以电气自动化、机电一体化、数控技术三个专业为主干,加大建设力度,做大做强机、电两大专业群。

学院近几年先后投资一千多万元建成了高级维修电工实训基地、过程控制实训基地、传感器实训基地、电力电子实训基地、编程控制器技术实训基地、CAD/CMD机房、机加工实训基地、钳工实训基地、数控加工实训中心等。

(六)健全管理机制,提升管理水平

学院树立了“以教学为中心、以育人为根本”的管理理念,坚持以质量求生存,走内涵发展之路。近年来,在规范管理、学生管理、质量监控等方面,形成了一套较为完整、科学、行之有效的管理制度和保障体系,促进了教育教学质量的提高。

1、加强教学规范化管理。学院不断完善教学质量管理与监控的组织机构,健全教学管理规章制度,规范教学工作质量标准。成立了教学督导处,实现了教学运行管理和教学质量监控的两线分离;

为落实教学质量监控,学院采取“领导听课与巡视检查,督导员督查,管理部门监控,同行互评、教师评学,学生评教”的教学质量监控措施,评教客体(教师)覆盖面100%,评教主体(学生、教师)参与度:学生100%,同行100%。通过检查和督导,把阶段性检查与过程控制相结合;把日常督导与系部自查相结合;把督评与整改相结合,体现了“以评促改,以评促建”。

2、健全规章制度,加强学生管理。学院积极倡导“育人为本、德育为先”的教育理念,促进学生德智体全面发展。学院从05年至今,在学生中共发展党员270名。

从学生进校的第一天起,学院紧紧围绕加强大学生思想政治教育工作的目标,针对学生的实际情况,加强对学生学习全过程的管理,通过倡导、创建“勤学多思、强技求真”,形成优良学风。

学院建立了心理健康教育咨询中心和学生社团管理中心。充分发挥党团组织的作用,以“两课”为主渠道,以校园精神文明建设为重点,以系列主题活动、学生会、社团活动为载体,不断提高当代大学生的政治素质、思想素质、道德素质、法纪素质、身心素质和综合职业素质。

(七)拓宽就业渠道,提高社会声誉

几年来,学院始终把“稳定就业率”、提高就业质量作为检验教育教学质量的最关键指标,在强化教育教学各个环节过程控制的基础上,不断完善落实促进毕业生就业的有关政策,拓宽就业渠道。建立了毕业生就业指导中心,形成院、系两级毕业生就业工作领导运行机制。每年学院都面向毕业生和用人单位展开调研回访,征求毕业生和用人单位对学院的建议和意见。

表10:毕业生情况统计表

由表10可以看出,学院毕业生的专业对口率以及满意率都在提高。截止至2009年9月1日,学院毕业生就业率达到了91.67%。我院07、08两年的就业率达到较高水平。

采集技术论文 篇6

项目编制单位:北京智博睿投资咨询有限公司

资金申请报告编制大纲(项目不同会有所调整)第一章 数据采集与视频监控系统(SCADA)项目概况 1.1数据采集与视频监控系统(SCADA)项目概况

1.1.1数据采集与视频监控系统(SCADA)项目名称 1.1.2建设性质

1.1.3数据采集与视频监控系统(SCADA)项目承办单位 1.1.4数据采集与视频监控系统(SCADA)项目负责人

1.1.5数据采集与视频监控系统(SCADA)项目建设地点

1.1.6数据采集与视频监控系统(SCADA)项目目标及主要建设内容

1.1.7投资估算和资金筹措

1.2.8数据采集与视频监控系统(SCADA)项目财务和经济评论

1.2数据采集与视频监控系统(SCADA)项目建设背景

1.3数据采集与视频监控系统(SCADA)项目编制依据以及研究范围

1.3.1国家政策、行业发展规划、地区发展规划

1.3.2项目单位提供的基础资料

1.3.3研究工作范围

1.4申请专项资金支持的理由和政策依据

第二章 承办企业的基本情况 2.1 概况 2.2 财务状况

2.3单位组织架构

第三章 数据采集与视频监控系统(SCADA)产品市场需求及建设规模

3.1市场发展方向

3.2数据采集与视频监控系统(SCADA)项目产品市场需求分析

3.3市场前景预测

3.4数据采集与视频监控系统(SCADA)项目产品应用领域及推广

3.4.1产品生产纲领

3.4.2产品技术性能指标。

3.4.3产品的优良特点及先进性

3.4.4数据采集与视频监控系统(SCADA)产品应用领域

3.4.5数据采集与视频监控系统(SCADA)应用推广情况

第四章 数据采集与视频监控系统(SCADA)项目建设方案

4.1数据采集与视频监控系统(SCADA)项目建设内容

4.2数据采集与视频监控系统(SCADA)项目建设条件

4.2.1建设地点

4.2.2原辅材料供应

4.2.3水电动力供应

4.2.4交通运输 4.2.5自然环境

4.3工程技术方案

4.3.1指导思想和设计原则

4.3.2产品技术成果与技术规范

4.3.3生产工艺技术方案

4.3.4生产线工艺技术方案

4.3.5生产工艺

4.3.5安装工艺

4.4设备方案

4.5工程方案

4.5.1土建

4.5.2厂区防护设施及绿化

4.5.3道路停车场

4.6公用辅助工程

4.6.1给排水工程

4.6.2电气工程

4.6.3采暖、通风

4.6.4维修

4.6.5通讯设施

4.6.6蒸汽系统

4.6.7消防系统

第五章 数据采集与视频监控系统(SCADA)项目建设进度

第六章 数据采集与视频监控系统(SCADA)项目建设条件落实情况

6.1环保

6.2节能

6.2.1能耗情况

6.2.2节能效果分析

6.3招投标

6.3.1总则

6.3.2项目采用的招标程序

6.3.3招标内容

第七章 资金筹措及投资估算 7.1投资估算

7.1.1编制依据

7.1.2编制方法

7.1.3固定资产投资总额

7.1.4建设期利息估算

7.1.5流动资金估算

7.2资金筹措

7.3投资使用计划

第八章 财务经济效益测算

8.1财务评价依据及范围

8.2基础数据及参数选取

8.3财务效益与费用估算

8.3.1年销售收入估算

8.3.2产品总成本及费用估算

8.3.3利润及利润分配

8.4财务分析

8.4.1财务盈利能力分析

8.4.2财务清偿能力分析

8.4.3财务生存能力分析

8.5不确定性分析

8.5.1盈亏平衡分析

8.5.2敏感性分析

8.6财务评价结论

第九章 数据采集与视频监控系统(SCADA)项目风险分析及控制

9.1风险因素的识别

9.2风险评估

9.3风险对策研究

第十章 附件

10.1企业投资项目的核准或备案的批准文件; 10.2有贷款需求的项目须出具银行贷款承诺函; 10.3项目自有资金和自筹资金的证明材料; 10.4环保部门出具的环境影响评价文件的批复意见;

10.5城市规划部门出具的城市规划选址意见(适用于城市规划区域内的投资项目);

10.6有新增土地的建设项目,国土资源部门出具的项目用地预审意见;

10.7节能审查部门出具的节能审查意见; 10.8项目开工建设的证明材料;

彝文网页信息采集技术研究 篇7

随着网络技术的发展, 少数民族语言文字的信息也随之在网络上出现, 彝文网页就是其中之一。而由于彝文信息处理技术处于起步阶段, 缺乏相应的搜索引擎, 互联网上的彝文信息常常处于“孤立状态”, 给用户的查找和获取带来较大的困难。

彝文作为彝族地区传播科技知识的主要工具, 其独特的人类文化价值和社会价值在彝族地区所发挥的巨大作用是不可估量的。进入网络和计算机技术高速发展的信息时代, 古老的彝文字正经历着一场严峻的考验, 能否在数字化时代被更好的应用和发展。如果不能, 它就会逐渐丧失其作为彝族文化灵魂的深层内涵, 会在当今的数字化时代销声匿迹。

1 网页采集原理

网页的采集也是当今信息检索和数据挖掘的一个研究热点, 尤其针对目前还没发现通用的彝文搜索引擎的情况下, 论文提供的实验平台提供了一种获取网络信息资源的思路和方法, 同时也便于对网上彝文资源库的整理, 进而达到保护、弘扬彝族文化, 促进实现汉、彝族资源互通共享的目标。

网页信息采集, 是指使用一个或多个采集器 (俗称爬虫) 通过Internet某一个或多个Web页面开始, 按照Web页面之间的链接关系, 从Web上自动地获取页面信息, 并随着链接不断向所需要的Web页面扩展的过程[1]。可以说, 网页的自动采集主要是靠网络爬虫实现的, 爬虫程序是网页信息采集的核心部分。

1.1 网络爬虫

1.1.1工作原理

网络爬虫按照系统结构和实现技术, 大致可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。本文中采用聚焦网络爬虫来实现彝文网页信息的采集。

网络爬虫 (Crawler) 是一个自动提取网页的程序, 它为搜索引擎从互联网上下载网页, 并沿着网页的相关链接实现在web中采集资源, 是一个功能很强的网页自动抓取程序, 也是搜索引擎的核心部件[2]。搜索引擎的性能, 规模及扩展能力很大程度上依赖于网络爬虫的处理能力。网络爬虫也被称作网络蜘蛛 (Spider) 或网络机器人 (Robot) 。

网络爬虫从一个或若干初始网页的URL开始, 获得初始网页上的URL, 在抓取网页的过程中, 不断从当前页面上提取新的URL放入队列, 直到满足系统的一定停止条件[3]。图1为网络爬虫的系统结构。

这个爬虫其逻辑框架主要包含网页获取模块、页面解析模块、网页判断和重复消除模块、URL数据库模块和web数据库模块等部分。

(1) 获取模块使用HTTP协议获取URL代表的页面。响应并传送某网页链接地址的HTTP请求至对应WEB站点的服务器, 根据请求得到的消息状态码的返回值确定下一步策略。

(2) 解析模块提取文本和网页的链接集合。解析模块负责获取网页的标题、正文、编码、URL等各类信息。

(3) 判断和重复消除模块决定网页解析出来的链接是否能够存入URL数据库。该模块将判断页面提取的URL地址是否存在于待处理的列表中, 若存在则去重, 终止该线程, 否则按照一定的判定规则对链接进行过滤, 并把符合条件的URL存放在URL数据库中。

(4) URL数据库包含爬虫当前待抓取的URL。根据URL数据库里面URL的链接内容抓取各类网页。

(5) web数据库模块负责对抓取的内容进行存储。用来存放经过提取出来的正文内容、主题和摘要等, 以备建立索引等应用。

1.1.2 网页搜索策略

网页的抓取策略可以分为深度优先、广度优先和最佳优先三种[4]。深度优先在很多情况下会导致爬虫的陷入问题, 目前常见的是广度优先和最佳优先方法。由于目前彝文网页相对较少, 本文选用广度优先搜索策略。

广度优先策略基本方法是从起始页开始, 对先获得的链接先抓取。就是先抓取起始网页中链接的所有网页, 然后再选择其中的一个链接网页, 继续抓取在此网页中链接的所有网页。进行循环式爬行, 直到满足一定的停止条件[5]。这种搜索策略的覆盖率很广, 采集的网页比较多。广度优先搜集策略实现方便, 不需要存储大量的中间节点, 可以并发执行, 从而提高整个程序的效率, 目前并被广泛采用。图2为广度优先策略的遍历图。

广度优先搜索是从图的顶点A出发, 在访问A之后, 依此搜索访问A的各个未被访问过的邻接点B、C、D… (在本文中是该页面的链接) , 然后顺序搜索访问B、C、D…的各个未被访问过的邻接点。即从A开始, 由近至远, 按层次依此访问与A有路径想通且路径长度分别为1, 2, …的顶点, 直至连通图中所有顶点都被访问一次[6]。这种方法保证了对网页内容的有效控制, 避免遇到一个无穷深层分支时无法结束的问题。

根据以上表格, 我们可以得出以下结论路径图:

路径1 =->A;路径2 =-> B-> C->D;路径3 =-> E-> F->G->H;路径4 =->I->J->K->L

1.2 网页采集的流程

Internet是Web的基础平台, Web是基于Internet的超文本 (hypertext) 系统, 是Internet平台上的一种应用层服务, 它将各种信息资源链接起来, 使得人们能够方便、快捷地发布或获取信息[7]。互联网从结构上去分析, 可以看作是一个巨大的网格图, 每个网页是图中一个节点, URL就是链接所有节点的弧。

网页采集系统通常首先从一个种子URL集开始, 利用某些网络协议和端口, 依次访问并获取每个URL所链接的页面;接着再分析这些已采集到的页面, 从中提取出新的URL, 将它们继续放入到待处理的URL列表中;然后一直不断地重复上述操作, 直到采集线程根据自己的搜索策略结束整个过程为止[8]。

2 彝文网络信息采集平台的设计

开发环境的选择, 对彝文网络信息获取平台的建设至关重要。本文选取C#编程语言开发程序, 使用Microsoft Visual Studio2010软件开发平台, 运用ACCESS数据库。

2.1 设计思路

彝文网络信息获取的研究, 是指对网络中包含彝文信息的相关网页的分析采集。由于目前彝文信息处理技术的现状和国家对少数民族网络信息安全的关注和重视, 因此本文在对彝文网页分析的基础上, 实现彝文网页的判定和文本内容等信息的获取。本文在对彝文网络信息获取和网页文本内容的存储的研究中, 主要分为四个功能模块:彝文网页判定模块、网页去重模块、网页信息提取模块、网页信息存储模块。基本思路如下:

(1) 设计彝文网络获取的相关算法和爬虫, 利用判定算法, 对相关的彝文网页进行采集。

(2) 对抓取的网页的部分关键信息提取, 提取的主要内容包括网页的文本标题、正文、日期以及链接 (URL地址) 等关键信息, 并存入数据库。

(3) 将提取的彝文文本信息在判断编码后转换成统一的编码形式存储, 便于下一步彝文数据分析的工作。

本文以中国彝学网为例, 进行网络信息获取技术的研究。流程如图3所示。

2.2 网页判定模块

2.2.1 URL获取

对彝文网络信息获取, 首先初始化URL, 本文通过选取中国彝学网为例, 获取彝文版的网页和超链接信息, 来进行彝文网页抓取和采集。中国彝学网彝文版首页的URL格式为:http://222.210.17.136:81/zgyx/indexyi.html。

首先获取首页地址内容;在此基础上获取该页面的所有的有效URL, 并将URL添加到数据库中。

核心代码如下所示:

所有有效URL已保存到ACCESS数据库后, 下面需要采集网页内容。

2.2.2 URL 判定

在采集网页内容之前, 需要筛选已保存的URL是否是文章页面的URL链接, 并判断是否已经采集过该URL。代码如下:

2.3 网页去重模块

网页信息采集模块的实现中, 网络爬虫遍历了整个空间的网页, 这也就是说所有的网络爬虫都会遍历一个新网页的所有内部链接, 而在这种搜刮式的网页遍历下, 网络爬虫难免会搜索到许多相同的网页, 不但因为其本身没有判别重复网页并实现排重的能力, 而且不同的网络爬虫之间也没有互相通讯识别的能力。因此, 需要将网络爬虫采集的初始网页进行排重识别, 从而剔除一些重复冗余的网页, 以便大幅度地减少网页的数量, 提高网页搜索的效率, 降低后续操作的工作量和复杂度。

2.4 网页信息提取模块

通过对采集的彝文页面信息进行解析, 对网页的标题、发布时间、来源、URL、正文的信息进行判断和提取, 并把提取的信息转换格式存储到统一的ACCESS数据库中, 便于下一步检索等相关工作的开展。为了实现以上功能, 本文系统在识别页面中URL字符串的过程中使用正则表达式进行匹配。网页的提取可以利用正则表达式提取网页内容。

本部分从下载的网页中抽取到相关的信息, 并保存到自定义格式的文本文件中, 以便对网页信息的存储。

2.4.1 网页标题提取

网页标题能够直接反映网页的主题信息。本文通过正则表达式的方法提取彝文网页的标签, 并逐个处理得到的标签, 通过get Regex Str () 方法得到网页的标题, 并写入ACCESS数据库中。正则表达式表示为:

核心代码如下:

2.4.2 网页发布时间及来源的提取

网页的发布时间和来源是查看网页的重要属性。代码如下:

2.4.3 网页正文提取

2.5 网页信息存储模块

通过对存储的网页信息提取, 将具体内容包括网页标题、网页发布时间、网页来源、正文数据段、网页URL和关键词 (导向词来源) 等信息存储采集到的数据库中, 并保存到文本文件。图4为ACCESS数据库存储信息。

核心代码如下所示:

2.6 性能测试

网络爬虫采集算法测试和评价有很多指标, 其中有两个重要的通用指标:查全率和查准率。

查全率:

查准率:

在本文中, 爬虫所抓取的范围限制在中国彝学网范围内, 因此在性能测试中, 网站所包含的相关文档总量等同于文档总量。故两个指标是相同的, 在这里我们用查全率来表示。

通过彝文网页信息采集平台, 中国彝学网中采集到的URL总数为92, 即系统中相关文档总量为92;存储到TXT的正文文档数为62, 即采集的相关文档量为62。因此:

查全率 = 查准率 = = 67.39%

由测试结果可知, 对中国彝学网 (彝文版) 进行采集, 采集准确率不高, 通过分析发现产生的原因主要是由于部分彝文网页是图片格式和彝文网站过少, 导致了采集结果不理想的情况。

3 总结和展望

本文以少数民族文字彝文网站 (中国彝学网) 为例, 对彝文网页信息进行采集和获取。首先阐述了网页信息采集和网络爬虫的工作原理, 分析和用于彝文网页;其次构建彝文网页信息采集模型, 并进行设计和研究, 分别对彝文网页判定模块、网页去重模块、网页信息提取模块、网页信息存储模块共四个模块进行了介绍;最后对彝文网页信息采集性能进行了测试, 通过查全率和查准率得知, 采集效果达到67%左右。

本文对彝文网页信息采集技术做了一些研究, 取得了一定的成果, 但是由于时间和精力有限, 仍存许多不足, 需要今后进一步加以改善, 在彝文网页判别等方面还要更一步的研究, 提高查全率和查准率, 为以后的彝文分词、分类打好基础。

摘要:本文通过对中文网页采集流程、网络爬虫工作基本原理的分析, 再结合彝文网页的特点, 对彝文网页信息的采集技术进行了研究, 通过聚焦网络爬虫来实现彝文网页信息的采集, 并依此来建立一个内容全面的彝文网页信息资源库。

关键词:彝文网页,网络爬虫,信息采集

参考文献

[1]吴丽辉, 王斌, 余智华.一种通用Web信息采集系统的设计与实现[J].计算机工程, 2009, 31 (3) :123-124.

[2]罗刚, 王振东.自己动手写网络爬虫[M].北京:清华大学出版社, 2010:16-47.

[3]王思丽.藏文网页自动发现与采集技术研究[J].西北民族大学, 2010.

[4]Carlos Cobos, Henry Munoz-Collazos, Richar Urbano-Munoz.Clustering of web search results based on the cuckoo searchalgorithm and Balanced Bayesian Information Criterion.Information Sciences 281 (2014) 248–264.

[5]吴虎子.中文网页获取及自动分类技术研究[D].武汉理工大学硕士论文, 2007.

[6]陈杰.主题搜索引擎中网络蜘蛛搜索策略研究[D].浙江大学硕士论文, 2006.

[7]Enver Kayaaslan, B.Barla Cambazoglu, Cevdet Aykanat.Docume nt replication strategies for geographically distributed websearch engines.Information Processing and Management 49 (2013) 51–66.

基于物联网技术的数据采集研究 篇8

关键词: 数据采集    物联网技术    Zigbee技术

我国是一个农业大国,种植的农作物种类繁多,各种农作物的产量直接影响国家的经济命脉。在各种农作物生长过程中,影响产量最大的因素是生长环境,包括空气的温度、湿度、风速、光照时间、强度、二氧化碳浓度等,但是目前一些农作物生长环境的数据采集采用的技术(比如人工采集方式等)对生长环境的监测还不到位,不能及时地发现农作物生长过程中的异常情况,及时地进行调控,对产量的影响很大。基于物联网技术的监测系统是在无线传感器网络上构建的,它可以实时地对农作物生长环境及农作物生长状况进行无损数据采集。

1.物联网技术

物联网是物与物相连的网络,它可以通过一些采集信息的设备(如红外感应器、射频识别、激光扫描器、全球定位系统等)与系统进行数据的提取、测量、捕获、传递,并且这种数据的采集具有广泛性,只要是需要感知和能感知的物体,就可以采集到它的数据,并传送至服务器,以便监控。物联网还可以对采集到的数据利用信息处理技术、云计算、数据挖掘技术与分析工具等各种智能计算技术进行数据的智能分析、计算和汇总。物联网的主要技术包括传感器技术、Zigbee技术、智能技术、射频识别技术等,其中Zigbee技术是数据采集的关键技术之一。

所谓数据采集系统是利用各种传感器对监测的各种农作物生长环境的数据进行自动采集,然后将采集到的数据通过数据传输技术传输到服务器。在对农作物的生长环境进行数据采集时,要力求全面、准确,即数据采集系统要完成对多节点与多区域的数据采集,除了对数据的全面性与准确性要求外,数据采集系统还要对数据自动处理(如汇总、打包等),传送到服务器。

2. Zigbee技术

Zigbee一词来源于蜜蜂的舞蹈,当蜜蜂发现食物时,会通过跳舞将信息传递给同伴,如食物的位置、食物的数量、食物的方向、食物的距离等,蜜蜂的英文是Bee,蜜蜂跳舞时发出发出嗡嗡(Zig)的声音,而蜜蜂的这种信息传递距离近,低成本,速度不快,这和Zigbee的特点很相似。Zigbee名字由此得来。Zigbee技术是一种无线通信技术,普通的两节干电池可供Zigbee节点工作几个月的时间,因此功耗低;Zigbee工作的频段是免费的,不需要支付费用,用户只要花两美元买芯片即可进行开发,因此成本低;Zigbee的节点一般距离在10m~100m之间,因此距离近;Zigbee节点连接进入网络要30毫秒,因此延时短。在对农作物生长环境的实时监测时会发现,系统需要传输的数据数量比较少,对传输速率要求不高,终端设备大都采用电池供电,并且要避免有线连接。从以上农作物生长环境监测的特点看,Zigbee技术非常适用。Zigbee协议主要包括物理层、媒体存取控制层、网络层、应用层和安全层。

图1    使用Zigbee技术进行数据采集的框架

针对数据采集的要求,设计的使用Zigbee技术进行数据采集的框架如上图1所示。

由图1可知,农作物生长环境数据采集系统分为三个部分,基于星形拓扑结构的Zigbee无线传感器网络,物联网、internet的网络传输,基于WEB的信息管理系统。Zigbee技术的拓扑结构有树形(即形状像棵树)、网形(即形状像张网)、星形三种。其中,星形拓扑结构如图2所示:

图2    星形拓扑结构

由图2可知,中心位置为协调器,网络中的传输设备都与协调器有信息传输,因此如何组建协调器网络至关重要。星形拓扑结构呈现辐射状,数据要通过协调器来传送,因此比较简单,设备成本不高。由于农作物生长环境的数据采集范围广、采集点多,为了保证采集数据满足全面、准确的要求,最好采用星形拓扑结构。一个主节点可以与若干个从节点进行通信,最多254个从节点,一个从节点又可连接多个传感器。从节点上的传感器采集数据,将数据汇聚到主节点,主节点是网络的汇聚节点,发挥协调功能,主节点通过网络将收集到的数据传输到WEB信息管理系统。

在设计数据采集系统时遵循如下原则:(1)系统要可靠。在多数情况下,设备都没有人看守,这就要求设备的可靠性要高,能够连续工作,不易出错,能够安全可靠地采集、传输、处理数据。(2)系统要实用。此系统要简单,容易维护,易于操作,让大家容易学习、掌握,并熟练地使用它。(3)系统要有适用性。农作物生长环境比较复杂,而且范围大,因此要求此系统在任何环境下都能正常运行,有一定的适应性。

在对农作物生长环境进行数据采集时,采用基于物联网技术,尤其是Zigbee技术能够完成对生长环境各类数据的采集、提取、传输、监控等,并且对数据进行智能分析,判断异常情况。

参考文献:

[1]王黎丽.基于Zigbee技术的机场机房环境数据采集系统[D].杭州:浙江工业大学学位论文,2011:10-12.

[2]于暄.基于GPRS和Zigbee技术的智能家居解决方案的研究[D].贵州:贵州大学学位论文,2007:56-57.

[3]巩伟.无线数据采集技术在燃气监控中的应用研究[J]. 行业应用与交流,2011(08):102-104.

上一篇:我是党员我光荣下一篇:优秀毕业生评定细则