寒假的发现话题作文(精选11篇)
一提起奶奶家,我眼前便出现奶奶家那平房区的模样。三间红瓦房,一个小院。那房子又矮又窄,虽然能照进阳光,但因为没有暖气,屋里很冷很冷。每次冬天玄奶奶家,我都是爬上炕头,用棉被暖着我冻疼的.脚。如果赶上阴天下雨,积水灌进屋里,一双双鞋漂起来,就像小船似的。
妈妈准备好年货,招呼我一起去奶奶家。我说:“我不去,想冻死我呀!”妈妈却说:“挨什么冻,你忘了奶奶家今年旧区改造回迁住进新楼啦?”妈妈这么一说,我才恍然大悟:对呀,奶奶家住楼了!于是我和妈妈匆匆下楼,打了一辆出租车,直奔奶奶家而去。
我们很快来到奶奶家楼下,我都看花眼了,原来低矮杂乱的平房全都不见了,出现在面前的是一排排崭新的楼房。宽阔的小区里,有花坛、草坪,有健身器材,还有一排排华丽的街灯。我怎么也没想到,这里的变化可真大呀。我敲了敲奶奶家的门,奶奶开门迎了出来,我感到屋里是那样的温暖。奶奶乐呵呵地对我说:“以前你来了就上炕钻被窝,这回可不用了。”我和妈妈进到屋里,放下年货,一下子坐到沙发上说:“奶奶,你们家太好了,我住在这里不走了。”一句话,把一家人都逗笑了。
微博作为一种新兴媒体, 已经成为了信息传播的重要方式。人们不仅可以利用微博共享信息, 还可以在微博上搜索信息, 实时收看各种新闻资讯。微博兼有博客和即时消息两种网络服务的优点, 它允许人们把他们目前正在做的事情在网络上以短消息的形式发布出去, 这样, 那些关注他的人便可以知道这个人目前的状况。作为世界上拥有注册用户数量最多的微博服务, Twitter在2012年6月已经拥有超过5亿的注册用户, 并且数量仍在快速增长。
当用户大量使用微博进行信息传播时, 便产生了大量的信息。这些消息都是不超过140个字的短消息。在这大量的消息之中, 有许多的消息是相关的, 他们都是对于某一事件的描述和评论。那么所有与这一事件相关的消息就构成了这一事件的话题。在微博服务中, 有超过上亿的用户, 每天发布大量的消息。因此如何在大量的微博信息中发现用户所关心的话题是一项富有挑战的课题。
本文将微博消息看作文档, 利用LDA模型对微博消息隐含的话题进行建模, 从而找出微博消息中用户关注的话题。在找出话题之后, 对话题进行重新排名, 从而能更准确地将重要的话题提供给用户。
1 相关工作
在信息检索领域, 话题发现一直是一项重要的研究工作。话题发现模型可以分为基于文档模型的话题发现和基于LDA模型的话题发现。
传统的文本话题发现方法是将文本文档看作向量, 然后利用聚类方法找出热点话题的文档。文献[1]应用文本检索和聚类技术研究了文本内容的事件检测。在分析过程中, 该研究分别采用了层次和非层次的文档聚类算法。研究结果发现, 结果聚类的层次结构对以前不明事件的回顾性检测提供了非常重要的信息。文献[2]提出了一种增量的层次聚类算法。该算法对词汇表建立了一个层次聚类结构, 并且对结果二叉树进行优化以达到最小的开销。最后, 算法对词汇表中的其它文档进行分类, 将它们分到已经分好的层次结构中。Papka和Allen提出了一个门限值模型, 应用单趟聚类算法对文档集进行话题检测[3]。该模型将事件的属性作为主要依据, 但是由于事件的先前报道不充分将导致算法的准确性不高。此外在单趟聚类算法中, 缺少早期提示或者错误的早期提示的可能性将明显增加。基于时机和社会评估的相互关系, 文献[4]提出了一种新的Twitter热点话题检测方法。在一段合适的时间内, 如果一个话题被广泛检测到, 但是在此之前却很少被检测到, 那么这个话题在这段时间内就是一个新的热点话题。同样在Twitter上, Phuvipadawat和Murate[5]提出了重要新闻的集合的概念, 并设计了“Hotstream”系统为用户提供重要新闻。聚类方法的优点是算法简单易于实现, 并且现有的很多聚类方法都可以作为借鉴, 缺点是不能很好地应对稀疏的微博发言信息。
LDA模型[6]一经提出便广泛应用在文本文档的潜在话题发现中。LDA模型将文档看作一组单词的组合, 可以将高维的稀疏文本向量映射到低位的隐式话题空间, 能很好地应对只有140字的简短并且稀疏的微博信息。为了解决数据稀疏的问题, 文献[7]采用了LDA模型对微博信息进行建模, 然而在对文档集进行聚类的时候, 采用了单趟聚类算法。该单趟聚类算法虽然简单并且易实现, 但是话题发现的准确度非常有限。为了进一步提高LDA模型话题发现的准确性, 研究人员引入了文档以外的信息, 如Rosen-Zvi等[8]将文档的作者之间的网络关系考虑在内, 提出了Topic-Author模型;Mc-callum等[9]不仅考虑了作者之间的网络关系, 还考虑了文本的发送者和接受者信息, 提出了Topic-Author-Recipient模型。实验表明, 考虑除文本以外的额外信息可以更好地提高话题发现的准确性。
2 基于LDA的话题发现方法
LDA模型[6]是一种非监督机器学习技术, 可以用来识别大规模文档集中潜在的主题信息。它采用了词袋的方法, 这种方法将每一篇文档视为一个词频向量, 从而将文本信息转化为了易于建模的数字信息。
本节通过LDA模型分析出文档集中的隐含话题, 然后将话题作为节点建立一个网络, 并按照PageRank方法对拓扑图的节点进行排名。在结果返回时, 将排名靠前的话题返回给用户, 从而提高话题预测的准确性。
2.1 LDA话题发现
对于语料库中的每篇文档, LDA定义了如下生成过程:1) 对每一篇文档, 从主题分布中抽取一个主题;2) 从上述被抽到的主题所对应的单词分布中抽取一个单词;3) 重复上述过程直至遍历文档中的每一个单词。
形式化一点说, 语料库中的每一篇文档与T个主题的一个多项分布相对应, 将该多项分布记为θ。每个主题又与词汇表中的V个单词的一个多项分布相对应, 将这个多项分布记为φ。上述词汇表是由语料库中所有文档中的所有互异单词组成, 但实际建模的时候要剔除一些停用词, 还要进行一些词干化处理等。θ和φ分别有一个带有超参数α和β的Dirichlet先验分布。对于一篇文档d中的每一个单词, 我们从该文档所对应的多项分布θ中抽取一个主题z, 然后我们再从主题z所对应的多项分布φ中抽取一个单词w。将这个过程重复Nd次, 就产生了文档d, 这里的Nd是文档d的单词总数。这个生成过程可以用图1所示的模型表示。
本文用D={d1, d2, …, dM}来表示微博消息的集合, 其中dm表示第m个消息, M是所有信息的数目。每条信息包含若干个单词dm={wm, 1, wm, 2, …, wm, Nm}, 其中Nm表示文档dm中的单词的数目。我们用V={v1, v2, …, vV}来表示字典的集合, 其中V表示字典中含有的单词的个数。我们用z来表示每个被观测到的潜在话题, Zm={zm, 1, zm, 2, …, zm, Nm}表示信息dm的所有单词的话题序列。其LDA模型的话题产生过程算法如下:
其中φk= (φk, 1, …φk, V) T∈RV, φk, i=p (w=vi|z=k) 。k话题的数目, 话题和单词的联合分布的参数为Φ= (φ1, …φK) T∈Zk×V。θm= (θm, 1, …, θm, k) T∈Rk, θm, k=p (z=k|dm) 。最后, 微博信息和话题的联合分布参数为Θ= (θ1, …, θM) T∈RM×k。
马尔科夫链的蒙特卡洛方法是一种有效的复杂分布采样的方法。为了使得到的采样数据是一个唯一的稳态分布, 本文应用吉普斯采样构建一个不可归约的, 周期性的, 可逆的马尔科夫链。算法的细节如下。
首先, z和w的联合分布如下:
当指定了LDA模型下z和w的联合分布后, 可以通过下面的公式计算吉普斯采样器的条件概率:
当马尔科夫链达到稳态后, 我们可以从该马尔科夫链中采样。当采样结束后, 可以对其它的潜在变量进行估计, 估计公式如下:
2.2 话题重要性排序
根据LDA模型, 我们可以构造微博信息集合的模型图, 见图2 (a) 。图中每条微博信息可以看作一个文档, 每一个文档又包含多个话题, 其中每个话题是由多个词汇所组成。在这个包含3个层次的层次图中, 话题层是隐含的, 可通过2.1节的算法得出。LDA模型的目的就是找出这些话题。LDA模型经过计算后可以找出大量的隐含着的话题, 当找出这些隐含的话题后, 如何将大量的话题返回给用户呢?
由于每个话题由多个词汇所组成, 并且同一个词汇可能包含在多个话题中, 如图2 (a) 中的wordp, wordq, wordr和words, 它们分别包含在topic1&topick, topic1&topic2, topic2&topick和topic1&topick中。如果将话题作为节点, 话题和话题之间共享的词汇作为边, 可以得到如图2 (b) 所示的无向网络。在这个无向网络中, 节点表示文档所隐含的话题, 节点之间的边表示话题之间的共享词汇。由于两个话题可能包含多个相同的词汇, 故两个节点间可能多条重复边。如果将边上的词汇去掉, 用两个节点之间的边的个数来表示这两个节点的边的权重, 图2 (b) 所示的图可以进一步化为图3所示的加权无向网络。
在话题组成的无向加权图中, 我们可以通过节点之间的链接关系分析话题的重要性, 如PageRank[10], HITS[11], SALSA[12]等。
PageRank作为网络节点排名的事实标准, 被广泛采用。PageRank将随机冲浪模型引入网络节点的排名。假设从某一节点出发, 沿着节点的边随机游走, 当游走的步数趋于无穷时, 停留在每一节点的概率为一个固定的值 (即稳态值) , 并且无论我们如何选择初始节点, 停留在每个节点的概率都不发生变化。按照节点的稳态值的大小对网络节点进行排序, 就可以得到节点在网络中的排名。PageRank的计算公式如下:
其中, n表示网络中节点的个数, P为网络的转移概率矩阵, α为阻尼系数, π为网络中n个节点的稳态值向量。
3 实验及结果分析
3.1 评价标准
本文中话题检测的性能用话题缺失的概率Pmiss, 错误提示的概率PFA来表示, 和上述两者的组合CDet来表示。其中CDet的计算公式如下:
根据TDT标准[2], 我们令CMiss=1.0, CFA=0.1, Ptarget=0.02。在实际应用中, 这些参数会发生不同的变化, 我们对CDet进行规范化, 从而得到 (CDet) Norm:
在上述公式中, (CDet) Norm的值越小, 说明话题检测的质量越好。
3.2 数据收集
我们在2012年12月通过开放API收集了Twitter上的204 074条信息。这些信息共包含了1 589个话题。
3.3 结果分析
首先我们根据3.1节提供的标准分析了算法的准确性。我们分别实现了简单的基于LDA的话题检测方法和经过LDA模型进行话题检测后采用PageRank进行重新排名的方法, 实验结果分别见表1和表2所示。
从上述两个表中我们可以看出, 随着相似性门限值t的增大, 两种算法的缺失概率PMiss也逐渐的增大, 并且错误检测的概率PFA逐渐减小。此外, 由于本文的方法对LDA模型分析后的结果进行了重新排名, 可以将重要的结果返回给用户, 所以经过PageRank排名的LDA模型减小了PMiss, PFA和 (CDet) Norm, 从而提高了话题发现的准确度。
4 结语
微博作为新媒体已经成为人们日常信息传播和获取的重要组成部分。实时性使得微博能及时地反映用户的当前状态。当现实社会的某一热点事件发生时, 人们可以在微博上快速传播这一事件。然而微博中充斥着大量的信息, 因此如何在微博中发现热点话题是一项重非常要的研究内容。本文通过LDA模型对微博中隐含的话题进行建模, 根据话题间共享词汇的关联性将话题构成一个无像加权图, 通过PageRank算法对话题的重要性进行排名, 最终将重要的话题返回给用户。实验表明, 排名后返回给用户的话题的准确性明显高于未排名的结果。
参考文献
[1]Blei D, Ng A, Jordan M, et al.Latent dirichlet allocation[J].Journal of Machine Learning Research, 2003 (3) :993-1022.
[2]Yang Y, Pierce T, Carbonell J.A study on Retro-spective and On-Line Event detection[C]//Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 1998:28-36.
[3]Trieschnigg D, Kraaij W.TNO hierarchical topic detection report[C]//The 7th Topic Detection and Tracking Conference, 2004.
[4]Papka R, Allan J.On Line New Event Detection Using Single Pass Clustering[R].UMass Computer Science, 1998.
[5]Cataldi L, Caro D.Schifanella C.Emerging Topic Detection on Twitter based on Temporal and Social Terms Evaluation[C]//Proceedings of the Tenth International Workshop on Multimedia Data Mining, Washington, 2010, 1-10.
[6]Phuvipadawat S, Murata T.Breaking News Detection and Tracking in Twit-ter[C]//2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, Toronto, 2010:120-123.
[7]Huang B, Yang Y, Mahmood A, et al.Microblog Topic Detection Based on LDA Model and Single-Pass Clustering[C]//Rough Sets and Current Trends in Computing, Springer, 2012:166-171.
[8]Rosen-Zvi M, Griffiths T, Steyvers M, et al.The author-topic model for authors and documents[C]//Proc.of Conf.on Uncertainty in Artificial Intelligence, 2004, 487-494.
[9]Mccallum A, Corrada-Emmanuel A, Wang X.Topic and role discovery in social networks[C]//Proc.of Int.Joint Conf.on Articial Intelligence, 2005:786-791.
[10]Page L, Brin S, Motwani R, et al.The PageRank citation ranking:bringing order to the web[R].Stanford InfoLab, 1999.
[11]Chatrchyan S, et al.Observation of a new boson at a mass of 125 GeV with the CMS experiment at the LHC[J].Physics Letters B, 2012, 716 (1) :30-61.
昨天,我和奶奶去超市买回来了苹果、葡萄、梨子、香蕉等水果,我就把它们整整齐齐地放在了冰箱装水果篮的那个抽屉里。今天下午我肚子有点饿了,我好想吃根香蕉。于是,我打开冰箱,拉开抽屉正准备拿香蕉时,我惊得目瞪口呆,香蕉怎么变模样了,黄色的衣裳上长满了黑点。难道是谁欺负它了?我昨天放它们的时候也没碰伤它们呀?可是苹果、葡萄、梨子还是完美无缺的呀。我绞尽脑汁地想啊想啊,也没想出为什么来。我去请教爷爷奶奶,哎!他们俩都出去理发去了。突然,我灵机一动,想到了我那沉默寡言的老师—电脑。
我急忙打开电脑,立马在百度上查找,一行,两行,我像一匹饿狼,飞速地寻找着。忽然,我眼前一亮,尖叫着:“找到了!”我快速地阅读着,读完以后我才明白了这到底是怎么回事了。这是因为香蕉被采摘后,仍在进行呼吸作用,它只能在合适的温度条件下,如处于13℃~16℃之间,其呼吸作用就会增强。而且它们大部分比较怕冷,不适宜放在冰箱中冷藏。一般情况下,冰箱冷藏室的温度处于5℃左右,香蕉果皮发生凹陷,出现一些黑褐色的斑点,就说明它被冻伤了,所以香蕉不能放在冰箱里保存。当然,水果当中也有脾气非常好的。比如,葡萄、橙子、苹果等,它们都比较随和,可以与各种水果友好相处,也能放在冰箱中保鲜。
我发现了这个问题,也明白了其中的道理,下次再不会犯这样的错误了。
今天,当我经过圆通大桥时,我有了一个新的发现。这一天,我经过圆通大桥,发现圆通大桥的洞口是半圆形的。当我走过另一座桥时,我发现那个洞仍然是半圆形的。我想:为什么桥洞要建在半圆上呢?为什么不把它变成正方形呢?接着,好奇心油然而生。当我回到家,我仔细地读了书和剪报,但我仍然找不到答案。我像热锅上的蚂蚁一样焦急。突然,我灵机一动:为什么不上网查一下呢?我迅速打开电脑,寻找它。半圆孔原本承载能力较大,针筒不易坍塌。四座桥正好相反。方孔洞承载能力低,易发生坍塌。读完后,我一句话也没说,就拿出吸管做实验。我已经建了两座“桥”。一个是半圆形桥孔,另一个是方形桥孔。我在每座桥上都打了麻将。结果,打麻将后不久,方桥就塌了。然而,具有半圆形桥洞的桥梁是非常稳定的。“怀疑之锁”终于被我打开了。我会努力学习,解开更多的谜团。
今天,我在《创想号》这本书里发现了蚯蚓不会死的原因,这个发现让我感到非常的有趣。
原来当蚯蚓被切成两段时,它身体断面上的肌肉组织立即收缩,形成新的细胞团,使伤口迅速闭合。同时,蚯蚓体内的器官、神经系统以及血液等组织细胞会疯狂地繁殖,迅速再生。所以,即使将蚯蚓的身体切掉一部分,一段时间后,被切掉的部分也会重新长出来。
这个有趣的发现使我非常惊奇。爸爸说:“不仅蚯蚓有这样的本领,还有壁虎、章鱼、螃蟹、海星,它们都有再生能力,一旦它们的腕、足被折断后都能再生长出来。”哦!原来有这么多的小动物有如此般神奇的本领,真是太有趣了!课外书籍就是个知识的大海洋,世界上的万物真是太奇妙了!
随着Web2.0技术和社会网站不断发展,互联网进入了一个完全崭新的“自媒体”时代。以新浪微博、Twitter等为代表的微博网站成为了人们关注的焦点,但随之而来的巨大的信息量也给人们带来了困扰,如何从海量的微博信息流中检测最新的热点话题,便成为人们一种迫切的需求[1]。
微博平台中的信息不同于博客或普通新闻网页中的信息,具有原创性、时效性、草根性、重复性、碎片性、随意性等特点,同时,相对于普通文本,微博数量多、字数少、话题广泛,这给微博话题的检测带来很大困难[2,3]。从分散的网络数据中找出真正自己感兴趣的话题,需要进行文本挖掘,而文本聚类是文本挖掘的重要手段[4]。当前文本聚类算法主要有K均值算法、Claran算法、Birch算法、sting算法[5,6,7,8],但是这些算法均存在各自不同程度的缺陷,如sting算法不适合处理大型数据集;Birch算法、Clarans算法等不适合处理非球形数据集,而微博数据很可能呈现不规则形状;K均值算法等对数据集中的噪声、孤立点敏感[9]。CURE算法是一种适用于大型数据集的层次聚类算法,不仅能够处理非球形、类大小差别比较大的数据,而且采用抽样和分割预聚类方案,降低了总的数据量,但并不影响聚类结果的质量,提高了运算效率,因此许多学者将其引入到微博话题检测中,取得了不错的效果[10]。但在实际应用中,分布于网络中的文本包含话题广泛,虽然存在热点话题,但是除此以外,还存在许多与热点话题不同的文本,这就导致微博数据集存在许多孤立点数据,微博在聚类的过程中会出现“长尾”现象,影响CURE算法的聚类效果[11]。
针对微博热点内容广泛、孤立点多等特点,提高微博热点话题的发现准确度,提出一种消除孤立点的微博热点话题发现算法。在CURE算法的基础上,加入对孤立点预处理的部分,通过仿真测试对算法有效性进验证。
1 微博热点话题发现算法的工作原理
基于消除孤立点的微博热点话题发现算法包括:数据采集和预处理,文本特征向量,孤立点过滤,聚类分析等步骤,其工作原理如图1所示。
1.1 数据采集和预处理
首先采用中国爬盟提供的微博数据采集系统,通过下载爬盟采集器登录微博账号和密码持续采集数据一周的时间,然后采用中国科学院计算技术研究所提供的分词系统ICTCLAS(Institute of computing Technology Chinese Lexical Analysis System)对博文进行分词处理,最后采用停词处理消除一些出现频率很高但是对话题识别没有太大作用的噪声数据。
1.2 计算特征值
对于分词后的博文S,将每个单词作为一个特征t,采用向量空间模型可以表为:
其中,tnm表示第n篇博文第m个特征项;wnm表示第n篇博文第m个特征项权重。
采用TF-IDF公式计算每个特征计算特征词的权重:
其中,wij表示第i篇博文第j个词的权重;fij表示第i篇博文第j个词出现的词频;nij表示第j个词出现的博文数,N表示一个博文数。
1.3 CURE聚类算法
CURE算法是一种针对大规模数据的层次聚类算法,采用多个点代表一个簇,能够处理非球形、类大小差别比较大的聚类问题,同时采用随机取样、分区的方法,聚类效率高。其基本思想为:将每条博文看作一个簇,将距离最近的簇进行合并,一直到簇的个数为一个或者指定的个数为止。CURE聚类算法步骤:
(1)从采集的数据集中随机选择部分数据,组成一个样本S。
(2)将S划分为p个区,每一个区的样本数为S/p。
(3)对于每个划分的区,采用层次聚类法进行局部聚类。
(4)如果某一个区的聚类增长速度太慢,则作为孤立点删除。
(5)对P个代表点根据收缩因子向类中心移动,完成S样本的聚类。
(6)不断重复步骤(1)-步聚(5),直到全部数据聚类数完成,并用相应的簇标签标记数据,聚类结束。
2 孤立点预处理的CURE聚类算法
2.1 孤立点
在博文聚类过程中,除了与热点话题有关数据之外,用户还对其它博文发表自己的看法,这些数据相似性差异较大,表现为孤立点。在CURE聚类算法工作过程中,当原始博文中包含孤立点时,如果不对孤立点进行预处理,孤立点就会误聚为单独的簇,导致一些有价值的博文被聚类到同一簇,无法被发现,对最终博文聚类效果产生不利影响。采用预先消除孤立点措施,不仅可以消除其中的“噪声”数据,加快聚类速度,而且可以提高聚类质量。
2.2 孤立点预处理思路
在CURE算法进行微博热点话题进行聚类之前,对采集的微博热点话题数据集进行孤立点预处理,消除数据中的孤立点,由于数据集中的孤立点被消除,难以界定簇的增长速度快慢,因此,在去掉标准CURE算法的增长十分缓慢簇消除步骤,保留聚类最后阶段对较小簇的识别和消除。
定义1博文的相似度(Sim)。Sim为[0,1]间的数,Sim=1表示两篇博文完全不相似,Sim=0表示两篇博文完全相似,因此Sim值越小,那么两篇博文之间的相似度越高。相似度的计算如下:
对于博文xi和xj,则有:
其中,R为相似度阈值。
定义2相似密度ρ。在收集的微博数据集中,与博文p相似的博文数称为博文p的相似密度ρ。则有:
其中,M为相似密度阈值。
2.3 孤立点预处理步骤
(1)从微博数据集S中随机选择一篇博文p。
(2)计算点p的相似密度ρ值,如果ρ
(3)不断重复步骤(1)、(2),完成微博数据集中孤立点处理。
(4)输出消除孤立点的微博士数据集S。
综上所述可知,基于消除孤立点的微博热点话题发现算法工作流程如图2所示。
3 仿真实验
3.1 数据集
目前还没有通用的中文微博数据集,通过新浪微博注册用户登录中国爬盟采取新浪微博数据,其抓取了50 000个用户从2012年12月1日到2012年12月31日发表的所有微博数据,对数据清洗后,选取长度为4个字符以上的微博文本共174 228 098条,每条微博平均为40个字符。在Windows平台,C++语言实现算法。
特征值计算的代码如下:
3.2 对比算法及性能评价指标
为了使本文的微博热点话题发现算法的结果更具说服力,采用标准CURE算法进行对比测试。并采用F值(F-measure)来衡量和平均运行时间(单位:s)作为算法性能评价指标。F值定义如下:
其中:
式中,ni是话题i应有博文数;nir是话题r中包含话题i中的博文数,nr是类别r中实际博文数,f(i,r)表示聚类r和类别i之间f值。
3.3 结果与分析
本文算法和标准CURE算法的聚类结果如图3所示,它们的F值见表1所示。从图3和表1可知,本文算法的聚类效果标准CURE算法,较好地实现了微博热点问题发现的功能,同时由于引入消除孤立点预处理,较好地防止孤立点对微博文聚类结果不利的影响,同时减少计算时间,提高了聚类效率,因此本文算法可以更好地发现微博热点话题。
4 结语
针对网络博文数据量大,数据中孤立点多的特点,结合CURE聚类算法优点,提出一种消除孤立点的微博热点话题发现算法。通过仿真实验分析,本文算法可以很好地消除孤立点对热点话题发现的影响,提高了热点话题发现的准确率,而且加快算法运行效率,能够满足大数据量处理的需求,可以应用于微博平台的实时热点发现。
参考文献
[1]杨冠超.微博客热点话题发现策略研究[D].浙江:浙江大学,2011.
[2]郑斐然,苗夺谦,张志飞,等.一种中文微博新闻话题检测的方法[J].计算机科学,2012,22(1):138 141.
[3]张晨逸,孙建伶,丁逸群.基于MB-LDA模型的微博主题挖掘[J].计算机研究与发展,2011,48(10):1795 1802.
[4]Cai R,Yang J,Lai W,et al.An Intelligent Crawler for Web Forums[C]//Proceeding of the 17th international conference on World Wide Web,2008:447 456.
[5]Christian,Wartena,Rogier,et al.Topic detection by clustering keywords[C]//Washington DC,USA:Proceedings of the 19thInternational Conference on Database and Expert Systems Application,2008:54 58.
[6]Wang Y,Yang J,Lai W,et al.Exploring traversal strategy for web forum crawling[C]//Proceeding of the 31st annual international ACM SIGIR conference on research and development in information retrieval,2008:459 466.
[7]鲁明羽,姚晓娜,魏善岭.基于模糊聚类的网络热点话题检测[J].大连海事大学学报:自然科学版,2008,34(4):52 58.
[8]刘青宝,侯东风,邓苏.基于相对密度的增量式聚类算法[J].国防科技大学学报,2006,28(5):73 79.
[9]陈黎飞,姜青山,王声瑞.基于层次划分的最佳聚类数确定方法[J].软件学报,2008,19(1):62 72.
[10]罗姗姗,杜庆治,杨秋萍,等.一种改进的孤立点消除及网络文本聚类算法[J].云南师范大学学报,2012,32(1):48 51.
大自然是奇妙的,只要你细细观察,就一定会发现其中的秘密。今天,我就来把我的发发现告诉你吧。
在风和日丽的上午。我开开心心的出门买早饭。走着走,我发现了一只可爱的小狗。他在急忙忙的跑来跑去。可能是和主人走失了,那是我心里为他担心,业绩的满头大汗,心里想:这只小狗那么可爱。如果没有主人会很可惜的。我还想把它抱回家呢,突然,这只小狗在专心致志的用鼻子往地上闻,我又奇怪,就跟上去了。走了15分钟走到了一座房子下。门前有一位老爷爷。小狗就跑到了他身旁。老爷爷抚摸她说“宝贝,你终于回来哩”这位老爷爷就是它的主人吗?我迷惑不解,够可以认路回家?我感到奇怪,老爷爷走到我面前大笑,对我说“小朋友,狗屎可以认路回家的,是因为狗走几步,几分钟就会撒尿,如果他迷路,就会问这尿回家。”原来是这样呀,我明白了,小狗可以认路回家是问尿味,我高兴的说。
你看,这只小狗多么有趣啊。你喜欢吗?
五一节,我随家人回到湖南老家——洞庭湖。
那是一个晴空万里的中午,我“抵抗”不住想游泳的诱惑,于是叫上老家隔壁的两三个小伙伴,带上“地网”,欢快地向着西洞庭湖出发了!
刚到西湖,一阵毛毛细雨如轻纱般罩了下来,盖住了岸边丛生的芦苇,也笼罩了旁边一幢幢白墙青瓦的房舍……滴滴嗒嗒如小鼓般击打着一望无际的湖面,远处的天空一片灰朦朦的。我们也顾不得小雨,“噗嗵”一声猛地扎进了水里。
忽然,一股滑溜溜的感觉从脚上“窜”了上来,我低头一看,哦,是一条长约二十多厘米的“大鱼”!说它是“鱼”,还不如说它更像一条“蛇”。只见它背上有些银灰色的圆形斑点,在水中游动时,恰似一把银光闪闪的“宝剑”;肚皮白里透青,有种璧玉般温润的感觉;尾巴微微翘起,尾巴尖上还略带些小刺,最引人注目的就是它的眼睛了,左眼大右眼小,可古怪了。只见它张开没有牙齿的“大大嘴”,饶有兴趣地打量着我……
突然,我一不小心腿一滑,差点摔个跟头,“大鱼”立即警惕起来,一个“倒滚翻”,落荒而逃。我连忙拾起岸边的“地网”,拼命地追去,同时招呼着伙伴们:“快来呀!快帮忙,抓住这条大鱼!”
这“大鱼”可机灵了,一个急拐弯,就闪过了我们的“包围圈”,几个加速“冲刺”后,“嗖”地一下钻进了湖边的一个石洞里。
我们又哪肯放过?!伙伴们从岸边找来一根根“棍子”,你一下我一下,争先恐后地用“棍子”往石洞里捅。“出来了!”不知是谁喊了一声,只见水下一条“黑影”一闪,一条“鱼”从石洞内飚了出来!仔细看去,谁知出来的不是“大鱼”,而是一条“大大鱼”,足有近半米长!大伙吓破了胆,赶紧纷纷往岸上爬去……
一路飞奔回到奶奶家,我立刻找来《百科全书》,认真地查了起来……“啊!竟然没有?!”我不由惊叫出来。大千世界真是无奇不有啊!
下次一定叫上爷爷和老姐!争取捉回一条“大大鱼”放进爷爷的小鱼池里,仔细观察和研究,说不定又是一个“新物种”的发现呢!
我的发现
每个人从每种事物中都会有自己的发现:牛顿从苹果落地中发现了地球的引力;瓦特从水壶烧开产生的蒸气中发现了水蒸气的作用,从而发明了蒸气机;鲁班从植物的小齿中发明了锯子……我在生活中也有些小发现,在这儿拿出来跟大家分享一下吧!
那是我8岁的时候。一天,我注意到我家的小猫举动异常:没事的时候总爱用爪子抓门;从铁门缝跳出或跳进时总把头晃一下,晃了以后,有时不跳进来或跳出去,然后在原地“喵喵”乱叫,小猫的行为真是太奇怪了。于是,我打算重出江湖,调查这“诡异”现象。
为了调查,我拿出“武器”——《百科全书》、《十万个为什么》,戴上墨镜、口罩和手套,冲向了调查对象——小猫。小猫见我来势汹汹,杀气腾腾,大惊失声,连“喵”带跑冲向大门。我来个急刹车,从侧门冲出,逮住了正要从大门“越狱”的小猫。 我不等小猫喊半声“冤枉”,我便把它押(准确地说是抱)入客厅,拿出“捆仙索”,对准小猫来个五花大绑,开始了我的研究。我对小猫抓门的动作进行分析,决心从爪子入手,开始研究。我强制性地逼近小猫“亮出法宝”,对爪子仔细研究后,翻开《十万个为什么》查找有关“猫”的知识。皇天不负有心人,我终于找到了。原来,猫太久没有抓老鼠,爪子会长长,以后,抓老鼠就会变得极不方便,它们便会寻找可以磨爪子的东西磨它们的爪子,使爪子不会变得迟钝。哼哼,果然难不倒我。下一个问题我也如法炮制,可这回却找不到答案。也难怪,谁会研究猫怎么跳铁门缝呢?我决心自己解决。我先推断出胡子跟这个问题有绝对性的关系,再量出猫胡子的长度与身体最宽处的长度,一比较,完全相同,我不禁乐开了花,原来,猫身上也有小型工具呀!小猫晃脑袋,其实是在测量铁门缝的大小,才确定是否可以跳进跳出,真有意思!
这就是我的发现,一个小小的发现,只要我仔细观察身边的事物,一定会有更加重大的发现的!
发现
时光荏苒,还没有来得及收拾稚嫩的行装,就被推上了青春的列车,繁重的学习任务让我烦躁。傍晚,天空中低浮着灰色的云,烟雨蒙蒙,撑着伞,漫无目的地在湿漉漉的地面上挪动,耳畔刺耳的鸣笛声响得痛心,收起雨伞,向家跑去,任雨滴洒在身上,让他们和我一起悲伤
走进书房,倒出一兜作业,看到那份赫然批写着“73”的数学周测卷子。我茫然的望着那由于红笔用力过度而被划烂的卷子,心想着数学老师在批改时的生气。我便感觉到了前所未有的压抑。看着眼前的试卷和绞尽脑汁都想不出来的难题,我再也无法忍受了。将写了一半的练习题使劲地划掉,扔到了一旁
推开阳台上的门,迎面扑来的风中夹杂着些许的寒意,身体无法扛起满身的疲倦,无力的依靠在墙上,耳畔不时回想起班主任的批评“你看你现在的学习状态,难道进入班级前五名就可以懈怠了吗?”成绩下滑的趋势以及老师给予我的厚望让我心生惭愧,没有写完的英语作文,一塌糊涂的物理计算,惨不忍睹的数学试卷,让我曾经的一身的光芒都消失不见,贴上了“失败者”的标签。“难道要这样一路衰败到最后吗?”我在心中大声的问自己。
此时望着窗外被狂风肆虐却依然挺立苍翠欲滴的柳树,我不再悲哀,取而代之的是一丝微笑。虽然前面是充满玄机的万丈深渊,深不可测。但只要让微笑的阳光洒满心头,前面就是漫天飞舞的樱花,绚丽多姿,后面就是芬芳扑鼻的牡丹,姹紫嫣红,左面右面就是宽阔平坦的康庄大道,昭示成功。此后的日子里,我仿佛脱胎换骨,浑身洋溢着奋进的激情和青春的活力,我发现,一旦微笑的魔力注入体内,我们就可以向命运,向一切困难宣战!我成了名副其实的年级佼佼者。
我不再一味悲伤,不再犹豫彷惶,因为我是花季少年,我是初生牛犊,指点江山,激扬文字,敢与天空试比高应成为青春的见证,见证心静如水后的气贯长虹,见证山重水复后的柳暗花明。
我的发现
生活在不断的发现中成长,从小到现在有过很多发现,但记忆犹新的是那天。
母亲一如既往地拖着疲惫的身子回到了家中。看到妈妈疲惫不堪,我便帮妈妈洗菜。妈妈笑了,像冬天里的第一缕阳光洒在身上,暖暖的。晚上,妈妈不看电视陪我挑灯夜读。当我摆平如山的作业时,我突然想帮妈妈梳头。因为第二天要上学,妈妈不同意。经对“母亲大人”“艰苦细致”的思想工作,有了5分钟的时间。我飞一般冲向洗手间,拿上梳子帮妈妈梳头。
不经意中,我发现几根白发在乌黑的亮发中显得格外刺眼。我以为是偶然,便没多在意。但梳着梳着,我发现了不少银发。顿时,我的心被一种酸酸的、涩涩的、无以名之的东西碰到了。我的心不由得一荡——母亲添了白发
觉之中,眼泪湿润了眼角。透过朦胧,隐约中,妈妈的教导又在耳畔回荡。一字一字,一句一句,是那么清晰,全是为了我;隐约中,又见母亲因工作要赶稿,在百忙之中,也要抽出仅有的时间来伴我学习;隐约中,又见妈妈忙了一天,晚上为我不会的题不厌其烦的讲解,直到会为止;隐约中看见,我取得好成绩时,妈妈笑了,那么甜,银发也知趣地跑开了;隐约中……
为了我,妈妈劳苦工作着,我要什么给什么。为我做的一切,她只是奉献,不要回报。她做的一切都是为了我,为了我的光明前程奔波劳累。有多少次,我想对妈妈说:别太劳累了,注意身体,我爱你,一定会好好学习的。
在微风吹拂下的夜晚,我摸着妈妈的头发,尽管有白发,但给我感觉是柔柔的,很凉爽。在如水的月色下,妈妈的头发亮亮的。我拭去眼泪,从回忆中拉回自己,给妈妈梳头。感觉很好,之前的苦涩已无影无踪了。我觉得我是世界上最幸福的人了。
我一定好好学习,让妈妈开开心心过好每一天。不需要太多的承诺,我会用实际行动回报您——我的母亲。
这个发现是我奋发向前!
春天的发现
早春二月,春风迎面吹来,春姑娘向大地铺下绿毯,让大地万物复苏。我扯着春姑娘的花衣裙来到这个鸟语花香,花红柳绿的大地上。
看,那在秋天里枯老,冬天里“安眠”的小草,在春姑娘的叫喊声下一下子苏醒了过来。它披上绿衣,张望着这似曾相识的世界,开始新的生命,新的生活。路边垂柳舒枝展叶,嫩绿色的柳芽冒出了头。轻柔的枝条在春风的抚摸下时而欢快地跳起舞,时而向大树伯伯们表演着各种精彩的杂技,时而向路人招手问好。柳条妹妹可真是活泼啊。春风就像一双心灵手巧的手,不仅染绿了枝头,还让鲜绿色的嫩叶回到了树妈妈的怀抱,把鼓圆了的野果挂在了树枝杈上。花丛中,美丽的花朵们有的还在含苞吐蕾,有的展现出婀娜多姿的身材争奇斗艳,有的绽放出迷人的笑脸向路人示好……蜜蜂也来捧场,在花丛中歌唱,惹得蝴蝶来伴舞。
春雨踏着轻盈的步子来了。要问春姑娘的乐队是谁?非春雨莫属了。听,春雨的交响乐开始了。它们在地上“沙沙”歌唱,在树丛中“吧嗒”作响,在小河里“滴沥”奏乐……到处都是春雨奏出的春之歌。春雨不仅是春姑娘的乐队,还是春姑娘手了的绣花针呢。春雨一针一线地织出了景色怡人的山水画,织出了鲜艳、茂盛的花草树木,织出了仙境般的大地。慢慢地,路地上还淌起了许多的“小溪”。雨点射在“小溪”里,溅起了一朵朵银色的花,射出了一圈圈的涟漪。
春雨无声无息地走了,留下的是一幅令人赞叹不已的画面。原本透明的蔚蓝色的天空被洗得非常得明净,没有半缕云丝。那些星星点点地点缀在草地上的野花变得更加小巧玲珑、可爱迷人了。燕子嘴里哼着春天的赞歌从树梢上掠过。小草上、树叶尖上出现了晶莹剔透的,珍珠般的露……到处都是一片和谐的美。
记得那是一个阳光明媚的早上,我们正在上着一节语文课。老师正在绘声绘色地讲着一篇课文。过了一会儿,老师停了下来,问了我们一个比较难的问题。教室里一片寂静,大家都在认真地思考着这个问题,过了很长时间,仍然没有人举手。
我在做着思想斗争:回答吧,答错了又怕同学笑话我;不回答,就失去了这次的机会。最终我还是举手了。老师叫了我起来回答问题,我回答得很好,还赢得了大家热烈的掌声。我在想:我的`选择是正确的,如果不举手,表现的机会不也没了吗?
就在那一刹那间,我发现了最勇敢的自我。
还有一次,老师突然到班里宣布要开联欢会,并且让大家积极准备节目参加。我眉头紧锁,一直思考着参不参加。在班里,我一直是一个很文静的女生,也没有多少朋友,喜欢一个人呆在一边。如果参加,一定会遭来大家的议论的。可我要是参加,正是一个表现的机会,可以使大家重新认识我。我下定决心参加了。
我每天在家刻苦的排练,等待那一天的到来。该我上场了,我深吸了一口气,开始表演舞蹈。此刻,我觉得自己犹如一只美丽的孔雀,正在聚精会神地跳着舞。一支舞跳完,大家都给予了赞许的掌声和目光。
刹那间,我发现了最美丽的自我。
是啊!人也许就是这样吧,等发现了远处的,却又才知道其实自己想要的东西就在自己的旁边,如果细心一点,也许就不用妈妈跑那么远了。这件事让我知道了,无论做什么事情,总是要细心去观察,等到确定后,再做决定!
妈妈回来了,我看她大包小包的提着。我问她是什么?她说这些全是在去买奶茶的途中买的,因为路虽然远,可是旁边却又那么多好吃的,其实自己也没损失啊!我开心的吃起来。我跟老妈说,我不知道我们旁边就已经有奶茶店了,要是早知道你就不用跑那么远了,老妈笑了起来,叫我吃东西吧,别凉了!我呆了一下,终于,我懂了。我和妈妈也同时给自己的人生上了一堂不错的课!
那天,我打电话叫同学——熊方楠去学校里打乒乓球,熊方楠答应了,我们在校园里展开了激烈的乒乓球对打,心里欢快极了。然而就在我去捡球的时候,双脚一不小心踏在乒乓球上,把球踩扁了。没了球,非常扫兴,我们只好各自回家了。
回到家里,我手握着踩扁的球,一边玩,一边叹气,一不小心又把乒乓球弄到了爷爷那杯滚烫的热水里。我手忙脚乱,好不容易,才将乒乓球弄出杯子。这时,我傻眼了,乒乓球居然又重新鼓胀了起来,这个发现让我百思不得其解。
我连忙跑进书房去查《十万个为什么》才发现,原来乒乓球会鼓起来,是借助了热胀冷缩的原理。这次的发现让我增加了许多知识。
【寒假的发现话题作文】推荐阅读:
寒假作文:我发现家乡的美12-16
有关发现的话题作文07-26
发现为话题的高中作文800字09-10
以发现为话题的500字作文10-04
关于以发现为话题的作文500字09-29
我在生活中的发现话题作文01-04
初一以发现为话题的写事作文06-03
生活为话题的作文:生活中的发现400字12-26
我发现了母爱话题作文10-02
我发现了美600字话题作文10-28