浅谈万维网上的数据挖掘

2022-09-13 版权声明 我要投稿

一、数据挖掘背景

1. 数据挖掘的研究意义

知识是当今世界一种最重要的财富

KDD技术:发现知识的一种有效手段

万维网为KDD技术提供了新的挖掘源

万维网特点:海量, 开放, 动态, 分布, 异构

网络挖掘应运而生

网络挖掘研究具有理论和实践上的双重价值

2. 数据挖掘的定义与研究内容

定义1:从万维网中发现有趣的、潜在有用的、最终可理解的模式的非平凡过程

定义2:一种从万维网中发现、抽取有用知识并加以利用, 以改善网络信息的利用效率和效果的过程 (技术)

研究范畴:网络内容挖掘——基于网页内容

网络结构挖掘——基于WWW组织和超链结构

网络使用挖掘——基于用户行为

二、网络内容挖掘

研究主要集中在网络信息表示和描述, 信息采集, 过滤和提炼, 重复数据消除, 数据模式抽取, 数据模型表示, 异构集成和存储, 文本分类与聚类, 基于文本内容的查询和优化, 数据仓库及OLAP以及基于XML的上述专题研究

1. 网络信息表示和描述

网络对象描述的多层信息库及其数据立方体建立, 根据具体情况确定需建立的信息描述信息库 (layer1) , 根据用户存取模式, 对上述描述表进行属性缩减 (layer2) , 进一步利用概念层次, 对Layer2表进行归纳泛化 (layer3) , 不同层次数据库可满足不同深度要求的信息检索和处理需要, 可以进一步建立数据立方体, 进行各种OLAP操作。

2. 网络检索与挖掘语言设计

(1) Web SQL。多伦多大学设计的第一代网络查询语言, 采用经典的SQL语法格式, 使用两个虚拟关系:

Web SQL将基于内容 (文档内的文本模式) 的查询和基于结构 (图形模式) 的检索结合起来, 利用其他搜索引擎完成实际的检索操作。

(2) W3QL。也是第一代Web查询语言, 类似于Wbe SQL, 不同之处是允许使用用户编写的外部程序和Unix命令, 将文档作为含有文本模式和指向其他文档的指针的原子对象处理。

(3) Web Log。Concordia大学设计的第2代网络查询语言, 是基于演绎规则而不是SQL语法, 类似Prolog, 将网络文档看成由分隔符隔开的相关信息群。

(4) Web OQL。多伦多大学设计的第二代网络查询语言, 其处理和反馈的数据模型均为超树和网络 (图) , 能够对超文本、半结构数据和基于记录的数据进行查询和重构。Web OQL是一种函数语言, 但其语法是SQL形式, 类似于面向对象查询语言OQL。

(5) Web ML。Simon Fraser大学设计的一种集网络信息检索和模式挖掘功能于一体的语言, 也采用类似于SQL的语法。

特点是能表达多种知识挖掘需求, 其实用性有待检验。

3. 信息过滤

目标: (1) 滤除检索结果中的无用数据; (2) 主动提供用户所需信息

思想:将用户的需求表示成profile, 据此进行信息过滤

方式: (1) 用户主动设定信息需求 (2) 利用用户对网页的评价获取用户需求 (3) 监视和分析用户检索获取需要 (4) 基于示例学习的网页过滤 (5) 利用关键词、规则或分类信息来表达用户需求

4. 网页分类

目标:将网页 (自编/采集的) 自动分类到相应类别中减轻人工分类负担技术:以文本分类技术为基础, 并利用网页标记信息

5. 网页聚类

目标: (1) 辅助建立信息分类体系 (2) 提高检索效率技术:层次聚类法, 基于模型方法, 基于密度方法。

6. 网页摘要

目标:自动建立一个网页或一组网页的摘要信息, 方便用户浏览

技术:聚类+文本摘要+页面结构抽取

三、网络结构挖掘

基于WWW组织和超链结构的网络挖掘形式, 不仅仅局限于文档之间的超链结构, 还包括文档内部的结构、文档URL中的目录路径结构等。

1.网络虚拟视图生成与网络导航。2.信息分类体系与索引结构重组。3.利用超文本结构信息进行文本分类。4.根据引用关系确定文本重要性。

四、网络使用挖掘 (Web Usage Mining)

从用户对网络的使用方式和行为中挖掘有用模式, 主要是针对user access Logs的挖掘目标: (1) 分析系统性能 (2) 改进系统设计 (3) 理解用户意图。

相关研究:

(1) 用于导航的用户虚拟视图生成。 (2) 基于用户群体共同兴趣的信息推荐。 (3) 基于用户个性化搜索兴趣模式学习的服务定制。 (4) 在网络日志上应用OLAP并进行数据挖掘。

五、小结

在信息时代快速成长起来的万维网导致各种各样的公用信息被大量分发。不幸的是, 尽管作为信息主要载体的HT-ML提供了一种方便地向读者呈现信息的方法, 但它可能并不是一个很好的可以从中自动抽取与数据驱动的服务或应用程序相关的信息的结构。使用标准Web技术——HTML、XML和Java——开发的一种基于Web的数据挖掘方法。这种方法即使不比其他专用方法更强大, 也和其他方法不相上下, 并且对于那些已经熟悉Web技术的人来说, 只需要付出很少的努力就可以收到很好的效果。

摘要:文中从五个方面谈论万维网上的数据挖掘, 网络挖掘背景、网络内容挖掘、网络结构挖掘、网络使用挖掘、工作。

关键词:万维网,数据挖掘

上一篇:环烷酸对离心泵的腐蚀与防护下一篇:美沙拉嗪联合中药灌肠治疗溃疡性结肠炎的临床观察