甲骨文大数据课程

2024-12-20 版权声明 我要投稿

甲骨文大数据课程(共7篇)

甲骨文大数据课程 篇1

流形学习方法作为一类新兴的非线性维数约简方法,主要目标是获取高维观测数据的低维紧致表示,探索事物的内在规律和本征结构,已经成为数据挖掘、模式识别和机器学习等领域的研究热点。流形学习方法的非线性本质、几何直观性和计算可行性,使得它在许多标准的 toy 数据集和实际数据集上都取得了令人满意的结果,然而它们本身还存在着一些普遍性的问题,比如泛化学习问题、监督学习问题和大规模流形学习问题等。因此,本文从流形学习方法存在的问题出发,在算法设计和应用(图像数据与蛋白质相互作用数据)等方面展开了一系列研究工作。首先对流形学习的典型方法做了详细对比分析,然后针对流形的泛化学习和监督学习、表征流形的局部几何结构、构造全局的正则化线性回归模型、大规模数据的流形学习等几个方面进行了重点研究,提出了三种有效的流形学习算法,并和相关研究成果进行了理论与实验上的比较,从而验证了我们所提算法的有效性。

关键词:流形学习,维数约简,正交局部样条判别投影,局部多尺度回归嵌入

I

目录

目录.................................................................................................................................................II 第1章 研究背景.......................................................................................................................1

1.1 流形学习的研究背景...................................................................................................1 1.2 流形学习的研究现状...................................................................................................2 1.3 流形学习的应用...........................................................................................................4 第2章 流形学习方法综述.......................................................................................................5

2.1 流形学习方法介绍.......................................................................................................6 第3章 流形学习方法存在的问题...........................................................................................9

3.1 本征维数估计...............................................................................................................9 3.2近邻数选择.................................................................................................................10 3.3 噪声流形学习.............................................................................................................10 3.4 监督流形学习.............................................................................................................11 第4章 总结.............................................................................................................................11

II

第1章 研究背景

1.1 流形学习的研究背景

随着信息时代的到来,使得数据集更新更快、数据维度更高以及非结构化性等问题更突出。在科研研究的过程中不可避免地遇到大量的高维数据,这就需要一种技术能够使在保持数据信息足够完整的意义下从海量数据集中提取出有效而又合理的约简数据,满足人的存储需求和感知需要。流形学习这一非监督学习方法应运而生,引起越来越多机器学习和认知科学工作者的重视。而在海量的高维数据中,往往只有少量的有用信息,如果想快速高效的搜集到人们想要的、有用的那些少量信息且快速的处理信息,这就需要一些关键技术的支持,即是必须采用相应的降维技术。而流形学习正是在数据降维方面有着重要的贡献。然而,降维的过程与《矩阵分析》中的内容有着密切的关系。

基于流形的降维方法能充分利用数据中所隐藏的低维有价值信息,进一步提高检索性能。Seung从神经心理学的角度提出“感知以流形的形式存在,视觉记忆也可能是以稳态的流形存储”,为流形提供了与人类认识相关的理由。流形学习的方法主要有主成分分析(PCA)、多维尺度化(MDS)、基于局部切空间排列法(LTSA)和基于等度规映射(ISOMAP)、局部线性嵌入算法(LLE)、拉普拉斯特征映射(LE)等。另外,流形学习方法在人脸识别、图像处理、模式识别、计算机视觉、认知科学、人工智能、人机交互等众多学科中有着广泛的应用。

线性维数约简方法是通过在高维输入空间与低维子空间之间建立线性映射关系,把高维数据样本集投影到低维线性子空间。线性维数约简技术通常假设数据集采样于一个全局线性的高维观测空间。如果所要处理的数据集分布确实呈现出全局线性的结构,或者在一定程度上可以近似为全局线性结构,则这些方法能够有效地挖掘出数据集内在的线性结构,获得数据紧致的低维表示。在线性维数约简方法中,使用最广泛的算法有主分量分析(Principal Component Analysis, PCA)(Jolliffe, 2002;Turk and Pentland, 1991)和线性判别分析(Linear Discriminant Analysis, LDA)(Duda et al., 2001)。

主分量分析(PCA)主要是根据高维数据在低维空间重构误差最小的原则,来寻找一组最优的单位正交向量基(即主分量),并通过保留数据分布方差较大的若干主分量来达到降维的目的。然而,众所周知,由于 PCA 算法没有利用数据样本的类别信息,所以它是一种非监督的线性维数约简方法。与 PCA 算法不同,LDA 算法考虑到样本的类别信息,它是一种有监督的方法。基于各类样本服从高斯分布且不同类的协方差矩阵相同的假设,LDA 算法在 Fisher 准则下选择最优的投影向量,以使得数据样本的类间散度最大而类内散度最小。由于 LDA 算法利用了样本的类别信息,而样本的类别信息通常有助于改善识别率,因此 LDA 算法更适用于分类问题。

1.2 流形学习的研究现状

流形学习假定输入数据是嵌入在高维观测空间的低维流形上,流形学习方法的目的是找出高维数据中所隐藏的低维流形结构。经过十多年的研究与探索,人们提出了大量的流形学习理论与算法。经典的流形学习方法有等距特征映射算法(ISOMAP)(Tenenbaum et al., 2000)、局部线性嵌入算法(LLE)(Roweis and Saul, 2000;Saul and Roweis, 2003)、Laplacian 特征映射算法(Laplacian Eigenmaps,LE)(Belkin and Niyogi, 2002;Belkin and Niyogi, 2003)、Hessian特征映射算法(Hessian-based Locally Linear Embedding,HLLE)(Donoho and Grimes, 2003)、最大差异展开算法(Maximum Variance Unfolding,MVU)(Weinberger et al., 2005;Weinberger and Saul, 2004;Weinberger and Saul, 2006;Weinberger et al., 2004)、局部切空间排列算法(Local Tangent Space Alignment, LTSA)(Zhang and Zha, 2004)、黎曼流形学习算法(Riemannian Manifold Learning, RML)(Lin and Zha, 2007;Lin et al., 2006)和局部样条嵌入算法(Local Spline Embedding,LSE)(Xiang et al., 2006;Xiang et al., 2008)等。

Tenenbaum 提出的 ISOMAP 算法是多维尺度分析(Multidimensional Scaling, MDS)(Cox and Cox, 1994)在流形框架下的非线性推广,其核心思想是用测地距离代替欧氏距离来表征流形上数据点的内在几何关系。对于样本 点和它的近邻点之间的测地距离用它们之间的欧氏距离来代替;对于样本点和近邻点之外的点之间的测地距离用它们之间的最短路径来代替。Bernstein 等人证明了只要样本是随机抽取的,在样本集足够大且选择适当近邻参数k 时,近邻图上两点的最短路径可以逼近它们的测地距离(Bernstein et al., 2000)。当应用于内蕴平坦的凸流形时,ISOMAP 算法能够忠实地捕获数据内在的低维流形结构(De Silva and Tenenbaum, 2003)。

ISOMAP 算法的主要缺点在于:① 对样本点的噪声比较敏感;② 对于具有较大曲率或稀疏采样的数据集,不能发现其内在的本征结构;③ 需要计算全体数据集的测地距离矩阵,因此算法的时间复杂度较高。围绕 ISOMAP算法,已经出现了许多相关的理论分析与研究工作。

Balasubramanian 等人对ISOMAP 算法的拓扑稳定性进行了深入探讨(Balasubramanian and Schwartz, 2002)。对于数据分布所在的低维流形具有较大的内在曲率情况,de Silva 和Tenenbaum 提出了保角等距特征映射算法(conformal ISOMAP)(De Silva and Tenenbaum, 2003)。为了减小 ISOMAP 算法的计算复杂度,de Silva 和 Tenenbaum提出了带标记的等距特征映射算法(Landmark ISOMAP)(De Silva and Tenenbaum, 2003)。

针对 ISOMAP 算法对于数据集噪声敏感的问题,Choi 等人通过观察图中的网络流提出了一种消除临界孤立点的方法以加强 ISOMAP 算法的拓扑稳定性(Choi and Choi, 2007)。在构建近邻图方面,Yang 提出通过构造k 连通图方式来确保近邻图的连通性,以提高测地距离的估计精度(Yang, 2005)。

2009 年,Xiang 等人提出了局部样条嵌入算法(LSE)(Xiang et al., 2006;Xiang et al., 2008)。Xiang 认为,对于嵌入在高维输入空间的低维流形,非线性维数约简的任务实际上是寻找一组非线性的复合映射,即由局部坐标映射(Local Coordinatization Mapping)与全局排列映射(Global Alignment Mapping)复合而成的兼容映射(Compatible Mapping)。在兼容映射的概念框架下,LSE 算法首先通过主分量分析计算每个样本点局部邻域在切空间上的投影获得该邻域所有样本的局部坐标,从而保持流形的局部几何结构信息;然后采用Sobolev 空间的一组样条函数把每个样本点的局部坐标映射成 全局唯一的低维坐标。它们均是利用每个样本的局部切空间来捕获流形的局部几何,样本点在切空间的投影来表示样本点的局部坐标。然而它们的主要区别在于全局排列,LTSA 算法是利用仿射变换来进行全局排列,而 LSE 算法是利用样条函数来获得全局唯一的坐标。因此相对于 LTSA 而言,LSE 算法能够实现更小的重构误差。LSE 算法的主要缺点在于:一是无法保持全局尺度信息;二是不能学习具有较大曲率的低维流形结构。除此,如何选择满足要求的样条函数也是一个值得考虑的问题。

不同流形学习算法的区别在于所尝试保持流形的局部邻域结构信息以及利用这些信息构造全局嵌入的方法不同,与以往的维数约简方法相比,流形学习能够有效地探索非线性流形分布数据的内在规律与性质。但是在实际应用中流形学习方法仍然存在一些缺点,比如本征维数估计问题、样本外点学习问题、监督流形学习问题和噪声流形学习问题等。为了解决这些问题,相关的算法也不断涌现出来。Freedman 等提出了一种基于简化单纯复形的流形重构方法来自动估计流形的本征维数(Freedman, 2002)。

为了解决样本外点学习问题,研究人员分别在流形学习的线性化、核化和张量化等方面作了有益的探索(Yan et al., 2007)。Geng 等将样本的类别信息融入到 ISOMAP 算法,提出了一种用于可视化和分类的有监督的等距特征映射算法(S-ISOMAP)(Geng et al., 2005)。Zhang 等提出了一种基于局部线性平滑的流形学习消噪模型(Zhang and Zha, 2003)。这些方法的提出在一定程度上缓解了目前流形学习方法中存在的一些问题,但是还需要进一步充实和完善。

1.3 流形学习的应用

目前,流形学习方法的应用可归纳为以下几个方面:

1)数据的可视化。流形学习方法在高维数据的可视化方面有了广泛的应用。人不能直接感知高维数据的内部结构,但对三维以下数据的内在结构却有很强的感知能力。由于流形学习方法可以发现高维观测数据中蕴含的内在规律和本征结构,而且这种规律在本质上不依赖于我们实际观测到的数据维数。因此我们可以通过流形学习方法 对高维输入数据进行维数约简,使高维数据的内部关系和结构在低于三维的空间中展示出来,从而使人们能够直观地认识和了解高维的非线性数据的内在规律,达到可视化的目的。

2)信息检索。随着多媒体和网络技术的迅猛发展,图像和文本信息的应用日益广泛,对规模逐渐庞大的图像和文本数据库如何进行有效的管理已成为亟待解决的问题。灵活、高效、准确的信息检索策略是解决这一问题的关键技术之一。这些图像和文本信息呈现出高维、大规模、非线性结构,利用流形学习方法来处理这些信息,在大大降低时间和空间计算复杂度的同时,能够有效地保留这些信息在原始高维空间的相似性。

3)图像处理。流形学习给图像处理领域提供了一个强有力的工具。众所周知,图像处理与图像中物体的轮廓以及骨架等密切相关。如果我们把图像中物体的轮廓以及骨架等看成是嵌入在二维平面中的一维流形或者由一组一维流形构成,那么显然流形学习方法凭借其强大的流形逼近能力可以应用于图像处理领域。

第2章 流形学习方法综述

流形学习方法作为一种新兴的非线性维数约简方法,主要目标是获取高维观测数据的低维紧致表示,探索事物的内在规律和本征结构,已经成为数据挖掘、模式识别和机器学习等领域的研究热点。本章首先探讨了流形学习的基础性问题,即高维数据分析的流形建模问题;然后依据保持流形几何特性的不同,把现有的流形学习方法划分为全局特性保持方法和局部特性保持方法,并介绍了每一类方法中有代表性的流形学习算法的基本原理,对各种流形学习算法进行性能比较和可视化分析,最后就流形学习方法普遍存在的本征维数估计、近邻数选择、噪声流形学习、样本外点学习和监督流形学习问题等进行了分析和讨论。2.1 流形学习方法介绍

流形学习的定义:流形是局部具有欧氏空间性质的空间。假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。它是从观测到的现象中去寻找事物的本质,找到产生数据的内在规律。

流形学习用数学语言描述是:令Yyi且: Y是一个光滑的嵌套,其中D >> d。那么流形学习的目标是基于上的一个给定被观测数据集合xi去恢复Y与,也就是在Y 中随机产生隐藏的数据yi,然后通过 映射到观测空间,使得xifyi。

从流形学习的定义中可以看出,这是一个把数据从高维映射到低维的过程,用到了线性变换,当然少不了矩阵的分解及其基本运算。2.1.1 多维尺度分析(Multidimensional Scaling, MDS)

多维尺度分析(Multidimensional Scaling, MDS)是一种经典的线性降维方法,其主要思想是:根据数据点间的欧氏距离,构造关系矩阵,为了尽可能地保持每对观测数据点间的欧氏距离,只需对此关系矩阵进行特征分解,从而获得每个数据在低维空间中的低维坐标。

DDDxx设给定的高维观测数据点集为YU,i,观测数据点对i,Tyj间的欧氏距离为ijxiyj,传统MDS 的算法步骤如下:

a)首先根据求出的两点之间的欧氏距离

ij构造n阶平方欧式距离矩阵Aij2 nn。b)将矩阵A进行双中心化计算,即计算

B1HAH2(其中H 为中心化eeTHIn,将矩阵H左乘和右乘时称为双中心化)矩阵。

c)计算低维坐标Y。即将B奇异值分解,设B的最大的d个特征值diag1,2,...,dYUT。

u1,u2,...,ud则d维低维坐标为,对应特征向量,U虽然作为线性方法,MDS在流形学习中不能有效发现内在低维结构。但是从这一基本的算法中我们可以清楚的看出矩阵分析在流形学习研究中的应用。在这个MDS算法中,运用到了矩阵中的线性空间变换、矩阵特征值和特征向量的计算、矩阵的中心化计算、矩阵的奇异值的分解等相关知识点。想象一下,如果没有这些知识点做基础,这些算法如何进行。2.1.2 等距特征映射(ISOMAP)

(1)基本思想:Tenenbaum等人提出的等距特征映射算法(ISOMAP)是建立在多维尺度分析(MDS)基础上的一种非线性维数约简方法。ISOMAP算法利用所有样本点对之间的测地距离矩阵来代替MDS算法中的欧氏距离矩阵,以保持嵌入在高维观测空间中内在低维流形的全局几何特性。算法的关键是计算每个样本点与所有其它样本点之间的测地距离。对于近邻点,利用输入空间的欧氏距离直接得到其测地距离;对于非近邻点,利用近邻图上两点之间的最短路径近似测地距离。然后对于构造的全局测地距离矩阵,利用MDS算法在高维输入空间与低维嵌入空间之间建立等距映射,从而发现嵌入在高维空间的内在低维表示(Tenenbaum et al., 2000)。

(2)算法流程 <1>构造近邻图G

<2>计算最短路径

<3>计算 d 维嵌入(3)算法分析 ISOMAP算法是一种保持全局几何特性的方法,它的低维嵌入结果能够反映出高维观测样本所在流形上的测地距离。如果高维观测样本所在的低维流形与欧氏空间的一个子集是整体等距的,且与样本所在流形等距的欧氏空间的子集是一个凸集,那么ISOMAP算法能够取得比较理想的嵌入结果。但是当流形曲率较大或者流形上有“孔洞”,即与流形等距的欧氏空间的子集非凸时,流形上的测地距离估计会产生较大的误差,导致嵌入结果产生变形。

从算法的时间复杂度来看,ISOMAP算法有两个计算瓶颈(De Silva and Tenenbaum, 2003)。第一个是计算n×n 的最短路径距离矩阵DG。当使用Floyd算法时,计算复杂度为O(n3);若采用Dijkstra算法,可将计算复杂度降低到O(kn2log n)(k 为近邻数大小)(Cormen, 2001)。第二个计算瓶颈源于应用MDS时的特征分解。由于距离矩阵是稠密的,所以特征分解的计算复杂度为O(n3)。从中我们可以看出,随着样本个数n 的增大,ISOMAP算法计算效率低下的问题会变得十分突出。2.1.3局部线性嵌入(LLE)

1、基本思想

与ISOMAP和MVU算法不同,局部线性嵌入算法(LLE)是一种局部特性保持方法。LLE算法的核心是保持降维前后近邻之间的局部线性结构不变。算法的主要思想是假定每个数据点与它的近邻点位于流形的一个线性或近似线性的局部邻域,在该邻域中的数据点可以由其近邻点来线性表示,重建低维流形时,相应的内在低维空间中的数据点保持相同的局部近邻关系,即低维流形空间的每个数据点用其近邻点线性表示的权重与它们在高维观测空间中的线性表示权重相同,而各个局部邻域之间的相互重叠部分则描述了由局部线性到全局非线性的排列信息(Roweis and Saul, 2000)。这样就可以把高维输入数据映射到全局唯一的低维坐标系统。

2、算法流程

LLE算法的基本步骤分为三步:(1)选择邻域(2)计算重构权值矩阵W(3)求低维嵌入Y

3、算法分析

通过前面算法描述我们不难发现,LLE算法可以学习任意维具有局部线性结构的低维流形。它以重构权值矩阵作为高维观测空间与低维嵌入空间之间联系的桥梁,使得数据点与其近邻点在平移、旋转和缩放等变化下保持近邻关系不变。而且LLE算法具有解析的全局最优解,无需迭代。在算法的计算复杂度上,选择邻域的计算复杂度为O(Dn2),计算重构权值矩阵的计算复杂度为O((D+k)k2n),求解低维嵌入Y 的计算复杂度为O(dn2)。因此与ISOMAP和MVU算法相比,LLE算法的计算复杂度要小得多。

但LLE算法也存在一些缺点:① 由于LLE算法只是保持局部近邻的重构权值关系,并不是保持距离关系,因此,LLE算法通常不能很好的恢复出具有等距性质的流形。② LLE算法希望样本集均匀稠密采样于低维流形,因此,对于受噪声污染、样本密度稀疏或相互关联较弱的数据集,在从高维观测空间到低维嵌入空间的映射过程中,可能会将相互关联较弱的远点映射到局部近邻点的位置,从而破坏了低维嵌入结果。

第3章 流形学习方法存在的问题

流形学习相对于传统的线性维数约简方法来说,它能够更好地发现高维复杂非线性数据内在的几何结构与规律。但其各种算法本身还存在着一些普遍性的问题,比如本征维数估计问题、近邻数选择问题、噪声流形学习问题、泛化学习问题和监督学习问题等。本小节将对这些问题进行简要的分析和讨论。

3.1 本征维数估计

本征维数估计是流形学习的一个基本问题(赵连伟 et al., 2005)。本征维数一般被定义为描述数据集中所有数据所需要的自由参数(或独立坐标)的最小数目。它反映了隐藏在高维观测数据中潜在低维流形的拓扑属性。在非 线性维数约简过程中,本征维数估计的准确与否对低维空间的嵌入结果有着重要的影响。如果本征维数估计过大,将会保留数据的冗余信息,使嵌入结果中含有噪声;相反如果本征维数估计过小,将会丢失数据的有用信息,导致高维空间中不同的点在低维空间可能会交叠。因此,设计稳定可靠的本征维数估计方法将有助于流形学习算法的应用和性能的改善。

目前现有的本征维数估计方法大致分为两大类:特征映射法和几何学习法(Camastra, 2003)。特征映射法包括全局 PCA 方法(Bennett, 1969)、局部 PCA 方法(Bruske and Sommer, 1998;Fukunaga and Olsen, 1971)和多维尺度分析方法(Cox and Cox, 2000),它主要利用了数据分布的本征特征是数据的局部特征的基本思想,对局部数据进行特征分解,选取对应特征值最大的特征向量作为本征特征。显然,这类方法所估计的本征维数大小在很大程度上取决于数据的局部邻域划分和阈值的选择,因此特征映射方法不能提供本征维数的可靠估计。几何学习法主要基于最近邻距离(Nearest Neighbor Distances)或分形维(Fractal Dimension)(Camastra, 2003)来探索数据集所蕴含的几何信息,这类方法通常需要充足的样本数,因此,对于样本数少、观测空间维数较高的情况,经常会出现本征维数欠估计的情况。

3.2近邻数选择

流形学习探测低维流形结构成功与否在很大程度上取决于近邻数的选择(Zeng, 2008),然而在构造近邻图时如何选择一个合适的近邻数是一个公开的问题。如果近邻数选择过大,将会产生“短路边”现象(“short-circuit” edges),从而严重破坏原始流形数据的拓扑连通性。

3.3 噪声流形学习

当观测数据均匀稠密采样于一个理想的低维光滑流形时,流形学习方法可以成功地挖掘出其内在的低维结构和本质规律。但是在实际应用中,我们经常发现高维采样数据由于受各种因素的影响,一般总是存在着噪声和污染,这将势必影响流形学习算法的低维嵌入结果。3.4 监督流形学习

现有的流形学习方法多数用于无监督学习情况,如解决降维与数据可视化等问题。当已知数据的类别信息,如何利用这些信息有效地改进原始流形学习算法的分类识别能力是监督流形学习所要解决的问题。从数据分类的角度来看,人们希望高维观测数据经过维数约简后在低维空间中类内差异小而类间差异大,从而有利于样本的分类识别。原始的流形学习算法都是无监督学习过程,一些引进监督信息的改进算法纷纷被提出来(Li et al., 2009;Zhao et al., 2006)。这些方法的基本思想是利用样本的类别信息指导构建有监督的近邻图,然后利用流形学习方法进行低维嵌入。尽管这些方法能够获得较好的分类结果,但是这种通过类别属性构建的近邻图往往会被分割成多个互不相连的子图,而不是一个完整的近邻图,这就给原始流形学习算法的最终应用带来了很大的不便。

第4章 总结

流形学习是一个具有基础性、前瞻性的研究方向,其研究成果和技术已经立即应用于模式识别、计算机视觉、图像处理等相关领域。如高维数据的可视化、可听化;基于内容检索的模型;视频中三维对象的跟踪和检测;从静态二维图像中进行三维对象的姿态估计和识别;二维和三维对象的形状重构;从运动中构建结构、从阴影中成形等。此外流形学习还应用于自然语言处理、基因表达分析等生物信息处理领域,特别是在基因表达分析中,用于检测和区分不同的疾病和疾病类型。

尽管流形学习的算法和应用在过去的几年中已经取得了丰硕的成果,但是由于其数学理论基础较为深厚复杂,以及多个学科之间交叉融合,所以仍有许多亟需研究和解决的问题,尤其在下述几个方面:

1.目前已有很多流形学习算法,但很多算法只是建立在实验的基础之上,并没有充分理论基础支持,所以我们一方面要进一步探索能够有效学习到流形局部几何和拓扑结构的算法,提高流形投影算法的性能,另外更重要的是要不断完善理论基础。

2.各支几何都是研究空间在变换群下的不变性,微分几何亦是如此。而很多情况下我们正需要这种不变性,所以研究局部样本密度、噪声水平、流形的正则性、局部曲率、挠率结构的交互作用对流形学习的研究有积极促进作用。

3.统计学习理论得到充分发展并逐渐成熟,流形学习理论在其基础上发展自然可以把统计学中有用的技术应用于流形学习中,如流形上的取样和Monte Carlo估计、假设检验,以及流形上关于不变测度的概率分布密度问题,都值得进一步研究。

4.目前大部分学习算法都是基于局部的,而基于局部算法一个很大缺陷就在于受噪声影响较大,所以要研究减小局部方法对于噪声和离群值的影响,提高学习算法鲁棒性及泛化能力。

5.谱方法对噪声十分敏感。希望大家自己做做实验体会一下,流形学习中谱方法的脆弱。

6.采样问题对结果的影响。

7.一个最尴尬的事情莫过于,如果用来做识别,流形学习线性化的方法比原来非线性的方法效果要好得多,如果用原始方法做识别,那个效果叫一个差。也正因为此,使很多人对流形学习产生了怀疑。

8.把偏微分几何方法引入到流形学习中来是一个很有希望的方向。这样的工作在最近一年已经有出现的迹象。

参考文献

甲骨文大数据课程 篇2

大数据 (big data) , 或称巨量资料, 指的是需要新处理模式, 具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。大数据这一热门词汇, 近年来在各行各业中广泛使用, 掀起了一股信息化改革的浪潮。在大数据信息化背景下, 本文针对南京邮电大学统计学专业中保险精算课程的教学内容与教学方法改革进行探讨, 希望结合现代化大数据的定位, 分析合理科学的教育模式和方法, 设计出学生可以接受的授课进程, 使得课堂的培养更适合现代精算市场的需求和发展。

一、保险精算发展的现状与教学中存在的问题

精算学教育常常被学校纳入越来越宽泛的学科领域, 我国高校主要分布在数学与应用数学专业、数学金融专业、计量经济学专业等。以南京邮电大学为例, 理学院统计学系的专业课中就含有保险精算课程。笔者作为一名保险精算课程教师, 结合近年来的教学经历, 分析现有教学模式中存在的问题:

(一) 理论方法难以适应大数据信息。

保险精算学, 从根本上来说是一门预测学科, 用过去的统计数据来预测未来的结果, 保险精算中产品定价一直是业内人士最关心的内容之一。传统的定价方法中, 往往只依据以往索赔资料和简单数据元素即可。在大数据时代背景下, 数据呈现爆炸式累积, 成百上千种的数据出现在资料中, 需要据此来进行分析、定价并预测索赔。在当今的社会中, 信息化的发展使得人们生活发生日新月异的变化, 繁杂的数据层次、各种各样的因素或数据都可以影响理赔的概率, 使得传统的经算方法预测的结果与实际结果相差较远。

(二) 忽视大数据背景下教学实验环节。

目前学校的保险精算课程, 无论是本科生还是硕士生, 往往都惯于用传统的计算器进行简单运算, 甚少使用数据处理软件来进行复杂运算。对于EXCEL、SPSS等软件的计算功能缺乏了解, 即使有人熟悉EXCEL、SPSS软件, 对于如何处理数据也没有掌握。大数据时代的到来, 可能要同时处理海量数据, 就财险来说, 各种各样的因素或数据都可以影响理赔的概率, 因此简单依靠计算器来处理数据的时代已经成为了历史, 学生要想能够适应将来的工作, 必须学会使用多种软件平台来综合处理海量数据, 这就要求平时的教学环节中要充分地重视实验教学。

(三) 理论与实践教学脱节。

“应用型”人才培养是目前教育的一个主要目标, 教学实践在整个教学环节中起着举足轻重的地位。即使在大数据背景下, 实践环节仍然是整个教学体系中的相对薄弱的地方, 主要有以下两方面:一是模型驱动脱离精算实践。现有的实践教学没有以数据为出发点, 反而通过一系列模型的建立来验证模型本身的意义。这样的思路顺序无法适应大数据的要求, 因为建立模型是为了处理现实数据, 不应该以模型本身作为出发点。二是现有的实践教学中, 通常归类为实验课程, 主要讲授的是传统的各种数据分析软件如何来处理数据, 然而真正的保险精算是需要收集数据、建立模型、对产品进行定价, 大数据时代数据是海量的、复杂的, 需要进入实际的保险精算中去学习。

二、适应大数据时代要求的保险精算教学改革设想

(一) 培养大数据精算思维。

在大数据时代, 精算思维的培养显得尤为重要。大数据的4V特点:Volume (大量) 、Velocity (高速) 、Variety (多样) 、Value (价值) , 正是这些特点导致了大数据时代研究的精算数据是多层次、高复杂的。精算思维除了培养传统的同异思维、均值思维、动态思维、关联思维等, 还要培养学生大数据思维, 其中包括容错性、复杂性。思维的建立对数据的分析和应用具有重要意义。

(二) 增强实验教学夯实教学效果。

精算涉及大量的数据计算, 尤其是在大数据背景下, 更需要有软件的支持, 这就要求在日常教学中加强学生对软件的学习与掌握。在教学过程中通过设置一些精算问题, 以实验形式在教师指导下掌握软件使用方法是较好的教学方法。在实验过程中, 学生既明确了精算问题本身, 也掌握了所需的软件分析数据功能。在整个教学过程中可以采用案例采编与分析法, 让学生自己自由组队, 在实际生活中采集课程相关的保险案例, 过一段时间上交案例分析报告, 案例采集的过程主要运用课堂上学到的精算方法和精算知识。实验环节学生分析案例中的具体实例, 教师可以进而有针对性地指导、启发学生创新式思维。另外, 每次案例采集和实验, 让学生提交相应的分析报告, 学生及时反馈教学内容理解和接收程度。

(三) 引入实践教学激发学生的创新意识。

大数据时代的到来, 随着信息技术的发展, 保险标的和保险方式都在发生变化。以车险为例:传统意义下, 保险公司依据驾驶者驾龄、往年驾驶资料、出险次数、交通违规情况等数据资料对客户进行分析, 产生车险产品类型的定价。如今, 基于大数据, 一些车商提出了车联网计划, 实时收集车辆的信息。在车主允许的前提下, 保险公司可以实时采集到大量有用的数据用来车险定价。由此, 日新月异的技术变革使得教学不能仅仅局限在教室中, 以学生兴趣为出发点, 应当鼓励学生积极参加与精算业务相关的社会实践活动, 最好可以深入精算公司中, 分析和解决实际问题, 切实提高学生对实际问题的动手能力、分析能力和综合应用能力, 学校在此方面也要加强校企联合培养模式的深入开展。

三、结语

大数据时代的来临, 强有力地推动着教育信息化发展的浪潮。大数据背景下的保险精算教学中, 不能只是依靠死记有关定理、概念和公式, 而应该强调以基础原理与知识点为依据的大数据精算思维, 结合其理论与方法的应用, 更好地解决实际问题。对教师来说, 教好精算课程的标准是教会同学们选择合适的数据处理方法、并且运用精算思维思考问题和解决实际保险问题。对学生来说, 学好精算课程的标准是能够依据实际问题的需求, 选择合适或最优方法, 有效地解决实际问题。

摘要:日新月异的信息化技术不断地影响着整个社会的发展, 大数据分析、预测建模等思想目前在精算领域受到了广泛重视。随着互联网时代的到来, 大数据分析已经成为了当今教学的重点内容。本文结合“大数据”工程背景, 结合多年的教学实践, 分析保险精算课程教学中的一些改革设想。

关键词:大数据,保险精算,实验教学,案例教学

参考文献

[1]陈倩.大数据背景下对统计学课程教学模式的思考[J].科技资讯, 2013

[2]张宁.大数据背景下寿险产品定价与创新[J].贵州财经大学学报, 2014

[3]孙佳美.精算类课程的实验教学探索[J].教育经济, 2011

甲骨文大数据课程 篇3

“为什么我无法访问决策所需的数据”; “为什么我的应用系统引用的是上周的数据”; “为什么系统内有这么多数据副本,而且其中大部分并不准确?”随着企业规模的迅猛扩张,企业的信息量、数据量呈爆炸式增长,企业的决策者会发现很多诸如此类的问题。

“传统的数据处理方式由于技术限制已无法满足企业需求,只有实时的数据采集方式,才能为企业正确的决策提供精准的数据分析、降低信息延迟、保证快速的业务响应。” 甲骨文公司大中华区产品战略部首席产品战略/解决方案专家萧百龄解释道。

然而当企业决定要实现实时数据时,却发现面临着开发成本难以评估、基础架构可靠性和数据质量无法保证等诸多挑战。针对市场和企业的发展需求,近日,甲骨文公司提供了一个统一的企业级实时数据解决方案——Oracle数据集成解决方案。

据介绍,Oracle数据集成解决方案用于在SOA、BI和数据仓库环境中构建、部署和管理以实时数据为中心的架构,包含了数据集成的所有要素—实时数据移动、转换、同步、数据质量、数据管理和数据服务,能确保各个复杂系统的信息及时、准确、一致。

萧百龄表示,通过使用Oracle数据集成,企业可以将其开发成本降低30%,数据处理速度提高50%,业务流程执行时间减少至少70%。这些成本节省和效率提升对企业适应当今极具挑战性的全球经济环境至关重要。

甲骨文大数据课程 篇4

老男孩教育大数据开发课程适合所有对大数据开发有兴趣的人员,从JavaSE到大数据生态圈高端课程的开发。课程内容量很大,有一定的难度和深度,认真学习,技术会有很大程度的提升。

第一阶段:JavaSE+MySql+Linux 学习内容:Java 语言入门→ OOP 编程→ Java 常用Api、集合→ IO/NIO → Java 实 用技术→Mysql数据库→阶段项目实战→ Linux 基础→ shell 编程

学习目标:学习java语言,掌握java程序编写、面向对象程序开发,掌握MySql体系结构及核心编程技术,打好 Linux 基础,为后续学习提供良好的语言基础。第二阶段:Hadoop与生态系统

学习内容:Hadoop→MapReduce→ Avro→ Hive→HBase→ Zookeeper→Flume→ Kafka→Sqoop→ Pig 学习目标:掌握大数据学习基石Hadoop、数据串行化系统与技术、数据的统计分析、分布式集群、流行的队列、数据迁移、大数据平台分析等 第三阶段:Storm 与Spark 及其生态圈

学习内容:Storm→Scala→ Spark→ Spark SQL→ Spark Streaming→Spark 机器学习学习目标:让大家拥有完整项目开发思路和架构设计,掌握从数据采集到实时计算到数据存储再到前台展示,所有工作一个人搞定!并可以从架构的层次站在架构师的角度去完成一个项目。

第四阶段:其他

学习内容:Mahout 机器学习→R 语言→Python 学习目标:机器学习领域经典算法的实现,熟练使用 R语法和统计思维,可以基于具体问题建立数学模型,掌握python技术与数据分析,将数据结果以可视化的直观方式展示给目标用户。

第五阶段:项目实战、技术综合运用

学习内容:某手机公司bug 系统→传统广告怎么用大数据→类互联网电商网站→网站日志收集清洗系统→网站流量统计分析系统

甲骨文大数据课程 篇5

---上海市静安区安庆幼儿园

大数据时代的今天,“技术”自身开始走出了附属或辅助的“角色”,走上教育改革的最前台,现代教育的结构如何依靠着技术的支持呈现更灵动的范式?

这是我们要面对的问题,它既是教师如何突破自我适应未来的问题,也是课程与教学本身如何随时代发展而进化的问题。上海静安区安庆幼儿园一直在关注大数据对于学前教育的影响,我们一直在思考:

——新技术在幼儿园的课程管理和实施中的应用与支持? ——数据分析下的教师专业发展的规律?

——有效依据数据呈现的课程管理与评价的研究如何行进? „„

幼儿园做了多年在信息技术支持教育实践方面的应用与思考,以下的案例选取于基于技术支持的幼儿园课程管理与评价方面的实践经验。

一、关于技术支持下课程资源库的建立与完善

幼儿园的课程特质决定了其除了依据基础性课程执行外的生成性,预示着幼儿园的课程完善是一个不断地被补充、更新与生长的过程,因此,如何为教师提供更有效的课程管理与服务是园长要思考的问题。

安庆幼儿园是上海市的首批示范性幼儿园,多年来一直作为课程综合改革及上海市课程领导力研究基地,在课程研究上踽踽而步。在信息时代,我们不断地尝试着从技术支持构建课程架构,到平台建立减轻教师负担以及通过数据解构来完善课程攻击的研究。1.基于课程本位的资源库的架构

上海的课程以80%的基础性(也称为共同性)课程和可以交融的20%的选择性课程为园本课程的基本架构,示范园的教师在课程的选择与实施上也可以进行5%的自主选择和调整,以呈现了教师课程执行中满足儿童需求的班本化特质。

几年来,安庆幼儿园不断地梳理、筛选和整合课程资源,并用信息的手段将课程以APP的形式呈现,便于教师检索,参考和下载,对于公共主题课程资源和园本特色课程的资源进行了重新架构。

安庆幼儿园整个课程架构分为2部分,一部分是小中大班的主题活动梳理,并将个别化学习和一些与主题相关的优质活动进行推送;另一部分是以数学核心经验为线索并和主题相关的学习活动,以及以个别化学习为主要方式的“数学玩起来”的设计。2.基于课程完善的资源库后台使用数据的解构

在信息化推进过程中,安庆幼儿园也在不断思考技术支持教育管理价值的问题:设备逐渐先进了,管理更快了吗?资源日益齐全了,教师专业了吗?技术不断提高了,咨询同步了吗?应用频率加大了,质量提高了吗?„„

这些问题,随着教师对于课程资源库内的点击选择和使用的数据分析一一呈现,通过后台数据分析,可以清晰地看到教师经常会选择哪些课程内容;不同类型的资源被选的频率;不同教育背景的教师在资源选择上的差别;不同年龄段教师在资源选择上的不同;每一类资源备选数据的呈现;某一位教师在不同的专业成长期对于课程资源库选择的数据呈现„„

依据后台数据的呈现,安庆幼儿园不断对资源库的完善和补充,最终让课程资源库成为教师专业发展促进教育质量的助推力。

二、技术支持下的课程实施与自我监控评价

幼儿园的保教质量的评价是由多元主体共同进行的过程,作为课程执行的主体——教师来说,在主、客观条件因素的作用下,通过对自身保教过程与结果进行经常化、结构化的反思与自评,不断调节和控制自己的行为活动,以提高保教质量的行为,对课程实施的质量来说起到了不可忽视的作用。

安庆幼儿园借助信息化平台,用结构清晰的“我做我评价”自评体系来支持教师的专业成长,这套“标准”与教师日常教育行为并行,依托课程小组的外部支持,从教师发展、资源保障、问题聚焦等方面提供专业帮助,为教师课程执行的反思提供支撑点。

(一)指向教师课程执行的评价指标的架构

安庆幼儿园教师的课程执行力评价具有较为固定的评价模式:每月进行指向自评的结构性评价;每月进行指向他评的过程性评价;每学期进行指向他评的阶段性评价。

提供教师适当结构化的课程执行质量自我监控工具(包括版块、内容、时间、对象、方法等)以形成自我监控提示表,分为 “课程设计与反思”、“环境创设与资源利用”、“专业素养与研究”三个版块。涵盖了多条标准:一日活动流程执行、备课反思、听课评课、个别化学习、资源利用、个别化环境、班级环境、师幼互动、家园协同、教研组活动等多条标准,将原本原则性的、理念性的工作目标进行了“行动化、表现化”的转变,直指教师的教育行为。

(二)指向教师专业自觉的评价数据的统计与解构 细化的平台指标便于进行评价数据的后台统计,为教师在定期反思和课程实施等方面的提供了依据。在平台后台可以呈现的数据有:

1.逐月数据的呈现:在iPad移动端或是电脑PC端平台中都可以查阅到任意一个月份的评价数据。

2.所有教师的数据呈现:可以选择任意一个版块、内容以及观测点来查阅对比所有老师的评价情况,并进行条件筛选与排序。

3.单个教师的数据呈现:用饼状图、曲线图等直观第反映某位教师的整体评价数据。4.单个教师数据及个体间的数据对比:可以通过筛选进行老师个体间的相关指标的数据对照。正是这种变化,让教师不断内省并进而转变自己的教育行为,形成专业自觉。

通过数据的呈现,安庆幼儿园引导教师自主自觉地关注课程执行过程的评价行为,引导教师关注实施品质的评价行为。同时,定期依托课程小组每月进行一次对评价数据呈现的点进行讨论交流,不仅可以关注到教师自评中的个性问题,如行进事件,解决方式、问题焦点等内容,而且更为关注共性问题,如课程执行中的曲折性、不稳定性等内涵指向。

在大数据的背景,安庆幼儿园会不断思考大数据时代对于学前教育教学管理方式的影响和课程管理与评价、教师专业成长方式变革等问题;更好地站在教育前沿,利用有效的技术支持,推动基于专业自觉地幼儿园课程管理与实施。

大数据时代的大数据管理研究论文 篇6

数据库管理形式是大数据管理不断发展的重要成果,也是到目前为止最后的一个阶段。在计算机技术不断发展的过程中,计算机内部的容量得到了很大程度的提高,并且大数据的管理和维护成本也相应的有所下降。同时,在大数据管理形式不断发展的过程中,对其系统管理内存不足等现象,进行了全面的提高,有效的实现了资源共享,也在最大程度上保证了大数据的安全、稳定等性能。另外,在大数据时代的大数据库管理的过程中,不在近几年只是固定在某一个计算技术应用体系,而是面向整个管理体系,以此在最大程度上提高了大数据共享的性能,使大数据与大数据形成一个独立的个体,对其大数据进行了全面、有效的、统一的管理,为我国信息技术的发展提供了重要方向。

甲骨文大数据课程 篇7

MOOC, 即Massive Open Online Courses (大规模开放在线课程, 中文名:慕课) , 起源于开放教育资源运动和连通主义理论思潮, 2012年出现了三大最知名的MOOC平台, 分别是Coursera、Udacity和ed X, 称为全球MOOC元年, 2013年以来MOOC在国内外呈现风起云涌之势, 2013年被称为中国MOOC元年。

随着MOOC不断发展, UOOC联盟应运而生。2014年5月由深圳大学发起成立地方高校联盟, 简称UOOC联盟 (University Open Online Course, 中文名:优课, U代表University和Union二层含义) 。2014年9月18日UOOC联盟首批7门课程正式上线运行。UOOC联盟的宗旨是:通过大规模开放在线课程的共建、共享、共赢, 达到优质教育资源共享, 降低教育成本和协同创新的目的。

二、大数据与大数据分析

大数据 (英语:Big data或Megadata) , 又称为巨量数据、海量数据、大资料, 目前学术界对于大数据的概念, 并没有一个统一的定义和标准, 不过, 业界对大数据所具备的4V特征已经达成共识。一是数据体量巨大 (Volume) ;二是数据类型繁多 (Variety) ;三是处理速度快 (Velocity) ;四是价值密度低 (Value) 。

大数据分析除了许多常规的统计分析方法外, 还有许多特有的核心分析技术, 比如数据挖掘、机器学习、社交网络分析、舆情分析、推荐引擎等。

目前国内利用大数据分析MOOC学习者的学习行为与学习效果的研究屈指可数。为此, 笔者通过收集UOOC联盟平台上的第一手数据, 以大数据的视野和分析技术来进行MOOC学习行为与学习效果的研究。

本文采用大数据分析法等深入研究选修UOOC平台上的7门课程的学习者的基本信息、学习行为、课程间各指标间的对比, 在此基础上提出MOOC的不足以及提出相应的对策。本文以C1、C2、C3、C4、C5、C6、C7代表有一定的代表性的《唐宋词与人生》、《积极心理学》、《模拟电子技术导论》、《概率论与数理统计》、《大学计算机》、《古典文学的城市书写》、《文献管理与信息分析》这7门课程。

三、学习行为与学习成效分析

首先介绍UOOC联盟平台上首批上线的7门课程的基本情况、注册人数等, 其次从课程的访问情况、视频观看情况、作业完成情况、讨论等四个方面来分析学习行为以及与学习成绩、完成率、辍学率间的相关性。

(一) 基本情况分析

1. 注册人数。

2015年1月, 学习者完成了首批上线的七门课程的相关学习。笔者从平台后台收集的数据统计, 注册7门课程的人数如下图1:

由上图显示的数据可知, 7门课程的平均注册人数为795.4人, 总计5547人, 最多的人数为1783人, 最少的是248人。此数据受UOOC联盟平台的注册权限的限制, 需要身份认证, 必须是联盟高校的学习者。

2. 七门课程的基本情况。

(二) 学习行为分析

1. 学习页面访问情况。

学习者访问学习页面是学习的一个重要环节, 从平台后台收集的数据显示, 七门课程的平均页面访问数为25次, 其中最高达到422次, 但也有一部分学习者只注册却从未进入学习页面。数据显示的结果也表明了学习者学习的积极性不高, 并且存在很大的差异性。

2. 视频观看情况。

MOOC平台上的学习资源主要以5~15分钟的短视频为主, 学习者学习的主要活动是观看教学视频。七门课程的视频总时长最长达到981.2分钟, 最短为357.9分钟, 平均时长为9.3分钟;7门课程的总观看时长最长是619680.2分钟, 个人观看时长最长达到1558.7, 最短是0分钟, 平均观看时长是492分钟。

3. 讨论情况。

UOOC联盟平台上的学习者讨论主要有四种情况:发表讨论、回复讨论、置顶讨论以及加精讨论。7门课程的总讨论数为18441次, 七门课程中最高讨论数为2616, 最低为0次, 置顶讨论与加精讨论相对于发帖与回帖而言明显减少, 置顶讨论的总次数最高是8次, 加精讨论的总次数是86次;平均讨论次数3.6次, 平均发表讨论为1.06次, 平均回帖次数为2.54次;由数据可以分析得出, 回帖的次数多于发帖的次数, 在一定程度上说明了学习者学习较被动, 主动性还有待提高。

4. 任务完成情况。

UOOC联盟平台上7门课程的总任务数为785个, 平均任务数为112个, 最多任务数为163, 最少的任务数为43个;在7门课程中, 任务全完成占总人数的比例最高达到43%, 最低4%;任务完成一半以上占总人数的比例最高为53%, 最低为13%;在这七门课程中一项任务都没有完成的人数最高达到58%, 最低的占到23%, 这一数据也反映了在学习过程中很大一部分学习者是只注册账号, 从未完成学习的任务, 学习积极性高的学习者与学习积极性不高的学习者之间存在很大的差别。

(三) 学习成效分析

1. 及格率、辍学率及结课率情况。

UOOC平台首批上线的7门课程中, 平均及格率为19%, 平均辍学率为45%, 平均结课率为55%, 及格率最高的是课程C6, 辍学率最高的是C5, 结课率最高的是C4;这些数据说明7门课程的结课率高于辍学率, 大部分学习者能够完成相应的课程, 但是从及格率来看, 学习者的学习成效还不够理想。如表2所示:

2. 成绩情况。

学习者的成绩的评定包括线上的学习与线下的考试结合。笔者对成绩进行分段统计, 1~60分、61~75、76~90以及90分以上。从后台收集的数据显示C1、C2、C6这三门课程在76~90分段的人数最多, 90分以上的人数也最多, 这说明这三门课程的高分比较集中, C4、C5、C7在90以上段的人数为0。

四、结论与建议

笔者通过对UOOC平台上7门课程的大数据分析, 发现MOOC平台普遍存在的问题如下:第一, 课程页面的访问的积极性不高, 有一部分学习者虽然注册了课程但没有或很少学习课程内容。第二, 辍学率较高, 及格率较低。为更好地利用MOOC平台进行学习, 提高MOOC平台应用的效果, 笔者的建议:第一, 平台要实用、易用, 不一定要功能模块太多, 太多太复杂会增加老师和学习者的认知负担。第二, 充分挖掘后台数据, 实现数据的可视化。第三, 完善题库建设, 设置形成性练习和阶段性测验。第四, 在有条件的情况下, 将线上学习和线下辅导课相结合, 实现O2O混合式学习。

摘要:文章以优课联盟MOOC课程平台为研究对象, 通过采集课程平台完整的后台数据, 利用大数据分析技术, 对优课联盟课程平台应用现状进行实证研究, 分析MOOC平台的应用状况、学生的学习行为以及学习成效, 找出MOOC平台应用中存在的问题并提出可行的建议, 为MOOC的应用提供指导和建议。

上一篇:八年级地理教学工作总结范文下一篇:我的好同学二三事作文

热门文章
    相关推荐