大数据挖掘研究外文翻译资料

 2022-08-19 15:35:36

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


附录X 译文

中文译文:

大数据挖掘研究

摘要 数据已经成为各个经济、行业、组织、企业、职能和个人的重要组成部分。大数据是用于识别大型数据集的一个术语,通常其大小比典型的数据库要大。大数据引入了独特的计算和统计挑战。在工程和科学的大部分领域,大数据目前都有延伸。由于大数据的数量之多、速度之快、种类之繁,所以可以使用数据挖掘,有助于从庞大的数据集中提取有用的数据。本文介绍了HACE定理,它描述了大数据革命的特征,并从数据挖掘角度提出了一个大数据处理模型。

关键词:大数据,数据挖掘,HACE定理,结构化和非结构化。

一、简介

大数据指的是大量的结构化数据和非结构化数据,这些数据遍布了整个组织。如果这些数据被正确使用,将会产生有意义的信息。大数据包括大量的数据,需要大量的实时处理。它提供了两个空间,一个用于发现新价值,并从隐藏的价值中了解深入的知识,另一个用于有效管理数据。数据库是一个与数据相关的逻辑上有组织的集合,可以方便地管理、更新和访问。数据挖掘是从数据库或其他存储库中存储的大量数据中发现有趣的知识(如关联、模式、更改、异常和重要结构)的过程。

大数据包括3V的特征。它们是大量(volume)、高速(velocity)和多样(variety)。大量意味着每秒生成的数据量。数据是静态的,它的规模特征也是众所周知的。高速是数据生成的速度。大数据应该有高速数据,社交媒体产生的数据就是一个例子。多样意味着可以采取不同类型的数据,例如音频、视频或文档。它可以是数字、图像、时间序列、数组等。

数据挖掘从不同的角度分析数据,并将其汇总为有用的信息,可用于商业解决方案和预测未来趋势。数据挖掘(DM)也称为数据库中的知识发现(KDD),或者知识发现和数据挖掘,是为关联规则等模式自动搜索大量数据的过程。它应用了统计学、信息检索、机器学习和模式识别等方面的许多计算技术。数据挖掘仅在短时间内从数据库中提取所需的模式。根据要挖掘的模式类型,可以将数据挖掘任务分为汇总、分类、聚类、关联和趋势分析。

在包括物理、生物和生物医学等科学和工程领域在内的所有领域,大数据都有延伸。

二、大数据挖掘

一般而言,大数据是指大量数据的集合,这些数据来自互联网、社交媒体、商业组织、传感器等各种来源。我们可以借助数据挖掘技术来提取一些有用的信息。这是一种从大量数据中发现模式以及描述性、可理解的模型的技术。

容量是数据的大小,大于PB和TB。规模和容量的增加使得传统的工具难以存储和分析。在预定的时间段内,应该使用大数据挖掘大量数据。传统的数据库系统旨在解决少量的结构化和一致性的数据,而大数据包括各种数据,如地理空间数据、音频、视频、非结构化文本等。

大数据挖掘是指通过大数据集来查找相关信息的活动。为了快速处理不同来源的大量数据,使用了Hadoop。Hadoop是一个免费的基于Java的编程框架,支持在分布式计算环境中处理大型数据集。其分布式文件系统支持节点之间的快速数据传输速率,并允许系统在发生节点故障时不中断运行。它为分布式数据处理进行MapReduce,用于结构化和非结构化数据。

三、大数据特征——HACE定理

我们有大量的异构数据。数据之间存在复杂的关系。我们需要从这些庞大的数据中发现有用的信息。

让我们想象一下,一个盲人被要求画大象的场景。每个盲人收集到的信息可能会认为躯干像墙,腿像树,身体像墙,尾巴像绳子。盲人们可以相互交换信息。

图1:盲人和大象

其中的一些特征包括:

1.具有异构及不同来源的海量数据:大数据的基本特征之一是大量的异构数据和多样数据。例如,在生物医学世界中,个人用姓名、年龄、性别、家族病史等来表示,用于X射线和CT扫描图像和视频。异构是指同一个体的不同表现形式,多样是指用各种特征来表示单一信息。

2.具有分布式和非集中式控制的自治:来源是自治的,即自动生成;它在没有任何集中控制的情况下生成信息。我们可以将它与万维网(WWW)进行比较,其中每台服务器都提供一定数量的信息,而不依赖于其他服务器。

3.复杂且不断演化的关系:随着数据量变得无限大,存在的关系也很大。在早期阶段,当数据很小时,数据之间的关系并不复杂。社交媒体和其他来源生成的数据具有复杂的关系。

四.工具:开放源码革命

Facebook、雅虎、Twitter、LinkedIn等大公司受益于开源项目,并为之做出贡献。在大数据挖掘中,有许多开源计划。其中最受欢迎的是:

ApacheMahout:主要基于Hadoop的可扩展机器学习和数据挖掘的开源软件。它实现了广泛的机器学习和数据挖掘算法:聚类、分类、协同过滤和频繁模式。

R:为统计计算和可视化设计的开源编程语言和软件环境。R是由在新西兰奥克兰大学的Ross Ihaka和Robert Gentleman在1993年开始设计的,用于统计分析超大型数据集。

MOA:流数据挖掘开源软件,可以实时进行数据挖掘。它具有分类、回归、聚类和频繁项集挖掘和频繁图挖掘等实现。它始于新西兰怀卡托大学机器学习小组的一个项目,以WEKA软件著称。流框架为使用简单的根据XML来定义和运行流过程提供了一个环境,并能够使用MOA、Android和Storm

SAMOA:这是一个新的即将推出的分布式流挖掘软件项目,它将S4和Storm与MOA结合在一起。

Vow pal Wabbit:在雅虎启动的开源项目。研究并继续在微软研究院设计一个快速的、可扩展的、有用的学习算法。VW能够从大量特征数据集中学习。在进行线性学习、通过并行学习时,它可以超过任何单机网络接口的吞吐量。

五、大数据的数据挖掘

数据挖掘是通过分析不同来源的数据从而发现有用的信息的过程。数据挖掘包含多种算法,分为4类。他们是:

1.关联规则

2.聚类

3.分类

4.回归

关联用于搜索变量之间的关系。它用于搜索经常访问的项目。总而言之,它建立了对象之间的关系。聚类发现数据中的组和结构。分类处理将未知结构关联到已知结构。回归找到一个函数来模拟数据。

不同的数据挖掘算法有:

类别

算法

关联

Apriori, FP growth

聚类

K-Means, 期望值

分类

决策树,SVM

回归

多元线性回归

表1.算法的分类

数据挖掘算法可以转化为基于并行计算的MapReduce算法。

大数据

数据挖掘

这是现在世界上的一切。

这是旧的大数据。

数据的规模较大。

数据的规模较小。

涉及大型数据集的存储和处理。

可以找到有趣的模式。

大数据是大型数据集的术语。

数据挖掘是指通过大数据集寻找相关信息的活动。

大数据是资产。

数据挖掘是提供有益结果的处理程序。

大数据取决于管理集的组织的能力,以及传统上用于处理和分析数据的应用程序的功能。

数据挖掘指的是涉及相对复杂的搜索操作的活动。

表2.大数据和数据挖掘的不同之处

六、大数据挑战

面对大数据的挑战很困难。数量每天都在增加。网络连接设备的速度在增加。种类也在不断扩大,而组织采集和处理数据的能力是有限的。

以下是处理大数据时面临的挑战:

1.数据采集和存储

2.数据传输

3.数据管理

4.数据分析

5.数据可视化

据了解,大数据挖掘面临的挑战分为3层。

第一层是数据挖掘算法的设置。第二层包括

1.信息共享和数据隐私。

2.域和应用知识。

第三层包括多个信息源的局部学习和模型融合。

3.从稀疏、不确定和不完全的数据中挖掘。

4.挖掘复杂和动态数据。

图2:大数据挑战的阶段

由于数据量较大,通常从不同数据源挖掘数据是很繁琐的。大数据存储在不同的地方,采集这些数据将是一项繁琐的任务,应用基本的数据挖掘算法将成为其障碍。接下来我们需要考虑数据的隐私。第三种情况是挖掘算法。当我们将数据挖掘算法应用于这些数据子集时,结果可能不那么准确。

七、未来预测

研究人员和从业人员在未来几年中将面临一些挑战:

分析架构:尚不清楚分析系统的最佳架构应该如何同时处理历史数据和实时数据。一个有趣的建议是Nathan Marz的Lambda架构。Lambda架构通过将问题分解为三个层次:批处理层、服务层和速度层,解决任意数据任意函数的实时计算问题。它将同一系统的Hadoop集成到批处理层,Storm集成到速度层。该系统的特性是:鲁棒性和容错性、可升级、通用性和可扩展性,允许临时查询、最小维护和调试。

统计学意义:获得重要的统计结果非常重要,而不要被随机性所愚弄。正如Efron在他的关于大规模推论的书中解释的那样,马上回答庞大的数据集和数以千计的问题会很容易出错。

分布式挖掘:许多数据挖掘技术都不是微不足道的。为了实现某些方法的分布式版本,需要进行大量的实践和理论分析,以提供新的方法。

时间演化数据:数据可能会随着时间推的移而发生演化,因此重要的是大数据挖掘技术应该能够适应并在某些情况下首先检测到演化。例如,数据流挖掘领域对此任务提供了非常强大的技术。

压缩:处理大数据所需的空间容量非常重要。有两种主要方法:压缩,我们不放弃任何数据,或者抽样,选择更有代表性的数据。使用压缩技术,我们可能需要更多的时间和更少的空间,所以我们可以将其视为从时间到空间的转换。使用抽样,我们正在丢失信息,但涨幅空间可能是数量级的。例如,Feldman等人使用核心集来降低大数据问题的复杂性。核心集是一个小集合,它可以近似表示给定问题的原始数据。然后使用合并-减小小集可以并行地解决硬机器学习问题。

可视化:大数据分析的主要任务是如何可视化结果。由于数据非常庞大,因此很难找到用户友好的可视化。将需要新的技术和框架来诉说和展示故事,例如《大数据人类面孔》这本书中的照片、图表和文章。

隐藏的大数据:由于新数据主要是基于未标记的文件和非结构化数据,因此大量有用的数据正在丢失。2012年IDC研究大数据解释说,2012年,如果对数据进行标记和分析,23%(643EB)的数字世界将对大数据有用。但是,目前只有3%的潜在有用数据被标记,甚至更少被分析。

八、结论

由于社交网站、搜索和检索引擎、媒体共享网站、股票交易网站、新闻来源等,数据量呈指数级增长。大数据正在成为科学数据研究和商业应用的新领域。

数据挖掘技术可以应用于大数据,从大数据集中获取有用的信息。它们可以一起使用,从数据中获取有用的图片。

像MapReduce、Hadoop和HDFS这样的大数据分析工具可以帮助组织。

外文文献: 

A Study of Data Mining with Big Data

Abstract Data has become an important part of every economy, industry, organization, business, function and individual. Big Data is a term used to identify large data sets typically whose size is larger than the typical data base. Big data introduces unique computational and statistical challenges. Big Data are at pre

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[410493],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。