个性化阅读
专注于IT技术分析

R语言与Hadoop的集成详解

本文概述

什么是Hadoop?

Hadoop是由ASF-Apache Software Foundation创建的开源框架。它用于存储过程和分析海量数据。 Hadoop是用Java编写的, 它不是OLAP(在线分析处理)。用于批处理/脱机处理。 Facebook, Google, Twitter, Yahoo, LinkedIn等都在使用它。而且, 仅通过在集群中添加节点就可以扩大规模。

为什么将R与Hadoop集成?

R是一种开放源代码编程语言。它最适合统计和图形分析。此外, 如果我们需要强大的数据分析和可视化功能, 则必须将R与Hadoop结合使用。

R和Hadoop集成的目的是:

  1. 使用Hadoop执行R代码。
  2. 使用R访问Hadoop中存储的数据。

R Hadoop集成方法

Hadoop和R在大数据可视化和分析方面非常互补。一起使用Hadoop和R的四种方法如下:

R与Hadoop集成

R Hadoop

R Hadoop方法是软件包的集合。它包含三个软件包, 即rmr, rhbase和rhdfs。

rmr软件包

对于Hadoop框架, rmr软件包通过在R中执行映射和缩减代码来提供MapReduce功能。

rhbase包

该软件包提供了与HBASE集成的R数据库管理功能。

rhdfs软件包

该软件包通过与HDFS集成来提供文件管理功能。

Hadoop流

Hadoop Streaming是一个实用程序, 允许用户使用任何可执行文件作为映射器和/或精简器来创建和运行作业。使用流系统, 我们可以使用足够的Java知识来开发可运行的Hadoop作业, 以编写两个可协同工作的Shell脚本。

R和Hadoop的结合似乎是使用大型数据集和统计数据的人员的必备工具箱。但是, 一些Hadoop爱好者在处理很大的大数据摘录时提出了一个警告。他们声称R的好处不是其语法, 而是用于可视化和数据的整个原语库。这些库基本上是非分布式的, 使数据检索成为一项耗时的事情。这是R的固有缺陷, 如果你选择忽略它, 则R和Hadoop可以一起工作。

瑞普

RHIPE代表R和Hadoop集成编程环境。 Divide and Recombine开发了RHIPE, 用于对大量数据进行有效分析。

RHIPE涉及使用R和Hadoop集成编程环境。我们可以使用Python, Perl或Java来读取RHIPE中的数据集。 RHIPE中有多种功能, 可让HDFS与HDFS进行交互。因此, 通过这种方式, 我们可以读取, 保存使用RHIPE MapReduce创建的完整数据。

ORCH

ORCH被称为Oracle R连接器。该方法特别用于Oracle设备中的大数据。它还可用于非Oracle框架(如Hadoop)。

该方法有助于在R的帮助下访问Hadoop集群, 还有助于编写映射和归约函数。它使我们能够处理Hadoop分布式文件系统中的数据。


赞(0)
未经允许不得转载:srcmini » R语言与Hadoop的集成详解

评论 抢沙发

评论前必须登录!