
本文的行文思路如下:
在上文《Hadoop MapReduce编程模型》中提到MapReduce主要有两部分组成:编程模型和运行时环境,并对MR编程模型进行了介绍。
本文继续介绍MR运行时环境,主要包括如下三部分:
YARN框架简介
MR JOB的执行过程分析
J....
Read more …

本文的行文思路如下:
一、MapReduce
1、什么是MapReduce?
MapReduce是由Google提出的一个分布式计算模型,用来解决海量数据的计算问题。举个例子说明其解决问题的思想:
MapReduce由两个阶段组成:Map和Reduce。在Map阶段,....
Read more …

HDFS的源码中存在大量的远程过程调用(RPC),在深入研究HDFS源码之前,必须理解Hadoop RPC机制。
一、Hadoop RPC
网络通信模块是分布式系统中最底层的模块,它支撑了上层分布式环境下复杂的进程间通信(Inter-Process Communication,IPC)逻辑,是所....
Read more …

当数据集的大小超过一台计算机的存储能力时,就有必要将它存储到多台计算机上,但是不方便管理和维护,此时就迫切需要一种系统来统一管理分布在多台机器上的文件,这就是分布式文件系统。一个分布式文件系统应该具备如下特点:
透明性:虽然是通过网络来访问分布在各节点上的文件,但在用户看来,就像是访问本地的....
Read more …

一、What Is Apache Hadoop?
The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.
1、产生背景
首先从Had....
Read more …

本文是为了学习Hadoop做准备,主要解决如下问题:
Linux常见命令回顾
Linux常见操作回顾
虚拟机环境下的网络配置
本文的Linux操作环境如下:
系统:CentOS6.4(虚拟机下安装)
用户:hadoop(普通用户)、root
网络环境:NA....
Read more …
针对Storm开发中遇到的一些问题进行了记录,本文会不断更新,希望能够帮到你。
问题一:集群中的supervisor节点在Storm UI界面中没有显示?
症状描述:刷新Storm UI界面后,有supervisor节点消失;某节点上supervisor服务进程挂掉后重启,Storm UI界面上却不显示该supervisor节点……
解决方式:删除问题节点上的storm local di....
Read more …
【解惑】深入jar包:从jar包中读取资源文件:http://hxraid.iteye.com/blog/483115
总结:Java工程中读取文件时路径怎么写?其实在Eclipse中直接运行和打成jar包时运行是有区别的,这篇文章比较清晰的解析了其中的不同之处。....
Read more …

一、DDL和数据库对象
DDL语句(create、alter、drop)是操作数据库对象的语句。最基本的数据库对象是数据表,除了数据表,数据库中还可以包含如下常见的数据库对象:
因为存在上面几种数据库对象,所以create后面可以紧跟不同的关键字。例如,建表时使用create tab....
Read more …

关于数据库的基础知识请先阅读《MySQL(SQL入门)》一文,本文会在《SQL入门》一文的基础上讲解Oracle数据库。注:本文不讲解Oracle数据库的安装。
一、Oracle Database中的概念
1、Oracle数据库和Oracle实例
一个Oracle DB服务器由一个Orac....
Read more …