昨天搭建好了hadoop的环境,现在执行hadoop的例子验证一下。
在NameNode下建立两个文件
root@wenbo00:/home/wenbo# echo 'Hello world bye world' > file01
root@wenbo00:/home/wenbo# echo 'hello hadoop goodbye hadoop' > file02
在hdfs中建立一个input目录
root@wenbo00:/home/wenbo# hadoop fs -mkdir input
将刚才建好的两个文件复制到input目录下
root@wenbo00:/home/wenbo# hadoop fs -copyFromLocal file0* input
执行以下命令可以看到复制结果
root@wenbo00:/home/hadoop-1.0.1# hadoop fs -ls input/
看到的结果为
Found 2 items
-rw-r--r-- 1 root supergroup 22 2012-03-13 19:44 /user/root/input/file01
-rw-r--r-- 1 root supergroup 28 2012-03-13 19:44 /user/root/input/file02
执行hadoop自带的worldcount例子,并将结果输出到output目录中
root@wenbo00:/home/wenbo# hadoop jar /home/hadoop-1.0.1/hadoop-examples-1.0.1.jar wordcount input output
可以看到以下的输出log
****hdfs://wenbo00:9000/user/root/input
12/03/13 19:47:21 INFO input.FileInputFormat: Total input paths to process : 2
12/03/13 19:47:22 INFO mapred.JobClient: Running job: job_201203131940_0001
12/03/13 19:47:23 INFO mapred.JobClient: map 0% reduce 0%
12/03/13 19:47:37 INFO mapred.JobClient: map 50% reduce 0%
12/03/13 19:47:40 INFO mapred.JobClient: map 100% reduce 0%
12/03/13 19:47:52 INFO mapred.JobClient: map 100% reduce 100%
12/03/13 19:47:57 INFO mapred.JobClient: Job complete: job_201203131940_0001
12/03/13 19:47:57 INFO mapred.JobClient: Counters: 30
12/03/13 19:47:57 INFO mapred.JobClient: Job Counters
12/03/13 19:47:57 INFO mapred.JobClient: Launched reduce tasks=1
12/03/13 19:47:57 INFO mapred.JobClient: SLOTS_MILLIS_MAPS=19732
12/03/13 19:47:57 INFO mapred.JobClient: Total time spent by all reduces waiting after reserving slots (ms)=0
12/03/13 19:47:57 INFO mapred.JobClient: Total time spent by all maps waiting after reserving slots (ms)=0
12/03/13 19:47:57 INFO mapred.JobClient: Rack-local map tasks=1
12/03/13 19:47:57 INFO mapred.JobClient: Launched map tasks=2
12/03/13 19:47:57 INFO mapred.JobClient: Data-local map tasks=1
12/03/13 19:47:57 INFO mapred.JobClient: SLOTS_MILLIS_REDUCES=14004
12/03/13 19:47:57 INFO mapred.JobClient: File Output Format Counters
12/03/13 19:47:57 INFO mapred.JobClient: Bytes Written=49
12/03/13 19:47:57 INFO mapred.JobClient: FileSystemCounters
12/03/13 19:47:57 INFO mapred.JobClient: FILE_BYTES_READ=79
12/03/13 19:47:57 INFO mapred.JobClient: HDFS_BYTES_READ=264
12/03/13 19:47:57 INFO mapred.JobClient: FILE_BYTES_WRITTEN=64654
12/03/13 19:47:57 INFO mapred.JobClient: HDFS_BYTES_WRITTEN=49
12/03/13 19:47:57 INFO mapred.JobClient: File Input Format Counters
12/03/13 19:47:57 INFO mapred.JobClient: Bytes Read=50
12/03/13 19:47:57 INFO mapred.JobClient: Map-Reduce Framework
12/03/13 19:47:57 INFO mapred.JobClient: Map output materialized bytes=85
12/03/13 19:47:57 INFO mapred.JobClient: Map input records=2
12/03/13 19:47:57 INFO mapred.JobClient: Reduce shuffle bytes=85
12/03/13 19:47:57 INFO mapred.JobClient: Spilled Records=12
12/03/13 19:47:57 INFO mapred.JobClient: Map output bytes=82
12/03/13 19:47:57 INFO mapred.JobClient: CPU time spent (ms)=3000
12/03/13 19:47:57 INFO mapred.JobClient: Total committed heap usage (bytes)=336404480
12/03/13 19:47:57 INFO mapred.JobClient: Combine input records=8
12/03/13 19:47:57 INFO mapred.JobClient: SPLIT_RAW_BYTES=214
12/03/13 19:47:57 INFO mapred.JobClient: Reduce input records=6
12/03/13 19:47:57 INFO mapred.JobClient: Reduce input groups=6
12/03/13 19:47:57 INFO mapred.JobClient: Combine output records=6
12/03/13 19:47:57 INFO mapred.JobClient: Physical memory (bytes) snapshot=384741376
12/03/13 19:47:57 INFO mapred.JobClient: Reduce output records=6
12/03/13 19:47:57 INFO mapred.JobClient: Virtual memory (bytes) snapshot=1573851136
12/03/13 19:47:57 INFO mapred.JobClient: Map output records=8
最终计算结果为8个单词
可以查看output中的输出查看以下
利用以下命令可以查看output文件夹下的生成文件
root@wenbo00:/home/hadoop-1.0.1# hadoop fs -ls output
结果为
Found 3 items
-rw-r--r-- 1 root supergroup 0 2012-03-13 19:47 /user/root/output/_SUCCESS
drwxr-xr-x - root supergroup 0 2012-03-13 19:47 /user/root/output/_logs
-rw-r--r-- 1 root supergroup 49 2012-03-13 19:47 /user/root/output/part-r-00000
part-r-00000中存放了执行的结果
root@wenbo00:/home/hadoop-1.0.1# hadoop fs -cat output/part-r-00000
结果为
Hello 1
bye 1
goodbye 1
hadoop 2
hello 1
world 2
共8个单词,执行成功。
分享到:
相关推荐
Hadoop系统安装运行与程序开发 1.单机Hadoop系统安装基本步骤 2.集群Hadoop系统安装基本步骤 3.Hadoop集群远程作业提交与执行 4.Hadoop MapReduce程序开发
Hadoop学习资料总结,值得推荐阅读学习 很好 非常好 值得拥有
Hadoop学习笔记,自己总结的一些Hadoop学习笔记,比较简单。
Hadoop学习总结,内容包括: 1. HDFS简洁 2. HDFS读写过程解析 3. MapReduce入门 4. MapReduce过程解析 5. Hadoop运行痕迹 6. MapReduce源码分析总结
1、 hadoop官方网站,首页会有最新动态。 2、 Nutch ->谷歌GFS论文->doug 根据GFS设计了NDFS、06年启动hadoop项目。 3、 环境支持 操作系统 Linux 、WINDOWS-Cygwin、hadoop-for-windows JDK支持 下载jdk,解压jdk...
hadoop学习整理的文档
Hadoop 学习笔记.md
本书详细地讲述了Hadoop生态圈中最为重要的几个组件。不仅介绍了Hadoop涉及的分布式理论基础知识,还着重讲解Hadoop系统的工程实践应用。为了深入浅出地讲述Hadoop各个组件的运行机理,作者使用了贴切的实战用例
hadoop学习源码学习(二)Mapreduce学习源码学习(二)
java及hadoop学习资料,很全的 java有113节。hadoop讲的也很详细。希望大家认真学习
Hadoop学习必看路线图,
有计划的安排大数据的学习之路,可以在对Hadoop的学习规划上有一个更清晰的目标!
hadoop学习笔记,hadoop简介,适用于hadoop入门,讲解hadoop安装,使用,基本原理,大数据,分布式等概念
《Hadoop集群程序设计与开发(数据科学与大数据技术专业系列规划教材)》系统地介绍了基于Hadoop的大数据处理和系统开发相关技术,包括初识Hadoop、Hadoop基础知识、Hadoop开发环境配置与搭建、Hadoop分布式文件系统、...
大数据技术之-03-Hadoop学习-Hadoop运行模式及常见错误及解决方案.docx
win10 64位的hadoop运行环境,直接替换bin,重启,即可
hadoop学习手册
在linux环境下部署的Hadoop集群-WordCount运行详解。
hadoop 学习笔记,从搭建环境开始到具体实验。包括hdfs配置,yarn配置,分布式配置,如何编写mapreuduce 一步一步手把手,最后项目是hadoop 与 javaweb
hadoop3.1.3学习资料