Hadoop MapReduce编程实战指南：从原理到代码落地

MapReduce的核心逻辑：分而治之的编程思想

学MapReduce前，先想个生活场景：你们学校要统计全校1000名学生的数学平均分。直接让一个老师算，得逐份卷子加总分再除以人数，慢得很。但如果让10个班的班主任先算自己班的总分和人数（这一步叫“Map”），再把10个班的结果交给教导主任汇总（这一步叫“Reduce”），是不是快多了？

MapReduce的本质就是“分而治之”——把大规模数据拆成小份，让多个“Map任务”并行处理，再把结果交给“Reduce任务”合并，最终得到全局结果。它的核心流程可以拆成3步：
– Map阶段：读取输入数据，按规则转换成<key, value>键值对（比如统计单词时，把“hello world”拆成<hello,1>``<world,1>）；
– Shuffle阶段：把Map的输出按key分组（比如把所有<hello,x>的键值对放到同一组），然后传递给对应的Reduce任务（这一步像快递分拣——按收件人区域把包裹分到不同快递员手里）；
– Reduce阶段：接收同一key的所有value，做汇总计算（比如把所有<hello,x>的value加起来，得到hello的总出现次数）。

记住：MapReduce不是“新语言”，而是一套编程框架——你只需要写Mapper（定义怎么拆分数据）、Reducer（定义怎么合并结果）和Driver（定义任务的运行规则），剩下的并行、容错、资源管理全交给Hadoop。

第一个MapReduce程序：WordCount从0到1实现

学编程最有效的方式是“写代码”。我们从经典的WordCount案例入手——统计文本中每个单词的出现次数，这是MapReduce的“Hello World”。

1. 环境准备

先确认你有这些工具：
– Hadoop集群（本地伪分布式也行，推荐用Hadoop 3.x版本，兼容性更好）；
– JDK 8+（Hadoop 3.x需要JDK 8或以上）；
– Maven（用来打包Java项目）。

2. 代码结构：三个核心类

MapReduce程序必须包含3个类：Mapper（处理输入数据）、Reducer（合并结果）、Driver（配置任务参数）。直接上代码——

（1）Mapper类：拆分单词

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;

// 泛型参数说明：<输入key类型, 输入value类型, 输出key类型, 输出value类型>
// LongWritable：输入数据的行号（Hadoop的序列化类型，比Java的Long更省空间）；
// Text：输入的一行文本；
// Text：输出的key（单词）；
// IntWritable：输出的value（计数1）。
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
    // 定义常量1，避免重复创建对象
    private final static IntWritable ONE = new IntWritable(1);
    // 存储单词的Text对象（复用，减少GC）
    private Text word = new Text();

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        // 把输入的一行文本转成String
        String line = value.toString();
        // 按空格拆分单词（注意：实际场景要处理标点，比如把“hello,”拆成“hello”）
        String[] words = line.split("\s+");
        // 遍历每个单词，输出<单词,1>
        for (String w : words) {
            word.set(w);
            context.write(word, ONE); // Context是Map任务的输出上下文，用来写结果
        }
    }
}

（2）Reducer类：汇总结果

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;

// 泛型参数说明：<输入key类型（和Mapper的输出key一致）, 输入value类型（和Mapper的输出value一致）, 输出key类型, 输出value类型>
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    private IntWritable result = new IntWritable();

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int sum = 0;
        // 遍历同一key的所有value（比如所有<hello,1>），累加求和
        for (IntWritable val : values) {
            sum += val.get(); // get()方法取出IntWritable里的int值
        }
        result.set(sum);
        context.write(key, result); // 输出最终结果：<单词, 总次数>
    }
}

（3）Driver类：配置任务规则

Driver是任务的“总指挥”——告诉Hadoop：用哪个Mapper？哪个Reducer？输入输出路径在哪？

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCountDriver {
    public static void main(String[] args) throws Exception {
        // 1. 加载Hadoop配置（比如core-site.xml、hdfs-site.xml里的参数）
        Configuration conf = new Configuration();
        // 2. 创建Job对象，指定任务名称（随便起，方便查日志）
        Job job = Job.getInstance(conf, "word count");
        // 3. 指定Driver类的路径（Hadoop需要找到这个类来运行任务）
        job.setJarByClass(WordCountDriver.class);
        // 4. 设置Mapper和Reducer类
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);
        // 5. 可选：设置Combiner（在Mapper端先汇总，减少Shuffle的数据量）
        job.setCombinerClass(WordCountReducer.class);
        // 6. 设置输出结果的key和value类型（必须和Reducer的输出一致）
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        // 7. 设置输入路径（从命令行参数取第一个值，比如/input）
        FileInputFormat.addInputPath(job, new Path(args[0]));
        // 8. 设置输出路径（第二个参数，比如/output，注意：这个路径不能提前存在！）
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        // 9. 提交任务，等待完成（返回true表示成功，false失败）
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

3. 运行程序：从打包到提交

写好代码后，怎么让它在Hadoop上跑起来？

（1）用Maven打包

在pom.xml里添加Hadoop依赖（注意版本要和你的集群一致）：

<dependencies>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-common</artifactId>
        <version>3.3.4</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-mapreduce-client-core</artifactId>
        <version>3.3.4</version>
    </dependency>
</dependencies>

然后用mvn clean package打包，会生成一个wordcount-1.0-SNAPSHOT.jar（名字看你pom里的配置）。

（2）提交到Hadoop集群

把Jar包传到Hadoop节点，然后执行命令：

hadoop jar wordcount-1.0-SNAPSHOT.jar com.example.WordCountDriver /input /output

– hadoop jar：Hadoop的Jar包运行命令；
– com.example.WordCountDriver：Driver类的全路径（包名+类名）；
– /input：HDFS上的输入目录（里面放要统计的文本文件）；
– /output：HDFS上的输出目录（必须不存在，否则报错）。

（3）查看结果

任务完成后，输出目录/output里会有两个文件：
– part-r-00000：Reducer的输出结果（比如hello 5表示hello出现5次）；
– _SUCCESS：空文件，标记任务成功。

用hadoop fs -cat /output/part-r-00000就能看结果啦！

MapReduce的关键优化：让程序跑更快

刚写的WordCount能跑，但如果数据量是100TB呢？肯定慢得要死。这时候需要优化——MapReduce的优化核心是“减少数据传输”和“平衡负载”。

1. 用Combiner减少Shuffle数据量

Shuffle是MapReduce的“性能瓶颈”——它要把Map的输出数据传到Reduce节点，数据量越大，耗时越长。

Combiner是Mapper端的“小Reducer”——比如统计单词时，让每个Mapper先把自己的结果汇总（比如把<hello,1>出现10次变成<hello,10>），再传给Reduce。这样Shuffle的数据量直接减少10倍！

用法很简单：在Driver里加一行job.setCombinerClass(WordCountReducer.class);（注意：Combiner的输出类型必须和Mapper的输出一致，否则会报错）。

2. 自定义Partitioner避免数据倾斜

你有没有遇到过这种情况：任务跑了半天，其他Reduce都完成了，就一个Reduce卡着不动？这叫数据倾斜——某个key的value特别多（比如统计“中国”这个词的出现次数，全量数据都集中到一个Reduce任务）。

解决办法是自定义Partitioner——按业务规则把key分到不同的Reduce任务。比如统计用户订单时，可以按用户ID的哈希值取模，把数据均匀分到多个Reduce。

示例：自定义Partitioner类（按单词长度分区）：

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

public class WordLengthPartitioner extends Partitioner<Text, IntWritable> {
    @Override
    public int getPartition(Text key, IntWritable value, int numPartitions) {
        // 按单词长度分区：长度1-2的到分区0，3-4的到分区1，其余到分区2
        int length = key.toString().length();
        if (length <= 2) return 0;
        else if (length <=4) return 1;
        else return 2;
    }
}

然后在Driver里设置：job.setPartitionerClass(WordLengthPartitioner.class);，并指定Reduce任务数量（比如job.setNumReduceTasks(3);，要和分区数一致）。

3. 用Writable类型提升序列化效率

Hadoop的序列化框架比Java原生的更高效（因为它更紧凑）。所以不要用Java的基本类型（比如Long、String），要用Hadoop的Writable类型：
– LongWritable代替Long；
– Text代替String；
– IntWritable代替int。

比如，如果你用String作为key，Hadoop要把它转成Text才能序列化，多了一步转换，效率低。

踩坑实录：那些让你头疼的常见问题

我当初学MapReduce时，踩过的坑能绕地球一圈。把最常见的几个列出来，帮你避坑：

1. 输出目录已经存在

报错信息：org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory /output already exists。
解决：删除输出目录（hadoop fs -rm -r /output），或者换个新目录。

2. 输出文件为空

明明输入有数据，但输出文件part-r-00000是空的？先检查这3点：
– 输入路径是不是错了？比如写成/input.txt（应该是目录/input）；
– Mapper有没有输出？比如拆分单词时正则写错了（比如把\s+写成s+，Java里要转义）；
– Reduce有没有接收到数据？看任务日志（yarn logs -applicationId <appId>），有没有“Reduce input groups: 0”的信息——如果有，说明Shuffle没传数据过来。

3. 数据倾斜（某个Reduce卡着不动）

看Yarn的Web界面（默认是http://localhost:8088），如果某个Reduce的“Completed Maps”是100%，但“Progress”一直是50%，那就是数据倾斜了。
解决：
– 用自定义Partitioner分散大key；
– 把大key拆成多个小key（比如把“中国”拆成“中国_1”“中国_2”，Reduce后再合并）；
– 增加Reduce任务数量（job.setNumReduceTasks(10);）。

MapReduce的真实战场：哪些场景需要它？

别以为MapReduce过时了——它依然是大数据领域的“基础工具”，适合处理离线、批量、高延迟的任务。常见场景有：
– 日志分析：统计网站每小时的访问量、每个IP的访问次数；
– 数据清洗：过滤日志中的无效数据（比如状态码不是200的请求）、转换数据格式（比如把JSON转成CSV）；
– 排序：按商品销量从高到低排序（Map输出<销量, 商品ID>，Reduce按销量排序）；
– 统计分析：计算用户的平均下单金额、各地区的订单量占比。

比如，我之前做过一个“用户行为分析”的任务：用MapReduce处理1TB的用户浏览日志，统计每个用户的“停留时长”。Mapper负责提取用户ID和停留时间，Reducer负责汇总每个用户的总停留时长——整个任务跑了40分钟，比用单线程快了100倍！

最后想说：MapReduce不难，难的是“用它解决实际问题”。多写几个案例（比如统计日志中的TOP10访问IP、计算矩阵乘法），你就能摸到它的“套路”了。如果遇到问题，记得看Hadoop的日志——日志是最好的老师！

原创文章，作者：，如若转载，请注明出处：https://zube.cn/archives/229

hadoop 大数据编程数据处理