简述Spark的宽依赖和窄依赖，为什么要这么划分？

八股文_Spark 0 30

Spark 中的宽依赖（Wide Dependency）和窄依赖（Narrow Dependency）是根据父任务与子任务之间的数据传递方式来区分的。具体来说：

窄依赖：父任务的输出只会被少数几个子任务使用，每个子任务的数据来自一个或少数几个父任务的输出数据。窄依赖不需要跨分区的数据传输，因此通常不会引起 shuffle 操作。常见的窄依赖算子有 map、filter、flatMap 等。
宽依赖：父任务的输出会被多个子任务使用，并且需要跨分区的数据传输，这就引发了 shuffle 操作。常见的宽依赖算子有 groupByKey、reduceByKey、join 等。

为什么要这样划分依赖？

性能优化：
- 窄依赖的操作较为高效，因为它们不需要进行数据的 shuffle，也就意味着没有跨节点的数据传输。跨分区的数据传输（即 shuffle）会引入磁盘 I/O、网络通信等开销，增加了执行时间。因此，窄依赖的操作通常更快。
- 宽依赖操作通常会引入 shuffle，导致较大的性能开销。特别是数据量大时，shuffle 的过程会消耗大量的时间和计算资源。
容错机制：
- Spark 使用 RDD（弹性分布式数据集）的血统（lineage）信息来实现容错。窄依赖的操作可以较为简单地重新计算丢失的数据，因为它们的数据流向简单，不会涉及复杂的跨分区数据传递。
- 对于宽依赖的操作，Spark 需要在发生数据丢失时通过 shuffle 的血统信息来重新计算，这可能会导致计算过程变得更加复杂和昂贵。
作业调度：
- 在作业调度中，宽依赖会涉及到不同分区之间的数据交换，需要 Spark 的调度器去合理安排任务执行，确保数据的移动和合并是高效的。
- 窄依赖的操作则可以较为直接地按顺序执行，每个子任务独立处理一个分区的数据，不需要担心跨分区的数据传输。

举个例子：

窄依赖的例子：假设有一个包含数字的 RDD，我们使用 map 操作对每个数字进行平方：
```
rdd = sc.parallelize([1, 2, 3, 4])
rdd_squared = rdd.map(lambda x: x * x)
```
Python
这个操作是窄依赖，因为每个数字只会映射到一个输出，不需要跨分区传递数据。
宽依赖的例子：假设有两个 RDD，其中一个存储了学生的信息，另一个存储了学生的成绩信息，我们使用 join 操作将两个 RDD 按学生 ID 进行连接：
```
rdd1 = sc.parallelize([(1, 'Alice'), (2, 'Bob')])
rdd2 = sc.parallelize([(1, 90), (2, 85)])
rdd_joined = rdd1.join(rdd2)
```
Python
这个操作是宽依赖，因为 Spark 需要根据 id 对两个 RDD 进行重分区操作，将相同 id 的数据放在同一分区进行合并。这涉及到跨分区的数据移动（shuffle）。

窄依赖：父任务的输出只会被少数子任务使用，不需要跨分区的数据传输，因此性能较好，通常不会引起 shuffle 操作。
宽依赖：父任务的输出会被多个子任务使用，并且需要跨分区的数据传输，通常会导致 shuffle 操作，影响性能。
Spark 将依赖分为窄依赖和宽依赖，主要是为了更好地优化性能、容错机制以及作业调度。宽依赖引入的 shuffle 操作会增加计算的开销，而窄依赖则能更高效地执行任务。