Spark面试题阅读指南(必看)
大家好,我是帅地。
为了方便大家复习,这些面试题的展示采取了右边面试题目,左边答案的方式,方便大家按需查看。
由于手机端不支持这种展示方式,当然,为了手机方便阅读,下面会贴出所有面试题答案链接,不过大家最好在 PC 电脑端阅读哈,相关面试题还会持续更新,尽量补充完善起来,建议收藏帅地的网站哦。
面试题链接汇总
12. 简述Spark on Standalone运行过程 ?
14. 简述YARN-Client 与 YARN-Cluster 区别 ?
15. 简述Spark的yarn-cluster涉及的参数有哪些 ?
22. 简述Apache Spark 中的 RDD 是什么 ?
23. 简述SparkContext 与 SparkSession之间的区别是什么 ?
28. Spark的stage如何划分?在源码中是怎么判断属于ShuGle Map Stage或Result Stage的 ?
29. 简述Spark join在什么情况下会变成窄依赖 ?
32. 简述Spark分哪几个部分(模块)?分别有什么作用(做什么,自己用过哪些,做过什么) ?
34. Spark SQL的GroupBy会造成窄依赖吗 ?
36. 简述Spark的宽依赖和窄依赖,为什么要这么划分 ?
37. Spark中的Transform和Action,为什么Spark要把操作分为Transform 和Action?常用的列举一些,说下算子原理 ?
39. 简述Spark有了RDD,为什么还要有Dataform和DataSet ?
40. 简述Spark的RDD、DataFrame、DataSet、DataStream区别 ?
41. 简述Spark的Job、Stage、Task分别介绍下,如何划分 ?
42. 简述Application 、job、Stage、task之间的关系 ?
54. 简述Spark的batchsize,怎么解决小文件合并问题 ?
57. 简述什么是RDD(对RDD的理解)?RDD有哪些特点?说下知道的RDD算子 ?
61. 简述reduceByKey和groupByKey的区别和作用 ?
63. 简述使用reduceByKey出现数据倾斜怎么办 ?
66. 简述Spark SQL与DataFrame的使用 ?
67. 简述HashPartitioner和RangePartitioner的实现 ?
69. 简述DAGScheduler、TaskScheduler、SchedulerBackend实现原理 ?
70. 简述Spark client提交application后,接下来的流程 ?
72. 简述在Yarn-client情况下,Driver此时在哪 ?
78. 简述DataFrame的cache和persist的区别 ?
79. 简述Saprk Streaming从Kafka中读取数据两种方式 ?
82. 简述Spark的driver是怎么驱动作业流程的 ?
84. 简述Spark Streaming和Structed Streaming ?
86. 简述Spark Streaming的双流join的过程,怎么做的 ?
90. 简述Spark Streaming怎么实现数据持久化保存 ?
91. 简述Spark SQL读取文件,内存不够使用,如何处理 ?