V
主页
spark任务变慢,有哪些解决办法?
发布人
Spark的批处理任务越来越慢,可以这样来优化...
打开封面
下载高清视频
观看高清视频
视频下载器
一个用spark解决数据倾斜的案例
选Spark还是Flink?
spark的运行参数,如何设置比较合理?
Spark on yarn,client和cluster模式的区别是啥?
spark的driver和executor两种角色
分布式任务,为什么本地跟集群跑的不一样?
分布式计算引擎为啥要用虚拟CPU?
Spark 在什么情况下用分布式不划算?
Rdd, DataFrame, DataSet的发展历程与历史渊源……
离线数仓开发,选spark还是Hive SQL?
简单理解spark中的rdd
面试题:连续登陆领金币问题
Spark如何用连接单例,来引入外部数据源?
spark和flink并行度,你更喜欢谁的?
mapPartitions的效率真的要比map高吗?
整理了一些Spark的面试题
Spark中Driver、Executor、Job、Stage、Task、Partition如何理解
自定义Partitioner进一步优化数据倾斜
Spark如何读取变化的外部数据源?
Flink跟Spark的聚合状态恢复,谁能达到精确一次性?
如何理解实时计算中的windows功能?
计算引擎的分区数于并行数如何确定
Spark为什么比MapReduce快?
如何理解spark中的广播变量?
面试问spark调优,如何回答比较高级?
Flink对比Spark写Elasticsearch,谁更快?
传统SQL和Java开发转Spark,可以吗?
RDD还有人用吗?
面试被问数据量,咋回答?
Spark怎么用ThreadLocal引入外部数据源?
为什么你的项目经验这么拉跨?
如何正确理解spark中的累加器
流式计算为啥需要checkpoint?
分布式任务,如何查看具体的后台进程?
做大数据开发,如何如何选择正确的公司?
spark的repartition
面试问:你的集群规模有多大?
hive跟spark到底有啥区别?
Spark的RDD,存储数据吗?
Flink跟Spark精确一次性对比,谁更厉害?