计算引擎的分区数于并行数如何确定 - 视频下载 Video Downloader

计算引擎的分区数于并行数如何确定

发布人

这期视频录是之前录的，但是看评论区有小伙伴要求讲讲计算引擎的分区数和并行数，就把这个给找出来了，大家凑合看哈...

打开封面下载高清视频观看高清视频视频下载器

分布式计算引擎为啥要用虚拟CPU？

如何创建一个最简spark工程？

分区、分桶、排序字段，如何确定？

流式计算为啥需要checkpoint？

选Spark还是Flink？

如何理解实时计算中的windows功能？

hive跟spark到底有啥区别？

自定义Partitioner进一步优化数据倾斜

整理了一些Spark的面试题

传统SQL和Java开发转Spark，可以吗？

如何理解流式计算的watermark？

跑spark选多executor单CPU，还是单executor多CPU？

如何理解spark中的广播变量？

spark任务变慢，有哪些解决办法？

Flink对比Spark写Elasticsearch，谁更快？

spark的driver和executor两种角色

如何通俗理解实时计算和离线计算

大数据系统架构设计第一步

Spark或者flink任务提交集群，出现jar包冲突，咋整？

Spark的RDD，存储数据吗？

什么样的字段适合建分区，以及什么样的字段适合建索引？

mapPartitions的效率真的要比map高吗?

Flink跟Spark存在的必要性，有哪些？

数仓建模到底是怎么一肥事？

什么是线程池？

Spark引入外部数据源之广播变量

简单理解spark中的rdd

Spark为什么比MapReduce快？

Spark中Driver、Executor、Job、Stage、Task、Partition如何理解

做大数据开发，如何如何选择正确的公司？

Spark 在什么情况下用分布式不划算？

Spark对比flink导出相同数据量，谁需要的内存更大？

spark的运行参数，如何设置比较合理？

如何正确理解spark中的累加器

什么是分布式事务？

Flink跟Spark的流状态管理，有啥不一样？

大数据系统架构设计第二步：数据落地

数据导入工具那么多，选哪个呢？

如何真正理解幂等？

Flink跟Spark精确一次性对比，谁更厉害？