V
主页
流式计算的低延迟与高吞吐,跟GC有啥子关系?
发布人
GC效率会直接影响流式计算的吞吐效率,为啥呢?
打开封面
下载高清视频
观看高清视频
视频下载器
如何理解流式计算的watermark?
流式计算为啥需要checkpoint?
我们每次说的CDC,到底是个什么玩意?
Flink的CDC跟JDBC,区别与联系?
Flink CDC到底是个啥?是Flink啥关系?
啥是接口,啥又是API?
kafka出现数据积压,如何解决?
啥是ETL?为啥我们需要它?
hive跟spark到底有啥区别?
zookeeper是如何防止分布式系统的"脑裂"问题的?
group by与partition by的联系与区别?
你的数仓建设是在生搬硬套建模理论吗?
大数据项目,怎么跟MySQL,Redis发生关系?
分布式计算引擎为啥要用虚拟CPU?
如何通俗理解实时计算和离线计算
如何理解实时计算中的windows功能?
Zookeeper自己是如何防止脑裂问题的呢?
什么是倒排索引,跟普通索引啥区别?
如何通俗理解分布式系统中的“脑裂”现象?
Spark on yarn,client和cluster模式的区别是啥?
spark的运行参数,如何设置比较合理?
spark和flink并行度,你更喜欢谁的?
数据仓库为啥要分层呢?
什么是 shared nothing、shared disk、shared storage?
为什么会出现索引失效的情况呢?
自定义Partitioner进一步优化数据倾斜
面试问:是否有过数仓优化案例?
如何理解数据库中的事实表与维度表?
Doris跟Clickhouse比,谁更快?
数据出现重复 该怎么解决?
学习大数据,不推荐你去看书
StreamPark 跟 Dinky 使用起来怎么样?
啥叫存算分离?啥又叫存算一体?
程序本地VS集群运行,环境变量为什么不一样?
数据开发与数据挖掘,有啥区别?
“流批一体”该如何正确理解?
什么样的字段适合建分区,以及什么样的字段适合建索引?
数仓建模到底是怎么一肥事?
啥是外部表?啥又是内部表?
大数据开发简历包装的2个误区,你有吗?