V
主页
group by与partition by的联系与区别?
发布人
SQL查询中的两种分组方式,你清楚区别吗?
打开封面
下载高清视频
观看高清视频
视频下载器
数据开发与数据挖掘,有啥区别?
啥是mpp数据库,跟普通分布式数据库有啥区别呢?
Spark on yarn,client和cluster模式的区别是啥?
Flink的CDC跟JDBC,区别与联系?
SQL查询时,group by真的要比count distinct更好吗?
Flink CDC到底是个啥?是Flink啥关系?
什么是3阶段提交?
数据出现重复 该怎么解决?
数仓架构和大数据架构有啥区别?
面试问:是否有过数仓优化案例?
啥是高可用?啥又是负载均衡?两者有啥区别?
数据血缘到底是个什么东西呀?
啥是外部表?啥又是内部表?
我们每次说的CDC,到底是个什么玩意?
Spark中Driver、Executor、Job、Stage、Task、Partition如何理解
Clickhouse处理字段变化的json,效果如何?
什么是倒排索引,跟普通索引啥区别?
大数据开发薪水有多高?
zookeeper是如何防止分布式系统的"脑裂"问题的?
什么是两阶段提交?
如何正确理解"数据湖"这个概念?
Doris跟Clickhouse的数据导出,谁更好使?
什么是 shared nothing、shared disk、shared storage?
数据导入工具那么多,选哪个呢?
大数据平台那么多,该如何选择?
面试问:kafka消费端如何保证精确一次性消费?
Clickhouse是一种什么样的数据库呢?
什么样的字段适合建分区,以及什么样的字段适合建索引?
Doris跟Clickhouse比,谁更快?
要抽取的数据量很大时,该怎么办?
你的数仓建设是在生搬硬套建模理论吗?
Spark对比flink导出相同数据量,谁需要的内存更大?
数据源导入,选全量还是增量?
想用 Flink CDC 必须要要满足哪些条件?
面试问spark调优,如何回答比较高级?
Clickhouse的分片集群和副本集群
为什么你总喜欢用join?
kafka的削峰填谷和异步解耦,该如何理解?
如何理解数据库中的事实表与维度表?
spark的运行参数,如何设置比较合理?