Skip to main content
 首页 » 编程设计

apache-spark之partitionColumn、lowerBound、upperBound、numPartitions参数是什么意思

2024年11月24日27grandyang

在 Spark 中通过 JDBC 连接从 SQL Server 获取数据时,我发现我可以设置一些并行化参数,例如 partitionColumn , lowerBound , upperBound , 和 numPartitions .我经历过spark documentation但无法理解。

谁能解释一下这些参数的含义?

请您参考如下方法:

实际上上面的列表遗漏了一些东西,特别是第一个和最后一个查询。

没有它们,您会丢失一些数据( lowerBound 之前的数据和 upperBound 之后的数据)。从示例中看不清楚,因为下限为 0。

完整列表应该是:

SELECT * FROM table WHERE partitionColumn < 100 
 
SELECT * FROM table WHERE partitionColumn BETWEEN 0 AND 100   
SELECT * FROM table WHERE partitionColumn BETWEEN 100 AND 200   

...
SELECT * FROM table WHERE partitionColumn > 9000