在 Spark 中通过 JDBC 连接从 SQL Server 获取数据时,我发现我可以设置一些并行化参数,例如 partitionColumn
, lowerBound
, upperBound
, 和 numPartitions
.我经历过spark documentation但无法理解。
谁能解释一下这些参数的含义?
请您参考如下方法:
实际上上面的列表遗漏了一些东西,特别是第一个和最后一个查询。
没有它们,您会丢失一些数据( lowerBound
之前的数据和 upperBound
之后的数据)。从示例中看不清楚,因为下限为 0。
完整列表应该是:
SELECT * FROM table WHERE partitionColumn < 100
SELECT * FROM table WHERE partitionColumn BETWEEN 0 AND 100
SELECT * FROM table WHERE partitionColumn BETWEEN 100 AND 200
...
SELECT * FROM table WHERE partitionColumn > 9000