Particiones SparkSQL PostgresQL Dataframe

Esencialmente, el límite superior e inferior y el número de particiones se utilizan para calcular el incremento o la división de cada tarea paralela.

Digamos que la tabla tiene la columna de partición "año" y tiene datos de 2006 a 2016.

Si define el número de particiones como 10, con un límite inferior de 2006 y un límite superior de 2016, tendrá cada tarea obteniendo datos para su propio año:el caso ideal.

Incluso si especifica incorrectamente el límite inferior y/o superior, p. establezca inferior =0 y superior =2016, habrá un sesgo en la transferencia de datos, pero no "perderá" ni dejará de recuperar ningún dato, porque:

La primera tarea obtendrá datos para el año <0.

La segunda tarea obtendrá datos del año entre 0 y 2016/10.

La tercera tarea obtendrá datos del año entre 2016/10 y 2*2016/10.

...

Y la última tarea tendrá una condición where con año->2016.