Si desea modificar (eliminar registros) la fuente real de datos, es decir, tablas en postgres, Spark no sería una excelente manera. Puede usar el cliente jdbc directamente para lograr lo mismo.
Si desea hacer esto de todos modos (de manera distribuida en función de algunas pistas que está calculando como parte de los marcos de datos); puede tener el mismo código de cliente jdbc escrito en correspondencia con el marco de datos que tiene información de activación/lógica para eliminar registros y que podemos ejecutar en varios trabajadores en paralelo.