Apache Spark: ReduceByKey vs GroupByKey – różnice i porównanie

W tym poście spórbuję przedstawić Ci główną różnice pomiędzy metodami ReduceByKey i GroupByKey i dlaczego powinieneś unikać tej drugiej. A dlaczego? Odpowiedź kryję się pod pojęciem "shuffe". Shuffle W środowisku…

Czytaj dalej Apache Spark: ReduceByKey vs GroupByKey – różnice i porównanie

Apache Spark: Jak zapisać DataFrame w postaci jednego pliku na HDFS?

Jeśli chce zapisać DataFrame jako plik na HDFS to może się pojawić problem, że zostanie on zapisany w postaci wielu plików. Jest to jak najbardziej poprawne zachowanie i wynika to ze zrównoleglania pracy w Apache Spark.

Czytaj dalej Apache Spark: Jak zapisać DataFrame w postaci jednego pliku na HDFS?