PySparkやDatabricksでDataFrameを保存すると、データは複数のファイルに分割されます。これは並列処理のために自然に発生する動作ですが、ファイルサイズが適切でないと大きな問題を引き起こします。たとえば、小さなファイルが大量に生成される「スモール ...