pandas和spark dataframe互相转换实例详解

站长资源 2025/1/1 佚名

10 1538 10

白云岛资源网 Design By www.pvray.com

这篇文章主要介绍了pandas和spark dataframe互相转换实例详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

from pyspark.sql import SparkSession
# 初始化spark会话
spark = SparkSession   .builder   .getOrCreate()
spark_df = spark.createDataFrame(pandas_df)

spark的dataframe转pandas的dataframe

import pandas as pd
pandas_df = spark_df.toPandas()

由于pandas的方式是单机版的，即toPandas()的方式是单机版的，所以参考breeze_lsw改成分布式版本：

import pandas as pd
def _map_to_pandas(rdds):
  return [pd.DataFrame(list(rdds))]
  
def topas(df, n_partitions=None):
  if n_partitions is not None: df = df.repartition(n_partitions)
  df_pand = df.rdd.mapPartitions(_map_to_pandas).collect()
  df_pand = pd.concat(df_pand)
  df_pand.columns = df.columns
  return df_pand
  
pandas_df = topas(spark_df)

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

pandas,spark,dataframe

白云岛资源网 Design By www.pvray.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

白云岛资源网 Design By www.pvray.com

评论“pandas和spark dataframe互相转换实例详解”

暂无评论...

pandas和spark dataframe互相转换实例详解

使用Tkinter制作信息提示框

Python中import导入不同目录的模块方法详解

评论“pandas和spark dataframe互相转换实例详解”

友情链接