sql >> データベース >  >> RDS >> PostgreSQL

pysparkを使用してPostgreSQLに接続する

    https://jdbc.postgresql.org/download.html

    からPostgreSQLJDBCドライバーをダウンロードします。

    次に、データベース構成値を自分のものに置き換えます。

    from pyspark.sql import SparkSession
    
    spark = SparkSession \
        .builder \
        .appName("Python Spark SQL basic example") \
        .config("spark.jars", "/path_to_postgresDriver/postgresql-42.2.5.jar") \
        .getOrCreate()
    
    df = spark.read \
        .format("jdbc") \
        .option("url", "jdbc:postgresql://localhost:5432/databasename") \
        .option("dbtable", "tablename") \
        .option("user", "username") \
        .option("password", "password") \
        .option("driver", "org.postgresql.Driver") \
        .load()
    
    df.printSchema()
    

    詳細:https://spark.apache.org/docs/latest/sql-data-sources-jdbc.html



    1. 初心者向けのSQLCOUNT()

    2. SQL Server(T-SQL)でのREPLICATE()関数のしくみ

    3. oracleDATEとTIMESTAMPの違い

    4. PostgreSQL:警告:コンソールコードページ(437)はWindowsコードページ(1252)とは異なります