Just Fighting

[Spark] pyspark로 hdfs 데이터 불러오기 본문

Big Data

[Spark] pyspark로 hdfs 데이터 불러오기

yennle 2022. 2. 24. 18:28
728x90

먼저 hadoop을 실행한다.

 

 

정상적으로 실행이 되었다면 쥬피터 노트북을 실행한다.

findspark를 활용해 스파크와 연결한다.

pip install findspark
import findspark

findspark.init()

 

다음은 스파크를 생성해 미리 저장해 놓은 데이터를 불러온다.

나는 user 폴더를 만들고 그 안에 movies.csv라는 파일을 넣어 놓았고,

그 파일을 불러와보려고 한다.

# spark 생성

import pyspark
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
data = spark.read.csv("hdfs://localhost:19000/user/movies.csv", header="true", inferSchema="true")

localhost:19000은 core-site.xml에 넣어놓은 값이다.

이렇게 데이터를 불러오면 된다!

 

show()를 이용해 불러온 데이터를 확인했다.

성공적으로 csv 파일을 가져온 것을 알 수 있다.

 

 

728x90
Comments