Just Fighting
[Spark] pyspark로 hdfs 데이터 불러오기 본문
728x90
먼저 hadoop을 실행한다.
정상적으로 실행이 되었다면 쥬피터 노트북을 실행한다.
findspark를 활용해 스파크와 연결한다.
pip install findspark
import findspark
findspark.init()
다음은 스파크를 생성해 미리 저장해 놓은 데이터를 불러온다.
나는 user 폴더를 만들고 그 안에 movies.csv라는 파일을 넣어 놓았고,
그 파일을 불러와보려고 한다.
# spark 생성
import pyspark
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = spark.read.csv("hdfs://localhost:19000/user/movies.csv", header="true", inferSchema="true")
localhost:19000은 core-site.xml에 넣어놓은 값이다.
이렇게 데이터를 불러오면 된다!
show()를 이용해 불러온 데이터를 확인했다.
성공적으로 csv 파일을 가져온 것을 알 수 있다.
728x90
'Big Data' 카테고리의 다른 글
[Spark] pandas dataframe를 hdfs에 저장하기 (0) | 2022.03.12 |
---|---|
[Hadoop] 디렉터리 생성 & 파일 올리기 (0) | 2022.03.11 |
[Hadoop] 윈도우에서 하둡 설치 & 실행하기 (0) | 2022.02.19 |
[Spark] 스파크의 기본 개념 (0) | 2022.02.17 |
[Spark] pyspark 설치 & 실행하기 (0) | 2022.02.15 |
Comments