[Spark] pyspark 설치 & 실행하기

관리 메뉴

Just Fighting

Big Data

yennle 2022. 2. 15. 19:06

728x90

pyspark의 설치 과정은 아래 링크를 참고

[SPARK] 아파치 스파크 설치(pyspark)

스파크는 기본적으로 클러스트 환경에서 사용하는 것이지만 일반적인 pc에서 사용할 수 있게 단일 모드(로컬 모드)도 제공한다. 아래는 설치 과정이다. www.youtube.com/watch?v=AB2nUrKYRhw&t=538s 위 영상

koddol016.tistory.com

크게 정리만 하자면

1. jdk 설치

2. 파이썬 설치

3. spark 다운

4. winutils.exe 다운

5. 폴더 생성 및 파일 위치 변경

6. 환경변수 설정

나는 jdk와 파이썬이 이미 설치되어 있어서 3번부터 진행했다.

3, 4번 과정을 진행할 때 하둡의 버전을 맞춰서 다운받아줘야 한다.

spark-3.0.3-bin-hadoop3.2.tgz 를 다운받았다면

winutils.exe 파일을 hadoop-3.2.x 버전으로!

그리고 cmd창에 들어가서 아래 코드 중 둘 중 하나를 입력하고

아래 사진과 같이 뜨면 잘 된거다!

spark-shell

pyspark

하지만 나는 계속 실행이 되지 않아 이것저것 찾아봤는데

가장 큰 이유가 jdk 버전이였던 것 같다. jdk-16.0.1이 컴퓨터에 깔려있었고

jdk-11.0.14 를 다운받아 환경변수를 수정하고 다시 실행해보니 성공적으로 실행되었다.

(환경변수를 설정할 때 처음엔 사용자변수에 했는데 그걸 시스템 변수에 똑같이 해주어서 된 것일 수도,,, 정확하진 않음)

이대로 끝내기 아쉬워서 csv 파일 하나 불러오는 것을 시도했다.

성공적인 마무리~!

728x90

'Big Data' Related Articles

Comments