[Spark] pyspark 설치 & 실행하기
pyspark의 설치 과정은 아래 링크를 참고
https://koddol016.tistory.com/6
[SPARK] 아파치 스파크 설치(pyspark)
스파크는 기본적으로 클러스트 환경에서 사용하는 것이지만 일반적인 pc에서 사용할 수 있게 단일 모드(로컬 모드)도 제공한다. 아래는 설치 과정이다. www.youtube.com/watch?v=AB2nUrKYRhw&t=538s 위 영상
koddol016.tistory.com
크게 정리만 하자면
1. jdk 설치
2. 파이썬 설치
3. spark 다운
4. winutils.exe 다운
5. 폴더 생성 및 파일 위치 변경
6. 환경변수 설정
나는 jdk와 파이썬이 이미 설치되어 있어서 3번부터 진행했다.
3, 4번 과정을 진행할 때 하둡의 버전을 맞춰서 다운받아줘야 한다.
spark-3.0.3-bin-hadoop3.2.tgz 를 다운받았다면
winutils.exe 파일을 hadoop-3.2.x 버전으로!
그리고 cmd창에 들어가서 아래 코드 중 둘 중 하나를 입력하고
아래 사진과 같이 뜨면 잘 된거다!
spark-shell
pyspark
하지만 나는 계속 실행이 되지 않아 이것저것 찾아봤는데
가장 큰 이유가 jdk 버전이였던 것 같다. jdk-16.0.1이 컴퓨터에 깔려있었고
jdk-11.0.14 를 다운받아 환경변수를 수정하고 다시 실행해보니 성공적으로 실행되었다.
(환경변수를 설정할 때 처음엔 사용자변수에 했는데 그걸 시스템 변수에 똑같이 해주어서 된 것일 수도,,, 정확하진 않음)
이대로 끝내기 아쉬워서 csv 파일 하나 불러오는 것을 시도했다.
성공적인 마무리~!