Just Fighting
[Spark] pyspark 설치 & 실행하기 본문
728x90
pyspark의 설치 과정은 아래 링크를 참고
https://koddol016.tistory.com/6
크게 정리만 하자면
1. jdk 설치
2. 파이썬 설치
3. spark 다운
4. winutils.exe 다운
5. 폴더 생성 및 파일 위치 변경
6. 환경변수 설정
나는 jdk와 파이썬이 이미 설치되어 있어서 3번부터 진행했다.
3, 4번 과정을 진행할 때 하둡의 버전을 맞춰서 다운받아줘야 한다.
spark-3.0.3-bin-hadoop3.2.tgz 를 다운받았다면
winutils.exe 파일을 hadoop-3.2.x 버전으로!
그리고 cmd창에 들어가서 아래 코드 중 둘 중 하나를 입력하고
아래 사진과 같이 뜨면 잘 된거다!
spark-shell
pyspark
하지만 나는 계속 실행이 되지 않아 이것저것 찾아봤는데
가장 큰 이유가 jdk 버전이였던 것 같다. jdk-16.0.1이 컴퓨터에 깔려있었고
jdk-11.0.14 를 다운받아 환경변수를 수정하고 다시 실행해보니 성공적으로 실행되었다.
(환경변수를 설정할 때 처음엔 사용자변수에 했는데 그걸 시스템 변수에 똑같이 해주어서 된 것일 수도,,, 정확하진 않음)
이대로 끝내기 아쉬워서 csv 파일 하나 불러오는 것을 시도했다.
성공적인 마무리~!
728x90
'Big Data' 카테고리의 다른 글
[Hadoop] 디렉터리 생성 & 파일 올리기 (0) | 2022.03.11 |
---|---|
[Spark] pyspark로 hdfs 데이터 불러오기 (0) | 2022.02.24 |
[Hadoop] 윈도우에서 하둡 설치 & 실행하기 (0) | 2022.02.19 |
[Spark] 스파크의 기본 개념 (0) | 2022.02.17 |
[Hadoop] 하둡의 기본 개념 (0) | 2022.02.14 |
Comments