목록Big Data (13)
Just Fighting

먼저 hadoop을 실행한다. 정상적으로 실행이 되었다면 쥬피터 노트북을 실행한다. findspark를 활용해 스파크와 연결한다. pip install findspark import findspark findspark.init() 다음은 스파크를 생성해 미리 저장해 놓은 데이터를 불러온다. 나는 user 폴더를 만들고 그 안에 movies.csv라는 파일을 넣어 놓았고, 그 파일을 불러와보려고 한다. # spark 생성 import pyspark from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() data = spark.read.csv("hdfs://localhost:19000/user/movies.csv", he..

https://codedragon.tistory.com/9582 Hadoop - install for windows (설치 및 설정하기) Hadoop - install for windows 하둡 설치파일 압축해제 환경변수 추가하기 정상 설치 확인하기 HDFS configurations YARN configurations Initialize environment variables Format file system 설정 Start HDF.. codedragon.tistory.com 위에 블로그를 따라서 하둡을 설치했다. 이전에 다운 받은 spark의 버전에 맞춰 hadoop 3.2.2 를 다운받았다. 2022.02.15 - [ETC] - [Spark] pyspark 설치 & 실행하기 spark를 다운받으면서..

아파치 스파크란? 빅데이터 처리를 위한 오픈소스 병렬분산처리 플랫폼 스파크 구조 스파크 코어는 데이터소스로 HDFS 뿐만 아니라 하이브, HBase, PostgreSQL, MySQL, CSV파일 등도 받아들일 수 있음 스파크 특징① - 반복처리와 연속으로 이루어지는 변환처리의 고속화 스파크 등장 전 사용한 맵리듀스는 데이터 지역성을 의식한 처리와 내결함성, 확장성 등의 기능을 제공해 복수의 머신으로 구성된 환경을 통한 병렬분산처리를 쉽게 실현할 수 있었음. 각 처리의 결과가 항상 스토리지에 보존되기 때문에 데이터 크기가 커져도 문제없이 작동하고, 시스템 장애가 발생해도 비교적 쉽게 복구된다. 그러나 특정 데이터 부분집합에 대해 여러 번 처리하는 애플리케이션은 효율적인 처리가 어려운 단점을 가진다. 맵리듀..

pyspark의 설치 과정은 아래 링크를 참고 https://koddol016.tistory.com/6 [SPARK] 아파치 스파크 설치(pyspark) 스파크는 기본적으로 클러스트 환경에서 사용하는 것이지만 일반적인 pc에서 사용할 수 있게 단일 모드(로컬 모드)도 제공한다. 아래는 설치 과정이다. www.youtube.com/watch?v=AB2nUrKYRhw&t=538s 위 영상 koddol016.tistory.com 크게 정리만 하자면 1. jdk 설치 2. 파이썬 설치 3. spark 다운 4. winutils.exe 다운 5. 폴더 생성 및 파일 위치 변경 6. 환경변수 설정 나는 jdk와 파이썬이 이미 설치되어 있어서 3번부터 진행했다. 3, 4번 과정을 진행할 때 하둡의 버전을 맞춰서 다운..