목록Big Data (13)
Just Fighting

카프카에는 다양한 데이터가 들어갈 수 있음 이 데이터가 들어가는 공간을 ‘토픽’이라고 함 일반적인 AMQP와는 다르게 동작함 카프카는 토픽을 여러 개 생성할 수 있음 토픽은 데이터베이스의 테이블이나 파일시스템의 폴더와 유사한 성질을 가짐 프로듀서가 토픽에 데이터를 넣고, 컨슈머가 그 데이터를 가져감 토픽은 이름을 가질 수 있음. 무슨 데이터를 담는지 명시하면 추후 유지보수에 편리함. 하나의 토픽은 여러개의 파티션으로 구성될 수 있으며, 파티션의 번호는 0부터 시작함. 파티션에 데이터가 차곡차곡 쌓이게 됨. 컨슈머는 데이터를 가장 오래된 순으로 가져감. 더 이상 데이터가 들어오지 않으면 컨슈머는 새로운 데이터가 들어올 때까지 기다림. 이 때, 컨슈머가 데이터를 가져가더라도 데이터는 삭제되지 않는다. 파티션..

데이터를 전송하는 소스 애플리케이션과 데이터를 받는 타겟 애플리케이션이 있음 처음에는 간단하게 단방향 통신을 했음 시간이 지나면서 소스 애플리케이션과 타겟 애플리케이션이 많아지고 데이터를 조성하는 라인이 복잡해짐 소스 애플리케이션와 타겟 애플리케이션 개수가 늘어날수록 데이터 전송 라인이 많아짐 -> 배포와 장애에 대응하기 어려움 데이터를 조성할 때 프로토콜, 포맷의 파편화가 심해짐 -> 포맷내부에 변경사항이 있을 때 유지보수하기가 어려워짐 이런 복잡함을 해결하기 위해 링크드인에서 아파치 카프카를 개발하였고, 오픈소스로 제공! 아파치 카프카는 소스 애플리케이션과 타겟 애플리케이션의 연결을 약하게 하기 위해 나옴. 소스 애플리케이션은 데이터를 카프카에 전송하면 되고, 타겟 애플리케이..

2022.03.29 - [ETC] - [PySpark] Pipeline 사용하기 이전 게시글에 이어서 모델을 튜닝해보고자 한다. 모델 튜닝을 위해서 ParamGridBuilder와 CrossValidator를 사용한다. ParamGridBuilder를 통해 조절하고 싶은 변수들의 값들을 지정해준다. 그리고 CrossValidator를 이용해 각 경우의 수에 따라 모델을 생성한다. # 모델 튜닝 from pyspark.ml.tuning import ParamGridBuilder, CrossValidator paramGrid = (ParamGridBuilder() .addGrid(lr.maxIter, [100, 120]) .addGrid(lr.regParam, [0.0, 0.1]) .addGrid(lr.el..

파이프라인은 여러 기계 학습 알고리즘을 함께 결합하는 완전한 워크플로이다. 데이터를 처리하고 학습하는데 필요한 여러 단계와 순서를 정의한다. 내가 이해한 바로는 모델을 만드는데 필요한 단계를 따로따로 수행하는 것이 아니라 그것을 하나의 과정으로 만들어 더욱 쉽게 수행할 수 있게 도와주는 것 같다. 2022.03.24 - [ETC] - [PySpark] MLlib를 이용한 로지스틱 회귀분석 로지스틱 회귀분석의 과정을 Pipeline을 사용하여 더욱 편리하게 하고자 한다. VectorAssembler과정과 LogisticRegression과정을 진행한다. 이전 게시글에선 이 과정을 따로 수행했다. 하지만 이번에는 Pipeline을 이용해여 한 번에 수행할 수 있었다. # 독립변수 묶기 from pyspark..