Kimuksung
Jr Data Engineer
All Stories
앞에서는 가상의 로그 데이터를 발생시켰습니다.
로그 데이터 전체적으로 구성하기 위해서는 로그 데이터가 필요합니다.
지금까지, 로그 데이터 구성하기를 진행하는 과정에 있어 Kafka, HDFS, Spark 클러스터를 구성하였습니다.
Pyspark로 연결 시도 시 datanode에 값이 없다고 한다.
Aws Instance로 Kafka클러스터를 구성한 뒤, Docker 위에 Spark를 구성하여 Hadoop으로 전송하려고 합니다.