Kimuksung
Jr Data Engineer
All Stories
지금까지, 로그 데이터 구성하기를 진행하는 과정에 있어 Kafka, HDFS, Spark 클러스터를 구성하였습니다.
Pyspark로 연결 시도 시 datanode에 값이 없다고 한다.
Aws Instance로 Kafka클러스터를 구성한 뒤, Docker 위에 Spark를 구성하여 Hadoop으로 전송하려고 합니다.
4. Median of Two Sorted Arrays
가상의 대용량의 로그 데이터를 만들어 Kafka → Hadoop에 저장해보려고 합니다.