Kimuksung
Jr Data Engineer
All Stories
일반적으로 많은 강의에서도 볼수 있듯이 K8S를 사용하기 위해서는 Virtual Box를 사용하여 구축한다.
Enable Mysql Query Log
https://stackoverflow.com/questions/6479107/how-to-enable-mysql-query-log
RDD에 이어 더 간편하게 사용가능한 Sparksession의 Dataframe 기능을 사용해보려고 합니다.
Client가 Data를 저장할 때 여러 곳에 분산처리하여 저장한다.
이 때 Rack이 장애가 날 수 있으니, 이를 방지하기 위함 + Failure Tolerance
Client가 HDFS에 Read하고 Write하는 과정
HDFS
Hadoop은 분산 파일 시스템으로 구성(Fault-toerlant 방지)
Master/Slave Architecture로 구성
데이터 block은 3개의 replicas data block응로 나누어지며, rack의 여러 노드에 저장된다.