Kimuksung
Jr Data Engineer
All Stories
Client가 Data를 저장할 때 여러 곳에 분산처리하여 저장한다.
이 때 Rack이 장애가 날 수 있으니, 이를 방지하기 위함 + Failure Tolerance
Client가 HDFS에 Read하고 Write하는 과정
HDFS
Hadoop은 분산 파일 시스템으로 구성(Fault-toerlant 방지)
Master/Slave Architecture로 구성
데이터 block은 3개의 replicas data block응로 나누어지며, rack의 여러 노드에 저장된다.
Spark 기본 연동도 마쳤으니 RDD와 Dataframe을 상세히 써보려고 합니다.
Python의 도움을 받아 RDS를 연결하여 Spark를 활용한 전처리를 시도 중. Node -> EC2 -> AWS RDS Mysql에 있는 데이터를 가져오는 것이 목표. ssh를 통한 연결까지는 성공하였으나, 이후에 jdbc로 부르는 부분이...
AWS RDS Mysql과 Spark를 연결하는 과정에서 많은 애로사항을 겪었고 이를 간략하게 정리하여 봅니다.