All Stories

Hadoop Rack Awareness Poclies

Client가 Data를 저장할 때 여러 곳에 분산처리하여 저장한다. 이 때 Rack이 장애가 날 수 있으니, 이를 방지하기 위함 + Failure Tolerance

Hadoop Client Read&Write

Client가 HDFS에 Read하고 Write하는 과정

Hadoop NameNode-DataNode-Rack

HDFS Hadoop은 분산 파일 시스템으로 구성(Fault-toerlant 방지) Master/Slave Architecture로 구성 데이터 block은 3개의 replicas data block응로 나누어지며, rack의 여러 노드에 저장된다.

Spark Csv -> RDD

Spark 기본 연동도 마쳤으니 RDD와 Dataframe을 상세히 써보려고 합니다.

Spark로 Private AWS RDS 연동

Python의 도움을 받아 RDS를 연결하여 Spark를 활용한 전처리를 시도 중. Node -> EC2 -> AWS RDS Mysql에 있는 데이터를 가져오는 것이 목표. ssh를 통한 연결까지는 성공하였으나, 이후에 jdbc로 부르는 부분이...

Spark-Aws RDS 연결하기

AWS RDS Mysql과 Spark를 연결하는 과정에서 많은 애로사항을 겪었고 이를 간략하게 정리하여 봅니다.