Kimuksung
Jr Data Engineer
Featured
Airflow를 다른 Executor를 활용해서 구성해보고 실행해보려고 합니다.
Componenets Webserver : Flask Server Scheduler : Daemon Metastore : database where metadata are stored Executor : class defining How your tasks should be executed...
안녕하세요.
오늘은 캐싱 전략에 대해 알아보려고 합니다.
Dockerfile에서 CMD와 ENDPOINT의 차이를 알아본다.
중간에 과제 혹은 코딩테스트를 진행하면서 글을 많이 쓰지 못하였다. 과제를 거치며, 이 부분은 어떻게 하는지 궁금하여 글을 씁니다. Docker를 구성하는 과정에서 내부 컨테이너끼리는 통신하는 글을...
가상 로그 데이터를 Streaming 처리해보기라는 목표를 가지고 지금까지 어떻게 구성했는지를 소개드리려고 합니다.
지금까지, 로그 데이터 구성하기를 진행하는 과정에 있어 Kafka, HDFS, Spark 클러스터를 구성하였습니다.
Pyspark로 연결 시도 시 datanode에 값이 없다고 한다.
Aws Instance로 Kafka클러스터를 구성한 뒤, Docker 위에 Spark를 구성하여 Hadoop으로 전송하려고 합니다.
가상의 대용량의 로그 데이터를 만들어 Kafka → Hadoop에 저장해보려고 합니다.
Python 코드의 기술 책을 읽으면, Python 답게 코드를 작성하는 방법을 작성합니다.
파이썬 멀티 프로세싱 동작 원리와 어떤 상황에서 사용하는 것인지 적합한지를 직접 확인해보려고 합니다.
오늘은 SSH 연결 방식을 바꾸어 보려고 합니다.
Hadoop 클러스터를 EC2를 활용하여 구성 중에 있습니다.
앞에서 배운 mysql dump를 활용하여 실제 운영되는 서비스 데이터를 Dev 환경에 가져오려고 합니다.
EC2 Instance를 구성하면서 매번 처음부터 세팅하고 번거로움을 줄이기 위하여 사용
AWS EC2 CI/CD 환경 구성 관련하여 애기하려고 합니다.
안녕하세요
오늘은 Python이 메모리를 어떻게 관리하는지에 대해 알아보겠습니다.
평상시에 Python 언어로 코드를 자주 작성하는데 데이터를 어떻게 처리하고 메모리에 어떤 방식으로 올라가는지 궁금하여 작성합니다.
All Stories
Airflow를 다른 Executor를 활용해서 구성해보고 실행해보려고 합니다.
Componenets Webserver : Flask Server Scheduler : Daemon Metastore : database where metadata are stored Executor : class defining How your tasks should be executed Worker : process/subprocess executing task...
안녕하세요.
그동안 감기와 차세대 업무로 인하여, 블로그 작성을 간만에 해봅니다.
Spark는 흔히 Map-Reduce를 Memory에 올리는 장점으로 Hadoop → Spark로 변화해왔다.