Home | Kimuksung

Featured

Apache Iceberg Timestamp(TimeZone) 문제 해결기 – KST와 UTC

Athena 기반 환경에서 Apache Iceberg를 사용할 때, Timezone과 관련된 Timestamp 값이 의도와 다르게 처리되는 문제가 발생했습니다.

Kimuksung
24 Jul 2025

Iceberg 도입 배경

최근 빠르게 증가하는 데이터와 다변화된 데이터 소스에 따라 기존 S3 + Parquet 기반 DataLake의 구조만으로는 운영 효율성, 데이터 신뢰성에 한계가 있었습니다. 이글에서는 Apache Iceberg를 도입하게...

Kimuksung
19 Jul 2025

Kubernetes Airflow Scheduler 개선하기

안녕하세요

Kimuksung
20 Jun 2025

Spark Memory 동작 원리와 AWS EMR Serverless에 적용기

Spark Memory 구조에 대해 알아보겠습니다.

Kimuksung
19 May 2025

SSOT, 그 이상과 환상 사이 – 고통 속에 배운 교훈

SSOT 이상과 환상 그리고 지금까지 겪어온 경험을 이야기를 해볼까합니다.

Kimuksung
15 May 2025

Airflow Kubernetes Exector로 실행하기

Airflow를 다른 Executor를 활용해서 구성해보고 실행해보려고 합니다.

Kimuksung
13 Dec 2023

Airflow 동작 원리(Executor)

Componenets Webserver : Flask Server Scheduler : Daemon Metastore : database where metadata are stored Executor : class defining How your tasks should be executed...

Kimuksung
12 Dec 2023

캐싱 아키텍처

안녕하세요. 오늘은 캐싱 전략에 대해 알아보려고 합니다.

Kimuksung
16 Nov 2023

Dockerfile CMD vs ENDPOINT

Dockerfile에서 CMD와 ENDPOINT의 차이를 알아본다.

Kimuksung
10 Nov 2023

Docker Container 외부와 연결하기(네트워크)

중간에 과제 혹은 코딩테스트를 진행하면서 글을 많이 쓰지 못하였다. 과제를 거치며, 이 부분은 어떻게 하는지 궁금하여 글을 씁니다. Docker를 구성하는 과정에서 내부 컨테이너끼리는 통신하는 글을...

Kimuksung
06 Nov 2023

가상 로그 데이터 실시간 처리 구성하기 With. Kafka, Spark, Hadoop

가상 로그 데이터를 Streaming 처리해보기라는 목표를 가지고 지금까지 어떻게 구성했는지를 소개드리려고 합니다.

Kimuksung
14 Oct 2023

Kafka 데이터 실시간 스트리밍하기 with HDFS

지금까지, 로그 데이터 구성하기를 진행하는 과정에 있어 Kafka, HDFS, Spark 클러스터를 구성하였습니다.

Kimuksung
12 Oct 2023

Spark - Hadoop 연결하기

Pyspark로 연결 시도 시 datanode에 값이 없다고 한다.

Kimuksung
10 Oct 2023

Spark - Kafka 연동하기

Aws Instance로 Kafka클러스터를 구성한 뒤, Docker 위에 Spark를 구성하여 Hadoop으로 전송하려고 합니다.

Kimuksung
08 Oct 2023

Kafka Cluster 클러스터 구성하기 with Ec2

가상의 대용량의 로그 데이터를 만들어 Kafka → Hadoop에 저장해보려고 합니다.

Kimuksung
06 Oct 2023

Python 답게 생각하기

Python 코드의 기술 책을 읽으면, Python 답게 코드를 작성하는 방법을 작성합니다.

Kimuksung
05 Oct 2023

Python MultiProcessing

파이썬 멀티 프로세싱 동작 원리와 어떤 상황에서 사용하는 것인지 적합한지를 직접 확인해보려고 합니다.

Kimuksung
27 Sep 2023

Public Key로 SSH 연결하기

오늘은 SSH 연결 방식을 바꾸어 보려고 합니다.

20 Sep 2023

Hadoop Cluster 클러스터 구성하기(완성) with Ec2

Hadoop 클러스터를 EC2를 활용하여 구성 중에 있습니다.

Kimuksung
15 Sep 2023

AWS 서비스 환경을 개발 환경으로 옮기기

앞에서 배운 mysql dump를 활용하여 실제 운영되는 서비스 데이터를 Dev 환경에 가져오려고 합니다.

Kimuksung
30 Aug 2023

AWS EC2 Script 자동화

EC2 Instance를 구성하면서 매번 처음부터 세팅하고 번거로움을 줄이기 위하여 사용

Kimuksung
14 Jun 2023

AWS EC2 CI/CD 구성하기

AWS EC2 CI/CD 환경 구성 관련하여 애기하려고 합니다.

Kimuksung
13 Jun 2023

Python Memory 동작 방식

안녕하세요 오늘은 Python이 메모리를 어떻게 관리하는지에 대해 알아보겠습니다. 평상시에 Python 언어로 코드를 자주 작성하는데 데이터를 어떻게 처리하고 메모리에 어떤 방식으로 올라가는지 궁금하여 작성합니다.

Kimuksung
16 May 2023

좋은 코드란?

안녕하세요

Kimuksung
09 May 2023

Data Engineer란?

안녕하세요

Kimuksung
02 May 2023

All Stories

Apache Iceberg Timestamp(TimeZone) 문제 해결기 – KST와 UTC

Athena 기반 환경에서 Apache Iceberg를 사용할 때, Timezone과 관련된 Timestamp 값이 의도와 다르게 처리되는 문제가 발생했습니다.

Kimuksung
24 Jul 2025

Iceberg Architecture

안녕하세요

Kimuksung
20 Jul 2025

Iceberg 도입 배경

최근 빠르게 증가하는 데이터와 다변화된 데이터 소스에 따라 기존 S3 + Parquet 기반 DataLake의 구조만으로는 운영 효율성, 데이터 신뢰성에 한계가 있었습니다. 이글에서는 Apache Iceberg를 도입하게 된 배경과, 기존 환경에서 마주친...

Kimuksung
19 Jul 2025

Kubernetes Airflow Scheduler 개선하기

안녕하세요

Kimuksung
20 Jun 2025

Spark Memory 동작 원리와 AWS EMR Serverless에 적용기

Spark Memory 구조에 대해 알아보겠습니다.

Kimuksung
19 May 2025

SSOT, 그 이상과 환상 사이 – 고통 속에 배운 교훈

SSOT 이상과 환상 그리고 지금까지 겪어온 경험을 이야기를 해볼까합니다.

Kimuksung
15 May 2025

Kimuksung

Featured

Athena 기반 환경에서 Apache Iceberg를 사용할 때, Timezone과 관련된 Timestamp 값이 의도와 다르게 처리되는 문제가 발생했습니다.

최근 빠르게 증가하는 데이터와 다변화된 데이터 소스에 따라 기존 S3 + Parquet 기반 DataLake의 구조만으로는 운영 효율성, 데이터 신뢰성에 한계가 있었습니다. 이글에서는 Apache Iceberg를 도입하게...

안녕하세요

Spark Memory 구조에 대해 알아보겠습니다.

SSOT 이상과 환상 그리고 지금까지 겪어온 경험을 이야기를 해볼까합니다.

Airflow를 다른 Executor를 활용해서 구성해보고 실행해보려고 합니다.

Componenets Webserver : Flask Server Scheduler : Daemon Metastore : database where metadata are stored Executor : class defining How your tasks should be executed...

안녕하세요. 오늘은 캐싱 전략에 대해 알아보려고 합니다.

Dockerfile에서 CMD와 ENDPOINT의 차이를 알아본다.

중간에 과제 혹은 코딩테스트를 진행하면서 글을 많이 쓰지 못하였다. 과제를 거치며, 이 부분은 어떻게 하는지 궁금하여 글을 씁니다. Docker를 구성하는 과정에서 내부 컨테이너끼리는 통신하는 글을...

가상 로그 데이터를 Streaming 처리해보기라는 목표를 가지고 지금까지 어떻게 구성했는지를 소개드리려고 합니다.

지금까지, 로그 데이터 구성하기를 진행하는 과정에 있어 Kafka, HDFS, Spark 클러스터를 구성하였습니다.

Pyspark로 연결 시도 시 datanode에 값이 없다고 한다.

Aws Instance로 Kafka클러스터를 구성한 뒤, Docker 위에 Spark를 구성하여 Hadoop으로 전송하려고 합니다.

가상의 대용량의 로그 데이터를 만들어 Kafka → Hadoop에 저장해보려고 합니다.

Python 코드의 기술 책을 읽으면, Python 답게 코드를 작성하는 방법을 작성합니다.

파이썬 멀티 프로세싱 동작 원리와 어떤 상황에서 사용하는 것인지 적합한지를 직접 확인해보려고 합니다.

오늘은 SSH 연결 방식을 바꾸어 보려고 합니다.

Hadoop 클러스터를 EC2를 활용하여 구성 중에 있습니다.

앞에서 배운 mysql dump를 활용하여 실제 운영되는 서비스 데이터를 Dev 환경에 가져오려고 합니다.

EC2 Instance를 구성하면서 매번 처음부터 세팅하고 번거로움을 줄이기 위하여 사용

AWS EC2 CI/CD 환경 구성 관련하여 애기하려고 합니다.

안녕하세요 오늘은 Python이 메모리를 어떻게 관리하는지에 대해 알아보겠습니다. 평상시에 Python 언어로 코드를 자주 작성하는데 데이터를 어떻게 처리하고 메모리에 어떤 방식으로 올라가는지 궁금하여 작성합니다.

안녕하세요

안녕하세요

All Stories

Athena 기반 환경에서 Apache Iceberg를 사용할 때, Timezone과 관련된 Timestamp 값이 의도와 다르게 처리되는 문제가 발생했습니다.

안녕하세요

안녕하세요

Spark Memory 구조에 대해 알아보겠습니다.

SSOT 이상과 환상 그리고 지금까지 겪어온 경험을 이야기를 해볼까합니다.

Explore →