Kimuksung Follow 주니어 Data Enginner입니다.

[RDBMS] 정규화&역정규화

데이터의 속성끼리 종속 관계를 분석하여 여러 개의 릴레이션으로 분해
기본 정규형 - 1,2,3 정규화와 보이스/코드 정규화
고급 정규형 - 4,5 정규화
OLTP 데이터베이스는 실 서비스 CRUD가 많이 일어나기 때문에 정규화 되는 것이 좋다.
OLAP는 분석, 리포팅용이기 때문에 연산의 속도를 위해 역정규화하기도 한다. ( 특히, 대량의 select 처리가 중요한 경우 )

장점

단점

이로 인해 응답시간이 증가할 수도 있다. (무조건 증가하는 것은 아니다.)

같은 성격과 내용의 칼럼이 연속적으로 나타내는 컬럼이 존재 할 때 PK를 추가해새로운 테이블을 생성하여 기존 테이블과 M:N 관계에서 1:N로 변경
음식점과 음식점에서 판매하는 내역을 구성하려고 한다고 해보자.
여기서 판매상품은 여러개의 상품으로 구성되어있으며, 판매 상품은 음식점과 별도의 성격을 가지는 유형이니 분리하여 준다.

위와 같은 테이블 설계 구조로 실서비스에 반영했다고 가정해본다.
가맹점이 천만개 있다고 가정하고 가맹점 별 매출과 최다 판매 정보 지표로 보내주어야한다고 해보자.
Join문과 Group by sum을 활용해서 구성하기에 쿼리 자체가 오래 걸릴 것이다.
추가적으로, 지표를 보내주기 위한 가맹점 번호가 필요할텐데 그렇다면 가맹점 정보, 주문 정보, 판매 정보 3개의 테이블을 **Join** 시켜 주어야 한다. 물론 외래키를 지정한다면, 속도는 빨라지겠지만 Join 연산 자체가 추가 되기 때문에 오래 걸릴 것이다.
테이블 자체에 해당 값이 존재한다면, **불필요한 연산을 줄일 수 있다.**
여기서 성능을 더 개선시킬 방법은 없을까?
가맹점 별로 순차적으로 보낸다고 가정하면 위에서 역정규화한 테이블을 가맹점 별 ID 별로 파티셔닝을 하여 두고 접근하면 부하를 줄일 수 있지 않을까? 라는 생각이 든다.
Mysql에서는 이를 위해 파티션 기법을 지원한다.

단점 데이터 Update, Insert 비용이 높다. 데이터의 무결성을 해치기 때문에 주의해야한다. → 데이터 이상 현상이 발생할 가능성이 높다. 데이터 중복 저장으로 인해 추가 저장공간 확보가 필요하다.

아직 실서비스에서 역정규화를 적용해본 사례는 없다.. 그 만큼 많은 양의 데이터를 처리해본적이 없기 때문에 나중에 까먹지 말고 적용시켜볼 수 있도록 해야겠다.

22 Oct 2023

« Tableau 자동화하기 with Python Airflow BashOperator »

Kimuksung