Kimuksung
Kimuksung 안녕하세요. 분산처리에 관심이 많은 생각하는 주니어 Data Enginner입니다.

File Format - Data Serialize

File Format - Data Serialize
Parquet

  • Column Base
  • 저장 공간 효율(데이터 압축)
  • I/O 작업 최소화
  • 병렬 처리, Vector화
  • WORM = Write Once Read Many
  • 복잡한 중첩 데이터 구조 지원
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    
      {
          "Users": {
              "Name": "Alice",
              "Age": 30,
              "Addresses": [
                  {
                      "Street": "123 Main St",
                      "City": "Springfield",
                      "State": "IL"
                  },
                  {
                      "Street": "456 Maple St",
                      "City": "Hometown",
                      "State": "IL"
                  }
              ]
          }
      }
    
Avro

  • Row Base, 동적 스키마 지원, 스키마 변경 호환성
  • Binary format
  • row = Binary / Schema = Json
  • RPC(Remote Procedure Call) 지원


ORC

  • Column 기반 Serialize
  • 인코딩 스키마를 제공하여 빠른 Read,Write,처리 속도 제공
  • Vector화를 지원하여 병렬 처리 최적화 → 쿼리 성능 향상
  • Hive에 주로 사용