Tools/Iceberg 4

Trino 쿼리를 통한 Iceberg 내부 살펴보기

📌 1. Iceberg 파일 구조 개요Iceberg 테이블은 HDFS, S3, HDFS-compatible storage 등에 저장되며 크게 두 가지 계층으로 나뉩니다:table_name/ ├── data/ # 실제 데이터 파일 (Parquet/ORC/Avro) │ ├── ...partition.../ │ │ └── 00000-aaaa.parquet │ └── ... └── metadata/ # 테이블 스냅샷과 스키마/파티션 정의 ├── version-hash.json ├── v0001.metadata.json ├── v0002.metadata.json └── snapshots/ 구성 요소데이..

Tools/Iceberg 2025.07.31

Iceberg에서 Tagging을 활용한 데이터 Snapshot 관리

1. Iceberg에서 Tagging의 개념Iceberg의 Tag는 특정 시점의 스냅샷을 이름 기반으로 고정 보존할 수 있는 기능입니다.스냅샷: 테이블의 특정 시점 상태 (데이터 파일 목록 + 메타데이터)태그(Tag): 스냅샷에 붙이는 사용자 정의 라벨목적: 보존(retention) 정책에서 제외하거나, 특정 분석/재처리를 위해 고정 시점 참조ALTER TABLE db.table CREATE TAG `month_end_202507` AS OF VERSION 4151342690114749344 RETAIN 365 DAYS; AS OF VERSION : 특정 스냅샷 버전 지정RETAIN : 이 태그를 최소 며칠 동안 보존할지 설정 (만료 보호 기간) 2. Expire Snapshots와 Tagging의 상호..

Tools/Iceberg 2025.07.31

Apache Iceberg 기본 동작 확인 및 실습 정리

📊 demo.analytics_users 테이블 상태 변화 요약Snapshot 단계 작업 내용 테이블 상태 (id, name)초기 생성INSERT (Alice, Bob)(1, 'Alice'), (2, 'Bob')Snapshot 2DELETE id = 2(1, 'Alice')Snapshot 3UPDATE id = 1(1, 'Charlie')Snapshot 4MERGE INTO (id = 3)(1, 'Charlie'), (3, 'David')Snapshot 5ROLLBACK to Snap 1(1, 'Alice'), (2, 'Bob')Snapshot 6INSERT (Eve)(1, 'Alice'), (2, 'Bob'), (4, 'Eve')✅ 1. Iceberg 테이블 생성 및 데이터 삽입📌 Spark SQL..

Tools/Iceberg 2025.07.06

Apache Iceberg 기본 구조

출처 : https://medium.com/data-engineer-things/i-spent-4-hours-learning-apache-iceberg-heres-what-i-found-9750b0d70d84 I spent 4 hours learning Apache Iceberg. Here’s what I found.The table format’s overview and architectureblog.det.lifeApache Iceberg가 필요한 이유 데이터 레이크하우스 솔루션을 배포할 때, 데이터는 오브젝트 스토리지에 저장되며, Spark나 Trino 같은 좋아하는 엔진을 사용해 쿼리를 실행할 수 있습니다. 데이터 이동이 필요 없고, 한 곳에서 애드혹 쿼리부터 머신러닝 워크로드까지 모두 처리할 수..

Tools/Iceberg 2025.01.16
반응형