Tools/ETC 3

Apache Iceberg 기본 구조

출처 : https://medium.com/data-engineer-things/i-spent-4-hours-learning-apache-iceberg-heres-what-i-found-9750b0d70d84 I spent 4 hours learning Apache Iceberg. Here’s what I found.The table format’s overview and architectureblog.det.lifeApache Iceberg가 필요한 이유 데이터 레이크하우스 솔루션을 배포할 때, 데이터는 오브젝트 스토리지에 저장되며, Spark나 Trino 같은 좋아하는 엔진을 사용해 쿼리를 실행할 수 있습니다. 데이터 이동이 필요 없고, 한 곳에서 애드혹 쿼리부터 머신러닝 워크로드까지 모두 처리할 수..

Tools/ETC 2025.01.16

Plant UML 기본 사용방법

https://plantuml.com/ko/설명PlantUML은 다이어그램과 차트를 만드는 데 사용되는 텍스트 기반 스크립팅 언어입니다. 소프트웨어 개발자들이 아키텍처나 설계를 문서화하는 데 자주 사용되며, 시퀀스 다이어그램, 유스케이스 다이어그램, 클래스 다이어그램 등 다양한 유형의 다이어그램을 지원합니다.PlantUML 문법을 배우는 것이 필요한지 여부는 여러분의 작업과 요구에 따라 달라질 수 있습니다. 만약 여러분이 다음과 같은 상황에 있다면 PlantUML을 배우는 것이 도움이 될 수 있습니다:소프트웨어 개발: 코드와 함께 시각적인 설계를 문서화하는 것이 중요하다면, PlantUML은 이를 효과적으로 도와줄 수 있습니다.프로젝트 관리: 프로젝트의 흐름이나 프로세스를 명확하게 보여줄 필요가 있을 때..

Tools/ETC 2024.07.30

Scikit-learn을 활용한 데이터 처리와 성능 평가

1. 데이터 전처리후(Pandas dataTable) Target Value 분리import numpy as npimport pandas as pd# target 확인target = 'Target_YVALUE'# 데이터 분리x = data.drop(target, axis=1)y = data[target]2) Training, Test 데이터 분리# scikit-learn을 사용한 데이터 분리from sklearn.model_selection import train_test_split# 8:2으로 분리x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=2022) 3. Traing Set을 활용한 간단한 회..

Tools/ETC 2022.05.13