Tools/Hadoop 6

하둡 클러스터와 리소스 할당

- 특정 상황에서 데이터 분석가들에게 대부분의 리소스가 할당되어 SLA(서비스 수준 협약)을 준수 하지 못하는 경우가 있다. - 데이터 엔지니어링 측면에서 중요한 잡들이 동작함과 동시에 데이터 분석에 필요한 리소스를 제공할 수있어야 한다. Capacity 스케줄러 - https://blog.cloudera.com/yarn-capacity-scheduler/ capacity 및 계층적 설계 YARN은 현재 메모리 및/또는 코어에 대해 예약하는 리소스에 대한 최소 할당과 최대 할당을 정의합니다. YARN용 작업자를 실행하는 각 서버에는 예약에 사용할 수 있는 메모리 및/또는 코어가 될 수 있는 리소스 할당을 제공하는 NodeManager가 있습니다. 모든 노드 관리자의 리소스 집합은 capacity 스케줄러..

Tools/Hadoop 2023.09.26

하둡 네임노드와 HDFS

네임노드와 HDFS의 관계 네임노드와 데이터 노드 등록: 데이터 노드가 클러스터에 가입하려면 네임노드에 자신의 존재를 등록해야 합니다. 데이터 노드는 주기적으로 네임노드에 하트비트 신호를 보내어 자신의 상태를 알립니다. 블록 리포트: 데이터 노드는 자신이 저장하고 있는 데이터 블록의 목록을 네임노드에 보고합니다. 이 정보는 네임노드의 메모리에 저장되어 파일 시스템의 메타데이터를 관리하는 데 사용됩니다. 블록 읽기 및 쓰기 요청: 클라이언트가 데이터를 읽거나 쓰려면 먼저 네임노드에게 해당 데이터 블록의 위치 정보를 요청합니다. 네임노드는 클라이언트에게 데이터 블록의 데이터 노드 위치 정보를 제공합니다. 데이터 노드 간 직접 통신: 클라이언트가 데이터를 읽거나 쓸 때, 실제 데이터는 데이터 노드 간 직접 통..

Tools/Hadoop 2023.09.11

Hadoop YARN 아키텍쳐

* 클라이언트 : 얀으로 실행할 잡을 summit 하는 프로그램 * 잡 : 하나이상의 태스크를 포함하는 애플리케이션 * 태스크 : 맵퍼와 리듀스가 수행한 작업들 * 맵퍼와 리듀스는 각 컨테이너 내에서 동작 YARN(Yet Another Resource Negotiator) 서비스 : HDFS처럼 마스터 노드와 워커 노드 양쪽에서 모두 동작하는 서비스 리소스 관리와 작업 스케줄링을 담당하는 프레임워크 컨테이너 (Container): 컨테이너는 어플리케이션의 실행 환경을 캡슐화하는 단위입니다. 컨테이너는 작업 실행에 필요한 리소스(메모리, CPU 등)를 가지고 있으며, 노드매니저에 의해 제어됩니다. 각 앱마스터는 리소스매니저로부터 할당받은 컨테이너를 이용하여 작업을 실행합니다. 리소스매니저 (Resource..

Tools/Hadoop 2023.07.02

Hadoop HDFS 아키텍쳐

마스터 노드와 워커(slave) 노드 마스터 노드 : 클러스터의 작업을 중재, 클라이언트들이 실제로 컴퓨팅을 하기 위해 접속하는 노드 , 3~6개 정도로 구성 네임노드 (NameNode): 마스터 노드 중 하나는 네임노드로 역할을 수행합니다. 네임노드는 메타데이터를 관리하고, 데이터 블록의 위치를 추적합니다. 클라이언트 요청에 대한 응답으로 데이터 블록을 검색하고 조정하여 데이터의 신뢰성과 가용성을 제공합니다. 잡 트래커 (JobTracker): 마스터 노드의 다른 주요 구성 요소는 잡 트래커입니다. 잡 트래커는 사용자가 제출한 작업을 관리하고 클러스터 내의 워커 노드에 할당하여 작업을 실행합니다. 작업의 진행 상황을 모니터링하고 실패한 작업을 다시 할당하여 장애 복구를 수행합니다. 보조 네임노드 (Se..

Tools/Hadoop 2023.07.02

Hadoop 컴퓨팅과 클러스터

DFS 하둡의 분산 파일 시스템(Distributed File System, DFS)은 하둡 에코시스템의 핵심 구성 요소 중 하나로써 DFS는 대량의 데이터를 분산 저장하고 처리하기 위한 분산 파일 시스템. DFS는 데이터를 블록(Block) 단위로 분할하여 여러 대의 컴퓨터에 저장하며, 이를 통해 데이터의 안정성과 처리 성능을 향상. 각각의 블록은 여러 개의 노드에 복제될 수 있으며, 이는 데이터의 가용성과 장애 복구를 보장하는데 유용함. DFS의 구성 요소 네임노드(NameNode): 네임노드는 DFS의 중앙 관리자로서 메타데이터 정보를 유지합니다. 이 정보에는 파일과 블록의 위치, 권한 및 기타 속성이 포함됩니다. 또한 클라이언트 요청을 처리하고 데이터 블록의 위치 정보를 제공합니다. 데이터노드(D..

Tools/Hadoop 2023.07.02