본문 바로가기

hadoop2

[Spark With Livy] Livy, Spark (개념, 특징, 장단점, 면접 대비) LivyApache Livy는 Apache Spark 클러스터에서 대화형 Spark 작업을 제출하기 위한 서비스입니다. Livy는 REST 인터페이스를 통해 Spark 작업을 제출하고 관리할 수 있도록 하는 오픈 소스 REST 서비스로, Spark 클러스터와의 통신을 단순화하여 사용자가 Spark 작업을 더 쉽게 제출하고 관리할 수 있도록 돕습니다.   개념REST API: Livy는 REST API를 통해 사용자가 HTTP 프로토콜을 사용하여 Spark 작업을 제출하고 관리할 수 있게 합니다. 이는 다양한 프로그래밍 언어와 플랫폼에서 쉽게 접근할 수 있게 해 줍니다.세션 관리: Livy는 Spark 세션을 생성하고 관리할 수 있습니다. 사용자는 이 세션을 통해 반복적인 작업을 수행할 때 Spark 컨텍.. 2024. 4. 1.
[Hadoop] Impala란? (개념, 특징, 장단점, 면접 대비) Impala는 Coludera에 의해 개발되었으며, Apache Hadoop 생태계 위에서 실시간, 대용량 데이터 분석을 목적으로 하는 오픈 소스 대용량 병렬 처리(SQL) 쿼리 엔진입니다. Impala의 주요 목적은 사용자가 Hadoop에 저장된 대규모 데이터 세트에 대해 고성능, 저지연 쿼리를 실행할 수 있도록 하는 것입니다.   특징실시간 쿼리 실행: Impala는 Hadoop 데이터를 거의 실시간으로 쿼리 할 수 있도록 설계되었습니다. 이는 데이터 과학자와 분석가가 대규모 데이터 세트에 대해 신속하게 인사이트를 얻을 수 있게 해 줍니다.대용량 병렬 처리(MPP): Impala는 MPP아키텍처를 사용하여 데이터를 처리합니다. 이는 여러 노드에서 쿼리를 병렬로 실행하여 성능을 향상시킵니다.SQL 지원.. 2024. 3. 27.