BigData3 [기타] 하둡 환경 설정 하면서 몰랐던 과정, 개념, 명령어 beeline 접속시 기본 명령어 $ beeline beeline> !connect jdbc:hive2://localhost:10000 0: jdbc:hive2://localhost:10000> 이다. 내가 접속할 cwhdp01의 주소는 cwhdp01.co.kr이므로 localhost -> cwhdp01.co.kr로 변경. 또한 port 번호는 내 로컬 환경으로 띄운다면 10000으로 띄우는데, cwhdp01 의 ip주소를 vi /etc/hosts를 이용하여 hosts에 등록해주어야 한다. 그래야 내 로컬 환경에서 접속할수 있다. DB생성, 접근, table 생성 시에 권한 ranger 에서 권한을 설정 해줘야한다. 권한은 hive 뿐만 아니라 hdfs 도 같이 부여 hive - 내가 사용할 db에 권한.. 2021. 12. 28. [Hadoop] Hive 기본 1. Hive 구성요소 UI 사용자가 쿼리 및 기타 작업을 시스템에 제출하는 사용자 인터페이스 CLI, Beeline, JDBC 등 Driver 쿼리를 입력받고 작업을 처리 사용자 세션을 구현하고, JDBC/ODBC 인터페이스 API 제공 Compiler 메타 스토어를 참고하여 쿼리 구문을 분석하고 실행계획을 생성 Metastore 디비, 테이블, 파티션의 정보를 저장 Execution Engine 컴파일러에 의해 생성된 실행 계획을 실행 하이브 실행 순서 사용자가 제출한 sql문을 드라이버가 컴파일러에 요청하여 메타스토어의 정보를 이용해 처리에 적합한 형태로 컴파일 컴파일된 sql을 실행엔진으로 실행 리소스 매니저가 클러스터의 자원을 적절히 활용하여 실행 실행 중 사용하는 원천데이터는 HDFS등의 저장.. 2021. 12. 28. [Hadoop] 맵 리듀스(MapReduce) 맵 리듀스(MapReduce) 개념 맵리듀스(MapReduce)는 구글에서 정보 검색을 위한 데이터 가공(색인어 추출, 정렬 및 역 인덱스 생성)을 목적으로 개발된 분산 환경에서의 병렬 데이터 처리 기법이자 프로그래밍 모델이다. 맵리듀스는 비공유 구조(shared-nothing)로 연결된 여러 노드 pc들을 가지고 대량의 병렬처리 방식(MPP, Massively Parallet Processing)으로 대용량 데이터를 처리할 수 있는 방법을 제공한다. 맵리듀스는 LISP 프로그래밍 언어에서 맵(Map) 리듀스(Reduce)라는 함수의 개념을 차용하여 시스템 분산구조를 감추면서 병렬프로그래밍을 가능하게 한다. 맵(map) 리듀스(reduce) 라는 두개의 메서드로 구성되어 있으며 맵(map) 메서드는 키-.. 2021. 12. 28. 이전 1 다음