Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 알고리즘
- 딥러닝
- 하둡2
- RNN
- yarn
- 주식분석
- scrapy
- 하이브
- C언어
- 파이썬
- 텐서플로
- 선형대수
- graph
- collections
- python
- tensorflow
- Java
- hive
- recursion
- 코딩더매트릭스
- 그래프이론
- Sort
- codingthematrix
- GRU
- HelloWorld
- effective python
- hadoop2
- NumPy
- LSTM
- C
Archives
- Today
- Total
목록버킷 (1)
EXCELSIOR
하이브 버킷(Hive Bucket)
하이브는 효율적인 쿼리문 수행을 위해 버킷이라는 데이터 모델을 제공한다. 버킷은 버킷 칼럼 해시를 기준으로 데이터를 지정된 개수의 파일로 분리해서 저장한다. 버킷은 테이블을 생성할 때 다음과 같은 형태로 선언한다. CLUSTERED BY (칼럼) INTO 버킷 개수 BUCKETS; 버킷을 사용하면 쿼리의 성능을 향상시킬 수 있다. 예를 들어, 조인키로 버킷을 생성해두면 생성된 버킷 중 필요한 버킷만 조회하면 되기 때문에 디렉터리 전체를 풀스캔하는 것보다 훨씬 빠르게 작업을 처리할 수 있다. 또한 버킷을 이용하면 데이터 샘플링을 이용한 다양한 쿼리를 수행할 수 있다. 그럼 이제 실제 버킷을 생성해보도록 하자. 다음의 테이블 생성은 UniqueCarrier 칼럼을 대상으로 20개의 버킷을 생성한다. hive..
DataBase/Hadoop
2016. 11. 30. 20:19