일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 코딩더매트릭스
- hive
- collections
- 그래프이론
- HelloWorld
- hadoop2
- Sort
- effective python
- C언어
- recursion
- 선형대수
- graph
- yarn
- python
- 텐서플로
- 주식분석
- LSTM
- 하둡2
- 알고리즘
- C
- scrapy
- RNN
- 딥러닝
- GRU
- tensorflow
- 파이썬
- 하이브
- NumPy
- Java
- codingthematrix
- Today
- Total
목록Study (184)
EXCELSIOR
1. SQL-On-Hadoop 이란?SQL-On-Hadoop이란 HDFS에 저장된 데이터에 대한 SQL 질의 처리를 제공하는 시스템을 의미한다. 대부분의 SQL-On-Hadoop 시스템들은 하둡1에서 제공하는 맵리듀스 아키텍처를 이용하지 않고 새로운 분산 처리 모델과 프레임워크를 기반으로 구현돼 있다. SQL-On-Hadoop에는 하이브(Hive), 타조(Tajo), 임팔라(Impala), Facebook의 프레스토(Presto) 등 다양한 SQL-On-Hadoop이 존재한다. SQL-On-Hadoop이 출시된 배경은 다음과 같다.하둡을 도입한 사용자들의 요구사항이 단순히 대용량의 데이터를 배치 처리하는 것이 아니라 높은 처리 성능과 빠른 반응속도를 요구하고 있다. 데이터 분석 과정에서 다양한 쿼리를 반..
1. MS-SQL 설정스쿱(sqoop)과 연동하기 위해서 MS-SQL SERVER 에서 설정을 몇가지 해줘야 한다. 먼저, DB에서 [보안]-[로그인]([Security]-[Logins])에 들어가서 다음과 같은 설정을 해준다.'Enforce password policy'를 체크 해제 해준다. 스쿱과 연동하기 위해 hadoop2라는 새로운 계정을 생성했다. 그런다음 [SQL Sever]-[Properties]-[Security]에 들어가서 'Login auditing'을 None으로 설정한다. 마지막으로 SQL Server에서 네트워크 프로토콜을 확인한다. 스쿱(sqoop)은 SQL Server와 연동되기 위해서 TCP/IP 프로토콜을 사용하도록 되어있다. 2. 스쿱과 MS-SQL 연동아래와 같은 명령어..
스쿱은 현재 스쿱1과 스쿱2라는 두 가지 버전이 있다. 스쿱1 스쿱2 클라이언트 모델 클라이언트/서버 모델 CLI로 스쿱 실행 CLI, 웹, RESTAPI를 통한 스쿱 실행 하둡 보안 적용 하둡 보안, 데이터베이스와 같은 외부 시스템 접근 권한 제어 가능 리소스 관리 정책 없음 리소스 관리 정책 설정 가능 두 버전의 가장 큰 차이점은 클라이언트/서버 모델의 도입니다. 스쿱1은 클라이언트마다 스쿱과 JDBC 드라이버를 설치하지만 스쿱2는 스쿱 서버에만 스쿱과 JDBC를 설치하면 된다. 이번 포스팅에서는 교재에 나와있는 대로 스쿱1을 설치해 본다. 1. 스쿱 설치 및 실행 http://mirror.apache-kr.org/sqoop/ 에서 sqoop-1.4.6.bin__hadoop-2.0.4-alpha.ta..
스쿱(sqoop)은 관계형 데이터베이스와 하둡 사이에서 데이터 이관을 지원하는 툴이다. 스쿱을 이용하면 관계형 데이터베이스의 데이터를 HDFS, 하이브, Hbase에 임포트(import)하거나, 반대로 관계형 DB로 익스포트(export)할 수 있다. 스쿱은 클라우데라에서 개발했으며, 현재 아파치 오픈소스 프로젝트로 공개되어 있다. 1. 스쿱 아키텍처스쿱은 관계형 DB를 읽고 쓸 수 있는 커넥터라는 개념을 사용한다. 커넥터는 각 DB별로 구현돼 있으며, JDBC 드라이버를 이용해 데이터베이스 접속 및 쿼리 실행을 요청한다. 1) 데이터 임포트 동작 방식 클라이언트가 스쿱에 임포트를 요청. 클라이언트는 데이터베이스 접속 정보, 임포트 대상 테이블, 임포트 질의, 실행할 맵 태스크 개수등을 설정스쿱은 데이터..
1. 문제행렬의 곱셈은, 곱하려는 두 행렬의 어떤 행과 열을 기준으로, 좌측의 행렬은 해당되는 행, 우측의 행렬은 해당되는 열을 순서대로 곱한 값을 더한 값이 들어갑니다. 행렬을 곱하기 위해선 좌측 행렬의 열의 개수와 우측 행렬의 행의 개수가 같아야 합니다. 곱할 수 있는 두 행렬 A,B가 주어질 때, 행렬을 곱한 값을 출력하는 productMatrix 함수를 완성해 보세요. 2. 풀이1) 내가 작성한 코드python의 numpy를 import 시켜 list인 A, B를 matrix로 변환한 뒤 return할 때 다시 tolist()를 이용하여 list형태로 return하였다. import numpy as np def productMatrix(A, B): return (np.matrix(A)*np.mat..
KoNLPy는 한글형태소 분석기이다. 학부생때 java로 프로젝트 할 때는 KOMORAN 형태소 분석기를 사용하였고, apache solr 공부할 때는 arirang 분석기를 가지고 공부하였다.파이썬에도 한글형태소 분석기가 있는데 그것이 바로 KoNLPy이다. KoNLPy는 오픈소스이며 누구나 개발과정에 참여할 수 있다.(참여할 수준이 되려면 엄청난 실력자가 돼야겠지만..ㅜㅜ) 1. 설치하기1) Ubuntu(우분투)우분투는 확실히 설치하기가 간단하다. 다음과 같은 명령어만 입력하면 된다. $ pip install konlpy # Python 2.x $ pip3 install konlpy # Python 3.x 2) 윈도우에 설치윈도우에 설치하려면 먼저 JPype를 설치해야 한다. 아래의 사이트에서 자신에..
1. 로지스틱 회귀(Logistic Regression)이란?로지스틱 회귀는 선형회귀(Linear Regression)와 마찬가지로 종속 변수와 독립 변수간의 관계를 구체적인 함수로 나타내 향후 예측 모델에 사용하는 것이다. 하지만 로지스틱 회귀는 선형 회귀와 다르게 종속 변수가 범주형 데이터일 때 사용하므로 결과가 특정 카테고리로 분류되기 때문에 Classification 기법이라고 할 수 있다. 로지스틱 회귀는 종속 변수에 따라 binomial, multinomial 등으로 나뉜다. 이번 포스팅에서는 Binomial Logistic Regression에 대해 알아보도록 한다. 2. 로지스틱 함수(Logistic Function)로지스틱 함수는 시그모이드 함수(Sigmoid function)에 속하는 ..
numpy의 matrix 함수를 사용하려고 python에서 numpy를 import했는데 다음과 같은 에러가 났다! 에러 내용을 보니까 "No module named 'numpy'" 라고 나와 있었다. 구글링을 해보니 numpy 라이브러리를 다운받아서 설치를 해줘야 한다고 나와있어서 numpy를 설치해서 실행해보는 것 까지 포스팅 해보려고 한다. 1. numpy 라이브러리 다운로드 받기 아래의 사이트에 접속해 numpy 파일을 다운로드 받는다. http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy 본인이 설치한 파이썬 버전을 확인하고 해당하는 파일을 다운 받으면 된다. 2. numpy 설치 다운로드 받은 numpy파일을 cmd 창에서 아래의 pip명령어를 통해 설치한다...