일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- HelloWorld
- effective python
- tensorflow
- GRU
- C언어
- NumPy
- 하둡2
- 딥러닝
- recursion
- LSTM
- RNN
- hadoop2
- 선형대수
- graph
- codingthematrix
- 하이브
- C
- Java
- collections
- 주식분석
- hive
- 텐서플로
- yarn
- Sort
- 파이썬
- python
- 코딩더매트릭스
- scrapy
- 그래프이론
- 알고리즘
- Today
- Total
목록nltk (2)
EXCELSIOR
1. Tokenizing text into sentencesTokenization이란 문자열을 여러개의 조각, 즉 여러 개의 Token(토큰)들로 쪼개는 것을 말한다. Token은 문자열의 한 조각으로 하나의 단어가 하나의 토큰이라고 할 수 있다. 1) paragraph 을 문장 단위로 tokenize하기nltk의 sentence tokenization function인 sent_tokenize를 통해 단락을 문장단위로 분리해본다. from nltk.tokenize import sent_tokenize para = "Hello World. It's good to see you. Thanks for buying this book." print(sent_tokenize(para)) ['Hello World...
NLTK 공부를 하기에 앞서 먼저 NLTK를 설치해 보겠다.Python에 NLTK를 설치하기 위해서는 먼저 Numpy를 설치해야 한다. Numpy 설치는 http://excelsior-cjh.tistory.com/entry/Python%EC%97%90-numpy-%EC%84%A4%EC%B9%98-%EB%B0%8F-%EC%8B%A4%ED%96%89 여기를 참고하자NLTK를 설치하기 위해 다음과 같이 pip 명령어를 입력한다.pip install nltk NLTK가 설치가 제대로 되었는지 확인해 본다. 다음과 같이 아무런 에러가 나지 않으면 제대로 설치된 것이다. 만약 다음과 같은 에러가 난다면 pip install numpy --upgrade 명령어를 통해 Numpy를 업그레이드 해주면 된다. >>>imp..