일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- collections
- C언어
- effective python
- graph
- 하둡2
- scrapy
- 알고리즘
- yarn
- 주식분석
- GRU
- 코딩더매트릭스
- hadoop2
- python
- recursion
- tensorflow
- 텐서플로
- Sort
- LSTM
- 그래프이론
- 파이썬
- 딥러닝
- Java
- hive
- 선형대수
- RNN
- NumPy
- HelloWorld
- 하이브
- C
- codingthematrix
- Today
- Total
목록lemma (2)
EXCELSIOR
1. Stemming wordsStemming은 단어에서 접사(affix)를 제거하는 것을 말한다. Stemming은 검색엔진에서 색인할 때 가장 많이 쓴다. 모든 형태의 단어를 저장하는것 보다 Stemming한 단어를 저장하는 것이 색인 크기를 줄일 뿐만아니라 검색 정확성을 높일 수 있다.Stemming algorithm 중에서 유명한 알고리즘은 Martin Porter의 Porter stemming algorithm이다. Porter 알고리즘은 영어의 접미사(suffix)를 제거한다. 1) The PorterStemmer class from nltk.stem.porter import PorterStemmer stemmer = PorterStemmer() print(stemmer.stem('cookin..
1. Looking up Synsets for a word in WordNetWordNet(워드넷)은 영어의 의미 어휘목록이다. WordNet은 영어 단어를 'synset'이라는 유의어 집단(동의어 집합)으로 분류하여 간략하고 일반적인 정의를 제공하고, 이러한 어휘목록 사이의 다양한 의미 관계를 기록한다. 워드넷은 자연어 처리(NLP, Natural Language Processing)를 위한 특화된 사전이라고 볼 수 있다. NLTK의 wordnet을 사용하기 위해서는 nltk_data/corpora/wordnet에 wordnet이 압축이 풀려있어야 한다.다음과 같이 'cookbook'의 synset을 알아보자. wordnet.synsets(word)를 통해 확인할 수 있다. definition( ) 함..