일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- yarn
- 하이브
- Java
- HelloWorld
- 선형대수
- collections
- effective python
- 딥러닝
- recursion
- scrapy
- C언어
- 알고리즘
- tensorflow
- python
- codingthematrix
- Sort
- 텐서플로
- 주식분석
- NumPy
- hadoop2
- 코딩더매트릭스
- 그래프이론
- C
- RNN
- LSTM
- graph
- GRU
- hive
- 하둡2
- 파이썬
- Today
- Total
목록tagger (2)
EXCELSIOR
Part-Of-Speech tagging(POS tagging)은 문장 내 단어들의 품사를 식별하여 태그를 붙여주는 것을 말한다. 투플(tuple)의 형태로 출력되며 (단어, 태그)로 출력된다. 여기서 태그는 품사(POS) 태그다. 1. Default taggingDefault tagging은 POS-tagging에 있어 베이스라인을 제공해준다. Default tagging은 DefaultTagger 클래스를 사용하여 모든 토큰들(tokens)에 대해 동일한 POS를 부여한다. 이 Tagger는 정확도 향상을 위해 마지막 수단으로 사용하기에 적합하다.DefaultTagger클래스는 태그에 적용하고자하는 단일 인수를 가진다. 아래의 예제에서는 'NN' 태그를 적용해 보았다. from nltk.tag.seq..
1. Creating a wordlist corpuscorpus는 우리말로는 말뭉치라고 하며, 자연어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합이다. corpora는 corpus의 복수형이다. corpus는 라틴어가 어원이다. 특정한 언어 영역 내에서 언어 규칙 발생의 검사와 그 규칙의 정당성 입증에 사용된다. NLTK 모듈의 WordListCorpusReader 클래스는 가장 단순한 CorpusReader 클래스 중 하나이다. WordListCorpusReader클래스는 한 줄에 한 단어로 리스팅 되어있는 파일에 사용할 수 있다. 우선, WordListCorpusReader를 사용하기 위해 아래와 같이 'wordlist.txt' 라는 파일을 생성한 다음 WordListCorpusRea..