'tokenizer' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

글쓰기
방명록
RSS
관리

목록tokenizer (1)

EXCELSIOR

Chap01-1: Token, Tokenize, Tokenizer

1. Tokenizing text into sentencesTokenization이란 문자열을 여러개의 조각, 즉 여러 개의 Token(토큰)들로 쪼개는 것을 말한다. Token은 문자열의 한 조각으로 하나의 단어가 하나의 토큰이라고 할 수 있다. 1) paragraph 을 문장 단위로 tokenize하기nltk의 sentence tokenization function인 sent_tokenize를 통해 단락을 문장단위로 분리해본다. from nltk.tokenize import sent_tokenize para = "Hello World. It's good to see you. Thanks for buying this book." print(sent_tokenize(para)) ['Hello World...

NLP/NLTK 2016. 12. 13. 22:12

Prev 1 Next

목록tokenizer (1)

EXCELSIOR

티스토리툴바