'정규식' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

글쓰기
방명록
RSS
관리

목록정규식 (1)

EXCELSIOR

Chap01-1: Token, Tokenize, Tokenizer

1. Tokenizing text into sentencesTokenization이란 문자열을 여러개의 조각, 즉 여러 개의 Token(토큰)들로 쪼개는 것을 말한다. Token은 문자열의 한 조각으로 하나의 단어가 하나의 토큰이라고 할 수 있다. 1) paragraph 을 문장 단위로 tokenize하기nltk의 sentence tokenization function인 sent_tokenize를 통해 단락을 문장단위로 분리해본다. from nltk.tokenize import sent_tokenize para = "Hello World. It's good to see you. Thanks for buying this book." print(sent_tokenize(para)) ['Hello World...

NLP/NLTK 2016. 12. 13. 22:12

Prev 1 Next

목록정규식 (1)

EXCELSIOR

티스토리툴바