Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- recursion
- HelloWorld
- 딥러닝
- 파이썬
- tensorflow
- 코딩더매트릭스
- 하이브
- NumPy
- Sort
- Java
- 텐서플로
- 그래프이론
- codingthematrix
- python
- GRU
- yarn
- 알고리즘
- scrapy
- LSTM
- graph
- 하둡2
- RNN
- C
- C언어
- 주식분석
- hive
- effective python
- 선형대수
- collections
- hadoop2
Archives
- Today
- Total
목록뉴스 크롤링 (1)
EXCELSIOR
05. Scrapy callback을 이용하여 링크(url)안의 내용 크롤링 하기
이번 포스팅은 앞의 포스팅인 [04. Scrapy를 이용한 뉴스 크롤링 하기]와 같은 내용이지만, Scrapy의 callback을 이용하여 크롤링한 url안에 뉴스기사를 크롤링 해오는 방법이다. 우선, 앞에서 포스팅한 내용 중 3번을 다시 보도록 하자.아래의 빨간 박스안의 내용에서 보듯이 해당 뉴스기사의 링크(url)을 크롤링한 뒤 다시 크롤링을 해주는 매우 귀찮은 방법을 사용했었다. 실제로 테스트를 할때마다 Scrapy 명령어를 두 번이나 입력해줘야 하고, pipelines.py에서 한번은 CsvPipeline 또한번은 MongoDBPipeline 클래스를 번갈아 바꿔주면서 테스트를 진행했어야 했다. 하지만, 이를 Scrapy의 callback을 이용해서 간단하게 해결할 수 있다. Callback에 관..
Python/Web Crawling
2017. 5. 19. 00:49