Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- recursion
- graph
- RNN
- hadoop2
- NumPy
- hive
- tensorflow
- C
- 코딩더매트릭스
- collections
- 하이브
- codingthematrix
- LSTM
- 파이썬
- C언어
- 그래프이론
- yarn
- Java
- 텐서플로
- Sort
- python
- 딥러닝
- 알고리즘
- effective python
- 선형대수
- HelloWorld
- GRU
- 하둡2
- 주식분석
- scrapy
Archives
- Today
- Total
목록웹크롤링 (1)
EXCELSIOR
05. Scrapy callback을 이용하여 링크(url)안의 내용 크롤링 하기
이번 포스팅은 앞의 포스팅인 [04. Scrapy를 이용한 뉴스 크롤링 하기]와 같은 내용이지만, Scrapy의 callback을 이용하여 크롤링한 url안에 뉴스기사를 크롤링 해오는 방법이다. 우선, 앞에서 포스팅한 내용 중 3번을 다시 보도록 하자.아래의 빨간 박스안의 내용에서 보듯이 해당 뉴스기사의 링크(url)을 크롤링한 뒤 다시 크롤링을 해주는 매우 귀찮은 방법을 사용했었다. 실제로 테스트를 할때마다 Scrapy 명령어를 두 번이나 입력해줘야 하고, pipelines.py에서 한번은 CsvPipeline 또한번은 MongoDBPipeline 클래스를 번갈아 바꿔주면서 테스트를 진행했어야 했다. 하지만, 이를 Scrapy의 callback을 이용해서 간단하게 해결할 수 있다. Callback에 관..
Python/Web Crawling
2017. 5. 19. 00:49