반응형
ActionChain
지난번에 분명 이어지는 포스팅에서는 header를 조작하는 내용에 대해서 다루겠다고 했는데... 원래 시작한 내용으로부터 너무 산으로 갈 것 같아서 안되겠다. 아예 차단 우회를 포기한 것은 아니고, 찾아보니 Webdriver에 ActionChain 이라는게 존재하는데 자세한 원리는 아직 파악 못했지만 사람이 마우스 등 으로 조작하듯이 특정 태그로 포커스나 마우스를 이동하고 클릭 등의 명령을 일종의 Chain형태로 수행할 수 있는 메소드 인듯 하다.
ToDo
다만 내가 구현한 크롤러는 속도만 고려했기에 링크만 파싱해서 driver로 웹페이지를 탐색하는 방식인데, Actionchain을 사용하려면 어느정도 속도 저하는 감안하지만 사람과 유사하게 브라우징 한다는 점에서 차단을 우회할 수 있지 않을까 생각된다. 문제라면 코드를 꽤 많이 수정해야 할 것 같다.
앞으로 해야 할 일은 이렇다.
1. Actionchain을 사용해서 웹 페이지 크롤링
2. 리뷰 크롤링 시 Helpful 컬럼 추가
3. 제품 목록 크롤링
- 제품 코드
- 제품 이미지
지난번에 분명 이어지는 포스팅에서는 header를 조작하는 내용에 대해서 다루겠다고 했는데... 원래 시작한 내용으로부터 너무 산으로 갈 것 같아서 안되겠다. 아예 차단 우회를 포기한 것은 아니고, 찾아보니 Webdriver에 ActionChain 이라는게 존재하는데 자세한 원리는 아직 파악 못했지만 사람이 마우스 등 으로 조작하듯이 특정 태그로 포커스나 마우스를 이동하고 클릭 등의 명령을 일종의 Chain형태로 수행할 수 있는 메소드 인듯 하다.
ToDo
다만 내가 구현한 크롤러는 속도만 고려했기에 링크만 파싱해서 driver로 웹페이지를 탐색하는 방식인데, Actionchain을 사용하려면 어느정도 속도 저하는 감안하지만 사람과 유사하게 브라우징 한다는 점에서 차단을 우회할 수 있지 않을까 생각된다. 문제라면 코드를 꽤 많이 수정해야 할 것 같다.
앞으로 해야 할 일은 이렇다.
1. Actionchain을 사용해서 웹 페이지 크롤링
2. 리뷰 크롤링 시 Helpful 컬럼 추가
3. 제품 목록 크롤링
- 제품 코드
- 제품 이미지
반응형
'프로그래밍 > 크롤링(PYTHON)' 카테고리의 다른 글
Crawler (Bot) Detection Avoid / 크롤러 탐지 우회 (4) | 2019.03.28 |
---|---|
Bot Detection / 크롤러 차단 / 크롤러 우회 #4 (END) (0) | 2019.03.20 |
Bot Detection / 크롤러 차단 / 크롤러 우회 #2 (9) | 2019.03.14 |
Bot Detection / 크롤러 차단 / 크롤러 우회 #1 (2) | 2019.03.11 |
[190125] performance in selenium / 셀레니움에서 성능 향상과 관련하여 (4) | 2019.01.25 |