본문 바로가기

프로그래밍/크롤링(PYTHON)

Bot Detection / 크롤러 차단 / 크롤러 우회 #3

반응형
ActionChain
지난번에 분명 이어지는 포스팅에서는 header를 조작하는 내용에 대해서 다루겠다고 했는데... 원래 시작한 내용으로부터 너무 산으로 갈 것 같아서 안되겠다. 아예 차단 우회를 포기한 것은 아니고, 찾아보니 Webdriver에 ActionChain 이라는게 존재하는데 자세한 원리는 아직 파악 못했지만 사람이 마우스 등 으로 조작하듯이 특정 태그로 포커스나 마우스를 이동하고 클릭 등의 명령을 일종의 Chain형태로 수행할 수 있는 메소드 인듯 하다.

ToDo
다만 내가 구현한 크롤러는 속도만 고려했기에 링크만 파싱해서 driver로 웹페이지를 탐색하는 방식인데, Actionchain을 사용하려면 어느정도 속도 저하는 감안하지만 사람과 유사하게  브라우징 한다는 점에서 차단을 우회할 수 있지 않을까 생각된다. 문제라면 코드를 꽤 많이 수정해야 할 것 같다.

앞으로 해야 할 일은 이렇다.
1. Actionchain을 사용해서 웹 페이지 크롤링
2. 리뷰 크롤링 시 Helpful 컬럼 추가
3. 제품 목록 크롤링
  - 제품 코드
  - 제품 이미지


반응형