bot detection (2) 썸네일형 리스트형 크롤러 마음놓고 돌리기 - Scrapinghub Scrapinghub와 관련해서 궁금한 점이 있으시거나 잘못된 정보가 있다면, 댓글로 알려주시면 감사드리겠습니다! 방학동안에 열심히 크롤링을 하고, 블로그 포스팅도하고, 인턴에 지원했는데 합격했다(?). 그래서 약 5개월 간 포스팅이 없다시피 했다. 중간에 갑자기 데이터베이스 관련 포스팅을 올린 건 일하면서 필요해서 올렸고, 사실 상 포스팅이라고 하기에도 분량이 너무 귀엽고 소중했다. 어쨌든, 오늘 다뤄볼 주제는 Scrapinghub라는 서비스에대한 소개로 해볼까한다. 이 글의 카테고리가 "크롤링" 이고, 제목으로 어느정도 유추할 수 있을 듯하다. [광고같은건 아니다..] Scrapinghub는 클라우드 기반으로 크롤링을 비롯한 다양한 기능을 제공하는 웹사이트다. 유저가 크롤러 코드를 작성해서 클라우드에.. Crawler (Bot) Detection Avoid / 크롤러 탐지 우회 + 2021-04-08 수정 지금은 당시 글 썼을 때와 좀 생각이 달라졌습니다.. 😅 당시에는 개인 서버라고는 운영해본 적도 없는 대학생이어서 크롤링이 안되면 되게 하는 방법으로 고민했는데, 하지말라는 것에는 다 이유가 있기 마련이네요.. 이제는 회사에서 서버를 담당하고 있는 입장에서 크롤링 시도들이 달갑게 느껴지지는 않기 때문에.. 차단을 우회하면서까지 하는 건 분명 문제가 있어보입니다. 당시에는 그런 고려조차 안했었네요. 글을 삭제하지는 않고 서두에 수정내용만 달아놓겠습니다 🙇♂️ 피드백주신 분 감사드립니다 🙇♂️ 긁어오기 처음 크롤러를 만들면서 생각한 건 오로지 성능이었다... 지난 포스팅들도 보면 그렇고 "Selenium은 상당히 느려서 어떻게하면 성능을 끌어올릴 수 있을까"가 초점이었는데, .. 이전 1 다음