본문 바로가기

전체 글

(84)
더 우아한 크롤러를 위해 / 분산 크롤러 / 크롤러 아키텍쳐 본 게시물은 다양한 외부 소스들을 종합해서 정리하고 기록하기 위한 글입니다. 일부분 필자의 의견이 섞여있으므로 정확한 내용을 알고싶으시다면 하단의 출처를 참고해주세요. 크롤러? 뭐 더 공부할게 있나.. 내가 크롤러에 관심을 갖게 된 후, 주변에서의 크롤링 기술에 대한 인식이 영 긍정적이지만은 않다는 것을 안 것은 불과 몇 주전 이었다. 대기업들한테 가서 크롤링 이야기하면 그래요, "크롤러? 그거 쉬운걸 뭐 굳이.." - 기업초청 세미나에서 A 빅데이터 회사 대표이사 상당한 규모의 정보 수집, 분석 능력이 있는 한 회사의 대표이사가 이야기했을 정도면 얼마나 답답했을까! 모든 기술에는 기반이 필요한 법이고, 그 기반은 결국 누군가가 다져놓지 않으면 기술은 성립되지 않는다. 뭐, 이 기술이 중요하고 어떤 기술..
Selenium 크롤링을 해보며 느낀 점 Selenium의 장점 실제 브라우저를 실행 시켜서 돌아가기 때문에, 웹페이지에 구현된 정적인 페이지뿐만 아니라, 동적인 페이지까지 긁어낼 수 있다. 그래서 느리다. 디버깅 시, 브라우저에서 눈으로 확인하기 때문에 크롤링 과정을 확인할 수 있다. 유용한 메소드들이 많다. Selenium의 단점 느리다. 너무 느리다. 진짜로 느리다. 만약 자신의 컴퓨터 성능이 그리 좋지 못하다면, Selenium 크롤링 테스트를 하면서 화딱지가 날지도 모른다. 실제 브라우저를 가동하다보니 그만큼 리소스를 잡아먹고, 에디터 리소스와 이것저것 생각하다보면 자연스럽게 import requests 라며 코드를 바꾸고 있을지도 모른다. 앞으로 크롤링은 이렇게 Only Selenium은 확실히 아니다. 분명히 아니다. request..
필기앱 추천 / Notion Notion 드디어 시험이 끝났다. 이제 포스팅 좀 하고.. 자격증 공부도 좀 하고.. 학교 프로젝트도 하고.. 개인 프로젝트도 하고.. 기말고사 준비하고...? 개인적으로 메모 혹은 필기앱을 좋아하는 편인데, (태블릿은 돈이 없어서 못사고 있다.) 그래서 이것저것 많이 깔아보고 쓰는 편이다. 나름 여러가지 프로그램을 써봤는데, 요즘 딱 꽂힌 프로그램이 있어서 소개도 할 겸, Credit도 얻을 겸 포스팅을 하려고 한다. 물론 나도 설치한지 일주일도 채 안돼서 모든 기능을 알지는 못한다. 일단 기본적으로 마크다운 느낌의 레이아웃이며, 입력 방식 마크다운을 지원한다. 아.. 나는 마크다운 쓰는 법 몰라.. 몰라도 된다. 대부분의 텍스트 기능을 GUI로도 구현해뒀기 때문에 마치 한글 / 워드에 타이핑하듯 쓸..