프로그래밍/크롤링(PYTHON) (11) 썸네일형 리스트형 [190125] performance in selenium / 셀레니움에서 성능 향상과 관련하여 Selenium BeautifulSoup은 웹페이지가 로딩된 후 동적으로 불러들여지는 요소 (javascipt)에 대해서는 적절하게 대응을 할 수 없는 것 같다. 자바스크립트가 없는 페이지는 없으며, (내가 스크래이핑을 원하는 웹페이지 중에는) 결국 이에 대응할 수 있는 Selenium은 불가피했다. 뭔가 지금까지 코딩을 해오면서의 감으로 인한 것일까, Selenium의 속도부터 걱정됐다. 어쨌든 깔아서 코드에 적용해봤고, 역시나 느렸다. 너무 많이... Selenium Browser 언제나 그렇듯 우리의 선배 개발자분들 께서 다져놓은 길이 있다. Selenium또한 성능향상을 꾀할 수 있다는 것. 일단 기본적으로 Selenium은 브라우저가 필요하다. Chrome, Firefox 등 코드가 실행되는 과.. [190119] requests In Python BeautifulSoup를 이용해서 원하는 데이터를 긁어올 수 있는 것은 참 멋진데, 보통 내가 원하는 양질의 데이터들은 단순히 HTML에 툭툭 나열되어있는 것이 아니라, 특정 카테고리를 선택해야 한다던가, 특정 키워드를 검색해서 양질의 데이터를 제공한다. 그 말인 즉, 스크래이퍼가 마치 사람인양 요청을 해야한다는 것이다. 예를 들어서, 주택청약정보를 담고있는 아파트투유 홈페이지 ("https://www.apt2you.com/") 에는 보통 사람들이 많이 관심을 갖는 주택분양 경쟁률이나 결과가 업로드된다. 여러가지 필터링을 통해서 원하는 지역의 주택을 검색하고 해당 주택의 청약 경쟁률이나 공급현황, 이미 공고가 끝났다면 평균 가점, 최저/고 가점 등을 참고할 수 있다. 한마디로, 원하는 지역의 정보를 스.. [190116] pytrend Google trend 서비스는 다양한 필터와 부가기능을 제공하는데.. Google 측에서 공식적인 API는 제공하고 있지 않다. 하지만 이런 귀중한 데이터를 가만히 놔둘리 없는 개발자 분들이 다행히도 비공식 API를 개발해서 Github에서 제공중이다. # Github git clone https://github.com/GeneralMills/pytrends # 기능 Top Chart나 Trending Search 등 다양한 기능이 있지만, 현재로서는 기본적인 기능만 사용할 것 같다. Interest_over_time : 시간에 따른 검색 키워드의 검색량을 보여준다. 물론, 시간설정도 가능하다. 결과가 pandas로 제공되므로 pandas의 대략적인 Dataframe을 알고 있으면 유용하다 - http.. 이전 1 2 다음