본문 바로가기

Crawler

(2)

AWS S3를 Database로 사용해보자 안녕하세요, Nextunicorn 소프트웨어 엔지니어 Mino 입니다. 이번에는 크롤링한 데이터를 내려주는 API 서버를 AWS Lambda와 AWS S3 스토리지를 이용해서 빠르게 구성해본 내용에 대해서 공유드리려고 합니다. Nextunicorn 팀이 점차 성장해가면서, 서버 코드도 같이 몸집을 키우게 됐습니다. (...) 그래서 서비스의 핵심 기능이 아닌 이상, 몇 몇 새로운 서비스들은 Microservice로 분리하기로 결정했습니다. 크롤링한 데이터를 반환하는 API 서버를 만들어야했고, 나름대로 몇 번 구성해봤기 때문에 AWS Lambda를 이용했습니다. 그리고 어떤 데이터베이스를 사용하느냐가 문제였는데, RDS는 잘 알려져있는 connection 문제가 있었고, (최근 RDS proxy라는 서비..

Selenium 크롤링을 해보며 느낀 점 Selenium의 장점 실제 브라우저를 실행 시켜서 돌아가기 때문에, 웹페이지에 구현된 정적인 페이지뿐만 아니라, 동적인 페이지까지 긁어낼 수 있다. 그래서 느리다. 디버깅 시, 브라우저에서 눈으로 확인하기 때문에 크롤링 과정을 확인할 수 있다. 유용한 메소드들이 많다. Selenium의 단점 느리다. 너무 느리다. 진짜로 느리다. 만약 자신의 컴퓨터 성능이 그리 좋지 못하다면, Selenium 크롤링 테스트를 하면서 화딱지가 날지도 모른다. 실제 브라우저를 가동하다보니 그만큼 리소스를 잡아먹고, 에디터 리소스와 이것저것 생각하다보면 자연스럽게 import requests 라며 코드를 바꾸고 있을지도 모른다. 앞으로 크롤링은 이렇게 Only Selenium은 확실히 아니다. 분명히 아니다. request..

이전 1 다음

티스토리툴바