파이썬으로 웹 스크랩하기9/10

파이썬으로 웹 스크랩하기9/10

h1 정보를 가져와 보도록 하겠습니다.



위의 코드는 BeautifulSoup에서 html을 가져와서 원하는 부분의 값을 가져오는 부분을 추가한 소스입니다.


html을 selenium을 가져와서 BeautifulSoup을 이용하면 좀더 쉽게 html 소스의 내용을 가져올 수 있습니다.



위와 같이 h1의 내용을 가져오는 것을 확인할 수 있습니다.


requests 를 사용하는 것과 selenuim을 사용하는것의 차이는 사실상 거의 없습니다. 작업을 하다 찾은건데 내용은 다음과 같습니다.


requests 모듈을 이용해서 html을 가져오는 경우는 서버가 보내준 그대로의 html을 받아오고 있습니다. 그런데  selenium을 이용해서 가져오는 경우 크롬으로 또는 그이외의 드라이버로 가져오는 경우이기 때문에 브라우저가 변환해서 가져온 html을 리턴하고 있습니다. 그래서 가끔 잘못된 html을 보내주는 경우에는 selenium을 이용하는 경우가 정상적인 결과를 얻기도 합니다.


자유를 회복시킨 것은 진리를 회복시킨 것이니 죽을 때에는 ‘대한민국 만세, 자유민주주의 만세, 10ㆍ26혁명 만세만은 부르고 가자. 지금은 10ㆍ26사태라고 하지만 앞으로는 10ㆍ26혁명이라고 부를 것이고, 이를 연구하는 분들은 나의 최후진술을 참고 하게 될 것이다. 국민에게 자유가 떠나지 않도록 잘 지키라는 말을 신문 등을 통해 발표해 국민에게 알려달라.