본문 바로가기
Programming Language/Python

[Web Crawling] 웹 크롤링 개요

by 홍월이_ 2022. 12. 9.

아래 내용들은 제가 혼자 학습하면서 정리한 내용들입니다.

'부족한 내용' 혹은 '잘못된 내용'이 있을 수 있습니다.

댓글 남겨주시면 더욱 공부하고 수정하도록 하겠습니다.

감사합니다.


웹 크롤링에 대한 정리를 해보려 한다.

 

웹에서 데이터를 수집하는 방법으로는 대표적으로 다음과 같은 방법이 있다.

- 웹 스크래핑(웹 크롤링)을 통한 수집

- 공공데이터 포털 등에서 제공하는 CSV, EXCEL 파일

- 네이버, 카카오 등에서 제공하는 API 서비스

 

웹 크롤러(Web Crawler)

"웹 크롤러" 는 웹 상에 있는 웹 문서나 이미지 등의 콘텐츠들을 자동으로 수집하는 프로그램의 일종이다.

웹 크롤링 작업을 통해 얻은 다양한 데이터들을 정리하여 데이터베이스에 저장하거나, 파일로 만들어서 사용할 수 있게 된다.

 

웹 크롤링을 통한 데이터 수집 과정은 보통 다음과 같은 과정으로 이루어진다.

1. 웹 URL 요청(관련 모듈 : requests, urllib)

2. response 객체 만들기

3. 파싱(BeatifulSoup, Selenium)

4. 파싱된 HTML 문서를 리스트, 딕셔너리, 데이터프레임 등의 형태로 변환

5. csv 파일, 데이터베이스 등에 저장

 

 

 

다음으로는 Requests, urllib 모듈에 대해 알아보고

BeautifulSoup, Selenium 등을 활용하여 몇가지 크롤링 연습을 진행해보자.

 

 

웹 크롤링 또한 공부할 것이 너무 많은 분야이다.

앞으로도 Robots.txt 등 크롤링을 진행하면서 알아야 할 내용들이 많이 있겠지만,

매우 기초적인 내용부터 조금씩 포스팅 하고 공부해보자.

 

댓글