얼마 전 헤드헌터를 통해 스크래핑 모듈 개발 관련 포지션 제안이 들어왔다.
스크래핑과 크롤링.
한국에서는 비슷한 느낌의 이 두 단어를 혼용하여 쓰는 경우가 참 많은데, 대체 어떤 차이점이 있는 것일까?
웹 크롤링은 자동으로 웹 페이지를 방문하고 같은 웹 사이트 내의 다른 페이지로 링크를 따라가는 과정을 의미한다. 일반적으로 검색 엔진이 웹 사이트의 페이지를 인덱싱하기 위해 하는 작업이다. 이렇게 인덱싱된 페이지들은 검색 대상이 된다.
웹 스크래핑은 웹 사이트에서 특정 정보를 추출하는 과정을 의미합니다. 이것은 일반적으로 웹 서버에 요청을 하는 프로그램을 작성하고, 웹 페이지의 HTML을 다운로드한 다음 그 HTML을 구문 분석하여 원하는 정보를 추출하는 것입니다. 웹 스크래핑은 종종 API가 없거나 데이터에 접근하기 위해 로그인 정보가 필요한 웹 사이트에서 데이터를 수집하는 데 사용됩니다.
웹 크롤링 : 검색엔진 인덱싱(색인)을 위한 새로운 웹 페이지의 탐색과 방문
웹 스크래핑 : 웹 페이지에서 특정 정보 추출
Puppeteer의 networkidle0과 networkidle2 차이점 (0) | 2023.01.17 |
---|---|
퍼펫티어(Puppeteer)와 셀레니움(Selenium)의 장단점 (0) | 2023.01.07 |
[Python] 셀레니움(Selenium)으로 네이버 카페(중고나라) 크롤링하기 (1) | 2020.09.16 |
[Python] 파이썬(Python)과 셀레니움(Selenium)을 이용한 크롤링 (0) | 2020.08.30 |
[Python][Selenium] 디씨 클리너 만들기 (11) | 2020.08.30 |