본문 바로가기
JAVA

day21) Java를 이용한 웹 크롤링1 - 기본 개념

by code_learner 2022. 1. 25.

웹 크롤링은 웹 사이트에서 원하는 정보를 추출하는 것을 의미한다.

 

[크롤링 관련 용어]

스크랩핑

 - 인터넷상에 존재하는 데이터를 프로그램을 이용해서 해당 데이터를 수집하는 방법

 -웹에서 데이터를 수집하는 방법

 

크롤링

 -수집한 데이터를 분류하는 작업

 -주로 인터넷의 웹페이지를 수집(스크랩핑)해서 분류하고 저장하는 작업(크롤링)을 합쳐 웹 크롤링이라 부른다.

 -"접근": 데이터가 어느 위치에 저장되어있는지 작성하는 작업이 포인트이다.

 

파싱

 -받아온 웹피이지의 데이터를 이용할 형식에 맞게 추출하여 의미있는 값으로 변형하는 작업

 -"가공": 사용하는 언어(문법)에 맞게 분석하는 작업이 포인트이다.

 

Jsoup

 -자바로 이루어진 HTML Parser. HTML로 이루어진 데이터(ex. 요소)를 분석가능하다.

 

import java.io.IOException;

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
 
public class Test03 {
    public static void main(String args[]){
        try {
            // 1. 수집 대상 URL
            String URL = "https://code-learning.tistory.com/";
            
            // 2. Connection 생성
            Connection conn = Jsoup.connect(URL);
 
            // 3. HTML 파싱.
            Document html = conn.get(); // Browser로 보내는 문서(document) get
            
            // 4. HTML 출력
            //System.out.println( html.toString() ); 

			Elements eles = html.select("#body > ul > li > a");
			Iterator<Element> itr = eles.iterator();
			while(itr.hasNext()) {
				String str =itr.next().text();
				System.out.println(str);
			}
		} catch (IOException e) {
			e.printStackTrace();
		}


	}
}

[결과]

day20)JDBC를 이용한 DB연동3 - PreparedStatement
day20) 트랜잭션1
day19) JDBC를 이용한 DB연동2 - CRUD구현
day18) JDBC를 이용한 DB, Eclipse 연동
day18) [Oracle] table 생성 + Select/Insert/Update/Delete 기본 쿼리문
day17) [용어 정리 ] 컴포넌트, DBMS, JDBC
ORA-2800) 사용자 unlock하기
Eclipse와 Oracle Data Source Explorer로 연결 설정

댓글