웹 크롤링은 웹 사이트에서 원하는 정보를 추출하는 것을 의미한다.
[크롤링 관련 용어]
스크랩핑
- 인터넷상에 존재하는 데이터를 프로그램을 이용해서 해당 데이터를 수집하는 방법
-웹에서 데이터를 수집하는 방법
크롤링
-수집한 데이터를 분류하는 작업
-주로 인터넷의 웹페이지를 수집(스크랩핑)해서 분류하고 저장하는 작업(크롤링)을 합쳐 웹 크롤링이라 부른다.
-"접근": 데이터가 어느 위치에 저장되어있는지 작성하는 작업이 포인트이다.
파싱
-받아온 웹피이지의 데이터를 이용할 형식에 맞게 추출하여 의미있는 값으로 변형하는 작업
-"가공": 사용하는 언어(문법)에 맞게 분석하는 작업이 포인트이다.
Jsoup
-자바로 이루어진 HTML Parser. HTML로 이루어진 데이터(ex. 요소)를 분석가능하다.
import java.io.IOException;
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
public class Test03 {
public static void main(String args[]){
try {
// 1. 수집 대상 URL
String URL = "https://code-learning.tistory.com/";
// 2. Connection 생성
Connection conn = Jsoup.connect(URL);
// 3. HTML 파싱.
Document html = conn.get(); // Browser로 보내는 문서(document) get
// 4. HTML 출력
//System.out.println( html.toString() );
Elements eles = html.select("#body > ul > li > a");
Iterator<Element> itr = eles.iterator();
while(itr.hasNext()) {
String str =itr.next().text();
System.out.println(str);
}
} catch (IOException e) {
e.printStackTrace();
}
}
}
[결과]
day20)JDBC를 이용한 DB연동3 - PreparedStatement
day20) 트랜잭션1
day19) JDBC를 이용한 DB연동2 - CRUD구현
day18) JDBC를 이용한 DB, Eclipse 연동
day18) [Oracle] table 생성 + Select/Insert/Update/Delete 기본 쿼리문
day17) [용어 정리 ] 컴포넌트, DBMS, JDBC
ORA-2800) 사용자 unlock하기
Eclipse와 Oracle Data Source Explorer로 연결 설정
'JAVA' 카테고리의 다른 글
day22) Java를 이용한 웹 크롤링 2 - 크롤링한 값 db에 저장하기 (0) | 2022.01.25 |
---|---|
day20) 트랜잭션1 (0) | 2022.01.23 |
day19) JDBC를 이용한 DB연동2 - CRUD구현 (0) | 2022.01.22 |
day18) JDBC를 이용한 DB, Eclipse 연동 (0) | 2022.01.20 |
day17) [용어 정리 ] 컴포넌트, DBMS, JDBC (0) | 2022.01.19 |
댓글