일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 코딩 #개발자 #노마드북클럽 #노개북
- 자바스크립트
- 파이썬
- 내일배움카드
- 7장오류처리
- 디스트럭처링
- 일본워킹홀리데이계획서
- 일러스트레이터강의
- 디지털기초역량훈련
- css
- flexbox
- 일본워홀서류
- 9장단위테스트
- 파이썬터틀
- 노개북
- 국비지원
- 3장함수
- 웹개발자를위한자바스크립트의모든것
- 일본워킹홀리데이이유서
- 플렉스박스
- JavaScript
- 패스트캠퍼스
- 중첩된객체
- python
- 바이트디그리
- 5장형식맞추기
- python turtle
- 독후감
- 클린코드
- es6
- Today
- Total
목록프로그래밍 언어/Python Crawling (2)
KARIU의 IT 블로그

파이썬으로 크롤링을 하다가 태그가 중간중간에 들어있는 단락을 가져오는데 첫 번째 줄만 가져와지지 않는 현상이 발생하였습니다. 열심히 인터넷을 뒤져서 해결하였는데 방법을 공유하고자 포스트를 작성하게 되었습니다. 제가 가져와야할 텍스트입니다. 저 중에서 제목 아래에 있는 설명 부분을 가져와야 되는데 첫 줄은 가져와지지 않는 현상이 발생하였습니다. 먼저 개발자도구(크롬에서 F12 누르기)를 켜서 HTML 코드를 확인해보면 아래와 같이 나옵니다. 태그 안에 태그로 제가 원하는 정보가 감싸져 있습니다. 평소에 하던 대로 크롤링 코드를 작성하여 긁어왔습니다. 실행 결과를 보시면 첫번째 줄에 있는 글은 가져오지 않고 두 번째 줄의 글만 가져오는 것을 확인하실 수 있습니다. 아무래도 태그 안에 줄을 나눠주는 태그 때매..

파이썬으로 서울 지하철 데이터를 크롤링하다가 발견한 쉽고 간편한 방법이 있어서 소개합니다. 바로 위와 같이 모든 행들이 따로따로 분리 되어 있는 것이 아니라 노선의 "서울 지하철 4호선" 처럼 모든 행들이 하나로 합쳐져 있는 것도 있고 소재지의 "노원구" , "도봉구", "강북구" 등과 같이 임의적으로 쪼개져 행들이 합쳐져 있는 복잡한 표를 깔끔하게 가져오는 방법입니다. html_parser_table의 make2d를 이용하시면 깔끔하게 정보를 가져오실 수 있습니다. 1. 설치 html_parser_table의 make2d를 사용하기에 앞서 먼저 설치를 해줘야합니다. 위와 같은 명령을 터미널 창에 입력하여 html_parser_table을 설치합니다. 2. requests 요청과 해당 데이터가 있는 부분..