일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 패스트캠퍼스
- 3장함수
- 내일배움카드
- 바이트디그리
- 클린코드
- 플렉스박스
- 중첩된객체
- python
- 7장오류처리
- 파이썬터틀
- 9장단위테스트
- 디스트럭처링
- 일본워홀서류
- 노개북
- css
- 독후감
- 일러스트레이터강의
- 5장형식맞추기
- 웹개발자를위한자바스크립트의모든것
- flexbox
- es6
- 자바스크립트
- 파이썬
- python turtle
- JavaScript
- 코딩 #개발자 #노마드북클럽 #노개북
- 디지털기초역량훈련
- 일본워킹홀리데이이유서
- 국비지원
- 일본워킹홀리데이계획서
- Today
- Total
목록프로그래밍 언어/Python Crawling (2)
KARIU의 IT 블로그

파이썬으로 크롤링을 하다가 태그가 중간중간에 들어있는 단락을 가져오는데 첫 번째 줄만 가져와지지 않는 현상이 발생하였습니다. 열심히 인터넷을 뒤져서 해결하였는데 방법을 공유하고자 포스트를 작성하게 되었습니다. 제가 가져와야할 텍스트입니다. 저 중에서 제목 아래에 있는 설명 부분을 가져와야 되는데 첫 줄은 가져와지지 않는 현상이 발생하였습니다. 먼저 개발자도구(크롬에서 F12 누르기)를 켜서 HTML 코드를 확인해보면 아래와 같이 나옵니다. 태그 안에 태그로 제가 원하는 정보가 감싸져 있습니다. 평소에 하던 대로 크롤링 코드를 작성하여 긁어왔습니다. 실행 결과를 보시면 첫번째 줄에 있는 글은 가져오지 않고 두 번째 줄의 글만 가져오는 것을 확인하실 수 있습니다. 아무래도 태그 안에 줄을 나눠주는 태그 때매..

파이썬으로 서울 지하철 데이터를 크롤링하다가 발견한 쉽고 간편한 방법이 있어서 소개합니다. 바로 위와 같이 모든 행들이 따로따로 분리 되어 있는 것이 아니라 노선의 "서울 지하철 4호선" 처럼 모든 행들이 하나로 합쳐져 있는 것도 있고 소재지의 "노원구" , "도봉구", "강북구" 등과 같이 임의적으로 쪼개져 행들이 합쳐져 있는 복잡한 표를 깔끔하게 가져오는 방법입니다. html_parser_table의 make2d를 이용하시면 깔끔하게 정보를 가져오실 수 있습니다. 1. 설치 html_parser_table의 make2d를 사용하기에 앞서 먼저 설치를 해줘야합니다. 위와 같은 명령을 터미널 창에 입력하여 html_parser_table을 설치합니다. 2. requests 요청과 해당 데이터가 있는 부분..