일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 멋쟁이 사자처럼
- 멋사10기
- 크롤링
- API
- 기사 제목 크롤링
- 멋사 합격
- 멋사
- 멋사 면접
- 파이썬
- IT동아리
- 멋사11기
- 멋사 10기
- 웹동아리
- 멋사 서류
- 깃허브
- 코딩동아리
- ㅏㄴ
- 디스코드봇
- 멋쟁이사자처럼10기
- 멋쟁이사자처럼대학
- 백엔드
- 알림봇
- 멋쟁이사자처럼
- 멋사 서류평가
- discord
- 멋쟁이사자처럼 서류
- django
- 멋쟁이사자처럼11기
- 파이썬 크롤링
- 멋사12
- Today
- Total
목록파이썬 크롤링 (2)
ACHO.pk devlog
멋사 서울여대 스터디에서 Python 심화 응용 미션을 진행했다. 크롤링하기를 원하는 페이지와 뉴스 검색어를 입력해서 해당 키워드가 포함되거나 관련된 뉴스 제목을 크롤링하고 얻은 값을 엑셀에 표로 나타내야 했다. 멋사 서울여대 스터디 Python 응용 미션 1) 기본 세팅 -beautifulsoup4 install -Requests install -Pandas install -Openpyxl install 2) HINT -url 분석하여 페이지 검색어 + 페이지 번호 입력하는 코드 짜기 검색할 키워드를 입력하고, 크롤링할 페이지의 숫자를 입력하면 키워드와 연관된 뉴스의 기사제목이 10개가 출력된다. 갯수는 줄일수도 늘릴수도 있다. 크롤링한 결과를 번호, 제목으로 엑셀 파일에 저장하면 된다. 엑셀 파일에 ..
오늘 멋사 서울여대의 정기세션에서는 다음과 네이버의 실시간 검색어 데이터를 추출하는 크롤링에 대해 배웠다. 올해 초에 자바 JSOUP으로 서울여대 공지사항 게시글 제목을 크롤링 한 적이 있기 때문에 파이썬으로 새롭게 배운다는 마음으로 임했다. 크롤링하는 방법은 같지만 함수나 모듈이 서로 달라 헷갈리는 것도 많았다. ※웹페이지가 계속해서 업데이트가 되다보니, html에서 태그나 클래스가 변경되면 크롤링이 안 될 수도 있다. 최근 코드는 github에서 확인하면 되겠다. 크롤러란? 웹 페이지의 데이터를 추출하기 위해서는 '크롤러'에 대해 알아야 한다. Crawler : 1. 기는 것 2. 파충류 Crawler: 웹 페이지의 데이터를 모아주는 소프트웨어 Crawling: 크롤러를 사용해 웹 페이지의 데이터를 ..