일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 파이썬
- 깃허브
- 멋사 서류평가
- 백엔드
- 파이썬 크롤링
- 멋사
- discord
- 알림봇
- 웹동아리
- 멋사 면접
- 멋사12
- 크롤링
- 코딩동아리
- API
- 멋쟁이사자처럼11기
- 디스코드봇
- 멋사10기
- ㅏㄴ
- IT동아리
- 멋쟁이사자처럼 서류
- 멋쟁이 사자처럼
- 멋쟁이사자처럼10기
- django
- 멋사 10기
- 멋쟁이사자처럼대학
- 멋사11기
- 기사 제목 크롤링
- 멋사 합격
- 멋사 서류
- 멋쟁이사자처럼
- Today
- Total
목록크롤링 (3)
ACHO.pk devlog
멋사 서울여대 스터디에서 Python 심화 응용 미션을 진행했다. 크롤링하기를 원하는 페이지와 뉴스 검색어를 입력해서 해당 키워드가 포함되거나 관련된 뉴스 제목을 크롤링하고 얻은 값을 엑셀에 표로 나타내야 했다. 멋사 서울여대 스터디 Python 응용 미션 1) 기본 세팅 -beautifulsoup4 install -Requests install -Pandas install -Openpyxl install 2) HINT -url 분석하여 페이지 검색어 + 페이지 번호 입력하는 코드 짜기 검색할 키워드를 입력하고, 크롤링할 페이지의 숫자를 입력하면 키워드와 연관된 뉴스의 기사제목이 10개가 출력된다. 갯수는 줄일수도 늘릴수도 있다. 크롤링한 결과를 번호, 제목으로 엑셀 파일에 저장하면 된다. 엑셀 파일에 ..
오늘 멋사 서울여대의 정기세션에서는 다음과 네이버의 실시간 검색어 데이터를 추출하는 크롤링에 대해 배웠다. 올해 초에 자바 JSOUP으로 서울여대 공지사항 게시글 제목을 크롤링 한 적이 있기 때문에 파이썬으로 새롭게 배운다는 마음으로 임했다. 크롤링하는 방법은 같지만 함수나 모듈이 서로 달라 헷갈리는 것도 많았다. ※웹페이지가 계속해서 업데이트가 되다보니, html에서 태그나 클래스가 변경되면 크롤링이 안 될 수도 있다. 최근 코드는 github에서 확인하면 되겠다. 크롤러란? 웹 페이지의 데이터를 추출하기 위해서는 '크롤러'에 대해 알아야 한다. Crawler : 1. 기는 것 2. 파충류 Crawler: 웹 페이지의 데이터를 모아주는 소프트웨어 Crawling: 크롤러를 사용해 웹 페이지의 데이터를 ..
프로젝트명 학교 공지사항 새 글 알림봇 진행기간 2022 02 16 ~ 2022 02 26 (11일간) js코드에서 java 코드로 바꾼 것까지 생각하면 매우..많은 시간을 사용했지만, 굳이 포함시키지는 않겠다. 개인 토이 프로젝트 새로 대학교에 들어가면서 공지사항을 확인해야할 일이 많아졌다. 물론 매일 들어가서 확인하는 것도 좋은 방법이긴 하지만, 공지사항에 새 글이 언제, 몇 시에 올라올지 모르는 상황이기 때문에 알림봇을 만들면 편리하겠다고 생각했다. 또한, 자바를 이용해서 크롤링에 도전하는 것도 하나의 공부라고 생각하여 토이 프로젝트를 진행하게 되었다. 사용한 언어와 툴 JAVA, Eclipse, HEROKU 제작 과정 1. 알고리즘 [방법1] 과정1) jsoup를 이용하여 학교 홈페이지 공지사항 ..