ACHO.pk devlog

[멋쟁이사자처럼10기] Python으로 검색어 뉴스 기사 제목 크롤링 + 엑셀 파일 저장 본문

멋쟁이사자처럼

[멋쟁이사자처럼10기] Python으로 검색어 뉴스 기사 제목 크롤링 + 엑셀 파일 저장

Acho 2022. 5. 2. 22:01

멋사 서울여대 스터디에서 Python 심화 응용 미션을 진행했다.
크롤링하기를 원하는 페이지와 뉴스 검색어를 입력해서 해당 키워드가 포함되거나 관련된 뉴스 제목을 크롤링하고 얻은 값을 엑셀에 표로 나타내야 했다.


멋사 서울여대 스터디 Python 응용 미션

1) 기본 세팅

-beautifulsoup4 install

-Requests install

-Pandas install

-Openpyxl install

 

2) HINT

-url 분석하여 페이지 검색어 + 페이지 번호 입력하는 코드 짜기

 

검색할 키워드를 입력하고, 크롤링할 페이지의 숫자를 입력하면 키워드와 연관된 뉴스의 기사제목이 10개가 출력된다. 갯수는 줄일수도 늘릴수도 있다.

파이썬 콘솔창


크롤링한 결과를 번호, 제목으로 엑셀 파일에 저장하면 된다.

엑셀


엑셀 파일에 저장하는 방법


import pandas as pd
import openpyxl

wb = openpyxl.Workbook()
sheet = wb.active
sheet.append(["번호", "제목"])
num = 0
for i in results:
    num +=1
    title = i.text
    sheet.append([num, title])
    
wb.save("new.xlsx")

 

완성된 코드는 아래 깃허브에서 확인 !

https://github.com/Acho-mj/Likelion10-study/tree/main/python_crawling

 

GitHub - Acho-mj/Likelion10-study: 멋쟁이 사자처럼 10기 백엔드입니다. 코드라이언과 학교 멋사 스터디

멋쟁이 사자처럼 10기 백엔드입니다. 코드라이언과 학교 멋사 스터디에서 학습한 내용을 올립니다. - GitHub - Acho-mj/Likelion10-study: 멋쟁이 사자처럼 10기 백엔드입니다. 코드라이언과 학교 멋사 스

github.com

 

 

Comments