Python - 網路爬蟲 (Web Crawler)
..................................................# Date : 2021-05-10
..................................................
# Keywords: Code, Python, Web crawler, ... .
..................................................
# 網頁爬蟲與資料分析流程 [CASTMAN]:
- [1] 尋找資料來源
- [2] 使用 python 套件進行爬蟲
- [3] 截取並過濾資料
- [4] 分析資料
- [5] 展示資料
# 使用工具:Python、Jupyter。
# 使用套件:
[] requests
[] BeautifulSoup [WIKI]
[] Pandas [WEB]
# Installation :
[] 安裝 requests:於 CMD 輸入 pip3 install requests
[] 安裝 BeautifulSoup: 於CMD 輸入 pip install beautifulsoup4
..................................................
# Installation :
[] 安裝 requests:於 CMD 輸入 pip3 install requests
[] 安裝 BeautifulSoup: 於CMD 輸入 pip install beautifulsoup4
..................................................
# 根據不同網頁內容使用不同套件來解析:
[] HTML, 使用 BeautifulSoup。
[] JSON, 使用內建之 JSON 套件即可 (import json)。
[] REQUEST:依網頁内容分 get and post.
..................................................
# 網路爬蟲範例:
[] 用 beautifulsoup 解析 HTML,抓標題:https://youtu.be/9Z9xKWfNo7k
..................................................
實際步驟:
一、載入套件
二、截取網頁資訊:使用 get
抓取圖片:
- [] Python 網路爬蟲(基礎篇)knowlab, 20160628, https://knowlab.wordpress.com/2016/06/28/python-網路爬蟲(基礎篇)/
- [] [爬蟲實戰] 如何爬取圖片以建立慾望之牆?, Youtube, https://youtu.be/9unqUH0PYCI
..................................................
JUPYTER Notebook
# 快捷鍵:
[] Ctrl + Enter = 在目前 CELL 中執行。
[] Alt + Enter = 執行 then 插入一新的 CELL。
..................................................
# REFERENCE
[] [Python-Finance]證交所股票價格爬蟲實作教學(Let’s crawl stock price)-附程式碼, YCY-TAI, https://ycy-tai.medium.com/python-finance-證交所股票價格爬蟲實作教學-lets-crawl-stock-price-附程式碼-e5d07d41b779
[] 給初學者的 Python 網頁爬蟲與資料分析 (1) 前言, CASTMAN, 20161219, http://blog.castman.net/教學/2016/12/19/python-data-science-tutorial-1.html
[] 使用 Python 資料分析和視覺化上市櫃公司薪資公開資料, Techbridge, 20190726, https://blog.techbridge.cc/2019/07/26/how-to-use-taiwan-salary-data-to-do-python-data-analytics-and-data-visualization/
[] [Python] Pandas 基礎教學, ORANWIND, 20171001, https://oranwind.org/python-pandas-ji-chu-jiao-xue/
# REF. Package
- [] BeautifulSoup, WIKI, https://zh.wikipedia.org/zh-tw/Beautiful_Soup
- [] Pandas, https://pandas.pydata.org/
..................................................
沒有留言:
張貼留言