[Python來爬蟲系列文1 ]觀察我們要爬的網頁("以股價資料為例")－新手小白用Python來做資料分析是否搞錯了什麼

前言:

新手小白對網頁爬蟲的概念了解不多
但在爬簡單的網頁呢至少要知道

我們打開一個網頁會有兩件事情發生就是request 和 response
也就是說我們先用自己的電腦向一個網頁提出我們要去參觀
然後網頁再把它的內容回傳給我們檔案可能有 HTML / Json / csv 等等的
最後瀏覽器 (像是 GoogleChrome) 來包裝成我們現在看的網頁的樣貌

當我們要爬蟲的時候
簡單來講會有幾個步驟
1. 觀察我們要爬的網頁
2. 下載我們要的網頁
3. 整理成我們要的形式

有些行家可以邊下載邊整理不過新手小白沒這麼厲害
就先整個下載來再整理吧~~

正文: 觀察我們要爬的網頁

首先以股價資料為例我們可以在證交所看到

http://www.twse.com.tw/zh/page/trading/exchange/MI_INDEX.html

你可以看到他有寫 CSV下載~~~ 表示這網頁應該是很好爬的~~
接下來我們必須知道瀏覽器的一個功能
在這個網頁上按右鍵 => 檢查 => 然後就會跑出多一個視窗

這個視窗就是我們在左邊網頁做的任何事情
會用網頁代碼和檔案的形式顯示出來
好啦~~ 新手小白只想爬股價資料
那就照下邊的幾個步驟吧
1. 點選右邊視窗的 Network
2. 點選左邊視窗的查詢
3. 點選右邊視窗的 Headers
就會有以下畫面

4.我們複製剛剛Request的 URL 裡面的網址 ( 如上圖)
5.貼在任意的新的瀏覽器頁面打開基本上...會有很多亂碼
但你可以稍微觀察一下裡面是真有我們想要的股價資訊

如要好看一點呢~ 你可以試試把剛複製的網址中的 json 改成csv
也就是
http://www.twse.com.tw/exchangeReport/MI_INDEX?response=json&date=20180820&type=ALLBUT0999&_=1534745211834
改成
http://www.twse.com.tw/exchangeReport/MI_INDEX?response=csv&date=20180820&type=ALLBUT0999&_=1534745211834
就可以把剛剛的內容下載下來用EXCEL打開 ### 這招不一定適用喔~ 因為每個網頁的寫法不一樣請先當作特例吧