前言:
新手小白對網頁爬蟲的概念了解不多
但在爬簡單的網頁呢 至少要知道
我們打開一個網頁 會有兩件事情發生 就是request 和 response
也就是說 我們先用自己的電腦 向一個網頁提出我們要去參觀
然後網頁再把它的內容回傳給我們 檔案可能有 HTML / Json / csv 等等的
最後瀏覽器 (像是 GoogleChrome) 來包裝成我們現在看的網頁的樣貌
當我們要爬蟲的時候
簡單來講會有幾個步驟
1. 觀察我們要爬的網頁
2. 下載我們要的網頁
3. 整理成我們要的形式
有些行家可以邊下載邊整理 不過新手小白沒這麼厲害
就先整個下載來再整理吧~~
正文: 觀察我們要爬的網頁
首先 以股價資料為例 我們可以在證交所看到
http://www.twse.com.tw/zh/page/trading/exchange/MI_INDEX.html
你可以看到他有寫 CSV下載~~~ 表示這網頁應該是很好爬的~~
接下來 我們必須知道瀏覽器的一個功能
在這個網頁上按右鍵 => 檢查 => 然後就會跑出多一個視窗
這個視窗就是 我們在左邊網頁做的任何事情
會用 網頁代碼和檔案的形式 顯示出來
好啦~~ 新手小白 只想 爬股價資料
那就照下邊的幾個步驟吧
1. 點選右邊視窗的 Network
2. 點選左邊視窗的 查詢
3. 點選右邊視窗的 Headers
就會有以下畫面
4.我們複製剛剛Request的 URL 裡面的網址 ( 如上圖)
5.貼在任意的新的瀏覽器頁面打開 基本上...會有很多亂碼
但你可以稍微觀察一下裡面是真有我們想要的股價資訊
如要好看一點呢~ 你可以試試把剛複製的網址 中的 json 改成csv
也就是
http://www.twse.com.tw/exchangeReport/MI_INDEX?response=json&date=20180820&type=ALLBUT0999&_=1534745211834
改成
http://www.twse.com.tw/exchangeReport/MI_INDEX?response=csv&date=20180820&type=ALLBUT0999&_=1534745211834
就可以把剛剛的內容 下載下來用EXCEL打開 ### 這招不一定適用喔~ 因為每個網頁的寫法不一樣 請先當作特例吧
因為新手小白要的只是各股 所以其他的資訊可以把他刪了
就可以得到以下的內容囉~~
好啦~~ 這個CSV檔就是我們要爬出來的東西
只是新手小白是用手動完成的
下次的爬蟲系列文 會講講怎麼用 Python來實現我們以上的動作
並且重複地抓取不同天的股價資料
補充: 再觀察網頁的時候 其實也可以透過 右邊的 Response 來看看網頁裡面的內容
基本上 複製下來 再用文字檔打開就行了