[爆卦]big5亂碼是什麼?優點缺點精華區懶人包

為什麼這篇big5亂碼鄉民發文收入到精華區:因為在big5亂碼這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者pig98520 (Jimmy)看板Python標題[問題] python 爬蟲遇到big5擴充...


大家好,又上來打擾了,最近在爬蟲的時候遇到這個詞:

"宏碁電腦",發現爬下來時候會變成亂碼,

https://imgur.com/ZSV4gAe

經爬文查詢後發現這樣的問題:

https://blog.hoamon.info/2008/05/python-big5.html

不過該解法似乎不能應用在python3.7

想問一下有沒有類似的情況該怎麼解@@?

補上網站:
https://tw.stock.yahoo.com/news/%E5%A4%96%E8%B3%87-%E8%B3%A3%E8%B6%85%E8%82%A1-%E5%AE%8F-%E7%A2%81-%E9%B4%BB-234706227.html

程式碼:
import requests
from bs4 import BeautifulSoup
url='https://tw.stock.yahoo.com/news/%E5%A4%96%E8%B3%87-%E8%B3%A3%E8%B6%85%E8%82%A1-%E5%AE%8F-%E7%A2%81-%E9%B4%BB-234706227.html'
req=requests.get(url)
bs=BeautifulSoup(req.text,'html.parser')
print(bs.find('h1').text)
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.133.44.129
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1543208095.A.47E.html
acer1832a: 請問是爬哪個網頁,沒有網頁沒辦法幫你看是不是網頁編 11/26 13:20
acer1832a: 碼轉換上的問題,能提供程式碼更好 11/26 13:21
TakiDog: 有big5哦 ,requests有encoding的參數 11/26 13:22
※ 編輯: pig98520 (220.133.44.129), 11/26/2018 13:29:53
ckc1ark: req=requests.get(url)後加一行req.encoding = 'cp950' 11/26 13:39
pig98520: 可以了~不過請問為何不能用big5? 11/26 14:55
ckc1ark: 你貼的文章有提 有7個擴充字是big5沒有的 11/26 15:21
pig98520: 了解 但是用utf-8又會亂碼@@ 所以也不能用utf-8囉 11/26 17:05
eight0: 用哪個 encoding 編碼,就用哪個 encoding 解碼 11/26 19:35
justoncetime: 你可以去g一下CP950和Big5的關係啊 11/26 20:08
pig98520: 了解了~謝謝解惑 11/27 10:27

你可能也想看看

搜尋相關網站