[爆卦]BeautifulSoup json是什麼?優點缺點精華區懶人包

為什麼這篇BeautifulSoup json鄉民發文收入到精華區:因為在BeautifulSoup json這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者niburger1001 (妮妮漢堡)看板Python標題[問題] json.loads的問題時...


我寫了一個小程式去爬取證交所的資料,
一開始還蠻順利的不過到2006/01/25之後程式就中斷了。
爬了些文說是json數據太多之類的,小弟還是新手,到這邊就卡關了,也不太明白為什麼
一開始還可以順順的執行,之後卻不行。
還請大大們幫忙指教,謝謝!
以下是我的程式碼:
from bs4 import BeautifulSoup
import requests
import json
import csv
import time, datetime, os

#SINCE 2004/10/15 to this year
start_date = datetime.datetime( 2004, 10, 15)
end_date = datetime.datetime.now()
start_date = update() #update
totaldays = (end_date - start_date).days + 1

for day_list in range(totaldays):
date_str = (start_date + datetime.timedelta(days = day_list)).date()
year = date_str.year
month = date_str.month
day = date_str.day
#print(date_str.strftime("%Y%m%d"))
directory = 'D:/stock/Raw_data/TWSE_5MIN/'
filename = date_str.strftime("%Y%m%d")+'.csv'
makedirs() #create directory
function
json_data = get_webmsg( year, month, day) #put the data
into smt
if (json_data != False):
write_csv( directory, filename, json_data) #write csv
function
time.sleep(1)
else:
continue

def get_webmsg( year, month, day):
date = str(year) + "{0:0=2d}".format(month) + "{0:0=2d}".format(day)
url_twse =
'http://www.twse.com.tw/exchangeReport/MI_5MINS?response=json&date='+ date
res = requests.post( url_twse)
soup = BeautifulSoup( res.text, 'html.parser')
smt = json.loads( soup.text)
s1 = {'stat': '很抱歉,沒有符合條件的資料!'}
if(smt != s1):
return smt
else:
return False

def write_csv( directory, filename, json_data):
writefile = directory + filename
outputFile = open( writefile,'w', newline='')
outputWriter = csv.writer( outputFile)
head = ''.join( json_data['title']).split()
a = [ head, ""]
outputWriter.writerow(a)
outputWriter.writerow( json_data['fields'])
for data in (json_data['data']):
outputWriter.writerow(data)

outputFile.close()

def makedirs():
directory = 'D:/stock/Raw_data/TWSE_5MIN'
if not os.path.isdir(directory):
os.makedirs(directory)

def update():
path = 'D:\stock\Raw_data\TWSE_5MIN'
files_list = os.listdir(path)
date_str = files_list[-1]
y = int(date_str[:4])
m = int(date_str[5:6])
d = int(date_str[6:8]) + 1
update_date = datetime.datetime( y, m, d)
return update_date

錯誤代碼是:JSONDecodeError: Extra data: line 2 column 5 (char 5)



--

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.25.176.145
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1503773265.A.BB9.html
※ 編輯: niburger1001 (114.25.176.145), 08/27/2017 02:54:42
Sunal: 先看一下讀進來的json格式 08/27 10:53
coeric: 看來 是原始資料的問題阿........ 08/28 08:13
coeric: 如果推測沒錯的話 2006年1月26 發生恆春大地震 08/28 08:22
coeric: 股市暫停交易(兩天) 沒有資料是很正常的......... 08/28 08:23
coeric: 再者,你是用py3 是否跟decode encode有關?(我是用py2) 08/28 08:28
coeric: 因為我一直覺得 都跑到if(smt != s1):return smt 08/28 08:31
coeric: 沒資料情況,並沒有跳到else:return False 08/28 08:31
coeric: 你把soup.text丟進去smt內時,都已經變成unicode 08/28 08:43
coeric: unicode一直都不會等於utf-8 所以並不會跳到else去 08/28 08:44
NoManInCar: 上次也有玩一陣子 似乎暫停交易日不會出現在網站上 08/28 17:38
NoManInCar: 也撈不到吧? 08/28 17:38
niburger1001: 最近較忙 謝謝大大們的建議 我會先看那幾天資料到 08/29 02:30
niburger1001: 底跟非交易日的資料有沒有差別 有下載成功的資料 08/29 02:30
niburger1001: 都有跳過非交易日 08/29 02:30
niburger1001: 那時候想法很單純 非交易跟暫停交易都一樣沒有資料 08/29 02:31
niburger1001: 編碼的問題我也會去了解 謝謝大大們給的方向 08/29 02:33

你可能也想看看

搜尋相關網站