[爆卦]pickle檔案是什麼？優點缺點精華區懶人包

為什麼這篇pickle檔案鄉民發文收入到精華區：因為在pickle檔案這個討論話題中，有許多相關的文章在討論，這篇最有參考價值！作者magines (magines)看板Python標題[問題] pickle 無法 serial...

作者magines (magines)

看板Python

標題[問題] pickle 無法 serialize > 4GB

時間Fri Jan 18 00:50:00 2019

首先先感謝看本文的人，文章可能有點長。

然後我是python 超新手，某些詞彙表達不是很精確..造成困擾的話，先說聲抱歉。

基本上問題就是：
OverflowError: cannot serialize a bytes object larger than 4 GiB

*************來自github作者，聲明發生這個問題的原因*****************
Hi, this is a common problem and stems from some of the patents
having a crazily large amount of text in them.
Reduce the size of the sample on which you're running inference.
E.g., instead of 20% (0.2), reduce it to 0.05 to start with and
try ratcheting it up slowly.

*********結論：patent檔案太大了
參考
https://github.com/google/patents-public-data/issues/16

*****請問要怎麼切檔案？
他把所有的檔案，存進一個叫td的東西（在python 上面打 td，他只會出現
<train_data.LandscapeTrainingDataUtil at 0x1369595c0>

完全沒有想法要怎麼切，也不知道他長怎樣....

-----------------以下文章長--------------

我在github 下載了一個透過machine learning方法，找某個領域相關專利的專案。

https://github.com/google/patents-public-data/blob/master/models/landscaping/README.md

遵照LandscapeNotebook.ipynb 文件的指示，整個流程跑得非常順利。

然後，問題來了，這是一個相對樣本較小的範例，

如下所示：

subset_l1_pub_nums, l1_texts, padded_abstract_embeddings,
refs_one_hot, cpc_one_hot = \ expander.sample_for_inference(td, 0.02)

在參數設為0.02(隨機抽取td 2% 資料量）是成功的。

但是我想要的是整個資料為1(100%)下去跑測試完的結果（其實設20%它就不行了）。

當參數設太大的時候，會出現

OverflowError: cannot serialize a bytes object larger than 4 GiB” 的問題。

Google 後查（or想）到幾個解決方案：

1.)把pickle 模組換成 sklearn （失敗）

from
sklearn.externals import joblib joblib.dump(clf, 'filename.pkl')

參考：
https://stackoverflow.com/questions/48074419/how-to-pickle-files-2-gib-by-splitting-them-into-smaller-fragments

2.) 在pickle.dump ()裡面放protocol =4 (失敗-還是我放錯位置了？)

在expansion.py 檔案裡，有下面這個code:

pickle.dump( (training_data_full_df, seed_patents_df, l1_patents_df,
l2_patents_df, anti_seed_patents), outfile)

我放的protocol =4 位置如下（但都失敗）

pickle.dump((training_data_full_df, seed_patents_df, l1_patents_df,
l2_patents_df, anti_seed_patents, protocol =4), outfile)

or

pickle.dump( (training_data_full_df, seed_patents_df, l1_patents_df,
l2_patents_df, anti_seed_patents), outfile, protocol =4)

參考：
https://github.com/stan-dev/pystan/issues/197

3.) multiprocessing (沒試過，但我對於這個code有兩個問題)

我的理解是，就是做一個pickle4reducer 模組，模組如下：
from
multiprocessing.reduction import ForkingPickler, AbstractReducer

class ForkingPickler4(ForkingPickler):

def __init__(self, *args):
if len(args) > 1:
args[1] = 2
else:
args.append(2)
super().__init__(*args)
@classmethod

def dumps(cls, obj, protocol=4):
return ForkingPickler.dumps(obj, protocol)

def dump(obj, file, protocol=4):
ForkingPickler4(file, protocol).dump(obj)

class Pickle4Reducer(AbstractReducer):
ForkingPickler = ForkingPickler4
register = ForkingPickler4.register
dump = dump

在“主程式”的地方放下面這個code

import pickle4reducer import multiprocessing as mp
ctx = mp.get_context()
ctx.reducer = pickle4reducer.Pickle4Reducer()
with mp.Pool(4) as p:
# do something

我的問題是，

a.我想這個主程式以專案來說，應該是expansion. py 這裡。
但是具體位置要放哪裡？

b. p:後面的do something是要寫什麼？？？
with mp.Pool(4) as p: # do something

參考：
https://stackoverflow.com/questions/51562221/python-multiprocessing-overflowerrorcannot-serialize-a-bytes-object-larger-t

4. 把檔案限制在4GB以下，然後循環下載（沒試過）

import pickle import os.path
file_path = "pkl.pkl"
n_bytes = 2**31
max_bytes = 2**31 - 1
data = bytearray(n_bytes)
## write bytes_out = pickle.dumps(data) with open(file_path, 'wb') as f_out:
for idx in range(0, len(bytes_out), max_bytes):
f_out.write(bytes_out[idx:idx+max_bytes])
## read bytes_in = bytearray(0)
input_size = os.path.getsize(file_path) with open(file_path, 'rb') as f_in:
for _ in range(0, input_size, max_bytes):
bytes_in += f_in.read(max_bytes)
data2 = pickle.loads(bytes_in)
assert(data == data2)

請問要貼在哪裡啊？我要改什麼嗎？
參考
https://stackoverflow.com/questions/31468117/python-3-can-pickle-handle-byte-objects-larger-than-4gb

5. 上google cloud platform 開一個遠端電腦，CPU 和ram 能加多大，就加多大＝＝
暴力解決？

但我感覺應該不是這個問題。因為我看了issue 24658

上面po的問題，看起來是不知道哪來的bug~= =?

還是這個bug就是因為電腦運算能力本身會產生的問題？
Ps 我的電腦 mac pro /ram 8G /processor i5

參考：https://bugs.python.org/issue24658

6. 其他？？？

謝謝大家，文章真的有點長....

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 141.23.163.194
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1547743809.A.053.html

推 Neisseria: 未看先猜檔案系統問題 01/18 08:58

→ magines: 雖然不懂，不過還是謝謝你^^ 01/18 09:39

→ acer1832a: 你的Python是裝32bit還是64bit? 01/18 17:06

acer大，你好：我上網查了一下，透過下面這個code
>>> import struct >>> print(struct.calcsize("P") * 8) 出來數字是64
所以是64 bit
python 版本是3.5.6
processor 是core i5

謝謝acer大大

acer大大，你好
在文章的開始，我放了作者聲明這個問題的原因，要下載（訓練）的檔案td太大了
可是打td， python 出現<train_data.LandscapeTrainingDataUtil at 0x1369595c0>

這跟我認識的dataframe好像不一樣？請問要怎麼看檔案內容？要怎麼切？

謝謝
※ 編輯: magines (109.41.192.113), 01/18/2019 17:51:14
※ 編輯: magines (109.41.192.113), 01/18/2019 18:09:50

→ benson415: LandscapeTrainingDataUtil is a class :) 01/18 20:28

→ benson415: 問題不只是protocol，你dump的時候還要by batch 01/18 20:29

→ benson415: 你可以用buffer去接每個batch，再去讀或寫 01/18 20:31

Benson大大，你好:
我再按照你給的關鍵字查看看，謝謝!
※ 編輯: magines (109.41.192.113), 01/18/2019 20:44:33

推 alen84204: 原始檔案切割呢(訓練樣) 切成10分分開跑 01/20 01:50

alen大你好：
後來的解決方案是參考了
https://stackoverflow.com/questions/31468117/python-3-can-pickle-handle-byte-objects-larger-than-4gb
這一篇，基本上是綜合了前面幾位大大的線索。

謝謝
※ 編輯: magines (109.41.3.215), 01/24/2019 01:02:23

[爆卦]pickle檔案是什麼？優點缺點精華區懶人包

為什麼這篇pickle檔案鄉民發文收入到精華區：因為在pickle檔案這個討論話題中，有許多相關的文章在討論，這篇最有參考價值！作者magines (magines)看板Python標題[問題] pickle 無法 serial...

你可能也想看看

搜尋相關網站

#1python讀取寫入pickle、npy格式檔案（程式碼+註釋）_其它

#2簡單談談Python中的json與pickle | 程式前沿

#3pkl檔案是什麼檔案？怎麼來開啟它！ - IT閱讀 - ITREAD01.COM

#4檔案副檔名PICKLE ： Python Pickle File 是什麼? 如何開啟?

#5pickle - HackMD

#6Python讀寫pickle檔 - Medium

#77.5. 存取pickle檔

#8python中的pickle功能 - IT人

#9python資料持久儲存：pickle模組的基本使用 - 拾貝文庫網

#10pickle --- Python 对象序列化— Python 3.10.1 說明文件

#11[Python] 使用Pickle 模組保存資料（持久化數據）

#12Python 3 Tutorial 第五堂（2）物件序列化

#13Python pickle模組：實現Python物件的持久化儲存_qwz185_堡壘

#14[Day 28] 儲存訓練好的模型 - iT 邦幫忙

#15救命！ 如何開啟P 檔案？[已解決] - FileViewPro

#16在Python 中儲存字典到檔案

#17python - 文件目录操作之file文件读写- pkl文件(pickle序列化)

#18File:Branston Pickle jar 1.jpg - 維基百科，自由的百科全書

#19Issue #2 · ruoqi-liu/LP-SDA · GitHub - pickle文件

#20python使用pickle序列化物件至檔案 - w3c學習教程

#21Python進階之路：物件序列化工具Pickle - 別眨眼網

#22pickle文件_mb5fcdf3fd1fd25的技术博客

#23python读取写入pickle、npy格式文件（代码+注释） - 代码先锋网

#24Python 使用Pickle進行資料儲存和讀取 - 程序員學院

#25pickle, cPickle 模块：序列化Python 对象

#26如何在本機執行和部署- Azure Machine Learning

#27python爬取之json、pickle與shelve庫的深入講解 - IT145.com

#28pychar中pickle文件的读取和查看,Pycharm,及 - Python教程

#29Python pickle 的首选(或最常见)文件扩展名 - IT工具网

#30如何读取pickle文件？ - 问答- Python中文网

#31python如何读取pickle文件- 问答 - 亿速云

#32例外處理、輸入輸出 - Python 程式設計

#33Python進階之路：對象序列化工具Pickle - 每日頭條

#34檔案(Files)

#35Pickle Posse - Strava 自行車手的個人檔案| Jeff Herren

#36pyspark读取pickle文件内容并存储到hive - 云+社区- 腾讯云

#37python pickle模块- CobbLiu - 博客园

#38File:En-au-pickle.ogg - Wikimedia Commons

#395.21 序列化Python对象— python3-cookbook 3.0.0 文档

#40Agence Pickle Creative 職涯和現任員工個人檔案 | 尋找內薦

#41在pickle文件中保存和加载多个对象？ - python - 中文— it ...

#42Python Pickle的任意程式碼執行漏洞實踐和Payload構造 - ITW01

#43更改模块目录后的Python pickle | 码农家园

#44物件序列化 - tw511教學網

#45Python檔案袋（ Json、pickle、加密與解密） - 台部落

#46pickle 保存数据- Python基础

#47python3之pickle、yaml、json文件 - 简书

#48The Great Pickle Adventure - Steam

#49能否通俗的解释Python的pickle模块是干嘛用的？ - 知乎

#50python中pickle模組的作用是什麼？為什麼不直接把數

#51大家一起學Python – (12) Pickle - 不是鳥哥的Linux 私房菜

#52[筆記] python3 實用筆記 - 陳雲濤的部落格

#53在pickle文件中保存和加载多个对象？ - QA Stack

#54二进制文件编程

#55Python在pickle序列化後資料如何處理？ - 劇多

#56为什么我会读取"Pickle - EOFError:Ran out of input"读取空文件？

#57[Pickles] SpecFlow 整合Pickles 產生活文件| 余小章@ 大內殿堂

#58python基础34 pickle 存放数据(教学教程tutorial) - YouTube

#59在pickle文件中保存和加載多個對象？ - 優文庫 - UWENKU

#60python 读取存储的pickle文件听语音 - 百度经验

#61機器學習之保存與加載.pickle模型文件 - 开发者知识库

#62P文件擴展名： 它是什麼以及如何打開它？ - Solvusoft

#63[問題] pickle 無法serialize > 4GB - 看板Python - 批踢踢實業坊

#64python pickle - 刘江的博客教程

#65Python中的Pickle操作（pkl文件解释） - 数据学习

#66使用Pickles 搭配SpecFlow 產生即時更新文件(living ...

#67什么是.pickle文件，如何打开它？

#68如何阅读pickle文件？

#69python对csv文件进行数据读写操作汇总

#70精通Python 3程式設計 第二版 (電子書) - 第 295 頁 - Google 圖書結果

#71增壓的Python｜讓程式碼進化到全新境界(電子書)

#72Python pickle的首選（或最常見）文件擴展名

#73用Python快速上手資料分析與機器學習(電子書)

#74Clipchamp: All your video needs in one place

#75Python 3.9技術手冊(電子書) - 第 10-4 頁 - Google 圖書結果

#76人工智慧Python基礎課 - 用Python分析了解你的資料(電子書)

#15救命！如何開啟P 檔案？[已解決] - FileViewPro

#62P文件擴展名：它是什麼以及如何打開它？ - Solvusoft

#70精通Python 3程式設計第二版 (電子書) - 第 295 頁 - Google 圖書結果