[爆卦]Ckipws是什麼？優點缺點精華區懶人包

為什麼這篇Ckipws鄉民發文收入到精華區：因為在Ckipws這個討論話題中，有許多相關的文章在討論，這篇最有參考價值！作者wayne64001 (哥，閉嘴啦)看板DataScience標題[問題] 想請問中文資料前處理...

作者wayne64001 (哥，閉嘴啦)

看板DataScience

標題[問題] 想請問中文資料前處理

時間Fri Nov 8 16:00:39 2019

小弟我是第一次處理中文資料的問題
目前是打算用Keras LSTM做新聞的 Multi label classification
但是4個epoch就遇到了overfitting的問題 validation loss開始上升且validation的準
確率也只有5成

我稍微評估了一下問題應該在我前處理的部份(有試dropout跟 L1 L2)

我目前處理的方法為讀取資料後就利用jieba.cut 並讀取別人建立的字典
同時也用stopword字典去除停詞
這兩個步驟後就放入keras Tokenizer, texts_to_sequences, sequence.pad_sequences
成為我的X 而後就在model內進行Embedding

想請問處理繁體中文資料要怎麼修改才不會overfitting呢？

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.246.89.216 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1573200041.A.C8E.html
※ 編輯: wayne64001 (111.246.89.216 臺灣), 11/08/2019 16:02:02

推 st1009: 可以試試用字不要用詞(?11/08 18:45

推 st1009: 我猜有可能語料太小OOV太多，而且一些論文顯示斷詞不會讓11/08 18:47

推 st1009: 你得到更好的效果11/08 18:47

推 xiangying: 試試ckipws11/09 00:41

ckip處理大量資料要跑好久...是個人問題嗎?
※ 編輯: wayne64001 (101.10.98.164 臺灣), 11/09/2019 13:50:04

推 a810501: 直接用bert來做transfer learning吧～他有中文預訓練模 11/10 00:56

→ a810501: 型也不用管斷詞問題 11/10 00:56

推 shhs1000246: bert直接下去啊斷詞用結巴效果不好除非是有改過的 11/11 02:45

推 wainshain: CKIP本來就要跑很久是他的弱點 11/12 09:01

→ wainshain: 現在都bert就不用管懂不懂那個詞了，超好用 11/12 09:02

→ sheep1129588: 直接芝麻街好朋友系列一排試下來XDD, BERT, ELMO 11/12 11:54

推 ciaoPTT: bert真心好用 11/12 19:16

推 roccqqck: 大家bert都pip安裝哪個寫啊 11/12 19:44

→ roccqqck: transformers嗎 11/12 19:44

→ roccqqck: 還是bert-tensorflow 11/12 19:44

→ roccqqck: 我是用前者 11/12 19:45

推 sheep1129588: huggingface有bert的pytorch版，還蠻好用的 11/16 16:53

推 roccqqck: 我就是用huggingface的transformers 但我用tf版 11/16 18:12

推 somoskylin: 樓上大大能否給個關鍵字，我想看斷詞不太影響結果的 11/21 15:59

→ somoskylin: 論文 11/21 15:59

推 st1009: Is Word Segmentation Necessary for Deep Learning of 11/21 22:35

→ st1009: Chinese? https://arxiv.org/abs/1905.05526 11/21 22:36

→ sxy67230: 我是用tf2.0的modeling模組 11/22 09:28

推 somoskylin: 感謝 11/24 18:58

pttman Muster

[爆卦]Ckipws是什麼？優點缺點精華區懶人包

為什麼這篇Ckipws鄉民發文收入到精華區：因為在Ckipws這個討論話題中，有許多相關的文章在討論，這篇最有參考價值！作者wayne64001 (哥，閉嘴啦)看板DataScience標題[問題] 想請問中文資料前處理...

你可能也想看看

搜尋相關網站

#1CKIP Lab 中文詞知識庫小組| 中文斷詞 - 中央研究院

#2ckiplab/ckiptagger: CKIP Neural Chinese Word ... - GitHub

#3ckipws · PyPI

#4[NLP][Python] 透過ckiptagger 來使用繁體中文斷詞的最佳工具 ...

#5開源的斷詞(WS)、詞性標注(POS)、實體辨識(NER)工具

#6CKIP Classic NLP Tools — CkipClassic v1.2.3 documentation

#7ckipws 0.5.0 on PyPI - Libraries.io

#8[Python] 结巴中文分词 - Max的程式語言筆記

#9GitHub - ckiplab/ckiptagger: CKIP Neural Chinese Word ...

#10[問題] 想請問中文資料前處理- 看板DataScience

#11Gypsy Heart - song and lyrics by Playmen, Hadley - Spotify

#12【ckip corenlp】CKIPCoreNLP-CKIPLab中文詞... +1

#13e ͘ΒᏱາჷშ - 圖資與檔案學刊- 政治大學

#14目錄 - 國語教學中心

#15ckip 字典的評價費用和推薦，EDU.TW、PTT.CC

#16github.com-ckiplab-ckiptagger_-_2019-09-05_17-32-43

#17應用自然語言處理與人工智慧技術於常用刑事類別判決預測 - Taai

#18Human intelligence-based metaverse for co-learning of ... - NCBI

#19Headword-Oriented Entity Linking - ACL Anthology

#20Manipulation of Content Farm Headlines - arXiv

#21Headline Diagnosis: Manipulation of Content Farm Headlines

#22Fenerbahçe cagliari maçı canlı izle arjantin avustralya maçı ...

#23Guanguan goes the Chinese Word Segmentation (II)

#24Simple Index - Alibaba Cloud

#25Simple Index - Mirror UNPAD

#26Simple index - Huawei Cloud

#27bisque/dev: simple list (including inherited indices)

#28District hopes football goals stay within sight when co-op ends ...

#29Domains cki - full whois information

#30Nenhum imóvel encontrado no momento. - Lopes Litoral

pttman Muster