[爆卦]CKIP 字典是什麼？優點缺點精華區懶人包

為什麼這篇CKIP 字典鄉民發文收入到精華區：因為在CKIP 字典這個討論話題中，有許多相關的文章在討論，這篇最有參考價值！作者wayne64001 (哥，閉嘴啦)看板DataScience標題[問題] 想請問中文資料前處理...

作者wayne64001 (哥，閉嘴啦)

看板DataScience

標題[問題] 想請問中文資料前處理

時間Fri Nov 8 16:00:39 2019

小弟我是第一次處理中文資料的問題
目前是打算用Keras LSTM做新聞的 Multi label classification
但是4個epoch就遇到了overfitting的問題 validation loss開始上升且validation的準
確率也只有5成

我稍微評估了一下問題應該在我前處理的部份(有試dropout跟 L1 L2)

我目前處理的方法為讀取資料後就利用jieba.cut 並讀取別人建立的字典
同時也用stopword字典去除停詞
這兩個步驟後就放入keras Tokenizer, texts_to_sequences, sequence.pad_sequences
成為我的X 而後就在model內進行Embedding

想請問處理繁體中文資料要怎麼修改才不會overfitting呢？

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.246.89.216 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1573200041.A.C8E.html
※ 編輯: wayne64001 (111.246.89.216 臺灣), 11/08/2019 16:02:02

推 st1009: 可以試試用字不要用詞(?11/08 18:45

推 st1009: 我猜有可能語料太小OOV太多，而且一些論文顯示斷詞不會讓11/08 18:47

推 st1009: 你得到更好的效果11/08 18:47

推 xiangying: 試試ckipws11/09 00:41

ckip處理大量資料要跑好久...是個人問題嗎?
※ 編輯: wayne64001 (101.10.98.164 臺灣), 11/09/2019 13:50:04

推 a810501: 直接用bert來做transfer learning吧～他有中文預訓練模 11/10 00:56

→ a810501: 型也不用管斷詞問題 11/10 00:56

推 shhs1000246: bert直接下去啊斷詞用結巴效果不好除非是有改過的 11/11 02:45

推 wainshain: CKIP本來就要跑很久是他的弱點 11/12 09:01

→ wainshain: 現在都bert就不用管懂不懂那個詞了，超好用 11/12 09:02

→ sheep1129588: 直接芝麻街好朋友系列一排試下來XDD, BERT, ELMO 11/12 11:54

推 ciaoPTT: bert真心好用 11/12 19:16

推 roccqqck: 大家bert都pip安裝哪個寫啊 11/12 19:44

→ roccqqck: transformers嗎 11/12 19:44

→ roccqqck: 還是bert-tensorflow 11/12 19:44

→ roccqqck: 我是用前者 11/12 19:45

推 sheep1129588: huggingface有bert的pytorch版，還蠻好用的 11/16 16:53

推 roccqqck: 我就是用huggingface的transformers 但我用tf版 11/16 18:12

推 somoskylin: 樓上大大能否給個關鍵字，我想看斷詞不太影響結果的 11/21 15:59

→ somoskylin: 論文 11/21 15:59

推 st1009: Is Word Segmentation Necessary for Deep Learning of 11/21 22:35

→ st1009: Chinese? https://arxiv.org/abs/1905.05526 11/21 22:36

→ sxy67230: 我是用tf2.0的modeling模組 11/22 09:28

推 somoskylin: 感謝 11/24 18:58

[爆卦]CKIP 字典是什麼？優點缺點精華區懶人包

為什麼這篇CKIP 字典鄉民發文收入到精華區：因為在CKIP 字典這個討論話題中，有許多相關的文章在討論，這篇最有參考價值！作者wayne64001 (哥，閉嘴啦)看板DataScience標題[問題] 想請問中文資料前處理...

你可能也想看看

搜尋相關網站

#1CKIP Lab 中文詞知識庫小組| 中文斷詞 - 中央研究院

#2繁中斷詞：產生CKIPtagger與結巴(Jieba)字典檔 - Medium

#3詞性標記、實體辨識的一站式中文處理開源套件- CkipTagger

#4Chinese README · ckiplab/ckiptagger Wiki - GitHub

#5用中研院CKIP Transformers 做中文斷詞，台灣國語不再結巴

#6NLP - ckiptagger - HackMD

#7教育學習補習資源網- ckip 字典的評價費用和推薦，EDU.TW

#8中文處理工具簡介 - g0v

#9短文評論之情緒分析研究__臺灣博碩士論文知識加值系統

#10Make Robot Write In Chinese 第四組 顏照銓劉其峰 黃兆椿 ...

#11馬偉雲- 如何利用中研院的NLP 工具，快速開發產業應用

#12自然語言處理筆記 - GitLab

#13中文斷詞 - Maxkit

#14國立臺灣師範大學資訊工程研究所碩士論文

#15以語境判定中文未知詞詞類的方法 - ACL Anthology

#16中文分詞語料庫與數據清洗｜方格子vocus

#17NLP 繁體中文斷詞的霸主—— CKIP | Ckiptagger 自訂字典

#18中文文本中限定性抽象名詞指代消解 - 國立交通大學

#19甲骨文、金文、篆文、书法、字典- 白雲深處人家海外站

#20斷詞系統學習筆記

#21成功大學電子學位論文服務

#22黨產會專案文本分析系統

#23朝陽科技大學資訊工程系碩士論文

#24Predicting the semantic orientation of terms in E-HowNet

#25cecc - npm

#26使用情緒分析於圖書館使用者滿意度評估之研究

#27從使用者自建內容挖掘網民對議題的立場: 以兩岸服貿為例

#28繁體中文斷詞使用者字典引用率比較： 結巴（Jieba ）與

#29挖掘網路世界的文字寶藏－文字探勘與民意調查結合應用 - 內政部

#30Airiti Library華藝線上圖書館_台華平行讓格語料的自動對齊

#31向spaCy 添加指定分词器(Jieba,CKIP Transformers)

#32辭典檢視[抽象名詞: ㄔㄡㄒㄧㄤˋ ㄇㄧㄥˊ ㄘˊ] - 國語辭典

#33第一章 緒論 - 國立暨南國際大學

#34大數據分析語言Python 網路社群文字探勘(Text Mining)

#35卓騰語言科技

#36實務專題計畫摘要報告撰寫格式說明 - 國立臺北科技大學

#37Python – GKIPtagger – 國產斷詞工具

#38外文系】111/10/25(二) 語料庫語言學與自然語言處理課程演講

#39進擊的BERT：NLP 界的巨人之力與遷移學習 - LeeMeng

#40中英文語碼轉換語音合成系統開發Development of Mandarin ...

#41閱讀輔具 - 全國特殊教育資訊網

#42〈研之有物〉斷開中文的鎖鍊！自然語言處理(NLP) | Anue鉅亨

#43Traditional Chinese Dependency Parser Based on Neural ...

#44在iOS App 中進行自然語言處理：初探NSLinguisticTagger

#45彙整中文與英文的詞性標註代號：結巴斷詞器與FastTag ...

#46國立中興大學圖書資訊學研究所碩士學位論文使用情緒分析於 ...

#47[問題] 想請問中文資料前處理- 看板DataScience

#48[NLP][Python] 透過ckiptagger 來使用繁體中文斷詞的最佳工具...

#49貼文- NLP自然語言處理討論版 - Cupoy

#50運用自然語言處理工具實作貼文分析系統觀察網路論壇

#51數位典藏與數位人文國際研討會論文集

#52歷史文件X數位科技：如何打造不當黨產處理委員會的文本分析 ...

#53手把手教你用Pytorch-Transformers——部分源码解读及相关 ...

#54華語詞彙分級初探

#55新冠疫情醫療詞彙之多面向敘事——語言、事件與時間

#56多策略性中文詞義辨析技術之研究研究成果報告(精簡版)

#57發展正體中文專利審查數位工具之分析討論

#58中文斷詞

#59107 年度/全程研究報告 - 疾病管制署

#60使用類神經網路進行垃圾郵件過濾之研究

#61博碩士論文103552016 詳細資訊

#62指導教授：陶治中博士蕭瑞祥博士國道計程電子收費實施後之網 ...

#63結合5W1H與本體論進行網路資料探勘技術之研究A ... - 南華大學

#64詞庫的英文單字 - 漢語網

#65中文版「語文探索與字詞計算」詞典之建立

#66臺灣華語文語料庫

#67[Python] 结巴中文分词 - Max的程式語言筆記

#68Help:References - Wenlin Dictionaries

#69lab中文-在PTT/MOBILE01/Dcard上的毛小孩推薦資訊整理

#70中文斷詞

#71Did we really talk to AI? Experience Sharing of CKIP at Talk-to ...

#72中文斷詞

#73中文斷詞

#74Lingoes 辭典安裝python

#75玩轉社群：文字大數據實作（第二版） - 第 72 頁 - Google 圖書結果

#76中文斷詞與詞性標記工具：CKIP中文斷詞系統 - 大肚台地計畫

#10Make Robot Write In Chinese 第四組顏照銓劉其峰黃兆椿 ...

#28繁體中文斷詞使用者字典引用率比較：結巴（Jieba ）與

#33第一章緒論 - 國立暨南國際大學