[爆卦]中研院斷詞github是什麼?優點缺點精華區懶人包

為什麼這篇中研院斷詞github鄉民發文收入到精華區:因為在中研院斷詞github這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者zero0o0o8279 ()看板Python標題[問題] word2Vec 自然語言處理 中文...


最近在研究sentiment analysis

練習了一下如何使用word2vec

可是大多數範例好像都是用英文的

想試試看中文的效果如何,不知道有沒有已處理好的中文語料庫可以使用,

還是都要自己先收資料,做好斷詞等等處理才行呢?

小的剛入門還不太懂,若講到的詞有觀念錯誤或是奇怪的地方還請各位高手多多指教~


--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 27.52.41.89
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1499323807.A.B56.html
hsnuyi: 中研院有詞庫 有人把它抓下來整理好 放在github上 斷詞的 07/06 15:00
hsnuyi: 話 以前是都用jieba 現在好像有更好的 07/06 15:00
BigBank: 用維基百科去處理 07/06 15:31
zero0o0o8279: 有找到中研院的可是連結好像都掛了 再去github看看 07/06 15:42
zero0o0o8279: 維基的話 不太懂要怎麼處理那個原始檔 可以指點一 07/06 15:42
zero0o0o8279: 下方向嗎 07/06 15:42
minikai: 最近公司也在處理中文斷詞 真的有比Jieba好用的嗎? 07/06 23:50
hsnuyi: 我是在p2看到的 可是我最愛很多個 一時找不到... 07/08 01:50
dppman: 可以分享一下GitHub 上整理的中研院的資源嗎? 07/08 19:18
bluecadence: 我記得中研院的詞庫要收錢了 如果沒記錯的話 07/08 20:00
Shane7: 中文維基百科 再自己斷詞 07/14 17:33

你可能也想看看

搜尋相關網站