作者zero0o0o8279 ()
看板Python
標題[問題] word2Vec 自然語言處理 中文語料庫
時間Thu Jul 6 14:50:05 2017
最近在研究sentiment analysis
練習了一下如何使用word2vec
可是大多數範例好像都是用英文的
想試試看中文的效果如何,不知道有沒有已處理好的中文語料庫可以使用,
還是都要自己先收資料,做好斷詞等等處理才行呢?
小的剛入門還不太懂,若講到的詞有觀念錯誤或是奇怪的地方還請各位高手多多指教~
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 27.52.41.89
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1499323807.A.B56.html
→ hsnuyi: 中研院有詞庫 有人把它抓下來整理好 放在github上 斷詞的 07/06 15:00
→ hsnuyi: 話 以前是都用jieba 現在好像有更好的 07/06 15:00
→ BigBank: 用維基百科去處理 07/06 15:31
→ zero0o0o8279: 有找到中研院的可是連結好像都掛了 再去github看看 07/06 15:42
→ zero0o0o8279: 維基的話 不太懂要怎麼處理那個原始檔 可以指點一 07/06 15:42
→ zero0o0o8279: 下方向嗎 07/06 15:42
→ minikai: 最近公司也在處理中文斷詞 真的有比Jieba好用的嗎? 07/06 23:50
→ hsnuyi: 我是在p2看到的 可是我最愛很多個 一時找不到... 07/08 01:50
推 dppman: 可以分享一下GitHub 上整理的中研院的資源嗎? 07/08 19:18
→ bluecadence: 我記得中研院的詞庫要收錢了 如果沒記錯的話 07/08 20:00
推 Shane7: 中文維基百科 再自己斷詞 07/14 17:33