[爆卦]utf-8繁體中文是什麼?優點缺點精華區懶人包

為什麼這篇utf-8繁體中文鄉民發文收入到精華區:因為在utf-8繁體中文這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者worldxxi (風)看板RegExp標題[問題] 請問 unicode or utf-8 區...


我查了一下中文字的範圍(\u4e00-\u9a05),

如果要區分出日文(\u0800-\u4e00)比較容易,因為範圍有錯開,

但是要分出繁體中文還是簡體中文就沒辦法,我用word的符號表看,

是交錯在一起的,最後我用的方法是:把要檢查的字串轉成big-5,轉不出來的

就含有不是繁體中文的字,然後再去處理,可是感覺很鳥,有人知道比較

好一點作法嗎? 弄不出來我感覺自己好弱 Q_Q

---------------------------------------------------------------------------

另外有個小疑問,我在網路上找到一個正規表示式的網站,如下:

http://www.rubular.com/

為什麼我用[\u4e00-\u9a05]去跑,反而是英文會通過,中文被濾掉了

[\u4e00-\u9a05]的意思不是說 如果有在這個字碼範圍的字出現就會match嗎?

一直google不到,有人知道嗎。

--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.96.120.223
AlanSung:不是 9fa5 嗎? 不過網頁的 encoding 也許會有影響吧 04/16 13:24
worldxxi:好兩個都有人在用,比較大的範圍好像有一些擴增的字 04/16 13:33
AlanSung:直接用你的程式跑看看吧,應該是沒錯啦,只是繁簡..不會 04/16 14:19
buganini:為啥要判斷繁簡啊? 有些簡繁共用的要當作什麼? 04/18 01:34
worldxxi:簡單來說就是把不在繁體中文內的文字過濾掉 04/19 09:32

你可能也想看看

搜尋相關網站