[爆卦]Big5 to UTF-8是什麼?優點缺點精華區懶人包

為什麼這篇Big5 to UTF-8鄉民發文收入到精華區:因為在Big5 to UTF-8這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者ckmarkhsu (深藍站長)看板Web_Design標題Re: [問題] 請教 Big5 和...


這網路上有非常多資料:P

簡單來說(以下全部是經驗談)

Big5 有幾個特色

1. 每個中文字使用 2 bytes
2. 因為制定者腦殘,用到了控制碼
所以許多程式與軟體都會有許、蓋、功這類中文字的沖碼問題
3. 延伸字集中,有簡體字但是沒有定義日文字

UTF-8 則有以下特色

1. 採用變動大小,中文字使用 3 bytes,英文則維持 1 byte
因此若轉碼後,資料庫整體會變成 1.5 倍大,200MB(Big5) -> 300MB(UTF-8)
2. 支援所有語言文字,還有一些怪怪圖形:P
3. 簡體與正體中文重複字只定義一次,例如說,簡體的"山",跟正體的"山"
是同一個 UTF-8 編碼

至於怎麼轉碼呢....

php 只要使用 iconv 函數即可

安裝方式 http://www.twvbb.com/vbb/showthread.php?t=299

使用方式 http://tw.php.net/iconv

※ 引述《punpun (小金 )》之銘言:
: 請問有大大可以分享一下
: 有關 Big5 和 UTF-8 編碼文字互相轉換的流程

--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.112.249.201
ilovebbs:一般來說,用哪種會比較好啊?@@ 03/29 13:05
ckmarkhsu:當然是 UTF-8 阿:P 03/29 13:27
gckenny:utf-8 +1 03/29 14:04
ogamenewbie:推b2 XD 03/29 19:37
ileadu:光靠 iconv 還做不出來… 03/29 20:53
ckmarkhsu:為什麼做不出來? 03/29 23:56
ast9869:為什麼做不出來 +1 03/30 14:41
ast9869:UTF8 +1 03/30 14:41
ileadu:比方說,簡體字如何從utf-8轉成big5? 03/30 16:05
ileadu:utf-8涵蓋範圍較廣,要是能這樣輕鬆轉換就好了… 03/30 16:07
ckmarkhsu:你這有點...那阿拉伯文也沒辦法轉成 big5 阿Orz.... 03/30 19:34
ckmarkhsu:且很少人會把簡體的UTF8轉成Big5吧:P 03/30 19:36
ckmarkhsu:如果真的要轉,掛個 3-party 的函數即可:P 我有寫:P 03/30 19:36
ileadu:有寫還不拿來分享 :p 03/30 19:53

> -------------------------------------------------------------------------- <

作者: ckmarkhsu (深藍站長) 看板: Web_Design
標題: Re: [問題] 請教 Big5 和 UTF-8 的編碼差異...
時間: Thu Mar 30 21:28:45 2006

http://www.twvbb.com/vbb/showthread.php?t=572

剛剛有網友提到,如果是 UTF-8 編碼下的簡體恐無法轉成 Big5...

不過還是有個辦法

我寫的這隻 function 可以支援 UTF-8 正體簡體轉換

只要將簡體轉成正體後,再 incov 即可:)

※ 引述《ckmarkhsu (深藍站長)》之銘言:
: 這網路上有非常多資料:P
: 簡單來說(以下全部是經驗談)
: Big5 有幾個特色
: 1. 每個中文字使用 2 bytes
: 2. 因為制定者腦殘,用到了控制碼
: 所以許多程式與軟體都會有許、蓋、功這類中文字的沖碼問題
: 3. 延伸字集中,有簡體字但是沒有定義日文字
: UTF-8 則有以下特色
: 1. 採用變動大小,中文字使用 3 bytes,英文則維持 1 byte
: 因此若轉碼後,資料庫整體會變成 1.5 倍大,200MB(Big5) -> 300MB(UTF-8)
: 2. 支援所有語言文字,還有一些怪怪圖形:P
: 3. 簡體與正體中文重複字只定義一次,例如說,簡體的"山",跟正體的"山"
: 是同一個 UTF-8 編碼
: 至於怎麼轉碼呢....
: php 只要使用 iconv 函數即可
: 安裝方式 http://www.twvbb.com/vbb/showthread.php?t=299
: 使用方式 http://tw.php.net/iconv
: ※ 引述《punpun (小金 )》之銘言:
: : 請問有大大可以分享一下
: : 有關 Big5 和 UTF-8 編碼文字互相轉換的流程

--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.112.249.201
ileadu:你那兩個繁簡參考檔,最末端是不是少了 ?> 啊? 03/30 23:39
ckmarkhsu:金拍謝,真的是漏掉了,感謝提醒Orz... 03/31 00:29

你可能也想看看

搜尋相關網站