[爆卦]chcp utf-8是什麼？優點缺點精華區懶人包

為什麼這篇chcp utf-8鄉民發文收入到精華區：因為在chcp utf-8這個討論話題中，有許多相關的文章在討論，這篇最有參考價值！作者purpose (purpose)看板C_and_CPP標題Re: [問題] 關於中文編碼的一些...

作者purpose (purpose)

看板C_and_CPP

標題Re: [問題] 關於中文編碼的一些問題

時間Sat Nov 6 23:09:44 2010

: 4.用主控台應用程式，也就是cmd.exe來看中文字串，是不是編碼一定要改成ANSI? 用
: UTF-8是不是就一定看成亂碼?
: 答：沒這回事，不過用ANSI與UTF-8的程式不一樣
: 　　UTF-8可能需要做一個轉換的動作

做個實驗，用 Windows XP 的記事本寫個檔案 u8.c
#include <stdio.h>

int main() {
printf("一二三\n");
return 0;
}
用記事本存檔，此時選擇編碼為UTF-8，故其中的"一"字，其儲存值將為 E4 B8 80

接下來編譯:

執行 cl.exe u8.c 得到 u8.exe 在繁體中文版 Windows XP 下的命令提示字元下執行
u8.exe，輸出字串"一二三"

執行 gcc u8.c 得到 a.exe，同樣執行之，輸出字串"銝胤몌"

這是因為編譯器的判斷兩個字串常數 "一二三" 時的差異，微軟的 cl.exe 做了私下
的轉換，使原本用 UTF-8 存的中文字變成 Big5 了。

打開命令提示字元，執行 chcp 65001 切換到 UTF-8，再執行 a.exe 即可看到正確的
中文"一二三"。(如果中文字顯示不全，把視窗最小化再重開，就會正常)

如果要避調微軟好心的自動轉換，就利用 shell code 常用到的技巧 "\x"

一樣寫個原始碼 asc.c 內容改為
#include <stdio.h>

int main() {
printf("\xE4\xB8\x80\n");
return 0;
}
存檔直接用 ANSI，反正用到的東西全部是 ASCII 無所謂用什麼格式。

此時不管用 cl.exe 還是 gcc.exe 去對 asc.c 編譯，其執行檔都會在 Big5 下顯示"銝耢
要用 chcp 65001 切換到 UTF-8 才能看到正確的中文字 "一"。

修文推薦一下延伸閱讀，由本版 JeffHung 前輩所寫

#1A2twiEe (C_and_CPP)

http://www.jeffhung.net/blog/articles/jeffhung/1114/

2010/11/12 補充：

剛剛觀察 VC 的貼心行為，有了些猜測，歸納於下。

不論你的原始碼儲存格式是 ANSI 或 UTF-8，只要該行程式碼是 printf("許");
則微軟都會貼心的幫你轉換好，使該執行檔，在該電腦預設 Codepage 下，顯示出 "許"。

大家都知道，「Big5 的許 = \xB3\x5C」且「ASCII的 '\' = \x5C」，所以 Big5 原始碼
的 "許" 對編譯器來說是 "\xB3\" 的形式，而這樣就少了 closing 雙引號。

用 gcc 會編譯失敗，但是 VC 卻能成功編譯這樣的程式碼，可見確實在送給編譯器之前，
有用 C_950.nls 查出 "許" 的內碼，並轉換為 \x 格式才送給編譯器處理。

那「UTF-8 的許 = \xE8\xA8\xB1」，對繁體中文版的 VC 來說，
即使原始碼格式是用 UTF-8 存，碰到 printf("許"); 還是會用 nls 轉換成「\xB3\x5C」
，也就是說，其執行檔也一樣會在 chcp 950 下的命令提示字元印出 "許"。

而 gcc 總是會依照你餵給他的原始碼內碼，直接丟去處理，因此 Big 5 原始碼的 "許"
會編譯失敗；UTF-8 原始碼的 "許" 需要先 chcp 65001 才能在命令提示字元印出 "許"。

補充說明的，大部分的編譯器都能自動判斷出純文字檔是否使用 UTF-8 格式，但微軟有
比較弱，所以微軟是強制規定：如果你用 UTF-8 當編碼，那就必須加上 UTF-8 BOM。

微軟 VC 編譯器，會用 GetACP() 得到的機碼值 (得到的 Codepage，通常是 C950) 去處
理「沒有加 BOM 的 UTF-8 原始碼檔案」，然後哭著跟你說：

warning C4819: 檔案含有無法在目前字碼頁 (950) 中表示的字元。
請以 Unicode 格式儲存檔案以防止資料遺失

重點是該原始碼，本來就已經是 Unicode 格式了，只是微軟自己弱而已。
對 gcc 來說，UTF-8 格式的原始碼有無 BOM 都能得到一樣的正確結果。

--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 124.8.143.116

推 loveme00835:推推 11/06 23:18

推 VictorTom: 推推 11/06 23:18

推 james732: 推推推，第一次看到chcp這個東西 11/06 23:32

推 Dannvix:推推推推，shellcode 好黑XD 11/06 23:35

※ 編輯: purpose 來自: 124.8.143.116 (11/06 23:41)

推 loveme00835:有\u就省事多了... 11/06 23:55

推 elfkiller:推一個 11/06 23:56

推 xatier:推推推超黑的shellcode XD 11/08 18:51

※ 編輯: purpose 來自: 124.8.131.209 (11/12 12:24)

→ purpose:gcc 因為在很多平台運行，所以應該不太可能像微軟那樣，去 11/12 12:28

→ purpose:用個 nls 檔，再根據你電腦的編碼做貼心轉換處理。 11/12 12:28

→ purpose:因此最保險做法，還是 JeffHung 文章說的，用 ASCII 就好 11/12 12:29

※ 編輯: purpose 來自: 124.8.131.209 (11/12 12:34)

推 hpo14:酷 11/15 18:39

→ madoka82:ANSI C 當初是說盡量不要把非 ASCII 的東西塞入程式碼_A_ 11/20 11:48

[爆卦]chcp utf-8是什麼？優點缺點精華區懶人包

為什麼這篇chcp utf-8鄉民發文收入到精華區：因為在chcp utf-8這個討論話題中，有許多相關的文章在討論，這篇最有參考價值！作者purpose (purpose)看板C_and_CPP標題Re: [問題] 關於中文編碼的一些...

你可能也想看看

搜尋相關網站

#1在命令提示視窗(Command Prompt)顯示UTF-8內容 - 黑暗執行緒

#2Windows CMD永久設定UTF-8編碼 - IT人

#3Command Prompt / Windows Powershell 預設使用UTF-8 編碼 ...

#4Using UTF-8 Encoding (CHCP 65001) in ... - Stack Overflow

#5[Solved] Window命令視窗中文亂碼改編碼方法 - FatTing

#6分享幾個在Windows 與Linux 常見的編碼問題與解決方案

#7CHCP - Change Code Page - Windows CMD - SS64.com

#8Change default code page of Windows console to UTF-8

#9windows下cmd命令列顯示UTF8字元設定(CHCP命令) - IT閱讀

#10Windows cmd 使用UTF8 - XYZ的筆記本

#11Windows cmd(命令提示字元) 更改編碼 - 只是個打字的

#12windows 控制台cmd乱码的解决办法chcp 65001_王小明的专栏

#13在Windows的CMD中如何设置支持UTF8编码?

#14在命令提示符/ Windows Powershell ... - Waldorf-am-see

#15Using UTF-8 Encoding (CHCP 65001) in ... - Newbedev

#16win10下,cmd,power shell設置默認編碼為『UTF-8』? - GetIt01

#17請問如何把繁體中文windows 10的預設codepage 從big5 改成utf8

#18Windows cmd command line display UTF8 character settings ...

#19在Windows的CMD中如何設定支援UTF8編碼 - w3c菜鳥教程

#20windows 控制檯cmd亂碼（及永久修改編碼）的解決辦法 - 台部落

#21印有chcp 65001的Windows UTF-8-神秘地复制了字符 - IT工具网

#22Windows 10命令提示字元中文顯示亂碼 - 21點情報網

#23設定vscode終端cmd、powshell、cmder編碼為utf-8

#24コマンドプロンプト | 文字コードの設定(CHCP) - Let's ...

#25印有chcp 65001的Windows UTF - 程式人生

#26Using UTF-8 Encoding (CHCP 65001) in ... - OStack.cn

#27Using UTF-8 Encoding (CHCP 65001) in Command Prompt ...

#28Change default code page of Windows console to UTF-8 - py4u

#29解決cmd命令列顯示中文亂碼 - 程序員學院

#30設定vscode終端cmd、powshell、cmder編碼為utf-8 - 有解無憂

#31頁碼- 維基百科，自由的百科全書

#32cmd chcp big5 - 軟體兄弟

#33在命令提示符/ Windows Powershell(Windows 10)中使用UTF-8 ...

#34批次檔寫log時出現部分中文亂碼問題| 攻城獅的學習筆記 - 點部落

#35chcp 437 修改

#36chcp修改windows DOS命令行代码页的显示为utf-8或gbk

#37win10下,cmd,power shell设置默认编码为'UTF-8'? - 知乎

#38将Windows控制台的默认代码页更改为UTF-8 - QA Stack

#39[DOS] Windows 下的chcp 指令碼（更改該控制台的活動控制台 ...

#40Java 執行亂碼解決(chcp代碼表) - 許詠麗(Lisa)個人筆記

#41How to make the windows command line support UTF-8 ...

#42用chcp 65001打印的Windows UTF-8 – 字符被神秘地复制

#43chcp utf 8 - Everything with the topic | Alibaba Cloud

#44Windows 修改控制台编码为UTF-8 - 跑起来有风

#45cmd設定utf8編碼-技術 - 拾貝文庫網

#46Windows under the cmd command line display UTF8 ...

#47windows 控制台cmd乱码的解决办法chcp 65001 - 51CTO博客

#48Windows 把默认代码页改为UTF-8 (chcp 65001) 后遇到的问题

#49Windows CMD永久设置UTF-8编码- SegmentFault 思否

#50【文章推薦】設置CMD窗口為UTF-8編碼- 碼上快樂

#51國際資料設定 - IBM

#52Please stop hack "chcp 65001" - DEV Community

#53Windows CMD永久设置UTF-8编码| Server 运维论坛 - LearnKu

#54Java,UTF-8和Windows控制台(Java, UTF-8, and ... - CoderBridge

#55在Windows的CMD中如何設定支援UTF8編碼 - w3c學習教程

#56Changing Code Page in Windows Terminal (cmd, Cygwin)

#57vscode讀取中文問題（控制檯已設定為utf 8

#58Windows console(cmd.exe) 中文輸入/輸出, utf-8 encoding ...

#59windows下cmd命令行显示UTF8字符设置(CHCP命令) - 博客园

#60Windows cmd command line shows UTF8 character settings ...

#61[分享]批处理用chcp 65001处理Unicode字符- BAT求助&讨论

#62Re: [問題] 關於中文編碼的一些問題- 看板C_and_CPP

#63System.Console unexpectedly uses a UTF-8 encoding *with ...

#64Windows 使用chcp 修改PowerShell、cmd 编码 - 程序员技术之旅

#65在Windows的CMD中如何設置支持UTF8編碼? - 壹讀

#66修改Win10 命令提示字元(命令列模式) 支援UTF-8

#67Using UTF-8 Encoding (CHCP 65001) in Command Promp

#68在Windows的CMD中如何设置支持UTF8编码? - 360doc个人 ...

#69在cmd.exe 上，控制台如何执行正确的Unicode和ANSI输出重 ...

#70修改Windows 命令提示字元(cmd) 預設頁碼 - Jack Yu

#71Windows 7 DOS模式（CMD）中文亂碼 - 平凡的幸福

#72Использование кодировки UTF-8 (CHCP 65001) в ...

#73Windows 10 cmd 命令提示字元出現中文亂碼該如何才能顯示 ...

#74windows下cmd命令行显示UTF8字符设置(CHCP命令) - 程序员 ...

#75在Windows的命令行窗口中使用utf8编码 - 雷耀的小屋

#76Conversion cmd window's default character encoding