為什麼這篇簡體轉繁體鄉民發文收入到精華區:因為在簡體轉繁體這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者youtien (大叮噹)看板Chinese標題給我們一個夠好的簡繁轉換程式吧!時間Tue Ja...
簡體轉繁體 在 MierYap?米兒 Instagram 的最佳貼文
2020-12-04 15:09:23
剛 㒥 艫 鹵 應 嶼 舖 乾 華 無 號 獻 憲 罊 儀 個 兒 鑢 過 講 穬 慮 側 惡 <繁體字> 或許是因為我們從小只學習簡體中文 所以長大了 繁體字對我們來說 就是有一種莫名的魅力 每次寫文案時 我都會掙紮 該用簡體或繁體好呢 無論是用繁體keyboard 或是簡體轉繁體app我...
給我們一個夠好的簡繁轉換程式吧!
自網路發達,兩岸資訊開始大量交流以來,已經十幾年了。奇怪的是,我們
一直缺乏一個夠好的簡繁轉換程式,以致簡體字轉換成繁體字時錯誤百出;更奇
怪的是,儘管大家經常埋怨這種情況,我十幾年來也沒見到一兩個較好的轉換程
式,甚至沒看到幾篇談「簡繁轉換程式應該怎麼作」、「我想要簡繁轉換程式有
什麼功能」之類有具體改善建議的文章。
是我孤陋寡聞嗎?但我可是從小看著電腦、網路成長,讀過許多關於中文電
腦緣起的著作,還旁聽過兩次談漢字、文史與電腦、資料庫的學術研討會,又是
BBS的重度使用者,現在還在大陸讀歷史研究所的。再說,如果真有較好的簡
繁轉換程式與相關文章,它一定可以被廣泛流傳的。
無論如何,總之我沒看到過,而我不會寫程式,所以就在這裡寫一篇文章,
談談我對解決簡繁轉換問題的構想吧。這篇文章其實五、六年前就該寫了。
簡繁轉換的主要問題,也幾乎可以說是唯一的問題,就是搞不定「一對多」
的函數關係。五十年代中共搞漢字簡化,「隻」「只」都簡成了「只」,「干」
「乾」「幹」都簡成「干」(乾坤的乾倒是沒變),「丑」「醜」都成了丑,於
是笨電腦再一轉回大五碼的繁體中文,就出了一堆「隻有」「豆幹」「周傑倫」
。
要應付這個問題,其實不難,很多人都能想到建立資料庫,寫程式讓電腦判
斷如何轉碼。當然這不能完全解決,例如「小丑」,是要轉成「小丑」還是「小
醜」?後者未必錯,《西遊記》裡就有「么魔小醜」之詞,我們隨便造句也可以
造個「小醜八怪」,或者一個名叫「趙小醜」什麼的人;電腦資料庫再怎麼豐富
,程式再怎麼聰明,對最後一種情況,還是無法正確判斷,因為你叫一個人來,
他也得去問作者是哪個字,搞不好作者自己也沒想過。但也有一些比較簡單的情
況,如干支紀年「乙丑」「丁丑」「己丑」「辛丑」「癸丑」,都不容易搞混(
當然我們總能用白癡造句法編他幾個例外);而我還是每每在北京──包括本校
──看到一堆想要美觀而印成繁體字的「乙醜年新春晚會」大型海報。我每次都
要想:你人手動把它改一下,很難嗎?寫程式的設定一下把「乙丑」之類先全部
轉成本字不多出「醜」,把例外留給人去校對,很難嗎?很難嗎?很難嗎?很難
嗎?很難嗎?
我轉簡體編碼文章,短一點的手工校對,長一點的,先下一個「取代」指令
,把「隻」轉回「只」,多半不會錯。很奇怪,明明「只」就比較常用,許多轉
換程式還是都轉成「隻」;最近我用Word 2007才發現這點得到了改善。然而這也
只是極其有限的一點改善。
Microsoft Word還有個「常用詞匯轉換」功能很會畫蛇添足:碰到簡體的「
程序」,轉到繁體都成「程式」,反之亦然。兩岸有些慣用語是不同,program我
們翻程式他們翻程序,但這兩個詞又不是只對應電腦的program一義,「作業程序
」就很普通,「京劇表演程式」的「程式」也是很古雅的文言,這些東西你亂動
就亂套了,更別說我們還能創造一些叫「程序一」「程式王」什麼的人名。「菜
單」與「目錄」也一樣容易鬧笑話。
平心而論,程式工作者有去在這常用詞匯轉換上下工夫,顯示他們有認識到
這樣的問題,應該肯定;我們也確實存在這樣的需求,例如譯名:斯大林或史達
林或史大林、史太林(幾十年前的書上常見),布什或布希或布殊(港譯),披
頭四(台)或披頭士(港)或甲殼蟲(陸)。但是現在的電腦不可能正確判斷哪
裡該轉哪裡該不轉,例如前面幾句,本意就是列舉三地與今昔的不同譯名,你亂
轉就把原載的信息轉掉了。何況,用哪種譯名能夠反映作者的背景,我們如果一
概轉成本地現今的標準名稱,是可能讓讀者迷惑的。
還有一些人腦也難解決的問題:如果一個大陸人叫「肖云杰」,那他是肖云
杰還是「蕭雲傑」還是其餘六種組合?在漢字簡化運動前生長的名人,如中共元
老陳雲、蕭勁光,我們好復原;如果是1958年後出生的,問他父母或本人,搞不
好也沒想過。再者,「蕭」是一個曾被簡掉,被抗議後又改成「萧」的幾經波折
的姓,但也有許多人沒改回來繼續姓肖,那我們怎麼轉?雖有「名從主人」這一
原則,但我們又未必清楚肖蕭云雲杰傑怎麼想,也就只有從簡了。
還有,我一位學姊校稿碰到地名「于都」,「于」還是「於」查了半天,結
果其實是「雩都」──不過那地方現在還真是叫于都,「因依雩山而得名這回事
大概也沒人會提了吧。」這樣,到底怎麼轉才對,電腦不可能知道;我能想到最
好的方法,就是看該文指涉的是古代還是現代判定,後面再加一條台灣編者註。
但我們不能期望人人都這麼用功吧。那該怎麼辦?把這類古今異名編個資料庫讓
轉換程式索引嗎?那會是非常浩大的工程。
也別說只有簡轉繁麻煩,繁轉簡也有一些問題的,如,BBS上可以用的G
B碼字庫沒有「屌」這個字,害我想講屌面人只能用拼音。這是題外話。
那麼,在現有的技術底下,怎樣才可以做出一個好一點的簡繁轉換模組?
我的構想很簡單,就是人工選字──用程式來輔助人工選字。
如,點一下「簡轉繁手工式」,程式就從文件開頭轉起,每轉到有兩種以上
可能的,就跳個視窗出來讓人按鍵選:「1 干 2 乾 3 幹 4 其他」,如果選4就
中斷,讓人手動改完再按鍵繼續。為什麼要多一個「其他」?因為也可能是原文
誤植,把「千」打成「干」之類的情況。這樣一直到完,是最簡單、最笨也最不
易出錯的辦法。還有,可設Enter或空白鍵等於1,Esc鍵等於中斷,這點看似不重
要的小設定是能讓人用得舒服、習慣的。
當然我們可以自動一點,讓電腦先按常例轉一遍,然後將所有可能弄錯的字
套上亮色,人眼逐個看過,看到不對的如「不知所雲」,把滑鼠游標移到「雲」
上點一下,「雲」就變成「云」;還不對的話就手動改了。這也很簡單吧,我們
且先叫它「審閱式」。
看起來,審閱式比手工式方便得多,那手工式能有什麼特別的優點呢?曰:
指引、教育。並不是只有台港澳人士會用到簡轉繁,大陸人、海外華人、外國人
、外星人也可能要用的,使用者未必都能正確判斷哪裡該用哪個字、為什麼該那
樣用。有一種日文輸入法,輸入漢字時,選字視窗旁會開一個簡明辭典,說明該
字字義,供漢字程度不夠的使用者參考;我們亦可效法,在要選「后」「後」「
歷」「曆」的時候,都開個視窗說明音義及其差異,這樣不但便利選擇,做得好
還能傳揚傳統漢字裡的文化精蘊。如,「歷」是在曬穀場上曬稻子,稻禾整齊地
排列開來,農夫一年的勞作、每株稻子的一生也就那樣排列開來;下面一個「止
」字象人站立,這就有了主觀的象徵意義,如歷史、經歷、歷歷在目;換成「日
」字就是象徵客觀的時間,如曆法、日曆。如果你對漢字有這一層的體會,你對
世界的感知能力都會大大增加,閱讀寫作更不在話下;而這一切如詩如畫、濃縮
了古代農業社會圖景的意象,簡化字「历」裡面都沒了。但如果一個簡繁轉換程
式的附屬字典裡能把這些知識加進來,我們就可以在日用之中補課不輟了。那將
是我們文化的一大幸事。
要聰明一點,就讓電腦依據一個詞庫來斷字,這個詞庫要能手動編修,還要
有對「混淆率」的統計和評價,如「乙丑」、「幹部」、「周杰倫」都不太可能
搞錯(除特例及白癡造句),我們就設為C級;「小丑」一般都作丑但也有少數
作「小醜」的,或如「下面」和「下麵」、「體」和「体」、「鬥」與「斗」,
前者居多後者也有的情況,我們設為B級;最難自動判斷的如「天后」「天後」
、「里」「裡」「裏」,評為A級。在「手工式」作業下,使用者可以設定C級
、B級直接由電腦負責,不煩人工;在「審閱式」,則將A級字詞套上最亮的顏
色,B級次亮,C級再次,這樣就能讓人一眼看到最容易出錯的地方。
完了以後,再讓程式統計本次作業的成果:「干」字轉出來有幾個干、幾個
乾、幾個幹,其上下文又分別是那些字(這比較進階),然後錄入資料庫,更新
混淆率的統計,調整評級。這資料庫還要可以傳到本程式的網站上,讓一個統計
中心彙整全世界使用者的情況,再將更新、更可靠一些的詞庫開放下載。
精通中文、語言學與資料庫者(呃,這三項都通的好像不多,我只知道中研
院和北京師範大學「漢字與中文信息處理」研究所有一些),必定還可想出比這
些更能提高正確率的方法;雖然永遠會有程式罩不住的例外,但我們也總是可以
人工校正。
關鍵是,誰能先寫一個哪怕最粗糙的胚子出來?我不奢求智慧型詞庫,只先
來個最簡單的「手工式」或「審閱式」,可不可以?有沒有?誰能寫好這樣一個
轉換程式,必能嘉惠無數網民及專業工作者,清爽無數圖文版面,百年流芳(百
世就先不論了),功德無量!
給我們一個夠好的簡繁轉換程式吧!
附錄:
《都不錯歌》 作者:沙予
(原載《文傳論叢:2004年第三屆漢文史資料庫研討會論文集》,文信傳文史研究院。亦
載《漢字文化》2006年2期)
澳洲華文報刊上同音字混用的現象,人們都已司空見慣,但稱名家郁風為静風,余光中為
餘光中,則堪稱為與時俱進之創舉。恰如用問號代替找不到的某些鉛字之不乏創意。審訂
和推行簡體字的文字學專家,不會有錯。用電腦把簡體字一律還原為繁體字,以使海外華
人看得懂,這更没有錯。現斗膽摘取澳洲報刊上常見的由簡變繁,同音但不同義的字混用
的趣事,凑成打油詩《都不錯歌》一首,以娛諸公。此詩平仄不調,對仗不工,當然也没
有錯。
夏五郭公尋常見,
魯魚亥豕久相通。
嶽飛追諡尊武穆,
奕[言宁]登極號鹹豐。
韋陟豈辭刀削面,
劉幫能忍箭傷胸。
碑成無字武皇後,
卜獲非熊薑太公。
甦武留鬍十九載,
鐘馗捉鬼兩三籠。
萬裏徵東薛仁貴,
單騎救鬥趙子龍。
遁居五湖歌範蠡,
逼上梁山泣林衝。
子曰詩雲四舊也,
如今題字學干隆。
(原文有完整註解,網友可於
http://qkzz.net/magazine/1001-0661/2006/02/hzwh20060236.PDF
下載!)
--
時候到了。看著,
當我推開這大門,
重新震醒你們的時候,那光芒--
這光芒,便是一萬丈!
http://www.youtien.idv.tw
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 123.193.33.107