[爆卦]Notion 繁體中文化是什麼？優點缺點精華區懶人包

為什麼這篇Notion 繁體中文化鄉民發文收入到精華區：因為在Notion 繁體中文化這個討論話題中，有許多相關的文章在討論，這篇最有參考價值！作者ZMTL (Zaious.)看板AI_Art標題[LLMs] 台灣繁中語言模型BLOOM-zh ...

作者ZMTL (Zaious.)

看板AI_Art

標題[LLMs] 台灣繁中語言模型BLOOM-zh & FFM

時間Mon May 22 14:07:19 2023

今天整理的資訊，也分享一份簡易版本在板上，
這部分自己研究自己理解會有點複雜，部分內容來自台灣智慧雲端的AI超算年會。

－
1.台灣有兩個「繁體中文語言模型」

分別是
聯發科 & 教育部國家教育研究院 & 中央研究院詞庫小組的
BLOOM-Zh(繁體中文增強型BLOOM模型)

跟
華碩 & 科技部國家實驗研究院國家高速網路與計算中心中心 = 台灣智慧雲端的
FFM(Formosa Foundation Model, 福爾摩沙基礎語言模型 ,或稱台智雲版的繁中BLOOM)

對，台灣的兩個繁體中文語言模型都是源自於開源的BLOOM語言模型，非純中文模型，
而且兩個模型的研發單位跟資料來源都不同，但又都同時具有官方背景。

－
2.開源的BLOOM語言模型介紹

全稱: BigScience Large Open-science Open-access Multilingual Language Model
主導公司 Hugging Face 在2022.05啟動的專案，由全球60個國家、逾250個機構，
以及超過1,000名研究人員的貢獻，最後由法國超級電腦Jean Zay執行117天的訓練而成。

https://huggingface.co/bigscience/bloom
https://images.plurk.com/2qBw9sRFznxBhnObkBiPtq.png

最大的版本具有 176B(1760億) 參數，對照組GPT3:175B / GPT3.5: 200B
BLOOM模型可理解46種語言及13種程式語言，包含法文、西班牙文、越南文、中文或多種
印度及非洲語言，大約只有超過30%的訓練資料為英文(但缺少德文、日文、俄文)。

能要求BLOOM撰寫食譜、翻譯或摘要，也能要求BLOOM撰寫程式碼。

https://www.ithome.com.tw/news/151935
https://edge.aif.tw/hhri-20230223-stevechen/

釋出的版本包含
BLOOM-560m / 1b1 / 1b7 / 3b / 7b1 / 176b ，b = billion，參數量
176B版本有約等於GPT3.5的同級水準。
簡體中文語料占比16.2% 繁體中文語料占比0.05%
https://images.plurk.com/7iD8Y7Dz4p6vNlUtNAPiYC.png

https://huggingface.co/docs/transformers/model_doc/bloom
https://huggingface.co/bigscience/bloom/blob/main/README.md

*
語言模型的開源通常包含以下內容
模型的架構：也就是該模型的基本設計，包括它是如何構建的、如何運作的等。
訓練程式：這是用來訓練模型的程式，它定義了如何使用數據來訓練模型。
預訓練模型：這是一種已經過訓練的模型，用戶可以直接使用它來生成文本或者在特
定的任務上進行微調。

但需要注意的是，開源並不意味著訓練數據也被公開。
(以上文字from GPT4 Web Browsing)

－
3.BLOOM-Zh 語言模型介紹

第一個繁體中文(特化)語言模型，分為1b1版跟3b版，改自 BLOOM-1b1 / BLOOM-3b，
開源在 Hugging Face，也是唯一開源的繁體中文語言模型，3b版公開日期 2023.04，
預期使用情境包含問答系統、文字編修、廣告文案生成、華語教學、客服系統
https://huggingface.co/ckip-joint/bloom-3b-zh

2022年5月，聯發創新基地、中央研究院和國家教育研究院展開合作計畫，使用大型語言
模型BLOOM的繁體中文模型再訓練與優化。

聯發創新基地則建置了訓練的硬體環境，制訂各種符合國際標準的繁體中文評量指標，收
集更近期的語料，並對模型進行能更有效讀懂使用者的指示（prompt）的特別訓練。

國家教育研究院提供了大量高品質的繁體中文語料，作為主要的訓練材料。中央研究院詞
庫小組則針對模型生成的文字是否具有偏見或敵意等不合適的內容，進行自動偵測與改正
的研究與評估。

https://www.nownews.com/news/6063736
https://ezone.ulifestyle.com.hk/article/3517038

中研院詞庫小組是台灣負責研究繁體中文自然語言處理的研究單位，
曾在2019年開發並公開BERT和GPT-2的繁體中文優化版本。
具體做的事情可以參考下面這篇【斷開中文的鎖鍊！自然語言處理 (NLP)是什麼？】
https://aiacademy.tw/what-is-nlp-natural-language-processing/

實際上效果...
https://images.plurk.com/5Nwi4czISV7b6TYLhWZxs8.png

沒意外就是之前很多人說"很爛的繁中BLOOM模型"

－
4.台智雲 FFM 語言模型介紹

第一個企業級繁體中文(特化)大型語言模型，
分為7b1版跟176b版，改自 BLOOM-7b1 / BLOOM-176b，據說有個500b的版本。
正式發表於2023.05，之前都稱為台智雲(TWS)版的繁中BLOOM模型，預計2023.07上線，
僅對企業用戶，沒有打算開放民用。

https://tws.twcc.ai/ai-llm/ (未更新FFM資料)
https://www.youtube.com/watch?v=ay1AinPNaBs&t=96s (2023.02的早期介紹影片)

2018年，科技部國研院國網中心結合廣達、台灣大、華碩等三大國內企業共同組隊建造的
「雲端服務及大數據運算設施暨整合式階層儲存系統」（簡稱AI雲端平台/ 臺灣AI雲
TWCC），擁有命名為「台灣杉二號」（TAIWANIA 2）的AI超級電腦主機。

2021年2月成立，華碩集團子公司，與國家高速網路與計算中心合作，承作TWCC的維運和
銷售。華碩身為台智雲最大股東，台智雲董事長由華碩營運長謝明傑兼任，而台智雲總經理由華
碩雲端總座吳漢章擔任。

台灣大、兆豐金和永豐金合計投資共1.3億元，成為高科技業、電信資通、金融證券三強
鼎立的多元股東結構。
https://images.plurk.com/3nyYXfyUVnMTEMul6Gqbxb.png

http://www.genetinfo.com/investment/featured/item/37784.html
https://www.clarisonic.com.tw/archives/64649

資料來源是意藍資訊有限公司，
意藍資訊有限公司是一間專業在分析台灣產業與社群的公司，
幾乎囊括台灣各大社群平台的使用者公開資料，專注在產業應用與社群分析上。
https://images.plurk.com/1arTjoKZ00R82O614Tbjsc.png

https://www.eland.com.tw/

FFM Demo起來的感覺粗估有達到GPT 3.5的水準，同時對於台灣具有相當多的事實資訊，
包括台灣的地理與歷史資訊、商業品牌與市場資訊、文化資訊等等。
主打企業可以針對訓練模型、本地存放、符合台灣資安與法規需求等等。

現場一些Demo與投影片畫面:
https://images.plurk.com/2MYAIt9XLhn76VKbdGxsx0.png

https://images.plurk.com/11oRzMol8ASfgG4teMvCrB.png

https://images.plurk.com/DSlxBdEbuAnKYw8oVWeb6.png

https://ithome.com.tw/news/156934

https://images.plurk.com/3oba15qvtTT00CqkFz4I6J.png

https://images.plurk.com/3RZda9yAXseTqBSdvKeWIn.png

https://images.plurk.com/7livkx0dYvbV6aOF4PQE6D.png

https://images.plurk.com/5Rw06HI9QudUMXyv6EFYMy.png

https://images.plurk.com/dn7Vc29N9DbFd2a1NseH1.png

https://images.plurk.com/29jyqilxZHEfF7L4UwpQ0A.png

https://images.plurk.com/2vaYCZUa4Vee95TVtYU72O.png

生成式AI市場數據
https://images.plurk.com/1iRdK0weumTW7deHwUYEJJ.png

https://images.plurk.com/2bvMJedSS4w3rQQo79OPT.png

剩下的整理報告我就不貼了，因為不能民用所以跟大部分的使用者其實也沒什麼關係XD
主要就是幫大家區分一下繁體中文語言模型的區別，不然讀起來很混亂。

有興趣歡迎提問。

--
AI_Art AI藝術與創作板歡迎各方前來討論AIGC創作與相關議題！

AI情報屋營業中
噗浪：https://www.plurk.com/Zaious
IG ：https://www.instagram.com/zaious.design/
日曆：https://zaious.notion.site/zaious/22c0024eceed4bdc88588b8db41e6ec4

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.250.61.231 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1684735647.A.E3F.html

→ ZMTL: 不小心發出來了，我繼續寫XD 05/22 14:07

推 Vulpix: 用版主權限刪文可以不用清理費用的樣子。 05/22 15:32

沒差，我只是發了都發了就慢慢補完XD

※ 編輯: ZMTL (60.250.61.231 臺灣), 05/22/2023 15:35:59

推 Vulpix: 語言模型現在硬體門檻看起來還是好高，每次看到新東西我都 05/22 15:40

→ Vulpix: 只先查這個，可是好多model都不講>"< 05/22 15:41

推 tonyscat: 推分享!! 05/22 19:22

推 Destiny6: 感謝介紹，看起來只能去玩對面的了... 05/22 19:25

→ Destiny6: https://zhuanlan.zhihu.com/p/630582034?utm_id=0 大 05/22 19:27

→ Destiny6: 略算語言模型吃多少VRAM 05/22 19:27

→ Destiny6: 例如，如果一个模型有7B个参数，那么它的FP32记忆体用 05/22 19:28

→ Destiny6: 量是28GB，而它的FP8记忆体用量是7GB。(拿BING算的) 05/22 19:28

推 avans: 推繁體語言模型介紹 05/22 21:44

推 reader2714: 最接近可以自己玩得應該是LLaMA那個譜系巴 05/22 23:16

推 Destiny6: 可以接受簡中的話倒是有好幾個中文模型，甚至還有網小 05/23 00:27

→ Destiny6: 特化跟色文的...(只查過資料，目前機器沒能力跑) 05/23 00:27

→ ZMTL: 突然想到我忘記放圖，晚點補 05/23 10:13

→ ZMTL: 大家可以推文留言有哪些有到「堪用」等級的語言模型，我可以 05/23 10:13

→ ZMTL: 去研究XD 05/23 10:13

※ 編輯: ZMTL (59.124.87.90 臺灣), 05/23/2023 11:37:47

推 reader2714: alpaca好像還有中文Lora調整版 05/23 16:54

推 abc123634: 目前在日本做日文的開源 LLM，希望之後台灣也有開源且 05/23 19:41

→ abc123634: 堪用的繁體模型。感謝整理！ 05/23 19:41

[爆卦]Notion 繁體中文化是什麼？優點缺點精華區懶人包

為什麼這篇Notion 繁體中文化鄉民發文收入到精華區：因為在Notion 繁體中文化這個討論話題中，有許多相關的文章在討論，這篇最有參考價值！作者ZMTL (Zaious.)看板AI_Art標題[LLMs] 台灣繁中語言模型BLOOM-zh ...

你可能也想看看

搜尋相關網站

#1Notion 繁體中文社群｜筆記x 資料庫x 生產力工具 - Facebook

#2繁體中文 Notion 教學手冊（協作中）

#3【Notion 中文】如何利用Google 翻譯使用中文版 ... - 領先時代

#4Notion 如何在網頁版變中文化，輕鬆5 秒將英文變繁體中文

#51秒把Notion變成中文版 - 牧羊妮

#6Notion 繁體中文模版組合包 - 生活黑客研究院

#7Reamd7/notion-zh_CN: notion 中文化 - GitHub

#8Notion 繁體中文社群(@NotionTaiwan) / Twitter

#92023超實用Notion教學｜一篇介紹帶你30分鐘快速上手

#10簡單理解Notion 的基本架構. 寫給自己的Notion 中文教學說明手冊

#11【Notion 教學】就是要高效學習成人學生11 個必會功能中文化

#12Notion 中文版

#13notion中文化方法2023-在Facebook/IG/Youtube上的焦點新聞 ...

#143种中文汉化方法总有一款适合你，还有让你notion更好用的小 ...

#15Notion-繁體中文化

#16notion繁體中文的蘋果、安卓和微軟相關APP，FACEBOOK

#17Notion中文汉化方法汇总：总有1种适合你 - TECH笔记

#18notion中文介面相關文章 - 綠色工廠

#19Notion AI 筆記實測：自動用中文寫報告大綱、會議待辦

#20使用Notion 滿3 年，為何我仍「不推薦」用它來管理你的人生？

#21Notion - notes, docs, tasks App電腦版PC模擬器下載

#22Notion AI教學｜中文使用+申請教學！5大實用功能全攻略

#23比ChatGPT還牛？Notion AI機器人怎麼用？申請＋使用教學

#24Notion小白變大神｜Accupass 活動通

#25Notion官方确定将支援中文！這對國内使用者來說簡直是福音

#26Notion - 維基百科，自由的百科全書

#27Notion高效管理250招: 筆記×資料庫×團隊協作, 數位生活與工作 ...

#28繁體中文字幕翻譯分析:以電影《遜咖冒險王》為例 - 博碩士論文網

#29手機版中文8大優勢! 獨家資料! (2023年更新) - Clarisonic

#30再也不用怕看不懂！團子翻譯自動日文.英文轉成繁體中文！

#31【汉化】Notion简体中文版设置技巧 - BiliBili

#32Notion安卓版應用APK下載

#33Canva 繁體中文字體分享與推薦，搜看看這些關鍵字吧！

#34為什麼我會放棄EverNote 跳到Notion 這件事 - 是Ray 不是Array

#35Notion高效管理250招：筆記×資料庫×團隊協作 - udn 讀書吧

#36中文寫作必備4款「AI寫作工具」快速生成中文文案

#37下載電子全文 - 電子學位論文服務

#38博客來-Notion高效管理250招：筆記×資料庫×團隊協作

#39【Day30-整理】文章分類及小技巧整理、小工具與社群資源分享

#40Steam 社群:: Antichamber

#41與Notion有約：透過Save to Notion瀏覽器外掛程式

#422023年Notion工作機會- taiwan熱門職缺| CakeResume 求職平台

#43想做出好看又實用的Notion 版面？Notion 版面設計準則大公開！

#44western中文(繁體)翻譯：劍橋詞典

#45NOTION在劍橋英語詞典中的解釋及翻譯 - 訂房優惠

#46作者 - Ragic

#47入坑Notion前，您應該先評估的5個缺點與風險！ - 享受成為媽媽

#48在整體強調文創的政策下，多為空泛而架空口號，在求學時期我 ...

#49不執著量表在台灣之中文化信、效度分析及其與心理健康之關係

#50Notion人生管理術：從0開始，打造專屬自己的All in One高效 ...

#51哥布林學院: Online Courses

#52分享图片Notion 繁体和简体汉语！ （这个... 来自Estraven_許紫弈

#53ChatGPT怎麼使用、GPT-4是什麼？一篇看懂中文操作註冊步驟

#54【好書推薦】《杜威哲學及其真理概念的演化》

#55Introduction to Cultural Translation (文化翻譯) | 學術寫作例句 ...

#56Notion 中文版本要来啦！ - V2EX

#57電腦玩物站長：AI 寫不出最佳文案，但能減少卡關時間 ... - 經理人

#58PAPAYA 電腦教室 :: 安心吃豬豬

#59notion - 優惠推薦- 2023年6月| 蝦皮購物台灣

#60Sentience Beyond the Human 多物種感知國際工作坊

#61認識耀中幼教學院「明師計畫」: 將「遊戲中學習」理念貫徹推行

#62軟體／Notion－最強免費筆記軟體使用教學 - 撰風旅食

#63TD ameritrade網站中文介面說明 - PG財經筆記

#64[LLMs] 台灣繁中語言模型BLOOM-zh & FFM - 看板AI_Art

#65Notion人生管理術：從0開始 - Readmoo

#66【Notion 教學】如何複製他人的模板? 快速上手Notion的小撇步 ...

#67Google 翻譯程式碼

#68好用的AI 工具筆記 - 易玄的空間

#69Obsidian筆記軟體簡介｜方格子vocus

#70印尼、越南、菲律賓語與中文互翻- 翻譯- 大學塾

#71找到新的可能。《生活黑客》繁體中文版推薦序和心得

#72如何將udemy 自動生成的課程英文字幕自動翻譯成中文

#73新的"什麼"以引力等著– GINZA SIX | GSIX

#74Notion 漢化、插件、教程……推薦20+ 個Notion 優秀資源 - 壹讀

#75TED】赫爾曼-納魯拉:電子遊戲的變革力量（電子 ... - VoiceTube

#76"concept" 和"notion" 的差別在哪裡？ - HiNative

#52分享图片Notion 繁体和简体汉语！（这个... 来自Estraven_許紫弈