雖然這篇剔號字元代碼鄉民發文沒有被收入到精華區:在剔號字元代碼這個話題中,我們另外找到其它相關的精選爆讚文章
在 剔號字元代碼產品中有15篇Facebook貼文,粉絲數超過6萬的網紅GROOVY STORE!,也在其Facebook貼文中提到, 這幾天濕涼濕涼的天氣 KAPTAIN SUNSHINE A字立領大衣 剛剛好 優雅俐落的 A 字型輪廓 以及具有疏水的防潑水功能的高端布料 都是無可挑剔啊! 尤其是面料自然透出的高質感光澤 質感本質了 - FINAL SALE ・Up to 40% off ・FINAL SALE 商品任選兩件再享 ...
同時也有3部Youtube影片,追蹤數超過0的網紅Nic,也在其Youtube影片中提到,前面自以為在拍偶像劇 想嘗試新的影片拍攝方式 可能有點粗糙 請見諒 先附上Beeding嗶丁選物的連結 裡面有更詳細的說明 阿如果還有問題也能私訊官方臉書專頁 或是你想問我有關我自己試用的各種狀況 也能直接留言給我 感謝 耳 機 ▸ https://poproro.cc/OFfRU 臉 書 ...
-
剔號字元代碼 在 Nic Youtube 的最讚貼文
2019-03-29 08:00:00前面自以為在拍偶像劇
想嘗試新的影片拍攝方式
可能有點粗糙 請見諒
先附上Beeding嗶丁選物的連結
裡面有更詳細的說明
阿如果還有問題也能私訊官方臉書專頁
或是你想問我有關我自己試用的各種狀況
也能直接留言給我 感謝
耳 機 ▸ https://poproro.cc/OFfRU
臉 書 ▸ https://www.facebook.com/Beedingcom/
💯幫大家爭取到折扣代碼:chaocai
前30位粉絲可以使用此代碼折扣100元
實際戴了將近一個月的PoProro mini 真無線藍芽耳機
大部分時間都是戴去健身房運動
一開始真的很不習慣 因為真的輕到會害怕
時常忘記他的存在 把他戴到淋浴室去
唯一小缺點 應該就是沒有防水功能吧
如果連防水功能都做上去 我想 這款耳機無可挑剔了
如影片所介紹跟實測
我各人最推薦的就是連線不斷線
這真的很重要
你如果時常聽到一半就要重新連線
超級麻煩
花的時間搞不好還比你解開有線耳機還要久
再來就是有黑色可以選!!!!
不過這是個人偏好拉 我比較喜歡黑色
PoProro mini 從包裝到耳機實體都非常的有質感
材質也特地選擇磨砂材質 摸起來真的很舒服
如果你還在觀望一款真正無線的藍芽耳機
歡迎你考慮PoProro mini
我本身已經有一個apple的蓮蓬頭耳機
但真的不又貴又不推 缺點真的太多
我就不一一贅述了 請自己爬文
#PoProroMINI真無線藍牙耳機
#藍芽耳機
#嗶丁選物
❗操場跑步如超過10公尺 耳機會接收不到❗
影片中 因拍攝需求 畫面為剪接
🌚超真實測試系列🌝
💍不僅臉要美白牙齒也更應該要
▸ https://youtu.be/FUm--X8xXGY
💍男生也應該要有好看的眉毛
▸ https://youtu.be/TkQg8JQeGnU
💍第一次被陌生人摸那邊
▸ https://youtu.be/GXHzsewgsJU
💍溫感發熱超蘇胡!每分鐘震動9000次
▸ https://youtu.be/BQLkAdqsmAQ
💍韓國人當地推薦的泡麵
▸ https://youtu.be/BozmvN-eEy8
⛰峽谷邊緣人系列⛰
💍尾牙頭獎居然是法拉利
▸ https://youtu.be/gb8emN29P_k
💍峽谷邊緣人一週年宜蘭遊
▸ https://youtu.be/LDwnLw17C1E
💻成為影片字幕小幫手
https://goo.gl/vvkMWy
📪郵寄地址 / 信件徵收中
23642 新北市土城區延峰街29巷8號2樓
📷我的設備
攝影 ‣ Sony A6400
攝影 ‣ Canon G7X MarkII
攝影 ‣ GoPro Hero7 Black
剪輯 ‣ premiere pro cc 2017
穩定 ‣ FeiyuTech G6 Plus
🎵使用的音樂
Keepsake
蔡依林-腦公
🧀日常更新
I G ‣ https://www.instagram.com/nic__110/
B F ‣ https://www.instagram.com/cheese0093/
💌合作請洽
E-mail ‣ chaocai520@gmail.com
歡迎留言或寄信告訴我你的想法
🈲頻道聲明
本網站影音創作內容皆為【Chaocai】頻道所有
若有轉載、再製、轉錄等非授權行為
頻道將會採取檢舉、訴訟等途徑!
⚖此次內容與Beeding嗶丁選合作 -
剔號字元代碼 在 老婆 Youtube 的最讚貼文
2017-04-19 18:42:41還在為了買國外零食感到麻煩嗎?歪國零食嘴與你同在
►更多開箱影片:https://goo.gl/M3hq65
►快點訂閱我:http://bit.ly/2aJsdZr
▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁
【合作】歪國零食嘴
歪國粉絲團官網連結:
http://snacklips.com
歪國粉絲團連結:
https://www.facebook.com/snacklips/
a.訂閱制專用:只要有粉絲使用專屬優惠序號「wife」
訂閱零食嘴快遞-每月零食訂閱,
首月就能免費升級,多享有250元價值的零食!
b.一般商品專用:只要是粉絲購買一般商品,
結帳時輸入「wife50」購物金代碼,
即可享有50元折扣~訂閱制不適用
零食嘴快遞:以每月訂閱的方式,
透過信用卡/貨到付款每月自動扣款,
選擇適合自己的方案以及不喜歡的零食口味,
每個月初將會固定會收到一箱客製的零食箱,
不喜歡時直接聯絡客服就可以做取消。
因為是驚喜箱的概念,所以每一盒會隨機出貨,會跟老婆收到的不盡相同。
結帳時能夠選擇不喜歡的口味,如果還有其他不喜歡的口味可以填寫於備註,
因為每個月進貨種類有限,會盡量幫大家剔除掉
▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁
▪老婆FB:http://bit.ly/2aw5ZH3
▪老婆Twitch:http://bit.ly/2aw65y9
▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁
★工商洽談或合作:
►Gmail:qwe40830123@gmail.com
►FB:http://bit.ly/2aw5ZH3
❤觀眾提供字幕:
https://goo.gl/OzNCXV -
剔號字元代碼 在 老婆 Youtube 的最讚貼文
2017-03-19 05:56:20還在為了買國外零食感到麻煩嗎?歪國零食嘴與你同在
►更多開箱影片:https://goo.gl/M3hq65
►快點訂閱我:http://bit.ly/2aJsdZr
▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁
【合作】歪國零食嘴
歪國粉絲團官網連結:
http://snacklips.com
歪國粉絲團連結:
https://www.facebook.com/snacklips/
a.訂閱制專用:只要有粉絲使用專屬優惠序號「wife」
訂閱零食嘴快遞-每月零食訂閱,
首月就能免費升級,多享有250元價值的零食!
b.一般商品專用:只要是粉絲購買一般商品,
結帳時輸入「wife50」購物金代碼,
即可享有50元折扣~訂閱制不適用
零食嘴快遞:以每月訂閱的方式,
透過信用卡/貨到付款每月自動扣款,
選擇適合自己的方案以及不喜歡的零食口味,
每個月初將會固定會收到一箱客製的零食箱,
不喜歡時直接聯絡客服就可以做取消。
因為是驚喜箱的概念,所以每一盒會隨機出貨,會跟老婆收到的不盡相同。
結帳時能夠選擇不喜歡的口味,如果還有其他不喜歡的口味可以填寫於備註,
因為每個月進貨種類有限,會盡量幫大家剔除掉
▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁
▪老婆FB:http://bit.ly/2aw5ZH3
▪老婆Twitch:http://bit.ly/2aw65y9
▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁
★工商洽談或合作:
►Gmail:qwe40830123@gmail.com
►FB:http://bit.ly/2aw5ZH3
❤觀眾提供字幕:
https://goo.gl/OzNCXV
剔號字元代碼 在 GROOVY STORE! Facebook 的最佳貼文
這幾天濕涼濕涼的天氣
KAPTAIN SUNSHINE A字立領大衣 剛剛好
優雅俐落的 A 字型輪廓
以及具有疏水的防潑水功能的高端布料
都是無可挑剔啊!
尤其是面料自然透出的高質感光澤
質感本質了
-
FINAL SALE
・Up to 40% off
・FINAL SALE 商品任選兩件再享 9 折
・~3/15 00:00 止
注意事項
・刷卡分期付款不適用任選兩件 9 折優惠
・VIP 折扣代碼、購物金不能與任選兩件 9 折優惠一起使用
-
We do oversea delivery.
-
・線上刷卡 / 轉帳匯款 / LINE PAY
・宅配 / 711取貨
・現貨不用等
-
#kaptainsushine
-
$首次註冊會員即可現享購物金100元
$消費累積滿萬即成為永久GROOVY VIP
新品皆可享九折優惠
$當月壽星皆享有100元購物金生日禮
-
*TEL:02-87730735
*MRT忠孝敦化站2號出口/
*台北市大安區敦化南路一段161巷62號
剔號字元代碼 在 高虹安 Facebook 的精選貼文
《貓貓錯了嗎?CAT居然是不雅字眼🙀!?》
自2012年起開始上路的新制車牌,目前為止發到B開頭,已經有不少貓奴車主期待可以掛上CAT的車牌,以彰顯主人的榮耀😼。但一查才發現 #公路總局 已在民意代表建議或民眾反映有不雅、不適用之英文代碼中,列出了 #24組禁用的英文代碼組合,其中就包含CAT(貓)、PUP(小動物)、ANT(螞蟻)、APE(猿)等等令人摸不著頭緒的「#不雅字眼」😰!?
虹安立刻詢問公路總局,究竟新式汽機車牌編碼原則為何?不雅字眼到底是誰來定義?如何定義?2016年時公路總局曾表示,不排除在民眾提出並討論後,將已經排除的編碼組合敗部復活。但究竟討論機制何在?為何當初的民意反應到現在還是沒有改變呢?
【公路總局解釋】
一、新式汽機車號牌編碼原則為:
(一)代碼為英文字母之「I」、「O」去除;代號(序號)全部之阿拉伯數字「4」去除不用(皆不使用「4」字)。
(二)號牌代碼另需去除不雅諧音、不適用之英文字義代碼。
二、以往民意代表建議或民眾反映有不雅、不適用之英文代碼(三個英文字組合(若含英文字「I」、「O」者不作舉例)):
❌不雅字:FUC、FUG、FUQ、FUT (與不雅字FU*K太接近)
💭虹安吐槽:那為什麼FUK、FCK、WTF就沒有禁止呢?
❌國際共識:GPU(前蘇俄特務機關)、KGB (前蘇聯祕密警察)、KKK (美國排華組織)
💭虹安吐槽:KKK不能是連三個三振嗎?又為什麼是排「華」組織呢?明明就是「白人至上主義」好嗎。
❌政黨組合:KMT(國民黨)、DPP(民進黨)
💭虹安吐槽:NPP(時代力量)、TPP(台灣民眾黨)表示...
❌動物系列:PUG(哈巴狗)、PUP(小動物)、CAT(貓)、ANT(螞蟻)、APE(猿)
💭等等,誰可以告訴我,哈巴狗、貓貓、螞蟻、猿到底得罪了誰?
❌其他:MAD(瘋子)、NUN(尼姑)、SEX(不雅字)、SLY(狡猾)、BAD(壞)、GAY (同志)、ASS(屁眼)、BUM(無賴)、BRA(胸罩)、CRY(哭泣)
三、最近幾年的車牌採購案,公路總局已陸續將前述不雅之號牌英文代碼,於提供代碼請廠商生產製作時即已剔除不用。新式號牌未未來若編排至前述之不雅號碼時,亦會剔除不用。另未來若民眾發現有其他不雅諧音、不適用之英文字義代碼,公路總局也會考慮剔除。
💭虹安吐槽:但是到底討論機制是什麼?又是誰來決定剔除呢?
✅統整以上的資訊,虹安雖然沒有參與到2012年起開始上路的新制車牌制定過程,但當初公路總局剔除名單成立的過程瑕疵且具爭議。除了為廣大貓奴爭取開放CAT車牌之外,虹安要求公路總局至少在今年內應該要做到以下幾點:
1⃣ #重新檢視禁用車牌,#放寬不雅不適用之英文字義代碼
像是動物系列的PUG(哈巴狗)、PUP(小動物)、CAT(貓)、ANT(螞蟻)、APE(猿),是否可以開放?如何可以開放?公路總局是否可以給一個具體的翻案方式?
2⃣ #每2至3年定期重新研議禁用車牌,#依民眾提議動態調整
關於不雅英文字組合,也可能隨著時代變遷有不同改變,像是NUN(尼姑)、BAD(壞)、GAY(同志)是否真的為不雅字眼,也很值得大家討論。或是近年來常出現的CCR、WTF、WTH,或許可以提供車牌平台連署提案等方式,依民眾提議動態調整。
3⃣ #提供掛牌人彈性多元選擇方式,#開放民眾選牌自由
最重要的是,其實字母與數字本無害,合適或不合適每個人心中也有不同的喜好與定見。民主自由的社會應該是尊重人民意願及選擇權,以多元包容的方式,避免在車牌上也有文字獄、不可選的情況產生,開放民眾選擇的自由😻。
剔號字元代碼 在 李開復 Kai-Fu Lee Facebook 的精選貼文
來自創新工場大灣區人工智慧研究院的兩篇論文入選了自然語言處理領域(NLP)頂級學術會議 ACL 2020 。
這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各資料集上的分數全部刷至新高,在工業中也有著可觀的應用前景。
本文來自創新工場公眾號
……………………………………………………………………
創新工場兩篇論文入選ACL 2020,將中文分詞性能刷至新高
“土地,我的金箍棒在哪裡?”
“大聖,你的金箍,棒就棒在,特別配你的髮型。”
感謝神奇的中文分詞,給我們帶來了多少樂趣。豐富多變的中文行文,給人的理解造成歧義,也給AI分詞帶來挑戰。
近日,自然語言處理領域(NLP)頂級學術會議 ACL 2020 (https://acl2020.org/)正在火熱舉行。
令人振奮的是,來自創新工場大灣區人工智慧研究院的兩篇論文入選。這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各資料集上的分數全部刷至新高,在工業中也有著可觀的應用前景。
分詞及詞性標注是中文自然語言處理的基本任務,尤其在工業場景對分詞有非常直接的訴求,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。
基於此,兩篇論文各自提出了“鍵-值記憶神經網路的中文分詞模型”和“基於雙通道注意力機制的分詞及詞性標注模型”,將外部知識(資訊)創造性融入分詞及詞性標注模型,有效剔除了分詞“噪音”誤導,大幅度提升了分詞及詞性標注效果。
兩篇文章的作者有:華盛頓大學博士研究生、創新工場實習生田元賀,創新工場大灣區人工智慧研究院執行院長宋彥,創新工場科研合夥人張潼,創新工場CTO兼人工智慧工程院執行院長王詠剛等人。
ACL(The Association for ComputationalLinguistics)國際計算語言學協會是自然語言處理領域影響力最大、最具活力的國際學術組織之一,自1962年創立以來已有58年歷史,其每年夏天舉辦的年會是該領域學術頂會。
與往年不同的是,受新冠疫情影響,ACL2020全部轉為線上進行,不過這絲毫沒有減弱熱度。根據之前公佈的資料,今年大會投稿數量超過3000篇,共接收 779 篇論文,包括 571 篇長論文和 208 篇短論文,接收率為 25.2%,在全球疫情衝擊下反而是有史以來最盛大的一屆ACL會議,創新工場的技術大牛們也頂著時差連續數晚熬夜參會。
▌利用記憶神經網路,將中文分詞性能刷到歷史新高
中文分詞目的是在中文的字序列中插入分隔符號,將其切分為詞。例如,“我喜歡音樂”將被切分為“我/喜歡/音樂”(“/”表示分隔符號)。
中文語言因其特殊性,在分詞時面臨著兩個主要難點。一是歧義問題,由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。例如,“部分居民生活水準”,其正確的切分應為“部分/居民/生活/水準”,但存在“分居”、“民生”等歧義詞。“他從小學電腦技術”,正確的分詞是:他/從小/學/電腦技術,但也存在“小學”這種歧義詞。
二是未登錄詞問題。未登錄詞指的是不在詞表,或者是模型在訓練的過程中沒有遇見過的詞。例如經濟、醫療、科技等科學領域的專業術語或者社交媒體上的新詞,或者是人名。這類問題在跨領域分詞任務中尤其明顯。
對此,《ImprovingChinese Word Segmentation with Wordhood Memory Networks》這篇論文提出了基於鍵-值記憶神經網路的中文分詞模型。
該模型利用n元組(即一個由連續n個字組成的序列,比如“居民”是一個2元組,“生活水準”是一個4元組)提供的每個字的構詞能力,通過加(降)權重實現特定語境下的歧義消解。並通過非監督方法構建詞表,實現對特定領域的未標注文本的利用,進而提升對未登錄詞的識別。
例如,在“部分居民生活水準”這句話中,到底有多少可能成為詞的組塊?單字可成詞,如“民”;每兩個字的組合可能成詞,如“居民”;甚至四個字的組合也可能成詞,例如“居民生活”。
把這些可能成詞的組合全部找到以後,加入到該分詞模型中。通過神經網路,學習哪些詞對於最後完整表達句意的幫助更大,進而分配不同的權重。像“部分”、“居民”、“生活”、“水準”這些詞都會被突出出來,但“分居”、“民生”這些詞就會被降權處理,從而預測出正確的結果。
在“他從小學電腦技術” 這句話中,對於有歧義的部分“從小學”(有“從/小學”和“從小/學”兩種分法),該模型能夠對“從小”和“學”分配更高的權重,而對錯誤的n元組——“小學”分配較低的權重。
為了檢驗該模型的分詞效果,論文進行了嚴格的標準實驗和跨領域實驗。
實驗結果顯示,該模型在5個資料集(MSR、PKU、AS、CityU、CTB6)上的表現,均達了最好的成績(F值越高,性能越好)。(注:所選擇的五個資料集是中文分詞領域目前全世界唯一通用的標準資料集)
創新工場大灣區人工智慧研究院執行院長宋彥表示,與前人的模型進行比較發現,該模型在所有資料集上的表現均超過了之前的工作,“把中文分詞領域廣泛使用的標準資料集上的性能全部刷到了新高。”
在跨領域實驗中,論文使用網路博客資料集(CTB7)測試。實驗結果顯示,在整體F值以及未登陸詞的召回率上都有比較大提升。
▌“雙通道注意力機制”,有效剔除“噪音”誤導
第二篇論文《Joint ChineseWord Segmentation and Part-of-speech Tagging via Two-way Attentions ofAuto-analyzed Knowledge》提供了一種基於雙通道注意力機制的分詞及詞性標注模型。
中文分詞和詞性標注是兩個不同的任務。詞性標注是在已經切分好的文本中,給每一個詞標注其所屬的詞類,例如動詞、名詞、代詞、形容詞。詞性標注對後續的句子理解有重要的作用。
在詞性標注中,歧義仍然是個老大難的問題。例如,對於“他要向全班同學報告書上的內容”中,“報告書”的正確的切分和標注應為“報告_VV/書_N”。但由於“報告書”本身也是一個常見詞,一般的工具可能會將其標注為“報告書_NN”。
句法標注本身需要大量的時間和人力成本。在以往的標注工作中,使用外部自動工具獲取句法知識是主流方法。在這種情況下,如果模型不能識別並正確處理帶有雜音的句法知識,很可能會被不準確的句法知識誤導,做出錯誤的預測。
例如,在句子“他馬上功夫很好”中,“馬”和“上”應該分開(正確的標注應為“馬_NN/上_NN”)。但按照一般的句法知識,卻可能得到不準確的切分及句法關係,如“馬上”。
針對這一問題,該論文提出了一個基於雙通道注意力機制的分詞及詞性標注模型。該模型將中文分詞和詞性標注視作聯合任務,可一體化完成。模型分別對自動獲取的上下文特徵和句法知識加權,預測每個字的分詞和詞性標籤,不同的上下文特徵和句法知識在各自所屬的注意力通道內進行比較、加權,從而識別特定語境下不同上下文特徵和句法知識的貢獻。
這樣一來,那些不準確的,對模型預測貢獻小的上下文特徵和句法知識就能被識別出來,並被分配小的權重,從而避免模型被這些有噪音的資訊誤導。
即便在自動獲取的句法知識不準確的時候,該模型仍能有效識別並利用這種知識。例如,將前文有歧義、句法知識不準確的句子(“他馬上功夫很好”),輸入該雙通道注意力模型後,便得到了正確的分詞和詞性標注結果。
為了測試該模型的性能,論文在一般領域和跨領域分別進行了實驗。
一般領域實驗結果顯示,該模型在5個資料集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的表現(F值)均超過前人的工作,也大幅度超過了斯坦福大學的 CoreNLP 工具,和伯克利大學的句法分析器。
即使是在與CTB詞性標注規範不同的UD資料集中,該模型依然能吸收不同標注帶來的知識,並使用這種知識,得到更好的效果。
而在跨領域的實驗中,和斯坦福大學的CoreNLP 工具相比,該模型也有近10個百分點的提升。
▌主動引入和分辨知識,實現中文分詞技術突破
中文分詞在中國科研領域已經有幾十年的歷史。最初的中文分詞是基於詞典構建,詞典的好壞會直接影響到最後分析的效果。如果某個新詞在詞典裡沒有,那麼模型是死活都分不出來的。
這種方式的局限性還在於,詞典和分詞兩件事情中間始終有一條鴻溝,儘管詞典可以編撰得非常全面,但在處理分詞的時候,因為每一句話都有上下文語境,往往會產生多種不同的切分方法,從而無法有效地在當前語境下對分詞結構進行恰當的指導。
從2003年開始,分詞方法出現了新的突破。研究人員提出了打標籤的方式,通過給每一個字打詞首、詞尾、詞中的標籤,不再需要構建詞典,大幅度提升了未登錄詞的召回效果。
到了2014年左右,深度學習和神經網路開始被廣泛應用到中文分詞中,打標籤的模型從之前的淺層學習變成了深度學習,但演算法本質沒有發生變化,所以提升作用並不太大。
近兩年,學界開始研究怎麼在打標籤的過程中加入外部知識和資訊。創新工場的這兩篇文章就是沿著這個路徑,用記憶神經網路的方式記錄對分詞結果有影響的 n元組,並引入對詞性標注有影響的句法知識,將分詞結果和自動獲得的知識銜接起來,既發揮了神經網路的優勢,也把知識的優勢用上,實現了分詞技術上小而有效的改進和突破。
宋彥表示,“從技術創新的角度,我們的貢獻主要有兩點。一是在現有技術的基礎上,建立了一個一體化的模型框架,使用非監督方法構建詞表,並把知識(資訊)融入進來,使用更高層次的句法知識,來幫助詞性標注,起到'他山之石,可以攻玉’的效果。”
“二是主動吸收和分辨不同的外部知識(資訊)。通過鍵-值記憶神經網路和雙通道注意力機制,進行動態權重的分配,能夠有效分辨知識,區分哪些是有效的,哪些是無效的。雖然這些知識是自動獲取的、不準確的,但‘三個臭皮匠,頂個諸葛亮’,經過有效利用,總能湊出一些有用的資訊。如何實現模型的主動吸收和分辨,就變得更加重要。”
據瞭解,今年的ACL大會,在分詞領域一共收錄了18篇論文,創新工場人工智慧工程院同時有2篇入選,也表現出ACL官方對這一貢獻的認可。
▌具備跨領域分詞能力,提升工業應用效率
中文分詞和詞性標注是最底層的應用,對於接下來的應用和任務處理非常重要。例如對於文本分類、情感分析,文本摘要、機器翻譯等,分詞都是不可或缺的基本“元件”。
宋彥表示,做此項研究的目的是主要為了拓展其工業場景的應用,正確的分詞能夠平衡公司應用開發的效率和性能,同時方便人工干預及(預)後處理。
這也是創新工場人工智慧工程院的努力方向之一。工程院成立於2016年9月,宗旨是銜接科技創新和行業賦能,做嫁接科研和產業應用的橋樑,為行業改造業務流程、提升業務效率。
工程院下設北京總部、南京研究院和大灣區研究院。大灣區研究院再下設資訊感知和理解實驗室,專注于對自然語言處理(NLP)領域的研究。執行院長宋彥本人也有超過15年的NLP領域的科研經驗。
“在工業場景使用的時候,跨領域的模型能力是一個非常直接的訴求。”宋彥表示,在某個領域的訓練模型,大概率也需要應用到其他領域。
“如何在新領域缺少資料,或者新領域只有少量未標注資料的情況下,實現模型的冷開機,依然是項巨大的挑戰。如果能利用外部知識,提高模型性能,就能有效地召回很多在訓練集中沒有出現過的新詞。”
例如搜尋引擎的廣告系統,最初也是通過組詞匹配的方式,在某個特定領域訓練其分詞模型,但在進入一個新的領域時,例如從新聞領域進入醫療領域或體育領域,效果往往會大打折扣,甚至頻頻出錯。
而使用跨領域特性後,廣告系統在進入新領域時,便無需額外的資料,就可以對它進行比較準確的分詞和標注,從而有效匹配廣告和客戶,大大提升系統運行的效率和穩定性。
目前,這兩篇論文的工具都已經開源,在下面兩個連結中,可以找到對應的所有代碼和模型,各位朋友可按需自取:
分詞工具:https://github.com/SVAIGBA/WMSeg
分詞及詞性標注工具:https://github.com/SVAIGBA/TwASP