雖然這篇召回率鄉民發文沒有被收入到精華區:在召回率這個話題中,我們另外找到其它相關的精選爆讚文章
在 召回率產品中有10篇Facebook貼文,粉絲數超過6,462的網紅3S Markets「全球科技智慧應用」市場資訊網,也在其Facebook貼文中提到, 商業物聯網以遠端溫度探測器,和雲連接的形式,提供此類工具,用於即時(和可審計)數據跟蹤。即時監測數據,並做出更及時決策的能力,可以幫助公司既節省資金又獲得讚譽。僅在美國,2012 年至 2017 年期間,食品召回率就達到了令人難以置信的 92%。即時對品質控制問題,作出反應有助於避免召回,或者如果證...
同時也有9部Youtube影片,追蹤數超過12萬的網紅朱學恒的阿宅萬事通事務所,也在其Youtube影片中提到,贊助專區 Paypal傳送門: https://paypal.me/HsuehHeng 綠界傳送門: https://p.ecpay.com.tw/706363D 歐付寶傳送門: https://reurl.cc/eENAEm 塔綠斑一講,歌一唱氣噗噗,釋迦蓮霧被停止出口都沒這麼反應劇烈,民...
「召回率」的推薦目錄
- 關於召回率 在 立法院·修憲白話文 Instagram 的最佳貼文
- 關於召回率 在 ????? 路易波克 Instagram 的最讚貼文
- 關於召回率 在 Eddie Su | 艾迪蘇 Instagram 的最讚貼文
- 關於召回率 在 3S Markets「全球科技智慧應用」市場資訊網 Facebook 的最佳解答
- 關於召回率 在 密絲飄 Facebook 的最讚貼文
- 關於召回率 在 李開復 Kai-Fu Lee Facebook 的最佳解答
- 關於召回率 在 朱學恒的阿宅萬事通事務所 Youtube 的最讚貼文
- 關於召回率 在 朱學恒的阿宅萬事通事務所 Youtube 的精選貼文
- 關於召回率 在 黃偉哲 Youtube 的最佳解答
召回率 在 立法院·修憲白話文 Instagram 的最佳貼文
2021-09-03 18:48:05
【隔離,也是一種被關嗎?】 在自由民主法治國家中,若要限制人民的人身自由,白話一點來說就是關起來,關起來當然是一件非常嚴重的事情,通常都會需要「法官」來當作最後一道防線。 例如我們過去檢察官如果要「羈押」的時候,是可以自己決定的,但後來經過釋字 392 號解釋後,大法官認為如果需要限制人民人身自...
召回率 在 ????? 路易波克 Instagram 的最讚貼文
2021-08-02 18:35:41
兩年多前調到新部門 為了拚考績 日夜工作搞得自己內分泌失調 一不小心臉上就爆痘😱 雖然經過治療 痘痘消失了 卻也給我的雙頰留下一些醜醜的色素痘疤😢 黑痘疤靠著勤敷臉 很快就褪去了 但因血管增生而形成的紅痘疤 可就沒這麼好對付了😟 雖然兩年多後 紅痘疤有稍微淡一些些 但力求完美的我 仍希望臉部能還原...
召回率 在 Eddie Su | 艾迪蘇 Instagram 的最讚貼文
2021-08-02 18:57:56
🌞 把壓力視為前進助力 而不是緊張的源頭 / 難免在工作或生活上 我們都有著各式各樣的壓力與人生的不容易 / 但你知道嗎,在壓力面前只要我們以 「正向思維引導」處理得當, 壓力都可以成為我們的助力, 反之如果是負面思維引導, 壓力則可能危害我們健康與生活。 / 👨⚕ 耶魯大學心理學研究學者科學實...
-
召回率 在 朱學恒的阿宅萬事通事務所 Youtube 的最讚貼文
2021-09-21 21:08:45贊助專區
Paypal傳送門: https://paypal.me/HsuehHeng
綠界傳送門: https://p.ecpay.com.tw/706363D
歐付寶傳送門: https://reurl.cc/eENAEm
塔綠斑一講,歌一唱氣噗噗,釋迦蓮霧被停止出口都沒這麼反應劇烈,民進黨是腫麼了?還是說我應該去報金曲獎嘻嘻 Ft 台北發光體腦門比月亮還要亮的 #郭正亮
說到這個水果,蓮霧跟釋迦我都很少吃,這次禁運是不是又要靠國民大吃好幾斤呢?根據中時新聞網的報導:【大陸海關總署19日透過「海峽兩岸農產品檢疫檢驗合作協議」平臺,通知因台灣的釋迦及蓮霧多次檢出「太平洋臀紋粉介殼蟲」,將自20日起暫停該兩種果品輸入。前民進黨立委郭正亮直言,所以這次(民進黨)操作會比較難,因為大陸的禁令幾乎跟紐西蘭發現台灣荔枝有東方果實蠅同時發生,雙標太明顯!且大陸對台灣水果檢疫可說是最鬆的!】那這個到底是政治鬥爭還是政治得利,民進黨怎麼操作的有點心不在焉,不是產期大家要怎麼開懷大吃挺果農啊?
另外又要說到 #疫苗 了,根據蘋果新聞網的報導:【美國白宮發言人莎琪(Jen Psaki)今在媒體簡報會上表示,美國11月初將採取嚴格規定,要求所有外國成人旅客須完整接種疫苗。目前只核准 #莫德納 Moderna、 #輝瑞BNT 與嬌生J&J等3款COVID-19疫苗,而國內9月27日就要開打高端疫苗第二劑,高端是否能被美方承認,指揮中心有無對策?國內目前接種2劑的涵蓋率僅6%,指揮中心有無推估年底前能夠達到多少?】這個問題其實就包含了混打到底接不接受,外國疫苗是否接受,還有接種紀錄的接軌問題。之前一堆側翼在那邊打說打高端沒有不能出國喔,廢話,人家是要求你照十四天或二十一天隔離,又偷換概念成出國與否,有夠爛的手段。這下好了,美國在歐盟等地的持續要求下,開放疫苗完整接種的人才能入境,這才是真的不能出國了!要去美國打疫苗的美夢也跟著消失啦,這可怎麼辦,我們超寶貴的高端能不能得到FDA的承認呢?不是側翼一直洗同父異母嗎?那這樣高端是不是可以叫同父異母的哥哥幫忙一下,讓美國FDA承認呢?
而且之前公布出來的3+11報告書除了避重就輕之外,根本上等於甚麼東西都沒有,叫你出個檢討報告,結果你反而利用篇幅置入行銷誇獎自己,有沒有搞錯啊!根據中時新聞網的報導:【立法院在野黨團日前不滿意行政院所提「3+11」決策專案報告,國民黨立院黨團直接甩預算書、舉牌杯葛行政院長蘇貞昌、衛福部長陳時中上台報告,議事空轉整天。媒體18日追問陳時中如何看在野黨要求他「負責就下台」,他回應,「負責是(對)事情的負責」。此話一出引發網友熱議,有人直言,什麼叫對事情的負責?又到底負責了什麼?陳時中的解釋真是刷新五觀。】所以簡單來說,這一波3+11根本問題就被壓制下來了嗎?甚麼范雲甚麼沒有專家會議,根本就不重要了對吧?專制好棒啊!一黨專政好棒啊!
根據紐約時報的報導:【阿富汗戰爭不是一場失敗,而是一場巨大的成功——對那些從中發財的人來說。以希克馬圖拉·沙德曼(Hikmatullah Shadman)為例。美國特種部隊在9·11事件發生後進入坎達哈時,他還只是一個十幾歲的少年。據《紐約客》(The New Yorker)上一篇關於他的人物特寫,特種部隊雇了他來當翻譯,每月付給他最高1500美元,是當地警察工資的20倍。他快30歲時已擁有一家為美國軍事基地提供物資的卡車運輸公司,這讓他賺了逾1.6億美元。】所以阿富汗戰爭失敗貪腐是一個原因,但不只是一個人貪腐,而是整個組織連美國本身都大賺其錢,這樣要怎麼打贏呢?
根據BBC的報導:【不過,如果仔細分析恆大上月發佈的財報,不難發現,恆大財富的困境,只是這家「中國第一房企」面臨危機的「冰山一角」。深入水面後,人們不禁要問,危機的全貌究竟什麼樣子?又是什麼造成恆大危機?還有,就是未來會如何——中國政府是否會出手相救,還是任由這家似乎「大到不能倒」的企業倒下?更重要的是,恆大如果倒下,是否會引起連鎖反應,波及整個經濟體的穩定?】那到底這會不會演變成雷曼兄弟,政府出手不出手呢?【不過,不少分析師認為,目前最迫在眉睫的擔憂是發生房地產行業崩潰,而不是雷曼式的金融危機——恆大若賤賣資產可能會破壞價格體系,導致那些高槓桿的房企們崩潰,使這個佔中國經濟四分之一的行業陷入癱瘓。目前,已有中國多地政府出台政策,「防止房價過快下跌」。】但港股也跟著暴跌,到底狀況會如何呢?
但是南半球這邊又是另外一回事了,紐約時報的說法是另外一個角度。【拜登總統宣布將幫助澳洲部署核動力潛艇的協議使西方聯盟關係緊張,也激怒了法國,並預示著美國和歐洲在對抗中國問題上的矛盾可能會重新繪製全球戰略地圖。拜登在週三宣布這項協議時表示,該協議是為了加強聯盟,並隨著戰略優先事項的轉變而向盟友提供最新信息。但在拉攏太平洋盟友以應對中國挑戰的過程中,他似乎疏遠了一個重要的歐洲盟友,並加劇了與北京已經緊張的關係。週四,法國對美國和英國宣布將幫助澳洲打造潛艇,以及澳洲退出一項價值660億美元購買法國潛艇的交易表示憤慨。從本質上來說,這場外交風暴也是一個商業問題——法國軍工產業損失收入,美國公司受益。】於是法國一個翻臉,就召回了大使,這樣的傷痕可以彌補嗎?
朱學恒的表情包2.0上線拉 https://store.line.me/stickershop/product/16645010
【Facebook傳送門】 https://www.facebook.com/Geekfirm
【Twitch傳送門】 https://www.twitch.tv/otakuarmy2
【加入YT會員按鈕】 https://reurl.cc/raleRb
【訂閱YT頻道按鈕】 https://reurl.cc/Q3k0g9
購買朱大衣服傳送門: https://shop.lucifer.tw/
📍直播大綱:
00:00 開播
07:00 國民黨黨員組成成分與黨主席之爭
18:00 對岸因介殼蟲暫停輸入蓮霧跟釋迦 台灣向wto告狀能成嗎?
58:00 美國11月初將採完整接種疫苗才能入境
01:15:00 3+11報告書/高端爭議
01:28:00 高虹安塔綠班之歌事件
01:35:00 紐時:阿富汗戰爭不是一場失敗,而是一場巨大的成功...
01:39:00 恆大事件 -
召回率 在 朱學恒的阿宅萬事通事務所 Youtube 的精選貼文
2021-06-04 19:08:27這是五月二十七號的直播,跟上海復星洽談BNT疫苗輸入的時候現場就三個人,為什麼隔不了幾天自由時報就可以知道這件事,而且說北京讓它破局?但郭台銘斬釘截鐵地說沒有北京力量介入啊!是誰對外放話,是誰想要讓它破局?
更重要的是,為什麼這段像是預言一般,預告了郭台銘現在遇到的刁難?
原始直播: https://youtu.be/7__d0wtEMU8
自由時報呢寫了一個特稿說
北京要讓郭董破局?
當台灣正在等待向國際訂購的抗武肺疫苗陸續到貨之際
哇不得了自由時報根正苗紅到現在還在寫抗武肺
中國上海的復星醫藥所代理的BNT疫苗
能否成為救急的及時雨最近廣為各界所討論
若干地方縣市長甚至自稱已經得到了復星的允諾
不過以鴻海集團創辦人郭台銘的親身經歷而言
問題恐怕不如這些政客講的這麼容易
最近北京正式出手
讓郭董的熱心善舉也不敵政治干預
恐怕正瀕臨破局
媽啊真的有這件事嗎
五月二十三號確實就是郭董
他有想要買大概五百萬到一千萬劑的疫苗
然後是想要用自己的錢買完之後
還有就是鴻海跟永齡基金會
反正就是他希望說買這些疫苗來捐給中央捐給CDC
那這個過程當中呢
當然因他本身是有一些人脈
所以他也有辦法直接跟
這個復星集團的董事長直接做這個聯繫
在這過程當中
其實他就串起了一個橋樑
就是說你至少有一個門路可以跟對方
就是高層能夠直接去做對話
那在過程當中他也引進了柯建銘柯總召
因為他知道說
如果他今天是捐贈方
其實你買進來捐給政府之後
比如說政府還是由衛福部食藥署
他必須要去對這個疫苗去做檢驗
或者是說你要能夠就是進行國人的施打這些
就是我只是捐
但捐給你之後你要去做這些
你自己處裡嘛
對 由政府公權力才可以進行的事情
所以在這過程當中
他就也把柯建銘總召引薦進來
就是說他們三方一起來討論
這樣子的一個商業合約應該要來怎麼寫怎麼買怎麼捐
但是呢在過程當中就是他今天就看到這新聞
他就非常的震驚
他就說怎麼會這個新聞就是把這件事情寫出來
第一個是他覺得說
這個新聞應該只有幾個人知道
為什麼這個新聞會流出來
鄒景雯是自由時報的總編輯
那現場也就那麼幾個人
那那就是老柯柯建銘跟老郭郭台銘
然後也許現場有一兩位工作人員
但是過去到現在呢
這個郭董的工作人員口風都很緊
不然那就是老柯囉?
這個其實因為如果你去看這個記者的話
應該就知道她其實比較是民進黨系的記者啦
所以當然我們沒有辦法證實
但是當然有比較高的機率
應該就是民進黨那邊就是跟這位記者...
民進黨這邊就現場就只有一個人嘛
那你就直講就可以就是柯總召啊
我們也不能說柯總召
也許是柯總召回去回報這件事情的時候
有其他的人知道
畢竟柯總召跟我們就是郭董是關公好兄弟
我覺得這一篇新聞裡面
當然第一個讓郭董比較震驚的點是說
怎麼把這個消息洩漏出去了
因為在大家都知道其實民進黨政府一直提醒大家
我們的疫苗採購過程戰戰兢兢
大家都要小心不要走漏風聲以免破壞談判
那為什麼會跑出去這是第一個問題
第二個是這個標題下得也讓郭董第二個震驚
他就說怎麼會寫說北京讓郭董破局
因為郭董他其實他有告訴我說
其實從頭到尾
他們都是以商業談判的角度在談所有的事情
其實從頭到尾並沒有所謂的
他說什麼有什麼北京政府進來阻擋這些都沒有
他是透過自己管道去
所以也沒有說什麼像新聞有寫到什麼
有些是透過國台辦啊什麼的都沒有 都不是
沒有政治管道
都沒有都沒有
而且沒有政治管道去介入這件事
我先講一下其實這個有一個批踢踢八卦版
大家如果去看的話
有一篇文章
今天這個新聞出來之後
就一個網友聯想力非常厲害
他就發現五月二十三號的時候
王定宇委員就在他的臉書上面
他就發了一篇說那個上海復星快倒了
然後就開始從那天開始
就有許多對上海復星
跟他們的這個復必泰的疫苗的一些
我們可以真的可以說是假消息
你覺得這整篇文章你看了
是不是想要破你們的局
其實我覺得這篇一文章當然有沒有破局這件事情
我覺得當然一個是說商業上面的談判過程當中
如果有這些新聞確實是會不利於這個談判的進行
那另外就是說
會不會破局
其實還是要與民進黨政府態度也很重要
畢竟這個疫苗是不是能夠進來
那藥商能不能拿到這個進口的許可
以及說進來之後捐給台灣的那個比如說防疫中心
防疫指揮中心
防疫指揮中心能不能好好的去做
包含說後面的一些施打等等
其實為什麼今天郭董在談這個事情
他必須要引入這三方
就是一個是能夠出資來捐疫苗買下來的
那一個是有國際現貨有疫苗的復星集團
一個就是我們的受贈方就是CDC
那這個地方的話是先用柯建銘總召來做一個溝通的橋樑
所以在這情況之下
當然你說要破局到底是誰會破
現在這個新聞的導向就很像是說
可能是復星集團這邊因為受到北京當局的壓力
所以讓他不敢賣這個疫苗
但是今天郭董其實就是想要澄清這一點
就是說其實過程當中並沒有這件事情發生
阿宅萬事通語錄貼圖上架囉 https://reurl.cc/dV7bmD
【加入YT會員按鈕】 https://reurl.cc/raleRb
【訂閱YT頻道按鈕】 https://reurl.cc/Q3k0g9
購買朱大衣服傳送門: https://shop.lucifer.tw/ -
召回率 在 黃偉哲 Youtube 的最佳解答
2021-02-10 20:23:04親愛的市民朋友
新年恭喜
我是台南市長黃偉哲
在春節前夕
特別要向您
表達由衷的感謝
感謝在過去一年
我們齊心合作
面對疫情的挑戰
共同守護家園
記得去年的大年初三
偉哲緊急召回
所有的市府團隊同仁
立刻停止休假
開始防疫工作
我們的努力
讓台灣的口罩國家隊
啟動了第一條生產線
感謝市民朋友
您的支持與鼓勵
我們台南市
不僅防疫滿意度最高
而且失業率是六都最低
投資台南的金額
更創下新高點
歲末年終
請市民給自己一個掌聲
也給醫護防疫人員
警消、清潔隊員
以及所有的
基層公務員一個鼓勵
面對疫情,我們更團結
面對危機,我們更努力
台南的逆勢上揚
是我們共同努力的成果
期待你我繼續打拚
讓台南這座文化古都
成為科技新城
感謝大家,謝謝你
召回率 在 3S Markets「全球科技智慧應用」市場資訊網 Facebook 的最佳解答
商業物聯網以遠端溫度探測器,和雲連接的形式,提供此類工具,用於即時(和可審計)數據跟蹤。即時監測數據,並做出更及時決策的能力,可以幫助公司既節省資金又獲得讚譽。僅在美國,2012 年至 2017 年期間,食品召回率就達到了令人難以置信的 92%。即時對品質控制問題,作出反應有助於避免召回,或者如果證明有必要,可以大大縮短反應時間…
召回率 在 密絲飄 Facebook 的最讚貼文
日子不順遂的初期,你會憤怒的覺得自己機運不好;
但不順遂久了,人都會開始失去自信,懷疑自己也許不是懷才不遇,而是根本沒有能力。
要努力阿,要改變阿,要思考阿......blablabla,整個社會對於這種狀態所持的看法就是如此,
社會推崇屢敗屢戰的堅持和毅力,
但只有當事人才知道,屢戰屢敗對自我價值的殺傷力。
前幾年我開始學著休息,
學著在放棄時不責怪自己,
但最近,我突然發現了一件事。
我家狗兒的毛病一大堆,膽小怕生護資源,但有趣的是,每次我帶她出去玩時幾乎都是人人誇的,因為她不追車不吠人、放繩後召回率100%,所有狗外出時令人頭痛的毛病她都沒有。
但其實不是她天性優秀,而是我不會把她帶到她hold不住的地方。
每次去新地方玩之前,我自己會先去場勘一次,看看那附近是不是有聲音太大的工廠或工地、是不是有學校要避開上下學時間、人會不會太多、如果附近有夜市,絕對不能有人在賣爆米香。
這才明白過來,也許你的驚慌失錯多做多錯,從頭到尾都不是因為努力不夠,而是沒有擺對地方。
召回率 在 李開復 Kai-Fu Lee Facebook 的最佳解答
來自創新工場大灣區人工智慧研究院的兩篇論文入選了自然語言處理領域(NLP)頂級學術會議 ACL 2020 。
這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各資料集上的分數全部刷至新高,在工業中也有著可觀的應用前景。
本文來自創新工場公眾號
……………………………………………………………………
創新工場兩篇論文入選ACL 2020,將中文分詞性能刷至新高
“土地,我的金箍棒在哪裡?”
“大聖,你的金箍,棒就棒在,特別配你的髮型。”
感謝神奇的中文分詞,給我們帶來了多少樂趣。豐富多變的中文行文,給人的理解造成歧義,也給AI分詞帶來挑戰。
近日,自然語言處理領域(NLP)頂級學術會議 ACL 2020 (https://acl2020.org/)正在火熱舉行。
令人振奮的是,來自創新工場大灣區人工智慧研究院的兩篇論文入選。這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各資料集上的分數全部刷至新高,在工業中也有著可觀的應用前景。
分詞及詞性標注是中文自然語言處理的基本任務,尤其在工業場景對分詞有非常直接的訴求,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。
基於此,兩篇論文各自提出了“鍵-值記憶神經網路的中文分詞模型”和“基於雙通道注意力機制的分詞及詞性標注模型”,將外部知識(資訊)創造性融入分詞及詞性標注模型,有效剔除了分詞“噪音”誤導,大幅度提升了分詞及詞性標注效果。
兩篇文章的作者有:華盛頓大學博士研究生、創新工場實習生田元賀,創新工場大灣區人工智慧研究院執行院長宋彥,創新工場科研合夥人張潼,創新工場CTO兼人工智慧工程院執行院長王詠剛等人。
ACL(The Association for ComputationalLinguistics)國際計算語言學協會是自然語言處理領域影響力最大、最具活力的國際學術組織之一,自1962年創立以來已有58年歷史,其每年夏天舉辦的年會是該領域學術頂會。
與往年不同的是,受新冠疫情影響,ACL2020全部轉為線上進行,不過這絲毫沒有減弱熱度。根據之前公佈的資料,今年大會投稿數量超過3000篇,共接收 779 篇論文,包括 571 篇長論文和 208 篇短論文,接收率為 25.2%,在全球疫情衝擊下反而是有史以來最盛大的一屆ACL會議,創新工場的技術大牛們也頂著時差連續數晚熬夜參會。
▌利用記憶神經網路,將中文分詞性能刷到歷史新高
中文分詞目的是在中文的字序列中插入分隔符號,將其切分為詞。例如,“我喜歡音樂”將被切分為“我/喜歡/音樂”(“/”表示分隔符號)。
中文語言因其特殊性,在分詞時面臨著兩個主要難點。一是歧義問題,由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。例如,“部分居民生活水準”,其正確的切分應為“部分/居民/生活/水準”,但存在“分居”、“民生”等歧義詞。“他從小學電腦技術”,正確的分詞是:他/從小/學/電腦技術,但也存在“小學”這種歧義詞。
二是未登錄詞問題。未登錄詞指的是不在詞表,或者是模型在訓練的過程中沒有遇見過的詞。例如經濟、醫療、科技等科學領域的專業術語或者社交媒體上的新詞,或者是人名。這類問題在跨領域分詞任務中尤其明顯。
對此,《ImprovingChinese Word Segmentation with Wordhood Memory Networks》這篇論文提出了基於鍵-值記憶神經網路的中文分詞模型。
該模型利用n元組(即一個由連續n個字組成的序列,比如“居民”是一個2元組,“生活水準”是一個4元組)提供的每個字的構詞能力,通過加(降)權重實現特定語境下的歧義消解。並通過非監督方法構建詞表,實現對特定領域的未標注文本的利用,進而提升對未登錄詞的識別。
例如,在“部分居民生活水準”這句話中,到底有多少可能成為詞的組塊?單字可成詞,如“民”;每兩個字的組合可能成詞,如“居民”;甚至四個字的組合也可能成詞,例如“居民生活”。
把這些可能成詞的組合全部找到以後,加入到該分詞模型中。通過神經網路,學習哪些詞對於最後完整表達句意的幫助更大,進而分配不同的權重。像“部分”、“居民”、“生活”、“水準”這些詞都會被突出出來,但“分居”、“民生”這些詞就會被降權處理,從而預測出正確的結果。
在“他從小學電腦技術” 這句話中,對於有歧義的部分“從小學”(有“從/小學”和“從小/學”兩種分法),該模型能夠對“從小”和“學”分配更高的權重,而對錯誤的n元組——“小學”分配較低的權重。
為了檢驗該模型的分詞效果,論文進行了嚴格的標準實驗和跨領域實驗。
實驗結果顯示,該模型在5個資料集(MSR、PKU、AS、CityU、CTB6)上的表現,均達了最好的成績(F值越高,性能越好)。(注:所選擇的五個資料集是中文分詞領域目前全世界唯一通用的標準資料集)
創新工場大灣區人工智慧研究院執行院長宋彥表示,與前人的模型進行比較發現,該模型在所有資料集上的表現均超過了之前的工作,“把中文分詞領域廣泛使用的標準資料集上的性能全部刷到了新高。”
在跨領域實驗中,論文使用網路博客資料集(CTB7)測試。實驗結果顯示,在整體F值以及未登陸詞的召回率上都有比較大提升。
▌“雙通道注意力機制”,有效剔除“噪音”誤導
第二篇論文《Joint ChineseWord Segmentation and Part-of-speech Tagging via Two-way Attentions ofAuto-analyzed Knowledge》提供了一種基於雙通道注意力機制的分詞及詞性標注模型。
中文分詞和詞性標注是兩個不同的任務。詞性標注是在已經切分好的文本中,給每一個詞標注其所屬的詞類,例如動詞、名詞、代詞、形容詞。詞性標注對後續的句子理解有重要的作用。
在詞性標注中,歧義仍然是個老大難的問題。例如,對於“他要向全班同學報告書上的內容”中,“報告書”的正確的切分和標注應為“報告_VV/書_N”。但由於“報告書”本身也是一個常見詞,一般的工具可能會將其標注為“報告書_NN”。
句法標注本身需要大量的時間和人力成本。在以往的標注工作中,使用外部自動工具獲取句法知識是主流方法。在這種情況下,如果模型不能識別並正確處理帶有雜音的句法知識,很可能會被不準確的句法知識誤導,做出錯誤的預測。
例如,在句子“他馬上功夫很好”中,“馬”和“上”應該分開(正確的標注應為“馬_NN/上_NN”)。但按照一般的句法知識,卻可能得到不準確的切分及句法關係,如“馬上”。
針對這一問題,該論文提出了一個基於雙通道注意力機制的分詞及詞性標注模型。該模型將中文分詞和詞性標注視作聯合任務,可一體化完成。模型分別對自動獲取的上下文特徵和句法知識加權,預測每個字的分詞和詞性標籤,不同的上下文特徵和句法知識在各自所屬的注意力通道內進行比較、加權,從而識別特定語境下不同上下文特徵和句法知識的貢獻。
這樣一來,那些不準確的,對模型預測貢獻小的上下文特徵和句法知識就能被識別出來,並被分配小的權重,從而避免模型被這些有噪音的資訊誤導。
即便在自動獲取的句法知識不準確的時候,該模型仍能有效識別並利用這種知識。例如,將前文有歧義、句法知識不準確的句子(“他馬上功夫很好”),輸入該雙通道注意力模型後,便得到了正確的分詞和詞性標注結果。
為了測試該模型的性能,論文在一般領域和跨領域分別進行了實驗。
一般領域實驗結果顯示,該模型在5個資料集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的表現(F值)均超過前人的工作,也大幅度超過了斯坦福大學的 CoreNLP 工具,和伯克利大學的句法分析器。
即使是在與CTB詞性標注規範不同的UD資料集中,該模型依然能吸收不同標注帶來的知識,並使用這種知識,得到更好的效果。
而在跨領域的實驗中,和斯坦福大學的CoreNLP 工具相比,該模型也有近10個百分點的提升。
▌主動引入和分辨知識,實現中文分詞技術突破
中文分詞在中國科研領域已經有幾十年的歷史。最初的中文分詞是基於詞典構建,詞典的好壞會直接影響到最後分析的效果。如果某個新詞在詞典裡沒有,那麼模型是死活都分不出來的。
這種方式的局限性還在於,詞典和分詞兩件事情中間始終有一條鴻溝,儘管詞典可以編撰得非常全面,但在處理分詞的時候,因為每一句話都有上下文語境,往往會產生多種不同的切分方法,從而無法有效地在當前語境下對分詞結構進行恰當的指導。
從2003年開始,分詞方法出現了新的突破。研究人員提出了打標籤的方式,通過給每一個字打詞首、詞尾、詞中的標籤,不再需要構建詞典,大幅度提升了未登錄詞的召回效果。
到了2014年左右,深度學習和神經網路開始被廣泛應用到中文分詞中,打標籤的模型從之前的淺層學習變成了深度學習,但演算法本質沒有發生變化,所以提升作用並不太大。
近兩年,學界開始研究怎麼在打標籤的過程中加入外部知識和資訊。創新工場的這兩篇文章就是沿著這個路徑,用記憶神經網路的方式記錄對分詞結果有影響的 n元組,並引入對詞性標注有影響的句法知識,將分詞結果和自動獲得的知識銜接起來,既發揮了神經網路的優勢,也把知識的優勢用上,實現了分詞技術上小而有效的改進和突破。
宋彥表示,“從技術創新的角度,我們的貢獻主要有兩點。一是在現有技術的基礎上,建立了一個一體化的模型框架,使用非監督方法構建詞表,並把知識(資訊)融入進來,使用更高層次的句法知識,來幫助詞性標注,起到'他山之石,可以攻玉’的效果。”
“二是主動吸收和分辨不同的外部知識(資訊)。通過鍵-值記憶神經網路和雙通道注意力機制,進行動態權重的分配,能夠有效分辨知識,區分哪些是有效的,哪些是無效的。雖然這些知識是自動獲取的、不準確的,但‘三個臭皮匠,頂個諸葛亮’,經過有效利用,總能湊出一些有用的資訊。如何實現模型的主動吸收和分辨,就變得更加重要。”
據瞭解,今年的ACL大會,在分詞領域一共收錄了18篇論文,創新工場人工智慧工程院同時有2篇入選,也表現出ACL官方對這一貢獻的認可。
▌具備跨領域分詞能力,提升工業應用效率
中文分詞和詞性標注是最底層的應用,對於接下來的應用和任務處理非常重要。例如對於文本分類、情感分析,文本摘要、機器翻譯等,分詞都是不可或缺的基本“元件”。
宋彥表示,做此項研究的目的是主要為了拓展其工業場景的應用,正確的分詞能夠平衡公司應用開發的效率和性能,同時方便人工干預及(預)後處理。
這也是創新工場人工智慧工程院的努力方向之一。工程院成立於2016年9月,宗旨是銜接科技創新和行業賦能,做嫁接科研和產業應用的橋樑,為行業改造業務流程、提升業務效率。
工程院下設北京總部、南京研究院和大灣區研究院。大灣區研究院再下設資訊感知和理解實驗室,專注于對自然語言處理(NLP)領域的研究。執行院長宋彥本人也有超過15年的NLP領域的科研經驗。
“在工業場景使用的時候,跨領域的模型能力是一個非常直接的訴求。”宋彥表示,在某個領域的訓練模型,大概率也需要應用到其他領域。
“如何在新領域缺少資料,或者新領域只有少量未標注資料的情況下,實現模型的冷開機,依然是項巨大的挑戰。如果能利用外部知識,提高模型性能,就能有效地召回很多在訓練集中沒有出現過的新詞。”
例如搜尋引擎的廣告系統,最初也是通過組詞匹配的方式,在某個特定領域訓練其分詞模型,但在進入一個新的領域時,例如從新聞領域進入醫療領域或體育領域,效果往往會大打折扣,甚至頻頻出錯。
而使用跨領域特性後,廣告系統在進入新領域時,便無需額外的資料,就可以對它進行比較準確的分詞和標注,從而有效匹配廣告和客戶,大大提升系統運行的效率和穩定性。
目前,這兩篇論文的工具都已經開源,在下面兩個連結中,可以找到對應的所有代碼和模型,各位朋友可按需自取:
分詞工具:https://github.com/SVAIGBA/WMSeg
分詞及詞性標注工具:https://github.com/SVAIGBA/TwASP