以下是寫給指考倒數三天的考生的五個小建議
先說,都是很基本的建議
如果你已經有你的計劃,忽略本篇按照你計畫走
1.為每一科做一張小抄
這不是開玩笑,你要用你想作弊的心態全力來做這張小抄
拿一張A4紙,不可以更大
假裝這張A4紙是隱形的,只有你看的見,可以讓你帶進考場盡情看
拚全力也會去...
以下是寫給指考倒數三天的考生的五個小建議
先說,都是很基本的建議
如果你已經有你的計劃,忽略本篇按照你計畫走
1.為每一科做一張小抄
這不是開玩笑,你要用你想作弊的心態全力來做這張小抄
拿一張A4紙,不可以更大
假裝這張A4紙是隱形的,只有你看的見,可以讓你帶進考場盡情看
拚全力也會去翻遍所有書,把最關鍵記不清楚的重點,用最小的字給抄上去,而且一定抄的很扼要精簡對吧
這至少有幾個好處,首先,你現在八成很緊張,念不太下書
做這張小抄非常有助於你安穩心神,不會再慌張不知道要讀哪
反正就可以專心在把重點抄上去這件事情上
有事做就不會胡思亂想了
再來,等做完你就會發現,這張小抄就是你的弱點集合
而且一般會以瑣碎性的難記憶的東西,或者最重要的觀念居多
要知道考試就是比誰能在最短期塞進最多知識
根據我個人經驗,考試前休息時間專K這張小抄就好,往往都可以幫你撿到幾題
這可以是拉開千人差距的幾題,你說有沒有用?
當然,不要真的帶進考場用就好,抄近腦袋才是全世界最強的作弊方式。
2.作息規律,生活正常,比什麼都重要
現在倒數三天了,已經是調時差最後的期限
千千萬萬不要因為擔心讀不完而熬夜
我們的身體都是有生理時鐘,會自動適應的
最好的時間是十一二點睡,六七點起床
如此你的腦袋才有可能來的及在考試前完全開機完畢
還有如果你平常沒有喝咖啡 提神飲料的習慣
現在也碰都不要去碰
有些提神飲料真能提神,但是會讓你恍惚的提神
有些人喝了咖啡會有強烈利尿效果,反而讓你無法專注
真要安全的提神,去藥局買罐維他命B吧,那最安全
3.不要把書唸完,念你熟的重點
千萬不要有用剩下的時間把全部範圍走一次的心態,這會毀了你
理由分述如下,第一,如果你過去三年沒好好走完,那剩下幾天也不會
第二,就算你真的走完了也沒意義,因為僅是不熟的走過
考出來你會的機率還是接近零而且你還會有印象你看過,心情上更噢
第三,浪費了你可以守住你本來拿到分的可能性
剩下幾天最重要的,除了多練一點題目,熟悉手感外
就是把自己本就擅長的範圍,確定到可以百分百發揮的程度
其次是去念不太熟的範圍,練習之前錯過的題目
再其次是把書打開,看者目錄每一個篇章,思考每一個章節的重點
在腦袋中要到能完全演練,甚至口述給朋友聽的程度
最後最後,你真的強到不能再強的程度,再去隨意翻你沒看完的範圍吧
4.作文的重點在價值,價值,價值,再說一次價值
中英文作文都是如此,我這幾天改了N份作文
心得是太多人都捨本逐末,去追求修辭華麗,詞藻堆砌,卻忘了文章的靈魂
這樣說吧,修辭與文法等不是不重要,他就像包裝
包裝的好會讓人想要買他沒有錯
但真正最關鍵的還是內容物阿,完全不知道你內容物是有啥用?
好比:圓夢這題目,很多同學根本把這題目當我的志願來寫
就寫自己想圓什麼夢就結束了
這會高分才怪阿
老師要看的是你的想法與見解好嗎
你該做的是率先解釋圓夢的價值,並且最重要的他對你而言有什麼意義
千千萬萬,不管你打算寫什麼文體,不要把作文當成說文解字
就真的乖乖按照字面意思去解
阿這小學生也做得到阿,要你高中生幹嘛
最好的方法是要拉出對你而言獨特的意義
好比圓夢對你真正的意義在於父愛
為什麼呢? 因為你辛苦追夢了半天,發現只是為了要取得父親的認可
最後結尾在說後來發現父親不管怎樣都愛你,所以你夢圓了,結論再渲染一下拉高價值
請見證奇蹟的時刻,一份高分作文就出現了
懂嗎? 如果你永遠在捨本逐末,分數頂多就是20上下而已,不可能突破的
另外還有諸如不要鋪梗鋪太長,最好用破題法等等等,但這每個人需要的建議都不同
麻煩傳作文給我看我才能知道你問題在哪
5.成績單那張紙真的不會決定你努力的價值
從放棄學測,決定考指考以來
朋友的質疑,師長的不支持,對上榜的同學的羨慕,無盡只有一個人奮鬥的夜
那種孤單的感受,不僅僅是一個人而已
更是無法被理解,是無法被體諒
惶恐復出沒回報,害怕最後被嘲笑
對於未來深深的無力感
沒有經歷過的人是不可能體會的
但我想說的是:
孩子,那就夠了,真的夠了
在十七.八歲的年紀,你就一肩扛起對未知的恐懼,默默與世界抗爭
從來就不是所有人都有這般勇氣
或許害怕,或許也很想放棄
可你終究是走到這裡了阿
你在這中間念到的知識,學會如何為自己負責的態度,去挑戰一個不同選擇的勇氣
這些從來都不會白費,更不是那一張紙就能肯定或否定的
聽我一言,給自己多一點點的勇氣與自信好嗎?
不然就太對不起獨自奮鬥了這麼久以來的你自己了
跨出去吧,為了夢想,有何不可呢?
________________________
樂擎文,@elsie_421圖
@Luke7459,有什麼需要都可以來找我幫忙喔,盡量用臉書啦,ig我回不快
華擎無法開機 在 李屏瑤 Facebook 的最佳貼文
標題|
就這樣被你增幅
文字|李屏瑤
攝影|汪正翔
採訪當日,行政院正風風火火舉辦振興三倍券記者會,訪客們在大門外魚貫而入,查驗身份,測量體溫,通過後會得到一張圓形的黃色小貼紙。
唐鳳準時從現場返回政委辦公室。長方形空間一目瞭然,進門是沙發區,最內是辦公桌,右側是一面書櫃牆,連結貌似衣櫃的小門,零星擺設著幾盆受贈的蘭花。訪談正式開始前,她詢問,能否給她五分鐘換件衣服?當然好。下一個動作,她打開衣櫃門,側身鑽了進去。
從訪客角度看來,衣櫃窄小,該如何在逼仄的空間伸展?
偶有細微的聲響傳來,再過片刻,唐鳳走出櫃體。問門後有什麼?唐鳳帶點捉狹答:「納尼亞。」門後沒有獅子或女巫,是政委專屬的密室。而唐鳳其人,的確像是來自奇幻世界,一再提供嶄新的概念與解方。
早慧的孩子放不太進傳統教育的固定方格,遭受霸凌,轉學數次。在家人的支持下,唐鳳14歲便在家自學,16歲與朋友創辦首個開源軟體商業公司。1998年發起Pugs專案,將Perl語言帶領至新境界。擔任過蘋果公司顧問,也是世界著名的公民黑客,預計在33歲退休,卻轉了一個更入世的彎。
2016年,35歲的唐鳳出任中華民國行政院政務委員,是台灣第一位數位政委、第一位跨性別閣員。
因為武漢肺炎(COVID-19)防疫戰,唐鳳帶領科技人才開發口罩地圖,跨部門溝通合作,在三天內讓口罩實名制從1.0跨到2.0,建立多元服務管道。專業能力與個人魅力再次引發關注,國內外的知名度大增,日本媒體將她譽為「台灣天才IT大臣」,美國研究季刊《外交政策》選入「世界百大天才頭腦」。
唐鳳講話語速極快,如同急板,以穩定的節拍推進。語速再快,也很難追趕上她的思緒,心智總是跑得很前面。像是整場童年,8歲孩子試著在困境中求生。
幸好有喜歡閱讀的父母,父親每次領薪水就會買一大堆書,家中藏書豐富。她在小學二年級下學期休息,花了半年讀書,看皮亞傑、發展心理學跟兒童心理學,嘗試瞭解「霸凌」的結構性成因。
「因為他們的自信心是建立在一些很薄弱的東西上,例如『我是班上第二名,我沒有自信心,第一名轉學轉走了我就變成第一名,我就很有自信心』。我當時覺得完全沒有任何道理可言,但是如果一個人從小就是被『相互比較』定義自信的話,很容易有『把你趕走、我就變第一名』的這種虛幻的感覺。當然還有很多比較、壓力,可能家長的成就焦慮等等也加諸在他的身上。」唐鳳說明,「一旦瞭解之後,就不會有一種很像被霸凌的感覺。我就跟他們追求的不一樣。我在國中的時候,段考還是去,即使校長說不用去。我去就都交白卷,這個是很明確的社會訊號。就是對跟你爭奪排名沒有興趣,大概是這樣子。所以這樣就解決了,沒有人霸凌。」
穿越雜訊,漸次理解真相,除了獨自的掙扎,背後也有眾人之力。
家人的支持,善解的中學校長,都替他創造不同於傳統體制的發展空間,不強制她上學,只要交報告。在科展拿了第一名,獲得保送建中的資格,家人與校長都理解她不繼續升學的決定。她跟建中資訊社的人交了朋友,每天在線上聊天,朋友說他即使入學,也會一天到晚請公假出去,不會有什麼差別。等於在同儕的支持下,做出另類的選擇。
「並不是吃紅色藥丸之類的。」唐鳳笑說,「並不是我多麼了不起,而是有支持的社群可以在無痛的情況下,進入吃了紅藥丸的世界。沒有Morpheus或者是Trinity的話,也沒有辦法自己一個人拔線,拔了可能就淹死了。」《駭客任務》中,Neo覺察真實之前,身上有數個與母體相連的連結器,其中一個在後頸。唐鳳的後頸同一部位,有個如同電源鍵的刺青,多數時間都被長髮蓋住,開關由她自行掌握。
以自身經驗去觀察教育現場,她建議家長要多從小孩的角度思考。任何年紀都是要適性揚才,自發互動共好。有些念技術高中、普通高中的孩子可能想立刻學以致用,往往被家人要求先去唸大學,反而扼殺了對學問的好奇心。
「你隨便看一個2、3歲的小孩,對世界都非常有興趣。還沒有內在動機的時候,你用外部動機強加他,來做行為轉變,就抵銷掉內在動機,這個是最核心的。」唐鳳說,「「我會建議這兩、三年,不管是創業、就業、島內移民去當志工都隨便,當gap year,等到他真的20歲的時候,如果當時想要回到大學,就帶著學習動機回去,不要push他一定要升學。你不扼殺就會維持。」
身為中華民國史上第一位跨性別閣員,她在性別欄填了「無」,黨籍也是「無」。若遇到無此選項的表格,她會在格子裡寫「無」。
「他們要你打勾,你可以不用打勾。因為空格長這樣子,對不對?你還是可以寫『無』。」若遇到不選擇便無法繼續下去的網頁,仍舊有解,唐鳳教學,「你要開文件物件模型編輯器,按右鍵,然後按『檢測元素』,按了之後就可以去改他的值。」
她來,她見,她編輯。凡唐鳳經過之處,選項都會變成她希望的樣貌。
「經常做這一件事。當時我要入境某個國家,一定要我選某個國籍,國籍也沒有別的選項,就是『Taiwan (Province of China)』,不然就得選『People’s Republic of China』,等於只給兩個選項。我就是開網頁檢閱器,就改成『Taiwan (Republic of Citizens)』,然後我就送出,入海關就刷e-visa,海關有看到『Taiwan (Republic of Citizens)』。因為條碼掃得過,就過了。」她說,「其實網站的原理是後台給你一大堆資料,不一定要用任何特定的方法顯示。你在手機上看到跟桌面上看到的本來就不一樣,很像給你一些蓋板廣告,有些人會裝一些程式拿掉。好比看FB的時候我有用插件把整面牆拿掉,那都是你的自由,但是不需要改後端的程式。」
唐鳳展示iPad上的臉書介面,左右邊欄是模糊的馬賽克,中間的動態牆是消失的。只有來自阿得勒的一句話:“True freedom is impossible without a mind made free by discipline.”(除非你運用紀律,讓你的心靈自由,不然無法達到真實的自由。)
「因為沒有非預期的東西,你不會一直滑。滑也不會有東西,就是錦句跟你對看,不會臉書成癮,如果想要進入這個世界的話,只要裝一個News Feed Eradicator,就是我的FB樣子。如果不太喜歡阿德勒,可以改別的引用。」她說,「想要看朋友,就有點像用搜尋引擎那樣。或是我工作25分鐘,休息5分鐘的時候,稍微看一下大家最近怎麼樣關心我,或是我關心的一些關鍵字,有一個瀏覽器的頁籤,可以看看大家的批評指教,快速回一下,但是一天不會超過15分鐘。如果有動態牆,你看到的是不預期,就會一直觸發多巴胺迴路。把這邊拿掉之後,要抽身是很容易的事。」
她的家裡有wifi,可是目前沒有在使用。回到家就關閉可能的刺激來源,手機也調到靜音,家中使用的3C是Nokia 8110,即Neo復刻版香蕉機。可以傳簡訊,玩貪食蛇,開太複雜的網頁會當機,光是捲動介面到最底下,就要按個50秒。
「主要是因為我現在的狀況比較特別,我在處理的題目,大家都有非常建設性的想法,所以只要一出現在網路上,大家就會很願意給我一些意見。這些意見又是有公共利益,不回也不對,所以我回了,那個人就被『增幅』,很高興,就會呼朋引伴,會有一大堆的意見。所以,如果下班的時候還有任何讓我可以登入的設備,這個循環就不會停。而且如果他講的真的很有道理,我也沒有辦法控制不去想它。最好的方法是,我晚上7點下班,什麼都看不到。回家縱然有Nokia 8110,但是沒有登入帳號,一般圍觀的鄉民看得到的東西,我才看得到。」唐鳳說,「也不是說抵抗這個誘惑,而是生活方式的選擇。就像Donald Knuth說的,你可以on the top of things,最新的發展隨時都可以看到,或者at the bottom of things,去追根究柢把一個思路走通。這兩個就算都是我的興趣,也不可能都是我做,所以一天要有一半的時間做這個,一半的時間做那個。」
現階段的生活沒有空看電影、沒有空玩遊戲,她會看影評或是劇本,無法實時交換,就縮時娛樂。沒有時間玩的動物森友會,她跟故宮建議,不如把國寶放進去?故宮採用此建議,她非常高興。不是玩家,卻以另一種形式參與了遊戲。
唐鳳多半不在行政院上班,主要的工作空間在社會創新實驗中心。中心位在空軍總司令基地部舊址,提供展演場館、不同主題的實驗平台、共創工作空間、民眾參與區域等。因為大眾對唐鳳的熟悉與關注度增加,常常工作到一半,會有人敲玻璃窗。她一回頭,就會迎上民眾已經準備好的手機鏡頭。最近她已經請同事協助加裝窗簾。肉身的部分會被敲玻璃,數位則會有四面八方的來訊,她擬定好清晰的策略:將自己視為二創的素材。一開始就把CC授權講清楚,全面開放取用,就不需要回覆各種詢問,將實體與數位都拉出適當的屏障。
作息規律,晚上七點必定離開辦公空間,每日睡眠八小時。如果遇到複雜的問題,例如之前從口罩1.0升級到2.0的過程,她會加班,轉而睡九個小時。若需要睡到十個小時,那必定是最複雜的狀況。
網路傳說,唐鳳醒來的時候會有開機的音樂?她秒答:沒有啦!
但在每日結束之前,她習慣清空。回完所有e-mail,今日事今日畢,全部收束。睡前沒有關機音樂,醒來也沒有開機音樂,每一天都是新的開始,每天都是一次reset。如此習慣,來此曾經被下達的時限。因為先天的心臟問題,對於未來的時間她聽過一些估算,例如活不過4歲,活不過12歲。
「我從小都是有一種明天不知是否能醒來的狀況,所以每天有一個收束的感覺是很重要的。不管明天是否起得來,我覺得今天都要好好地過。」她說,「你睡醒來的時候,腦裡才是未來,才不會被過去所捆綁,所謂『苟日新,日日新,又日新』的精神。所謂理想的未來是在當下、現在,如果可以把某部分的未來帶來,我就今天把它帶來。而我今天如果沒有辦法帶來的話,也不會去冀望於明天。」
拍攝進行的某瞬間,投影機無預警滅了,旁邊的眾人起鬨說是腦波攻擊。唐鳳笑回:「其實我只是個快取。」快取也好,母體也罷,肉身有限,而思想無垠。在人類有限的時間裡,唐鳳高速運轉,繼續趨近未來的未來。
#
感謝抽空受訪的唐鳳政委、已被增幅。
#
刊登於 新活水 七月號
#在家就是全世界 #在家就是要摸貓 #不然你在家都幹嘛
讀冊 👉https://reurl.cc/qdlRoE
博客來👉https://reurl.cc/rx7qXZ
誠品👉https://reurl.cc/9EKdNa
新活水IG 👉https://reurl.cc/yZRpka
華擎無法開機 在 李開復 Kai-Fu Lee Facebook 的最佳解答
來自創新工場大灣區人工智慧研究院的兩篇論文入選了自然語言處理領域(NLP)頂級學術會議 ACL 2020 。
這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各資料集上的分數全部刷至新高,在工業中也有著可觀的應用前景。
本文來自創新工場公眾號
……………………………………………………………………
創新工場兩篇論文入選ACL 2020,將中文分詞性能刷至新高
“土地,我的金箍棒在哪裡?”
“大聖,你的金箍,棒就棒在,特別配你的髮型。”
感謝神奇的中文分詞,給我們帶來了多少樂趣。豐富多變的中文行文,給人的理解造成歧義,也給AI分詞帶來挑戰。
近日,自然語言處理領域(NLP)頂級學術會議 ACL 2020 (https://acl2020.org/)正在火熱舉行。
令人振奮的是,來自創新工場大灣區人工智慧研究院的兩篇論文入選。這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各資料集上的分數全部刷至新高,在工業中也有著可觀的應用前景。
分詞及詞性標注是中文自然語言處理的基本任務,尤其在工業場景對分詞有非常直接的訴求,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。
基於此,兩篇論文各自提出了“鍵-值記憶神經網路的中文分詞模型”和“基於雙通道注意力機制的分詞及詞性標注模型”,將外部知識(資訊)創造性融入分詞及詞性標注模型,有效剔除了分詞“噪音”誤導,大幅度提升了分詞及詞性標注效果。
兩篇文章的作者有:華盛頓大學博士研究生、創新工場實習生田元賀,創新工場大灣區人工智慧研究院執行院長宋彥,創新工場科研合夥人張潼,創新工場CTO兼人工智慧工程院執行院長王詠剛等人。
ACL(The Association for ComputationalLinguistics)國際計算語言學協會是自然語言處理領域影響力最大、最具活力的國際學術組織之一,自1962年創立以來已有58年歷史,其每年夏天舉辦的年會是該領域學術頂會。
與往年不同的是,受新冠疫情影響,ACL2020全部轉為線上進行,不過這絲毫沒有減弱熱度。根據之前公佈的資料,今年大會投稿數量超過3000篇,共接收 779 篇論文,包括 571 篇長論文和 208 篇短論文,接收率為 25.2%,在全球疫情衝擊下反而是有史以來最盛大的一屆ACL會議,創新工場的技術大牛們也頂著時差連續數晚熬夜參會。
▌利用記憶神經網路,將中文分詞性能刷到歷史新高
中文分詞目的是在中文的字序列中插入分隔符號,將其切分為詞。例如,“我喜歡音樂”將被切分為“我/喜歡/音樂”(“/”表示分隔符號)。
中文語言因其特殊性,在分詞時面臨著兩個主要難點。一是歧義問題,由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。例如,“部分居民生活水準”,其正確的切分應為“部分/居民/生活/水準”,但存在“分居”、“民生”等歧義詞。“他從小學電腦技術”,正確的分詞是:他/從小/學/電腦技術,但也存在“小學”這種歧義詞。
二是未登錄詞問題。未登錄詞指的是不在詞表,或者是模型在訓練的過程中沒有遇見過的詞。例如經濟、醫療、科技等科學領域的專業術語或者社交媒體上的新詞,或者是人名。這類問題在跨領域分詞任務中尤其明顯。
對此,《ImprovingChinese Word Segmentation with Wordhood Memory Networks》這篇論文提出了基於鍵-值記憶神經網路的中文分詞模型。
該模型利用n元組(即一個由連續n個字組成的序列,比如“居民”是一個2元組,“生活水準”是一個4元組)提供的每個字的構詞能力,通過加(降)權重實現特定語境下的歧義消解。並通過非監督方法構建詞表,實現對特定領域的未標注文本的利用,進而提升對未登錄詞的識別。
例如,在“部分居民生活水準”這句話中,到底有多少可能成為詞的組塊?單字可成詞,如“民”;每兩個字的組合可能成詞,如“居民”;甚至四個字的組合也可能成詞,例如“居民生活”。
把這些可能成詞的組合全部找到以後,加入到該分詞模型中。通過神經網路,學習哪些詞對於最後完整表達句意的幫助更大,進而分配不同的權重。像“部分”、“居民”、“生活”、“水準”這些詞都會被突出出來,但“分居”、“民生”這些詞就會被降權處理,從而預測出正確的結果。
在“他從小學電腦技術” 這句話中,對於有歧義的部分“從小學”(有“從/小學”和“從小/學”兩種分法),該模型能夠對“從小”和“學”分配更高的權重,而對錯誤的n元組——“小學”分配較低的權重。
為了檢驗該模型的分詞效果,論文進行了嚴格的標準實驗和跨領域實驗。
實驗結果顯示,該模型在5個資料集(MSR、PKU、AS、CityU、CTB6)上的表現,均達了最好的成績(F值越高,性能越好)。(注:所選擇的五個資料集是中文分詞領域目前全世界唯一通用的標準資料集)
創新工場大灣區人工智慧研究院執行院長宋彥表示,與前人的模型進行比較發現,該模型在所有資料集上的表現均超過了之前的工作,“把中文分詞領域廣泛使用的標準資料集上的性能全部刷到了新高。”
在跨領域實驗中,論文使用網路博客資料集(CTB7)測試。實驗結果顯示,在整體F值以及未登陸詞的召回率上都有比較大提升。
▌“雙通道注意力機制”,有效剔除“噪音”誤導
第二篇論文《Joint ChineseWord Segmentation and Part-of-speech Tagging via Two-way Attentions ofAuto-analyzed Knowledge》提供了一種基於雙通道注意力機制的分詞及詞性標注模型。
中文分詞和詞性標注是兩個不同的任務。詞性標注是在已經切分好的文本中,給每一個詞標注其所屬的詞類,例如動詞、名詞、代詞、形容詞。詞性標注對後續的句子理解有重要的作用。
在詞性標注中,歧義仍然是個老大難的問題。例如,對於“他要向全班同學報告書上的內容”中,“報告書”的正確的切分和標注應為“報告_VV/書_N”。但由於“報告書”本身也是一個常見詞,一般的工具可能會將其標注為“報告書_NN”。
句法標注本身需要大量的時間和人力成本。在以往的標注工作中,使用外部自動工具獲取句法知識是主流方法。在這種情況下,如果模型不能識別並正確處理帶有雜音的句法知識,很可能會被不準確的句法知識誤導,做出錯誤的預測。
例如,在句子“他馬上功夫很好”中,“馬”和“上”應該分開(正確的標注應為“馬_NN/上_NN”)。但按照一般的句法知識,卻可能得到不準確的切分及句法關係,如“馬上”。
針對這一問題,該論文提出了一個基於雙通道注意力機制的分詞及詞性標注模型。該模型將中文分詞和詞性標注視作聯合任務,可一體化完成。模型分別對自動獲取的上下文特徵和句法知識加權,預測每個字的分詞和詞性標籤,不同的上下文特徵和句法知識在各自所屬的注意力通道內進行比較、加權,從而識別特定語境下不同上下文特徵和句法知識的貢獻。
這樣一來,那些不準確的,對模型預測貢獻小的上下文特徵和句法知識就能被識別出來,並被分配小的權重,從而避免模型被這些有噪音的資訊誤導。
即便在自動獲取的句法知識不準確的時候,該模型仍能有效識別並利用這種知識。例如,將前文有歧義、句法知識不準確的句子(“他馬上功夫很好”),輸入該雙通道注意力模型後,便得到了正確的分詞和詞性標注結果。
為了測試該模型的性能,論文在一般領域和跨領域分別進行了實驗。
一般領域實驗結果顯示,該模型在5個資料集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的表現(F值)均超過前人的工作,也大幅度超過了斯坦福大學的 CoreNLP 工具,和伯克利大學的句法分析器。
即使是在與CTB詞性標注規範不同的UD資料集中,該模型依然能吸收不同標注帶來的知識,並使用這種知識,得到更好的效果。
而在跨領域的實驗中,和斯坦福大學的CoreNLP 工具相比,該模型也有近10個百分點的提升。
▌主動引入和分辨知識,實現中文分詞技術突破
中文分詞在中國科研領域已經有幾十年的歷史。最初的中文分詞是基於詞典構建,詞典的好壞會直接影響到最後分析的效果。如果某個新詞在詞典裡沒有,那麼模型是死活都分不出來的。
這種方式的局限性還在於,詞典和分詞兩件事情中間始終有一條鴻溝,儘管詞典可以編撰得非常全面,但在處理分詞的時候,因為每一句話都有上下文語境,往往會產生多種不同的切分方法,從而無法有效地在當前語境下對分詞結構進行恰當的指導。
從2003年開始,分詞方法出現了新的突破。研究人員提出了打標籤的方式,通過給每一個字打詞首、詞尾、詞中的標籤,不再需要構建詞典,大幅度提升了未登錄詞的召回效果。
到了2014年左右,深度學習和神經網路開始被廣泛應用到中文分詞中,打標籤的模型從之前的淺層學習變成了深度學習,但演算法本質沒有發生變化,所以提升作用並不太大。
近兩年,學界開始研究怎麼在打標籤的過程中加入外部知識和資訊。創新工場的這兩篇文章就是沿著這個路徑,用記憶神經網路的方式記錄對分詞結果有影響的 n元組,並引入對詞性標注有影響的句法知識,將分詞結果和自動獲得的知識銜接起來,既發揮了神經網路的優勢,也把知識的優勢用上,實現了分詞技術上小而有效的改進和突破。
宋彥表示,“從技術創新的角度,我們的貢獻主要有兩點。一是在現有技術的基礎上,建立了一個一體化的模型框架,使用非監督方法構建詞表,並把知識(資訊)融入進來,使用更高層次的句法知識,來幫助詞性標注,起到'他山之石,可以攻玉’的效果。”
“二是主動吸收和分辨不同的外部知識(資訊)。通過鍵-值記憶神經網路和雙通道注意力機制,進行動態權重的分配,能夠有效分辨知識,區分哪些是有效的,哪些是無效的。雖然這些知識是自動獲取的、不準確的,但‘三個臭皮匠,頂個諸葛亮’,經過有效利用,總能湊出一些有用的資訊。如何實現模型的主動吸收和分辨,就變得更加重要。”
據瞭解,今年的ACL大會,在分詞領域一共收錄了18篇論文,創新工場人工智慧工程院同時有2篇入選,也表現出ACL官方對這一貢獻的認可。
▌具備跨領域分詞能力,提升工業應用效率
中文分詞和詞性標注是最底層的應用,對於接下來的應用和任務處理非常重要。例如對於文本分類、情感分析,文本摘要、機器翻譯等,分詞都是不可或缺的基本“元件”。
宋彥表示,做此項研究的目的是主要為了拓展其工業場景的應用,正確的分詞能夠平衡公司應用開發的效率和性能,同時方便人工干預及(預)後處理。
這也是創新工場人工智慧工程院的努力方向之一。工程院成立於2016年9月,宗旨是銜接科技創新和行業賦能,做嫁接科研和產業應用的橋樑,為行業改造業務流程、提升業務效率。
工程院下設北京總部、南京研究院和大灣區研究院。大灣區研究院再下設資訊感知和理解實驗室,專注于對自然語言處理(NLP)領域的研究。執行院長宋彥本人也有超過15年的NLP領域的科研經驗。
“在工業場景使用的時候,跨領域的模型能力是一個非常直接的訴求。”宋彥表示,在某個領域的訓練模型,大概率也需要應用到其他領域。
“如何在新領域缺少資料,或者新領域只有少量未標注資料的情況下,實現模型的冷開機,依然是項巨大的挑戰。如果能利用外部知識,提高模型性能,就能有效地召回很多在訓練集中沒有出現過的新詞。”
例如搜尋引擎的廣告系統,最初也是通過組詞匹配的方式,在某個特定領域訓練其分詞模型,但在進入一個新的領域時,例如從新聞領域進入醫療領域或體育領域,效果往往會大打折扣,甚至頻頻出錯。
而使用跨領域特性後,廣告系統在進入新領域時,便無需額外的資料,就可以對它進行比較準確的分詞和標注,從而有效匹配廣告和客戶,大大提升系統運行的效率和穩定性。
目前,這兩篇論文的工具都已經開源,在下面兩個連結中,可以找到對應的所有代碼和模型,各位朋友可按需自取:
分詞工具:https://github.com/SVAIGBA/WMSeg
分詞及詞性標注工具:https://github.com/SVAIGBA/TwASP
華擎無法開機 在 文茜的世界周報 Sisy's World News Facebook 的最讚貼文
1207新加坡聯合早報
*【白宮表明不會參與司法委員會彈劾聽證會】
白宮表示,將不會出席眾議院司法委員會下周就彈劾總統川普舉行的聽證會。白宮律師Pat Cipollone在寫給司法委員會主席Jerry Nadler的信件中,指民主黨的彈劾調查“毫無根據”,又指眾議院議長裴洛西在委員會未聽取證供時,就已下令民主黨議員草擬彈劾條款。
https://www.zaobao.com.sg/realt…/world/story20191207-1011389
*【針對川普彈劾條款 美眾議院司法委最早下週四投票】
美國眾議院議長裴洛西宣佈,她已正式要求眾議院司法委員會草擬針對總統川普的彈劾條款。多名民主黨眾議員向外界透露,彈劾條款可能包括多項罪名,包括濫權、賄賂、妨礙司法和國會調查等。
https://www.zaobao.com.sg/news/world/story20191207-1011296
*【庫德洛:美中接近達成首階段貿易協定】
美國白宮經濟顧問庫德洛說,美中兩國近日正加緊磋商,已接近達成首階段貿易協定。他也指出,12月15日是一個非常重要的日子,將決定是否進一步向中國加徵關稅。
https://www.zaobao.com.sg/realt…/world/story20191207-1011383
*【中國宣佈免除部分美國大豆及豬肉進口關稅】
中國國務院關稅稅則委員會宣佈,將免除部分美國大豆和豬肉的進口關稅。在中美雙方努力化解曠日持久的貿易戰之際,這被視為中方釋放善意之舉。
https://www.zaobao.com.sg/finan…/china/story20191207-1011355
*【強勁就業資料和中美有望達成協議 促使美國股市大漲】
美國11月份強勁的就業資料,加上中美貿易協定有望很快達成,促使美國股市週五大漲。截至當天收盤,道瓊工業平均指數上漲337.27點,收於28015.06,漲幅為1.22%。標準普爾500指數上漲28.48點,收於3145.91點,漲幅為0.91%。納斯達克綜合指數上漲85.83點,收於8656.53點,漲幅為1.00%。
https://www.zaobao.com.sg/realt…/world/story20191207-1011386
*【美國11月就業增長率回升】
美國就業增長率11月份強勢回升,失業率追平半個世紀低點且工資超過預期。
美國勞工部發佈的資料,11月份非農就業增加26.6萬,超過接受調查的所有經濟學家預期,也是1月份以來最大增幅;10月份上修為增加15.6萬。
https://www.zaobao.com.sg/realt…/world/story20191206-1011251
*【為明年經濟工作定調 習近平要求深化改革擴大開放】
據新華社報導,會議肯定今年以來的工作保持了經濟社會持續健康發展,改革開放邁出重要步伐,供給側結構性改革繼續深化,科技創新取得新突破,人民群眾獲得感、幸福感、安全感提升,“十三五”(2016年至2020年)規劃主要指標進度符合預期,全面建成小康社會取得了新的重大進展。
https://www.zaobao.com.sg/finan…/china/story20191207-1011356
*【朝鮮或要重啟衛星發射器 及洲際彈道導彈引擎測試】
最新衛星圖像顯示,朝鮮可能準備重新開機為衛星發射器和洲際彈道導彈提供動力的引擎測試工作。
https://www.zaobao.com.sg/news/world/story20191207-1011292
*【伊拉克發生槍擊事件 16人死亡】
伊拉克首都巴格達6日發生槍擊事件,一夥身份不明的槍手闖入位於巴格達市中心的哈拉尼廣場,並向廣場上集會的示威人群開槍,造成16人死亡、47人受傷。
https://www.zaobao.com.sg/realt…/world/story20191207-1011387
*【日海岸衛隊資料: 中國艦艇進入中日爭議島嶼水域今年增八成】
日本海岸衛隊公佈的資料顯示,中國艦艇今年進入東海中日爭議島嶼附近水域的事件超過1000起,比去年增加80%,創下歷來最高,凸顯了亞洲兩個最大經濟體的緊張關係仍持續升溫。
https://www.zaobao.com.sg/news/world/story20191207-1011297
*【日媒盤點被美禁運的中國企業:逾200家】
美國政府對中國企業的制裁正在擴大。以2016年3月的中興通訊為開端,制裁數量急劇擴大。日本媒體對受到制裁的企業和團體數量進行調查發現,最近三年半超過200家中國企業被制裁。美國最近對中國初創企業的制裁也很引人注目。
https://www.zaobao.com.sg/realt…/china/story20191207-1011401
*【消息:中國將于下周啟動國家石油天然氣管道改革】
知情人士透露,中國將於12月9日宣佈創立籌畫已久的國家石油天然氣管道公司,以完成旨在讓能源供應滿足需求增長的最大的改革之一。
https://www.zaobao.com.sg/realt…/china/story20191207-1011398
*【貝萊德等全球基金公司巨頭據悉紛紛準備湧入中國市場】
全球資產管理公司在迎接中國的邀請,在這個全球發展最快的金融市場之一開展更多業務。
https://www.zaobao.com.sg/realt…/china/story20191207-1011391
*【印太18國空軍官員聚集夏威夷 美國稱彰顯共同願望應對中國】
印太地區18個國家的空軍指揮官和代表聚集在美國夏威夷州,出席第11屆空軍指揮官研討會最後一天的會議。美國空軍指揮官們說,印太地區國家軍方的踴躍參與使他們更有信心能聯合盟友和夥伴的力量共同應對中國。
https://www.zaobao.com.sg/realt…/china/story20191207-1011388
*【德國工業產值意外下降 表明製造業依然脆弱】
德國工業產值意外連續下降,令人擔憂製造業復蘇的一些早期跡象可能已消逝。彭博社報導,10月份工業產值下降1.7%,連續第二個月環比減少,並創下4月份以來的最大降幅,預期為增長0.1%。資料發佈之前,有報告顯示德國工廠訂單意外下滑,原因是德國國內以及歐元區19國以外的地區對投資品的需求疲軟。
https://www.zaobao.com.sg/realt…/world/story20191206-1011249
*【要求港府回應五大訴求 港民陣明天發起大遊行】
後天是香港反修例抗爭運動滿六個月的日子,當地民主派組織民間人權陣線明天將發起“國際人權日遊行”活動,要求特區政府回應抗爭者的五大訴求。
https://www.zaobao.com.sg/news/china/story20191207-1011284
*【7月至11月乘客量大跌1億餘人次 受示威影響港鐵今年淨利減少逾兩億元】
港鐵指出,反修例運動對公司造成的財務影響主要來自三方面,包括過去五個月乘客量跌逾一成、若干港鐵車站及設施被損毀和破壞需維修或更換,以及為提升人手和保安水準以及提供租金優惠和寬減而產生的其他費用。
https://www.zaobao.com.sg/finan…/china/story20191207-1011353
*【播英語紀錄片發表頭版評論 中國官媒通過多管道反擊美國涉疆法案】
中國官媒繼續通過多管道反擊美國的涉疆法案,央視旗下環球電視網(CGTN)播出英語紀錄片,用大量真實恐襲鏡頭講述新疆反恐形勢,並承認此前有大量暴恐案件未公開。《人民日報》則發表頭版評論批評美國在反恐上搞雙標。
https://www.zaobao.com.sg/news/china/story20191207-1011291
*【英國自2010年關閉近800圖書館】
英國新資料顯示,自英國政府於2010年實施緊縮政策以來,已經有近800家圖書館關閉。此外,圖書館訪問量和員工數量也有所下降。
https://www.zaobao.com.sg/realt…/world/story20191206-1011250
*【韓國望通過世衛組織向朝鮮提供援助】
韓國政府望通過世界衛生組織,向朝鮮提供500萬美元援助的方案。這是文在寅政府成立以來第三次通過國際組織對朝提供援助。
https://www.zaobao.com.sg/realt…/world/story20191206-1011244
*【沿虛擬軌道行駛 全球首條智慧快鐵四川開通】
中國四川宜賓開通全球首條智慧軌道快運系統,智慧電車無需鋼軌與管線,單憑地上的虛擬軌道,即可根據路線運行。
https://www.zaobao.com.sg/…/greater-c…/story20191207-1011283
*【“超級林火”狂燒雪梨國家公園 當地消防局:火勢已失控】
澳洲東部地區野火持續狂燒,新南威爾斯州鄉村消防局表示,在雪梨北部一處國家公園,那裡幾處林火已經串聯,現在形成了“超級林火”。當地消防局警告火勢已不受控制,目前只能盡全力保護民眾和產業,以及期望乾旱多風的氣候儘快結束。
https://www.zaobao.com.sg/…/internati…/story20191207-1011294
*【擬投入400億美元 雅加達未來10年大規模擴展地鐵網路】
雅加達希望在數月前剛開通的地鐵線路的基礎上,增加六條線路,從現有的16公里,擴大到2030年的230公里,讓地鐵網路達到像香港和新加坡的普及程度。
https://www.zaobao.com.sg/znews/sea/story20191206-1010999
*【梅克爾:納粹罪行無法與德國歷史分割】
梅克爾首次訪問位於波蘭奧斯維辛的前納粹集中營,她在致辭時說:“納粹罪行不可忘記,這是永無休止的責任。我們國家無法同它分割,我們要清楚記住這個責任。”
https://www.zaobao.com.sg/…/internati…/story20191207-1011298