[爆卦]加權分數怎麼算是什麼?優點缺點精華區懶人包

雖然這篇加權分數怎麼算鄉民發文沒有被收入到精華區:在加權分數怎麼算這個話題中,我們另外找到其它相關的精選爆讚文章

在 加權分數怎麼算產品中有15篇Facebook貼文,粉絲數超過0的網紅,也在其Facebook貼文中提到, #三年級自學紀錄 #放暑假啦🎉 . 常常看到親子專家說,『分數不重要,重要的是…』,但我想說的是,如果你是需要分數的,那它就是重要的,只是分數不代表什麼,它只是一個門檻而已,跨過那個門檻之後,是否能面對更多、更難的挑戰才是更重要的。 . 對於小布的學習,我分成中、英二部分。 . 中文的部分,我其實要...

加權分數怎麼算 在 Spark Light 工作坊 Instagram 的最讚貼文

2021-08-18 20:27:06

|Spark Light 工作坊| 📍|主題| ▫️ 如何準備學測化學 📍|前情提要| 在必修物理、必修化學、必修生物、必修地科四科中,必修化學算是內容相對較多的一科,因為必修化學其實就是把原本舊課綱基礎化學兩冊的內容濃縮成一冊。講白一點,就是學測的化學範圍很多!所以,看完這篇文案以後,不要再滑...

加權分數怎麼算 在 樂ʕʘ̅͜ʘ̅ʔ Instagram 的最佳解答

2021-07-11 08:51:49

關於選填志願 #樂的分享 學測只有六個志願可以選擇 我建議是夢幻兩個 保守三個 安全一個 指考沒記錯的話可以填一百個 我當時就是從台大開始往下填 不過大概填到政大左右我就填了師大公領系 因為當時有用落點分析 再加上前一年的錄取分數 拼湊一下預估自己可以安全的上這個系 沒想到最後真的上了😂 在你...

加權分數怎麼算 在 一撇中文 Instagram 的最佳貼文

2020-05-08 22:44:15

《茫茫一個月,我可以做什麼?》 . 先從百分比說起,要接受沒有「卷四」的事實,並且對各卷目的分數分佈更加清晰,如卷一為28%,卷二為28%,卷三為20%,SBA為24%。 . 這個僅僅是表面的數據而言,在加權平均數下,作文的百分比會被拉大,這是近幾年不停買卷所觀察到的結果,在舊的比例上,作文的卷目看...

  • 加權分數怎麼算 在 Facebook 的最讚貼文

    2021-06-24 13:19:32
    有 50 人按讚

    #三年級自學紀錄
    #放暑假啦🎉
    .
    常常看到親子專家說,『分數不重要,重要的是…』,但我想說的是,如果你是需要分數的,那它就是重要的,只是分數不代表什麼,它只是一個門檻而已,跨過那個門檻之後,是否能面對更多、更難的挑戰才是更重要的。
    .
    對於小布的學習,我分成中、英二部分。
    .
    中文的部分,我其實要求不高,全部科目都讓她open book寫,對我來說,會『主動找答』才是我想要看到的,而不是背答案,因為老實說,三年級的社會,小布問我,我很多都答不出來,足以證明,會不會這些東西,對將來的生活一點也不會影響到,最多就是沒辦法回答小孩問題而己🤣。
    .
    所以常識型的科目(社會、自然…),多跑外面就會有比課本還更豐富、多元的答案,行萬里路勝讀萬卷書的概念。
    .
    雖然不要求臺灣科目成績,但要同時進行二邊的課業,的確也是很累人的一件事,恭禧小布,終於在學期結束前,完成了二地的學業👏👏👏。
    .
    臺灣的學期成績是媽媽自己打,然後交給老師;美國的學期成績就是真正的成績,考試來的。之前G3的課程比較簡單,所以小布的分數我沒有很去在意,來到G4下學期,我才開始要求GPA。
    .
    ✨維基說:
    GPA, 成績平均績點(英語:Grade Point Average,縮寫:GPA),是大多數大學及高等教育院校所採用的一種評估學生成績的制度,同時也有少量中學採用這種制度。計算方法為把學科所得到的評級,換算成為一個績點,再按照各學科所佔學分比例加權所得的數字。具體算法因國家、地區及學校的不同,形成不同差異。

    文章在這兒⬇️⬇️⬇️
    https://reurl.cc/pgrzda
    .
    在國小階段的GPA基本上應該沒有人在意,以前我也沒管的,但G4下開始課程變難之後,我也不想她隨便交差,加上有個規範也會比較清楚應該怎麼做,所以就以前三個學期的平均值(3.79/3.64/3.83)來規定她GPA不能掉到3.7以下(滿分4~4.3),原本是想規定3.8,但太晚說了(學期中後段才決定),分數拉不上來,所以就以3.7為標準,還好有用最後的二科(Math、Science)的考試拉上來,2021-2 GPA 3.74👏。
    .
    接來下,開始放暑假了,媽媽前陣子也跟小布討論了暑假功課,討論到2個都很興奮🤣🤣。
    .
    至於G5的課程,還在思考要什麼時候開始,本來想7月開始,但7月有CTY,又有安排的功課,還有CTY的課外活動,所以基本上應該沒什麼時間,所以有想放她一個月的假不用上學期課業(8月再開始),不然太不人道了厚😄。
    .
    畢竟,媽媽安排的功課也不是那麼簡單,要燒腦的🤣🤣。
    .
    .

  • 加權分數怎麼算 在 投資癮 Wealtholic Facebook 的最讚貼文

    2021-05-30 12:48:50
    有 1,668 人按讚

    昨天看到新聞評論破口為「傳統市場」,老實說這件事應該是原本就知道的事實,但我覺得這件事並不需要過度去批判,傳統市場的問題是政府需要解決,不要全部都怪罪到攤販上面,這樣的做法只是將所有的錯誤擠壓在弱勢身上。

    我不喜歡多去評論除了金融交易以外的事情,但這樣的角度去評論我無法接受,站在攤販的立場來說,要他們從早到晚戴口罩是非常辛苦的,不是每個人都在市場工作過,但不管是炎熱的夏天,還是下著雨濕黏的此刻,臉上帶口罩對他們來說很辛苦,在傳統市場工作並不是在辦公室吹冷氣這麼舒服,幾乎是工作時間幾個小時身體都是濕黏的,有些攤販甚至臉上會起疹子,但是因為疫情的關係他們多數也願意配合,至少我看到的都有戴,但你要他們完全不去擺攤,這不是你我能決定的,這是政府的政策。

    -

    以前的傳統市場的攤販是採先佔先贏的方式,你只要在這邊擺久了自然而然這位置就是你的,所以搶位置是要靠智慧跟人脈,後來的市場改要加入工會繳租金,政府真的要讓傳統市場不成為真正的破口,把各大傳統市場的工會名冊拿出來,一一輔助並嚴格規定禁止擺攤,可以每個月輔助20000元,但只要偷擺攤被抓到罰25000元,我相信多數攤販都願意配合,這樣的輔助方式真的會比政府發給企業幾千萬幾億還夠防疫,我很樂見這件事的發生,讓市場一些為了養家活口的叔叔阿姨們都在家裡吹冷氣打電動看Neflix一起耍廢救台灣。

    -

    至於紓困金主要民眾能接觸為兩類,10萬與50萬的紓困方案但都是「貸款」,你給這些攤販也沒用,只要理性的民眾都不會去借,因為這個錢是要還的,在第二年開始都有利息,到時候只是讓八大官股銀行端認列更多的呆帳,最後還是全民買單,那如果企業呢?

    我很幸運剛好有認識公司的高層,因為是高階主管去年他原本要減薪,後來政府給了有條件的輔助紓困金,結果公司並沒有減薪,獎金也照拿,而該公司去年營收創新高,股價創新高,輔助金也創新高,這樣的輔助就有那麼一點怪怪的,下禮拜紓困特別預算4.0總額預計提列至6300億,在過去幾次的發放之中給企業的比例比民眾高,但去年很多公司的訂單都是供不應求,那這紓困金的意義好像就比較不大了,如果真的要追究將過去一年拿到這些紓困金的企業都一一公開,讓民眾們去查去年的財報去比對稅後淨利以及公司股價,如果都是上升或者創新高的話,把這些去年的輔助金等比吐回並改發給傳統市場攤販,我相信這些叔叔阿姨肯定拿到輔助金就不會去市場擺攤了,中間的差額請用公司的法定盈餘公積以及保留盈餘去補,這樣可能比較合情合理。
    -

    回到銀行業來說,剛好八大官股行庫都有朋友在裡面,去年的10萬紓困金讓一堆奇奇怪怪的人都去借款,有些民眾還問這個錢要不要還,也有民眾要把這個錢拿去買摩托車、買手機、戴牙套等等,銀行櫃檯明明覺得不妥但又怕被民眾客訴,只好依照辦法讓貸款通過,另外這50萬的貸款更匪夷所思,當時搞得像是在賣金融商品一樣,這所謂的「紓困金」不是要給有需要的人嗎?怎麼變成好像銀行基層要扛業績一樣,可能銀行業主管不小心讓員工誤以為這是「業績」。

    -

    回到金融市場,昨天公布景氣信號連續第三個紅燈,綜合判斷分數為41分,創下1987年五月以來近34年的新高紀錄,表示多數國內的企業在營收獲利以及進出口都有相當不錯的表現,以國發會景氣燈號內主要的九項指標七項為紅燈分數為38-45過熱,出口為黃紅燈分數為32-37,而特別注意的是非農業就業人數為藍燈分數為9-16低迷,非農就業人數為就業報告中的一個項目,該項目能反映出製造行業和服務行業的發展及其增長,數字減少便代表企業減低生產,經濟步入蕭條,該數據是觀察社會經濟和金融發展程度和狀況的一項重要指標,每個人對經濟指標的解讀不太一樣,以我個人主觀解讀這樣的景氣指標的差異會是,貧富差距可能會越來越大,但其實非農就業指數從2019年9月開始已經連續20個月低迷了。

    -

    回到股票市場一年不到的時間景氣循環股之一的海運股翻了10倍,而台股加權指數還原後加權指數為33311點創了歷史新高,今年5月份的台股月成交量為5235億,而2016年市場熱度較差時月成交均量為776億,這樣的景氣是投資人樂見的,我喜歡那種大家都好大家一起賺的感覺,當然更希望台灣越來越好,在國際間能見度越來越高,但請不要用自己網路的優勢去攻擊那些社群發聲力較弱的傳統市場攤販。

    -

    這紓困金的好意好像變成另外一個使用的方式,老實說這樣的情況本來不想評論什麼,因為要得罪的人太多了,甚至會換來更多的爭論與批評,但是這次講的傳統市場我覺得用片面之詞去轉載、分享、挑動別人的情緒我無法接受,只希望能更多元的站在別人立場去想,在網絡世界之中不得不說「傳統市場」這群人比較弱勢他們不懂網路行銷、不懂廣告、不懂經營媒體、甚至很多人都不識字、但並不代表他們的聲音不重要,我很幸運還可以發文,但傳統市場攤販們的手都是拿來搬貨,並不是拿來滑手機的。

    我相信紓困金一定也有用在好的和對的地方,把事情搞得越複雜一定會越多漏洞,政策越簡單越好,也能減少銀行端的業務麻煩以及傳染的風險,真的最乾脆又最有用的方式就是像美國跟日本一樣條件式齊頭式發放,沒必要經過企業再轉入發薪至民眾手中,但老實說我對於紓困金要怎麼發或者發放到哪裡我沒有太多意見,因為這些都不是我能決定的,背後可能有更多細節或不一樣的立場,我很尊重每個人的想法,但如果要用一張圖片來評論傳統市場的不是,我認為沒在傳統市場工作的人沒有資格,真的要評論攤販的話等疫情結束跟我從凌晨四點到傳統市場戴口罩工作到傍晚維持一個月後再來評論,我也樂見主管機關下令三個月不讓攤販營業,這樣可以更有效控管疫情,但一定要有相對應的措施輔助,不要每四年才會在傳統市場見上一面,這時候卻都消失不見。

    -

    真的要針對民生用品的破口,關於賣場、超市還有宮廟也足夠去討論,或許也可以讓所有的公務人員、銀行櫃檯都休息,讓整個金融業、公司企業都停擺,但這樣做是相當不妥的,因為所有的事情都不能只看一面,不管是民生必需、經濟環境、以及封城後可能的人性暴動,有相當多事情的事情要考量,並不是這麼的容易,但真的要評論的話,如果沒辦法到傳統市場體驗別人的辛苦,也可以用客觀的角度跑1000個傳統市場拍照當母體再用隨機抽樣去計算疫情前跟疫情後的流量差異再來評論,我知道並不會真的這樣做,因為噴口水,還是比噴汗水簡單。

    自己從四歲開始就在傳統市場長大,後來在交易市場時常看到聽眾說,因為沒賺到錢或者賠錢開玩笑說去公園睡紙箱,老實說我小時後在菜市場真的都睡在紙箱,所以每次看到這段我都覺得很貼切。

    市場的攤販們都是用淚水、汗水換薪水
    並不是像我現在室內裡面吹冷氣噴口水

    面對疫情我們能做的就是少出門、戴口罩,配合政府的所有防疫措施,少一點批評、少一點煽動、多一點體諒,疫情才是共同敵人

    這是今天早上八點傳統市場的照片
    我來幫這些辛苦的叔叔阿姨發個聲

  • 加權分數怎麼算 在 李開復 Kai-Fu Lee Facebook 的最佳貼文

    2020-07-08 18:00:23
    有 315 人按讚

    來自創新工場大灣區人工智慧研究院的兩篇論文入選了自然語言處理領域(NLP)頂級學術會議 ACL 2020 。
    這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各資料集上的分數全部刷至新高,在工業中也有著可觀的應用前景。

    本文來自創新工場公眾號
    ……………………………………………………………………

    創新工場兩篇論文入選ACL 2020,將中文分詞性能刷至新高

    “土地,我的金箍棒在哪裡?”
    “大聖,你的金箍,棒就棒在,特別配你的髮型。”

    感謝神奇的中文分詞,給我們帶來了多少樂趣。豐富多變的中文行文,給人的理解造成歧義,也給AI分詞帶來挑戰。

    近日,自然語言處理領域(NLP)頂級學術會議 ACL 2020 (https://acl2020.org/)正在火熱舉行。

    令人振奮的是,來自創新工場大灣區人工智慧研究院的兩篇論文入選。這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各資料集上的分數全部刷至新高,在工業中也有著可觀的應用前景。

    分詞及詞性標注是中文自然語言處理的基本任務,尤其在工業場景對分詞有非常直接的訴求,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。

    基於此,兩篇論文各自提出了“鍵-值記憶神經網路的中文分詞模型”和“基於雙通道注意力機制的分詞及詞性標注模型”,將外部知識(資訊)創造性融入分詞及詞性標注模型,有效剔除了分詞“噪音”誤導,大幅度提升了分詞及詞性標注效果。

    兩篇文章的作者有:華盛頓大學博士研究生、創新工場實習生田元賀,創新工場大灣區人工智慧研究院執行院長宋彥,創新工場科研合夥人張潼,創新工場CTO兼人工智慧工程院執行院長王詠剛等人。

    ACL(The Association for ComputationalLinguistics)國際計算語言學協會是自然語言處理領域影響力最大、最具活力的國際學術組織之一,自1962年創立以來已有58年歷史,其每年夏天舉辦的年會是該領域學術頂會。

    與往年不同的是,受新冠疫情影響,ACL2020全部轉為線上進行,不過這絲毫沒有減弱熱度。根據之前公佈的資料,今年大會投稿數量超過3000篇,共接收 779 篇論文,包括 571 篇長論文和 208 篇短論文,接收率為 25.2%,在全球疫情衝擊下反而是有史以來最盛大的一屆ACL會議,創新工場的技術大牛們也頂著時差連續數晚熬夜參會。

    ▌利用記憶神經網路,將中文分詞性能刷到歷史新高

    中文分詞目的是在中文的字序列中插入分隔符號,將其切分為詞。例如,“我喜歡音樂”將被切分為“我/喜歡/音樂”(“/”表示分隔符號)。

    中文語言因其特殊性,在分詞時面臨著兩個主要難點。一是歧義問題,由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。例如,“部分居民生活水準”,其正確的切分應為“部分/居民/生活/水準”,但存在“分居”、“民生”等歧義詞。“他從小學電腦技術”,正確的分詞是:他/從小/學/電腦技術,但也存在“小學”這種歧義詞。

    二是未登錄詞問題。未登錄詞指的是不在詞表,或者是模型在訓練的過程中沒有遇見過的詞。例如經濟、醫療、科技等科學領域的專業術語或者社交媒體上的新詞,或者是人名。這類問題在跨領域分詞任務中尤其明顯。

    對此,《ImprovingChinese Word Segmentation with Wordhood Memory Networks》這篇論文提出了基於鍵-值記憶神經網路的中文分詞模型。

    該模型利用n元組(即一個由連續n個字組成的序列,比如“居民”是一個2元組,“生活水準”是一個4元組)提供的每個字的構詞能力,通過加(降)權重實現特定語境下的歧義消解。並通過非監督方法構建詞表,實現對特定領域的未標注文本的利用,進而提升對未登錄詞的識別。

    例如,在“部分居民生活水準”這句話中,到底有多少可能成為詞的組塊?單字可成詞,如“民”;每兩個字的組合可能成詞,如“居民”;甚至四個字的組合也可能成詞,例如“居民生活”。

    把這些可能成詞的組合全部找到以後,加入到該分詞模型中。通過神經網路,學習哪些詞對於最後完整表達句意的幫助更大,進而分配不同的權重。像“部分”、“居民”、“生活”、“水準”這些詞都會被突出出來,但“分居”、“民生”這些詞就會被降權處理,從而預測出正確的結果。
    在“他從小學電腦技術” 這句話中,對於有歧義的部分“從小學”(有“從/小學”和“從小/學”兩種分法),該模型能夠對“從小”和“學”分配更高的權重,而對錯誤的n元組——“小學”分配較低的權重。

    為了檢驗該模型的分詞效果,論文進行了嚴格的標準實驗和跨領域實驗。

    實驗結果顯示,該模型在5個資料集(MSR、PKU、AS、CityU、CTB6)上的表現,均達了最好的成績(F值越高,性能越好)。(注:所選擇的五個資料集是中文分詞領域目前全世界唯一通用的標準資料集)

    創新工場大灣區人工智慧研究院執行院長宋彥表示,與前人的模型進行比較發現,該模型在所有資料集上的表現均超過了之前的工作,“把中文分詞領域廣泛使用的標準資料集上的性能全部刷到了新高。”

    在跨領域實驗中,論文使用網路博客資料集(CTB7)測試。實驗結果顯示,在整體F值以及未登陸詞的召回率上都有比較大提升。

    ▌“雙通道注意力機制”,有效剔除“噪音”誤導

    第二篇論文《Joint ChineseWord Segmentation and Part-of-speech Tagging via Two-way Attentions ofAuto-analyzed Knowledge》提供了一種基於雙通道注意力機制的分詞及詞性標注模型。

    中文分詞和詞性標注是兩個不同的任務。詞性標注是在已經切分好的文本中,給每一個詞標注其所屬的詞類,例如動詞、名詞、代詞、形容詞。詞性標注對後續的句子理解有重要的作用。

    在詞性標注中,歧義仍然是個老大難的問題。例如,對於“他要向全班同學報告書上的內容”中,“報告書”的正確的切分和標注應為“報告_VV/書_N”。但由於“報告書”本身也是一個常見詞,一般的工具可能會將其標注為“報告書_NN”。

    句法標注本身需要大量的時間和人力成本。在以往的標注工作中,使用外部自動工具獲取句法知識是主流方法。在這種情況下,如果模型不能識別並正確處理帶有雜音的句法知識,很可能會被不準確的句法知識誤導,做出錯誤的預測。

    例如,在句子“他馬上功夫很好”中,“馬”和“上”應該分開(正確的標注應為“馬_NN/上_NN”)。但按照一般的句法知識,卻可能得到不準確的切分及句法關係,如“馬上”。

    針對這一問題,該論文提出了一個基於雙通道注意力機制的分詞及詞性標注模型。該模型將中文分詞和詞性標注視作聯合任務,可一體化完成。模型分別對自動獲取的上下文特徵和句法知識加權,預測每個字的分詞和詞性標籤,不同的上下文特徵和句法知識在各自所屬的注意力通道內進行比較、加權,從而識別特定語境下不同上下文特徵和句法知識的貢獻。

    這樣一來,那些不準確的,對模型預測貢獻小的上下文特徵和句法知識就能被識別出來,並被分配小的權重,從而避免模型被這些有噪音的資訊誤導。

    即便在自動獲取的句法知識不準確的時候,該模型仍能有效識別並利用這種知識。例如,將前文有歧義、句法知識不準確的句子(“他馬上功夫很好”),輸入該雙通道注意力模型後,便得到了正確的分詞和詞性標注結果。

    為了測試該模型的性能,論文在一般領域和跨領域分別進行了實驗。

    一般領域實驗結果顯示,該模型在5個資料集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的表現(F值)均超過前人的工作,也大幅度超過了斯坦福大學的 CoreNLP 工具,和伯克利大學的句法分析器。

    即使是在與CTB詞性標注規範不同的UD資料集中,該模型依然能吸收不同標注帶來的知識,並使用這種知識,得到更好的效果。

    而在跨領域的實驗中,和斯坦福大學的CoreNLP 工具相比,該模型也有近10個百分點的提升。

    ▌主動引入和分辨知識,實現中文分詞技術突破

    中文分詞在中國科研領域已經有幾十年的歷史。最初的中文分詞是基於詞典構建,詞典的好壞會直接影響到最後分析的效果。如果某個新詞在詞典裡沒有,那麼模型是死活都分不出來的。

    這種方式的局限性還在於,詞典和分詞兩件事情中間始終有一條鴻溝,儘管詞典可以編撰得非常全面,但在處理分詞的時候,因為每一句話都有上下文語境,往往會產生多種不同的切分方法,從而無法有效地在當前語境下對分詞結構進行恰當的指導。

    從2003年開始,分詞方法出現了新的突破。研究人員提出了打標籤的方式,通過給每一個字打詞首、詞尾、詞中的標籤,不再需要構建詞典,大幅度提升了未登錄詞的召回效果。

    到了2014年左右,深度學習和神經網路開始被廣泛應用到中文分詞中,打標籤的模型從之前的淺層學習變成了深度學習,但演算法本質沒有發生變化,所以提升作用並不太大。

    近兩年,學界開始研究怎麼在打標籤的過程中加入外部知識和資訊。創新工場的這兩篇文章就是沿著這個路徑,用記憶神經網路的方式記錄對分詞結果有影響的 n元組,並引入對詞性標注有影響的句法知識,將分詞結果和自動獲得的知識銜接起來,既發揮了神經網路的優勢,也把知識的優勢用上,實現了分詞技術上小而有效的改進和突破。

    宋彥表示,“從技術創新的角度,我們的貢獻主要有兩點。一是在現有技術的基礎上,建立了一個一體化的模型框架,使用非監督方法構建詞表,並把知識(資訊)融入進來,使用更高層次的句法知識,來幫助詞性標注,起到'他山之石,可以攻玉’的效果。”

    “二是主動吸收和分辨不同的外部知識(資訊)。通過鍵-值記憶神經網路和雙通道注意力機制,進行動態權重的分配,能夠有效分辨知識,區分哪些是有效的,哪些是無效的。雖然這些知識是自動獲取的、不準確的,但‘三個臭皮匠,頂個諸葛亮’,經過有效利用,總能湊出一些有用的資訊。如何實現模型的主動吸收和分辨,就變得更加重要。”

    據瞭解,今年的ACL大會,在分詞領域一共收錄了18篇論文,創新工場人工智慧工程院同時有2篇入選,也表現出ACL官方對這一貢獻的認可。

    ▌具備跨領域分詞能力,提升工業應用效率

    中文分詞和詞性標注是最底層的應用,對於接下來的應用和任務處理非常重要。例如對於文本分類、情感分析,文本摘要、機器翻譯等,分詞都是不可或缺的基本“元件”。

    宋彥表示,做此項研究的目的是主要為了拓展其工業場景的應用,正確的分詞能夠平衡公司應用開發的效率和性能,同時方便人工干預及(預)後處理。

    這也是創新工場人工智慧工程院的努力方向之一。工程院成立於2016年9月,宗旨是銜接科技創新和行業賦能,做嫁接科研和產業應用的橋樑,為行業改造業務流程、提升業務效率。

    工程院下設北京總部、南京研究院和大灣區研究院。大灣區研究院再下設資訊感知和理解實驗室,專注于對自然語言處理(NLP)領域的研究。執行院長宋彥本人也有超過15年的NLP領域的科研經驗。

    “在工業場景使用的時候,跨領域的模型能力是一個非常直接的訴求。”宋彥表示,在某個領域的訓練模型,大概率也需要應用到其他領域。

    “如何在新領域缺少資料,或者新領域只有少量未標注資料的情況下,實現模型的冷開機,依然是項巨大的挑戰。如果能利用外部知識,提高模型性能,就能有效地召回很多在訓練集中沒有出現過的新詞。”

    例如搜尋引擎的廣告系統,最初也是通過組詞匹配的方式,在某個特定領域訓練其分詞模型,但在進入一個新的領域時,例如從新聞領域進入醫療領域或體育領域,效果往往會大打折扣,甚至頻頻出錯。

    而使用跨領域特性後,廣告系統在進入新領域時,便無需額外的資料,就可以對它進行比較準確的分詞和標注,從而有效匹配廣告和客戶,大大提升系統運行的效率和穩定性。

    目前,這兩篇論文的工具都已經開源,在下面兩個連結中,可以找到對應的所有代碼和模型,各位朋友可按需自取:

    分詞工具:https://github.com/SVAIGBA/WMSeg
    分詞及詞性標注工具:https://github.com/SVAIGBA/TwASP

你可能也想看看

搜尋相關網站