[爆卦]word同時上下標是什麼?優點缺點精華區懶人包

雖然這篇word同時上下標鄉民發文沒有被收入到精華區:在word同時上下標這個話題中,我們另外找到其它相關的精選爆讚文章

在 word同時上下標產品中有6篇Facebook貼文,粉絲數超過44萬的網紅李開復 Kai-Fu Lee,也在其Facebook貼文中提到, 來自創新工場大灣區人工智慧研究院的兩篇論文入選了自然語言處理領域(NLP)頂級學術會議 ACL 2020 。 這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各資料集上的分數全部刷至新高,在工業中也有著可觀的應用前景。 本文來自創新工場公眾號 ……………………...

 同時也有2部Youtube影片,追蹤數超過3萬的網紅MEeeep More,也在其Youtube影片中提到,三星 Samsung 喺香港時間 2019 年 8 月 8 日 嘅凌晨發表咗今年旗艦手機 Galaxy Note 10 系列,宜家就同大家介紹一下! 同往年唔同,今年嘅 Galaxy Note 系列分咗 6.3 寸嘅 Note 10 同埋 6.8 寸嘅 Note 10 +,進一步滲透對手機螢幕大小...

word同時上下標 在 JobUs職場小旅行 Instagram 的最佳解答

2021-04-23 15:25:05

「會議或課程紀錄,總讓你覺得落落長,每次都會丟三落四掉一些內容嗎🥲?」、「如果可以你希望在會議當下不僅有文字記錄檔,最好還能有語音檔,以便之後回顧時,能了解當下所討論的確切議題及內容嗎🥺?」  🌟有類似困擾的職客們有福了!今天為大家精選了八款會議記錄的超級神器,幫助你輕鬆且精準的將會議、課程、甚...

  • word同時上下標 在 李開復 Kai-Fu Lee Facebook 的精選貼文

    2020-07-08 18:00:23
    有 315 人按讚

    來自創新工場大灣區人工智慧研究院的兩篇論文入選了自然語言處理領域(NLP)頂級學術會議 ACL 2020 。
    這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各資料集上的分數全部刷至新高,在工業中也有著可觀的應用前景。

    本文來自創新工場公眾號
    ……………………………………………………………………

    創新工場兩篇論文入選ACL 2020,將中文分詞性能刷至新高

    “土地,我的金箍棒在哪裡?”
    “大聖,你的金箍,棒就棒在,特別配你的髮型。”

    感謝神奇的中文分詞,給我們帶來了多少樂趣。豐富多變的中文行文,給人的理解造成歧義,也給AI分詞帶來挑戰。

    近日,自然語言處理領域(NLP)頂級學術會議 ACL 2020 (https://acl2020.org/)正在火熱舉行。

    令人振奮的是,來自創新工場大灣區人工智慧研究院的兩篇論文入選。這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各資料集上的分數全部刷至新高,在工業中也有著可觀的應用前景。

    分詞及詞性標注是中文自然語言處理的基本任務,尤其在工業場景對分詞有非常直接的訴求,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。

    基於此,兩篇論文各自提出了“鍵-值記憶神經網路的中文分詞模型”和“基於雙通道注意力機制的分詞及詞性標注模型”,將外部知識(資訊)創造性融入分詞及詞性標注模型,有效剔除了分詞“噪音”誤導,大幅度提升了分詞及詞性標注效果。

    兩篇文章的作者有:華盛頓大學博士研究生、創新工場實習生田元賀,創新工場大灣區人工智慧研究院執行院長宋彥,創新工場科研合夥人張潼,創新工場CTO兼人工智慧工程院執行院長王詠剛等人。

    ACL(The Association for ComputationalLinguistics)國際計算語言學協會是自然語言處理領域影響力最大、最具活力的國際學術組織之一,自1962年創立以來已有58年歷史,其每年夏天舉辦的年會是該領域學術頂會。

    與往年不同的是,受新冠疫情影響,ACL2020全部轉為線上進行,不過這絲毫沒有減弱熱度。根據之前公佈的資料,今年大會投稿數量超過3000篇,共接收 779 篇論文,包括 571 篇長論文和 208 篇短論文,接收率為 25.2%,在全球疫情衝擊下反而是有史以來最盛大的一屆ACL會議,創新工場的技術大牛們也頂著時差連續數晚熬夜參會。

    ▌利用記憶神經網路,將中文分詞性能刷到歷史新高

    中文分詞目的是在中文的字序列中插入分隔符號,將其切分為詞。例如,“我喜歡音樂”將被切分為“我/喜歡/音樂”(“/”表示分隔符號)。

    中文語言因其特殊性,在分詞時面臨著兩個主要難點。一是歧義問題,由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。例如,“部分居民生活水準”,其正確的切分應為“部分/居民/生活/水準”,但存在“分居”、“民生”等歧義詞。“他從小學電腦技術”,正確的分詞是:他/從小/學/電腦技術,但也存在“小學”這種歧義詞。

    二是未登錄詞問題。未登錄詞指的是不在詞表,或者是模型在訓練的過程中沒有遇見過的詞。例如經濟、醫療、科技等科學領域的專業術語或者社交媒體上的新詞,或者是人名。這類問題在跨領域分詞任務中尤其明顯。

    對此,《ImprovingChinese Word Segmentation with Wordhood Memory Networks》這篇論文提出了基於鍵-值記憶神經網路的中文分詞模型。

    該模型利用n元組(即一個由連續n個字組成的序列,比如“居民”是一個2元組,“生活水準”是一個4元組)提供的每個字的構詞能力,通過加(降)權重實現特定語境下的歧義消解。並通過非監督方法構建詞表,實現對特定領域的未標注文本的利用,進而提升對未登錄詞的識別。

    例如,在“部分居民生活水準”這句話中,到底有多少可能成為詞的組塊?單字可成詞,如“民”;每兩個字的組合可能成詞,如“居民”;甚至四個字的組合也可能成詞,例如“居民生活”。

    把這些可能成詞的組合全部找到以後,加入到該分詞模型中。通過神經網路,學習哪些詞對於最後完整表達句意的幫助更大,進而分配不同的權重。像“部分”、“居民”、“生活”、“水準”這些詞都會被突出出來,但“分居”、“民生”這些詞就會被降權處理,從而預測出正確的結果。
    在“他從小學電腦技術” 這句話中,對於有歧義的部分“從小學”(有“從/小學”和“從小/學”兩種分法),該模型能夠對“從小”和“學”分配更高的權重,而對錯誤的n元組——“小學”分配較低的權重。

    為了檢驗該模型的分詞效果,論文進行了嚴格的標準實驗和跨領域實驗。

    實驗結果顯示,該模型在5個資料集(MSR、PKU、AS、CityU、CTB6)上的表現,均達了最好的成績(F值越高,性能越好)。(注:所選擇的五個資料集是中文分詞領域目前全世界唯一通用的標準資料集)

    創新工場大灣區人工智慧研究院執行院長宋彥表示,與前人的模型進行比較發現,該模型在所有資料集上的表現均超過了之前的工作,“把中文分詞領域廣泛使用的標準資料集上的性能全部刷到了新高。”

    在跨領域實驗中,論文使用網路博客資料集(CTB7)測試。實驗結果顯示,在整體F值以及未登陸詞的召回率上都有比較大提升。

    ▌“雙通道注意力機制”,有效剔除“噪音”誤導

    第二篇論文《Joint ChineseWord Segmentation and Part-of-speech Tagging via Two-way Attentions ofAuto-analyzed Knowledge》提供了一種基於雙通道注意力機制的分詞及詞性標注模型。

    中文分詞和詞性標注是兩個不同的任務。詞性標注是在已經切分好的文本中,給每一個詞標注其所屬的詞類,例如動詞、名詞、代詞、形容詞。詞性標注對後續的句子理解有重要的作用。

    在詞性標注中,歧義仍然是個老大難的問題。例如,對於“他要向全班同學報告書上的內容”中,“報告書”的正確的切分和標注應為“報告_VV/書_N”。但由於“報告書”本身也是一個常見詞,一般的工具可能會將其標注為“報告書_NN”。

    句法標注本身需要大量的時間和人力成本。在以往的標注工作中,使用外部自動工具獲取句法知識是主流方法。在這種情況下,如果模型不能識別並正確處理帶有雜音的句法知識,很可能會被不準確的句法知識誤導,做出錯誤的預測。

    例如,在句子“他馬上功夫很好”中,“馬”和“上”應該分開(正確的標注應為“馬_NN/上_NN”)。但按照一般的句法知識,卻可能得到不準確的切分及句法關係,如“馬上”。

    針對這一問題,該論文提出了一個基於雙通道注意力機制的分詞及詞性標注模型。該模型將中文分詞和詞性標注視作聯合任務,可一體化完成。模型分別對自動獲取的上下文特徵和句法知識加權,預測每個字的分詞和詞性標籤,不同的上下文特徵和句法知識在各自所屬的注意力通道內進行比較、加權,從而識別特定語境下不同上下文特徵和句法知識的貢獻。

    這樣一來,那些不準確的,對模型預測貢獻小的上下文特徵和句法知識就能被識別出來,並被分配小的權重,從而避免模型被這些有噪音的資訊誤導。

    即便在自動獲取的句法知識不準確的時候,該模型仍能有效識別並利用這種知識。例如,將前文有歧義、句法知識不準確的句子(“他馬上功夫很好”),輸入該雙通道注意力模型後,便得到了正確的分詞和詞性標注結果。

    為了測試該模型的性能,論文在一般領域和跨領域分別進行了實驗。

    一般領域實驗結果顯示,該模型在5個資料集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的表現(F值)均超過前人的工作,也大幅度超過了斯坦福大學的 CoreNLP 工具,和伯克利大學的句法分析器。

    即使是在與CTB詞性標注規範不同的UD資料集中,該模型依然能吸收不同標注帶來的知識,並使用這種知識,得到更好的效果。

    而在跨領域的實驗中,和斯坦福大學的CoreNLP 工具相比,該模型也有近10個百分點的提升。

    ▌主動引入和分辨知識,實現中文分詞技術突破

    中文分詞在中國科研領域已經有幾十年的歷史。最初的中文分詞是基於詞典構建,詞典的好壞會直接影響到最後分析的效果。如果某個新詞在詞典裡沒有,那麼模型是死活都分不出來的。

    這種方式的局限性還在於,詞典和分詞兩件事情中間始終有一條鴻溝,儘管詞典可以編撰得非常全面,但在處理分詞的時候,因為每一句話都有上下文語境,往往會產生多種不同的切分方法,從而無法有效地在當前語境下對分詞結構進行恰當的指導。

    從2003年開始,分詞方法出現了新的突破。研究人員提出了打標籤的方式,通過給每一個字打詞首、詞尾、詞中的標籤,不再需要構建詞典,大幅度提升了未登錄詞的召回效果。

    到了2014年左右,深度學習和神經網路開始被廣泛應用到中文分詞中,打標籤的模型從之前的淺層學習變成了深度學習,但演算法本質沒有發生變化,所以提升作用並不太大。

    近兩年,學界開始研究怎麼在打標籤的過程中加入外部知識和資訊。創新工場的這兩篇文章就是沿著這個路徑,用記憶神經網路的方式記錄對分詞結果有影響的 n元組,並引入對詞性標注有影響的句法知識,將分詞結果和自動獲得的知識銜接起來,既發揮了神經網路的優勢,也把知識的優勢用上,實現了分詞技術上小而有效的改進和突破。

    宋彥表示,“從技術創新的角度,我們的貢獻主要有兩點。一是在現有技術的基礎上,建立了一個一體化的模型框架,使用非監督方法構建詞表,並把知識(資訊)融入進來,使用更高層次的句法知識,來幫助詞性標注,起到'他山之石,可以攻玉’的效果。”

    “二是主動吸收和分辨不同的外部知識(資訊)。通過鍵-值記憶神經網路和雙通道注意力機制,進行動態權重的分配,能夠有效分辨知識,區分哪些是有效的,哪些是無效的。雖然這些知識是自動獲取的、不準確的,但‘三個臭皮匠,頂個諸葛亮’,經過有效利用,總能湊出一些有用的資訊。如何實現模型的主動吸收和分辨,就變得更加重要。”

    據瞭解,今年的ACL大會,在分詞領域一共收錄了18篇論文,創新工場人工智慧工程院同時有2篇入選,也表現出ACL官方對這一貢獻的認可。

    ▌具備跨領域分詞能力,提升工業應用效率

    中文分詞和詞性標注是最底層的應用,對於接下來的應用和任務處理非常重要。例如對於文本分類、情感分析,文本摘要、機器翻譯等,分詞都是不可或缺的基本“元件”。

    宋彥表示,做此項研究的目的是主要為了拓展其工業場景的應用,正確的分詞能夠平衡公司應用開發的效率和性能,同時方便人工干預及(預)後處理。

    這也是創新工場人工智慧工程院的努力方向之一。工程院成立於2016年9月,宗旨是銜接科技創新和行業賦能,做嫁接科研和產業應用的橋樑,為行業改造業務流程、提升業務效率。

    工程院下設北京總部、南京研究院和大灣區研究院。大灣區研究院再下設資訊感知和理解實驗室,專注于對自然語言處理(NLP)領域的研究。執行院長宋彥本人也有超過15年的NLP領域的科研經驗。

    “在工業場景使用的時候,跨領域的模型能力是一個非常直接的訴求。”宋彥表示,在某個領域的訓練模型,大概率也需要應用到其他領域。

    “如何在新領域缺少資料,或者新領域只有少量未標注資料的情況下,實現模型的冷開機,依然是項巨大的挑戰。如果能利用外部知識,提高模型性能,就能有效地召回很多在訓練集中沒有出現過的新詞。”

    例如搜尋引擎的廣告系統,最初也是通過組詞匹配的方式,在某個特定領域訓練其分詞模型,但在進入一個新的領域時,例如從新聞領域進入醫療領域或體育領域,效果往往會大打折扣,甚至頻頻出錯。

    而使用跨領域特性後,廣告系統在進入新領域時,便無需額外的資料,就可以對它進行比較準確的分詞和標注,從而有效匹配廣告和客戶,大大提升系統運行的效率和穩定性。

    目前,這兩篇論文的工具都已經開源,在下面兩個連結中,可以找到對應的所有代碼和模型,各位朋友可按需自取:

    分詞工具:https://github.com/SVAIGBA/WMSeg
    分詞及詞性標注工具:https://github.com/SVAIGBA/TwASP

  • word同時上下標 在 李開復 Kai-Fu Lee Facebook 的最佳貼文

    2019-09-05 15:05:26
    有 224 人按讚

    創新工場“AI蒙汗藥”入選NeurIPS 2019,3年VC+AI佈局進入科研收穫季

    本文來自量子位微信公眾號
    ……………………………………………………………………

    NeurIPS 2019放榜,創新工場AI工程院論文在列。

    名為“Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder”。

    一作是創新工場南京國際AI研究院執行院長馮霽,二作是創新工場南京國際人工智慧研究院研究員蔡其志,南京大學AI大牛周志華教授也在作者列。

    論文提出了一種高效生成對抗訓練樣本的方法DeepConfuse,通過微弱擾動資料庫的方式,徹底破壞對應的學習系統的性能,達到“資料下毒”的目的。

    創新工場介紹稱,這一研究就並不單單是為了揭示類似的AI入侵或攻擊技術對系統安全的威脅,還能協助針對性地制定防範“AI駭客”的完善方案,推動AI安全攻防領域的發展。

    NeurIPS,全稱神經資訊處理系統大會(Conference and Workshop on Neural Information Processing Systems),自1987年誕生至今已有32年的歷史,一直以來備受學術界和產業界的高度關注,是AI學術領域的“華山論劍”。

    作為AI領域頂會,NeurIPS也是最火爆的那個,去年會議門票在數分鐘內被搶光,而且在論文的投稿錄取上,競爭同樣激烈。

    今年,NeurIPS會議的論文投稿量再創新高,共收到6743篇投稿,最終錄取1428篇論文,錄取率為21.2%。

    ▌“資料下毒”論文入選頂會NeurIPS

    那這次創新工場AI工程院這篇入選論文,核心議題是什麼?

    我們先拆解說說。

    近年來,機器學習熱度不斷攀升,並逐漸在不同應用領域解決各式各樣的問題。不過,卻很少有人意識到,其實機器學習本身也很容易受到攻擊,模型並非想像中堅不可摧。

    例如,在訓練(學習階段)或是預測(推理階段)這兩個過程中,機器學習模型就都有可能被對手攻擊,而攻擊的手段也是多種多樣。

    創新工場AI工程院為此專門成立了AI安全實驗室,針對人工智慧系統的安全性進行了深入對評估和研究。

    在被NeurIPS收錄的論文中,核心貢獻就是提出了高效生成對抗訓練資料的最先進方法之一——DeepConfuse。

    ▌給數據下毒

    通過劫持神經網路的訓練過程,教會雜訊生成器為訓練樣本添加一個有界的擾動,使得該訓練樣本訓練得到的機器學習模型在面對測試樣本時的泛化能力盡可能地差,非常巧妙地實現了“資料下毒”。

    顧名思義,“資料下毒”即讓訓練資料“中毒”,具體的攻擊策略是通過干擾模型的訓練過程,對其完整性造成影響,進而讓模型的後續預測過程出現偏差。

    “資料下毒”與常見的“對抗樣本攻擊”是不同的攻擊手段,存在於不同的威脅場景:前者通過修改訓練資料讓模型“中毒”,後者通過修改待測試的樣本讓模型“受騙”。

    舉例來說,假如一家從事機器人視覺技術開發的公司希望訓練機器人識別現實場景中的器物、人員、車輛等,卻不慎被入侵者利用論文中提及的方法篡改了訓練資料。

    研發人員在目視檢查訓練資料時,通常不會感知到異常(因為使資料“中毒”的噪音資料在圖像層面很難被肉眼識別),訓練過程也一如既往地順利。

    但這時訓練出來的深度學習模型在泛化能力上會大幅退化,用這樣的模型驅動的機器人在真實場景中會徹底“懵圈”,陷入什麼也認不出的尷尬境地。

    更有甚者,攻擊者還可以精心調整“下毒”時所用的噪音資料,使得訓練出來的機器人視覺模型“故意認錯”某些東西,比如將障礙認成是通路,或將危險場景標記成安全場景等。

    為了達成這一目的,這篇論文設計了一種可以生成對抗雜訊的自編碼器神經網路DeepConfuse。

    通過觀察一個假想分類器的訓練過程更新自己的權重,產生“有毒性”的雜訊,從而為“受害的”分類器帶來最低下的泛化效率,而這個過程可以被歸結為一個具有非線性等式約束的非凸優化問題。

    ▌下毒無痕,毒性不小

    從實驗資料可以發現,在MNIST、CIFAR-10以及縮減版的IMAGENET這些不同資料集上,使用“未被下毒”的訓練資料集和“中毒”的訓練資料集所訓練的系統模型在分類精度上存在較大的差異,效果非常可觀。

    與此同時,從實驗結果來看,該方法生成的對抗雜訊具有通用性,即便是在隨機森林和支援向量機這些非神經網路上也有較好表現。

    其中,藍色為使用“未被下毒”的訓練資料訓練出的模型在泛化能力上的測試表現,橙色為使用“中毒”訓練資料訓練出的模型的在泛化能力上的測試表現。

    在CIFAR和IMAGENET資料集上的表現也具有相似效果,證明該方法所產生的對抗訓練樣本在不同的網路結構上具有很高的遷移能力。

    此外,論文中提出的方法還能有效擴展至針對特定標籤的情形下,即攻擊者希望通過一些預先指定的規則使模型分類錯誤,例如將“貓”錯誤分類成“狗”,讓模型按照攻擊者計畫,定向發生錯誤。

    例如,下圖為MINIST資料集上,不同場景下測試集上混淆矩陣的表現,分別為乾淨訓練資料集、無特定標籤的訓練資料集、以及有特定標籤的訓練資料集。

    實驗結果有力證明,為有特定標籤的訓練資料集做相應設置的有效性,未來有機會通過修改設置以實現更多特定的任務。

    對資料“下毒”技術的研究並不單單是為了揭示類似的AI入侵或攻擊技術對系統安全的威脅,更重要的是,只有深入研究相關的入侵或攻擊技術,才能有針對性地制定防範“AI駭客”的完善方案。

    隨著AI演算法、AI系統在國計民生相關的領域逐漸得到普及與推廣,科研人員必須透徹地掌握AI安全攻防的前沿技術,並有針對性地為自動駕駛、AI輔助醫療、AI輔助投資等涉及生命安全、財富安全的領域研發最有效的防護手段。

    ▌還關注聯邦學習

    除了安全問題之外,人工智慧應用的資料隱私問題,也是創新工場AI安全實驗室重點關注的議題之一。

    近年來,隨著人工智慧技術的高速發展,社會各界對隱私保護及資料安全的需求加強,聯邦學習技術應運而生,並開始越來越多地受到學術界和工業界的關注。

    具體而言,聯邦學習系統是一個分散式的具有多個參與者的機器學習框架,每一個聯邦學習的參與者不需要與其餘幾方共用自己的訓練資料,但仍然能利用其餘幾方參與者提供的資訊更好的訓練聯合模型。

    換言之,各方可以在在不共用資料的情況下,共用資料產生的知識,達到共贏。

    創新工場AI工程院也十分看好聯邦學習技術的巨大應用潛力。

    今年3月,“Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder”論文的作者、創新工場南京國際人工智慧研究院執行院長馮霽代表創新工場當選為IEEE聯邦學習標準制定委員會副主席,著手推進制定AI協同及大資料安全領域首個國際標準。

    創新工場也將成為聯邦學習這一技術“立法”的直接參與者。

    ▌創新工場AI工程院科研成績單

    創新工場憑藉獨特的VC+AI(風險投資與AI研發相結合)的架構,致力於扮演前沿科研與AI商業化之間的橋樑角色。

    創新工場2019年廣泛開展科研合作,與其他國際科研機構合作的論文,入選多項國際頂級會議,除上述介紹的“資料下毒”論文入選NeurlPS之外,還有8篇收錄至五大學術頂會,涉及影像處理、自動駕駛、自然語言處理、金融AI和區塊鏈等方向。

    ┃兩篇論文入選ICCV

    Disentangling Propagation and Generation for Video Prediction
    https://arxiv.org/abs/1812.00452

    這篇論文的主要工作圍繞一個視頻預測的任務展開,即在一個視頻中,給定前幾幀的圖片預測接下來的一幀或多幀的圖片。

    Joint Monocular 3D Vehicle Detection and Tracking
    https://arxiv.org/abs/1811.10742

    這篇論文提出了一種全新的線上三維車輛檢測與跟蹤的聯合框架,不僅能隨著時間關聯車輛的檢測結果,同時可以利用單目攝像機獲取的二維移動資訊估計三維的車輛資訊。

    ┃一篇論文入選IROS

    Monocular Plan View Networks for Autonomous Driving
    http://arxiv.org/abs/1905.06937

    針對端到端的控制學習問題提出了一個對當前觀察的視角轉換,將其稱之為規劃視角,它把將當前的觀察視角轉化至一個鳥瞰視角。具體的,在自動駕駛的問題下,在第一人稱視角中檢測行人和車輛並將其投影至一個俯瞰視角。

    ┃三篇論文入選EMNLP

    Multiplex Word Embeddings for Selectional Preference Acquisition

    提出了一種multiplex詞向量模型。在該模型中,對於每個詞而言,其向量包含兩部分,主向量和關係向量,其中主向量代表總體語義,關係向量用於表達這個詞在不同關係上的特徵,每個詞的最終向量由這兩種向量融合得到。

    What You See is What You Get: Visual Pronoun Coreference Resolution in Dialogues
    https://assert.pub/papers/1909.00421

    提出了一個新模型(VisCoref)及一個配套資料集(VisPro),用以研究如何將代詞指代與視覺資訊進行整合。

    Reading Like HER: Human Reading Inspired Extractive Summarization

    人類通過閱讀進行文本語義的摘要總結大體上可以分為兩個階段:1)通過粗略地閱讀獲取文本的概要資訊,2)進而進行細緻的閱讀選取關鍵句子形成摘要。

    本文提出一種新的抽取式摘要方法來模擬以上兩個階段,該方法將文檔抽取式摘要形式化為一個帶有上下文的多臂老虎機問題,並採用策略梯度方法來求解。

    ┃一篇論文入選IEEE TVCG

    sPortfolio: Stratified Visual Analysis of Stock Portfolios
    https://www.ncbi.nlm.nih.gov/pubmed/31443006

    主要是對於金融市場中的投資組合和多因數模型進行可視分析的研究。通過三個方面的分析任務來幫助投資者進行日常分析並升決策準確性。

    並提出了一個全新的視覺化分析系統sPortfolio,它允許使用者根據持倉,因數和歷史策略來觀察投資組合的市場。sPortfolio提供了四個良好協調的視圖。

    ┃一篇論文入選NSDI

    Monoxide: Scale Out Blockchain with Asynchronized Consensus Zones
    https://www.usenix.org/system/files/nsdi19-wang-jiaping.pdf

    提出了一種名為非同步共識組 Monoxide 的區塊鏈擴容方案,可以在由 4.8 萬個全球節點組成的測試環境中,實現比比特幣網路高出 1000 倍的每秒交易處理量,以及 2000 倍的狀態記憶體容量,有望打破“不可能三角”這個長期困擾區塊鏈性能的瓶頸。

    ▌獨特的“科研助推商業”思路

    國內VC,發表論文都很少見,為什麼創新工場如此做?

    這背後在於其“VC+AI”模式。

    最獨特之處在于,創新工場的AI工程院可以通過廣泛的科研合作以及自身的科研團隊,密切跟蹤前沿科研領域裡最有可能轉變為未來商業價值的科研方向。

    這種“科研助推商業”的思路力圖儘早發現有未來商業價值的學術研究,然後在保護各方智慧財產權和商業利益的前提下積極與相關科研方開展合作。

    同時,由AI工程院的產品研發團隊嘗試該項技術在不同商業場景裡可能的產品方向、研發產品原型,並由商務拓展團隊推動產品在真實商業領域的落地測試,繼而可以為創新工場的風險投資團隊帶來早期識別、投資高價值賽道的寶貴機會。

    “科研助推商業”並不是簡單地尋找有前景的科研專案,而是將技術跟蹤、人才跟蹤、實驗室合作、智慧財產權合作、技術轉化、原型產品快速反覆運算、商務拓展、財務投資等多維度的工作整合在一個統一的資源體系內,用市場價值為導向,有計劃地銜接學術科研與商業實踐。

    以AI為代表的高新技術目前正進入商業落地優先的深入發展期,產業大環境亟需前沿科研技術與實際商業場景的有機結合。

    創新工場憑藉在風險投資領域積累的豐富經驗,以及在創辦AI工程院的過程中積累的技術人才優勢,特別適合扮演科研與商業化之間的橋樑角色。

    於是,創新工場AI工程院也就順勢而生。

    創新工場人工智慧工程院成立於2016年9月,以“科研+工程實驗室”模式,規劃研發方向,組建研發團隊。

    目前已經設有醫療AI、機器人、機器學習理論、計算金融、電腦感知等面向前沿科技與應用方向的研發實驗室,還先後設立了創新工場南京國際人工智慧研究院、創新工場大灣區人工智慧研究院。

    目標是培養人工智慧高端科研與工程人才,研發以機器學習為核心的前沿人工智慧技術,並同各行業領域相結合,為行業場景提供一流的產品和解決方案。

    而且, 創新工場還與國內外著名的科研機構廣泛開展科研合作。

    例如,今年3月20日,香港科技大學和創新工場宣佈成立電腦感知與智慧控制聯合實驗室(Computer Perception and Intelligent Control Lab)。

    此外,創新工場也積極參與了國際相關的技術標準制定工作。例如,今年8月,第28屆國際人工智慧聯合會議(IJCAI)在中國澳門隆重舉辦,期間召開了IEEE P3652.1(聯邦學習基礎架構與應用)標準工作組第三次會議。

    IEEE聯邦學習標準由微眾銀行發起,創新工場等數十家國際和國內科技公司參與,是國際上首個針對人工智慧協同技術框架訂立標準的專案。

    創新工場表示,自身的科研團隊將深度參與到聯邦學習標準的制定過程中,希望為AI技術在真實場景下的安全性、可用性以及保護資料安全、保護使用者隱私貢獻自己的力量。

  • word同時上下標 在 Eric's English Lounge Facebook 的最讚貼文

    2019-06-12 20:21:55
    有 216 人按讚

    [時事英文] 期待的政治英文影片第二集出爐了!!! 今天探討的是三位政治大咖的英文口語。再次聲明,此影片的目的不在於比較英文能力,而是提供學習者英文口語的實際操作和可以注意的小細節。對我而言,英文是一種工具,我並不覺得台灣的政治人物一定需要擁有驚人的外語能力。以下是影片中提到的一些資訊,請看完再發表評論:

    ★★★★★★★★★★★★

    英文口說評估指標

    • 是否到達溝通目的
    • 考量語境/當下場景
    • 詞彙資源
    • 文法範圍和正確度
    • 連貫性和流暢度還有發音

    ★★★★★★★★★★★★

    韓國瑜(1957年6月17日-),中華民國政治人物,中國國民黨,現任高雄市市長,中華民國陸軍軍官學校專修學生班40期、東吳大學英國語文學系文學學士、國立政治大學東亞研究所法學碩士。

    最先去搜尋的是ICRT全英文的專訪,但是大部分影片和錄音檔都被刪除,只留下一些片段: https://youtu.be/zDYhd7XiSUQ?t=12 (Vid 1)

    •prosperious - prosperous Kaohsiung
    •We will hire the English teacher so that we can save money-cause, effect relationship?
    •good overall English pronunciation and fluency but spoke in short phrases

    https://youtu.be/3helP_n9jY8?t=481 (Vid 2)

    •唸稿子的時候有適當的停頓, 英文語調也有上下的起伏
    •met--made, we have made the impossible possible
    •in everyone eyes--in everyone’s eyes
    •longing for better tomorrow --longing for a better tomorrow
    •整體上來說沒有什麼問題
    •很難去評估真正的英文口說能力,畢竟是念稿子
    •從詞彙量而言,至少足夠回應一般生活類問題
    •因為句子還蠻短的,所以沒有什麼語法錯誤
    •口音是一定有的,但是算標準,可以聽得懂
    •流暢度沒有大問題,但是連貫性可以增加
    •對我而言,英文是一種工具, 並不覺得台灣的政治人物一定需要

    ★★★★★★★★★★★★

    郭台銘(英文名:Terry Gou,1950年10月18日-),中華民國企業家,新北板橋人,籍貫山西省晉城縣,臺灣省立板橋中學初中部、中國海事專科學校(今臺北海洋科技大學)航運管理科畢業,是鴻海科技集團(富士康)和鴻海精密的董事長兼總經理。以個人資產705億美元名列富比士億萬富翁列表中的第7大富豪,同時也是臺灣首富。2019年4月17日,郭台銘宣布投入中國國民黨的2020年中華民國總統選舉黨內初選。

    郭台銘 - 企業領袖高峰會演講 APEC CEO Summit 2013: https://youtu.be/c733wqJup_I?t=175

    •聽完他的對答覺得講得很好
    •應該已經在商業界上運用英文三十幾年了
    •1985就建立在美國一家分公司
    •因為是商業場合,講的話算官方但直接
    •以流暢度來說,會給高的評分
    •英文詞彙上應用專業術語 (e.g., key components, technology integration)
    •不熟悉字型的變化 morphology/word form--manufacture, manufacturing, manufacturer --we emerged as an electronics manufacturer; we innovation designer --no be verb; we are use all component and integration --we utilize component integration testing?, etc.)
    •發音也蠻多問題的
    •猜測他應該是有在練英文口說
    •應該沒有太多寫作上的需求
    •猜測他學習英文的方式是蠻自然的
    •沒有花額外的時間在學習文法,刻意的去修正自己的錯誤
    •學習英文的只是為了工作需求
    •說話有連貫性也有技巧,但是無法精準表達意思
    •在特定場景的口說上應該是沒有問題,因為重複性高而且大概可以猜出他會講什麼
    •說實話,表現超出預料

    ★★★★★★★★★★★★

    柯文哲(1959年8月6日-),中華民國著名外科醫師、無黨籍政治人物。現任臺北市市長。國立臺灣大學醫學院臨床醫學研究所博士畢業,曾任臺大醫院急診部醫師、臺大醫院創傷醫學部主任、臺大醫學院教授,2014年宣布參選臺北市市長選舉,並以「在野大聯盟」為號召,同年當選臺北市第15任直轄市市長,成為臺北市改制直轄市後首位無黨籍市長。2018年,參選臺北市市長並成功連任。

    https://youtu.be/ffIxQ27jUdQ?t=159

    •首先媒體對柯市長太嚴格了
    •常講英文的時候是為了開玩笑「柯式幽默」
    •在這個影片當中他確實有看稿子
    •and da today
    •today (stress on the second syllable )
    •medical (stress on first syllable)
    •metary -- military
    • problems cause by L1 interference
    •從語音結構上來看,中文是一種「音節計時語言(syllable-timed language)及「聲調語言」(tone language),每個字由一個音節構成,唸起來各音節輕重相當且時間大致等長,而且每個字有自己的聲調;但英語是一種「重音計時語言」(stress-timed language)及「語調語言」(intonation language),每個字的音節數不一,由各音節是否有重音來決定其輕重、長短與音階高低,而重音落於何處也會決定其語意之不同。

    -campus.cavesbooks.com.tw

    •One of the most noticeable features of English is that some of its syllables are strong while many others are weak” (Roach, 2000, p81). English stress pattern is manifested through syllable length, loudness and pitch. In other words, stressed syllables are longer, louder and higher pitched than unstressed ones. Sometimes one word that is stressed differently may have different grammatical functions and meanings, for example, the homographs “record” (verb) and “record” (noun). “Record” has the stress on second syllable when it is a verb, and it has stress on the first when it is a noun. The shift of the stress even makes a noticeable difference to the sound of the vowels, for instance, “e” in noun “REcord” is pronounced as /e/, but /ɪ/ in verb “reCORD”.

    -http://ec-concord.ied.edu.hk

    •coal values -- core values
    •freedom, tolerance, rule of law
    •用詞大致上是正確的雖然還是有字形上(word form)的問題
    •expensive -- expense
    •每個句子都很短,但還是有溝通的功能
    •蠻多文法的問題
    •個人認為是有知識和魅力的一位候選人
    •聽他用英文演講一段時間真的有困擾,因為沒重音,很難辨識重點
    •講話沒有太多語調和節奏,在英文發音裡面是一個非常重要的環節
    •會導致聽者需要完全專注他每一個字才能辨識他在說什麼
    •不覺得每一個政治人物都需要英文,有專業和可靠的翻譯輔助,就覺得不會是一種困擾
    •英文是一種工具,多一種工具就多一種選擇,但這種工具用不好時也有可能會造成一些誤解

    ★★★★★★★★★★★★

    在此提供我的「心智圖詞彙攻略」課程,希望對大家的語言學習有幫助: https://bit.ly/2QgajQw

    還有Howard老師《會走路的翻譯機,神級英文學習攻略本》的傳送門 http://bit.ly/2DfGrhH

    浩爾口筆譯 ft. 創譯兄弟

    ★★★★★★★★★★★★

    同時也再次感謝炙瞳夢 RED FILM幾位大導演和貓哥的友情協助,幫我們拍攝和剪接出如此精彩的影片!

    ★★★★★★★★★★★★

  • word同時上下標 在 MEeeep More Youtube 的最佳解答

    2019-08-09 15:50:47

    三星 Samsung 喺香港時間 2019 年 8 月 8 日 嘅凌晨發表咗今年旗艦手機 Galaxy Note 10 系列,宜家就同大家介紹一下!

    同往年唔同,今年嘅 Galaxy Note 系列分咗 6.3 寸嘅 Note 10 同埋 6.8 寸嘅 Note 10 +,進一步滲透對手機螢幕大小有唔同需要嘅用家。對比上一代,Note 10 同埋 Note 10 + 更體現到全面屏嘅優勢,上下兩條邊框都大幅收窄,加埋放置喺頂部中間嘅 Infinity-O 前置鏡頭,屏佔比提升到 Note 10 嘅 90.5% 同埋 Note 10 + 嘅 90.7%,機背嘅鏡頭亦都一改以往打橫嘅設計,改為同 iPhone 同埋華為新款機一樣打直咁放喺側邊。Note 10 系列只有 USB-C 嘅接口,取消咗 3.5mm 嘅耳機位,對於用開有線耳機嘅用家要升級就有少少唔習慣喇。

    硬件方面,Note 10 系列會用上最新嘅 7 nm 處理器,相信同以往一樣,香港版本將會使用頂級嘅 Snapdragon 8 系處理器,配合 Note 10 嘅 8 GB Ram 同埋 Note 10 + 嘅 12 GB Ram 。內存方面就有 256 GB 同埋 512 GB 嘅兩個版本,Note 10 + 仲支援高達 1 TB 嘅外置 SD Card,即係 Note 10 + 最多可以有 1.5 TB 嘅儲存空間,相信放大量嘅高清片都唔成問題啦!

    電量方面、Note 10 同埋 Note 10 + 分別配備咗 3500 個 mah 同埋 4300 個 mah 嘅電量,應該足夠一日使用,而 Note 10 支援 25 W 嘅有線同埋 12 W 嘅無線快充,Note 10 + 更加支援 45 W 嘅有線同埋 15 W 嘅無線快充,大約充半個鐘頭電,就夠一日用喇!

    機背嘅鏡頭方面 Note 10 系列都配備咗 3 個分別係 1600 萬像素嘅超廣角、1200 萬像素嘅標準同埋1200 萬像素嘅望遠鏡頭,而 Note 10 + 仲有一個 ToF 鏡頭,可以準確咁計算景深。

    而 Galaxy Note 系列最大嘅特色就當然係支 S-Pen 啦!今年 S-Pen 加入咗懸浮手勢控制功能,配合簡單嘅手勢,可以轉換前 / 後鏡頭, Zoom In Zoom Out ,或者瀏覽之前之後嘅項目等等,
    配合內置嘅手機應用程式嘅軟件,仲可將 S-Pen 寫好嘅文件或者畫好嘅圖,儲存為 Microsoft Word 同埋 PDF 嘅辦公室常用制式,真係相當方便!

    Note 10 同埋 Note 10 + 都同時推出 4G LTE 同埋 5G 版本、不過 5G 版就只係喺已經推出 5G 服務嘅地區先至會有得賣喇 。雖然暫時未有香港同埋亞洲其他地區嘅賣價,而美國方面嘅售價就係 US $ 949 起跳,並於 8 月 23 號全球開始發售。

    《Z世代達人》
    麥卓華

  • word同時上下標 在 Eric's English Lounge Youtube 的最讚貼文

    2019-06-12 20:22:55

    期待的政治英文影片第二集出爐了!!! 今天探討的是三位政治大咖的英文口語。再次聲明,此影片的目的不在於比較英文能力,而是提供學習者英文口語的實際操作和可以注意的小細節。對我而言,英文是一種工具,我並不覺得台灣的政治人物一定需要擁有驚人的外語能力。以下是影片中提到的一些資訊,請看完再發表評論:

    關於韓市長的「晶晶體」: http://bit.ly/2kENRVv

    ★★★★★★★★★★★★

    英文口語評估指標

    • 是否到達溝通目的
    • 考量語境/當下場景
    • 詞彙資源
    • 文法範圍和正確度
    • 連貫性和流暢度還有發音

    ★★★★★★★★★★★★

    韓國瑜(1957年6月17日-),中華民國政治人物,中國國民黨,現任高雄市市長,中華民國陸軍軍官學校專修學生班40期、東吳大學英國語文學系文學學士、國立政治大學東亞研究所法學碩士。

    EDIT: New Sample (08.21.2019): https://youtu.be/1xrcXcZvAko?t=148 (請先看完我們的分析)

    最先去搜尋的是ICRT全英文的專訪,但是大部分影片和錄音檔都被刪除,只留下一些片段: https://youtu.be/zDYhd7XiSUQ?t=12 (Vid 1)

    •prosperious -- prosperous Kaohsiung
    •We will hire the English teacher so that we can save money -- cause, effect relationship?
    •intelligible English pronunciation but spoke in short phrases

    https://youtu.be/3helP_n9jY8?t=481 (Vid 2)

    •唸稿子的時候有適當的停頓, 英文語調也有上下的起伏
    •met--made, we have made the impossible possible
    •in everyone eyes--in everyone’s eyes
    •longing for better tomorrow --longing for a better tomorrow
    •整體上來說沒有什麼問題...
    •很難去評估真正的英文口語能力,畢竟是念稿子
    •從詞彙量而言,至少足夠回應一般生活類問題
    •因為句子還蠻短的,所以沒有什麼語法錯誤
    •口音是一定有的,但是算標準,可以聽得懂
    •短句的流暢度沒有大問題,但是連貫性可以增加

    ★★★★★★★★★★★★

    郭台銘(英文名:Terry Gou,1950年10月18日-),中華民國企業家,新北板橋人,籍貫山西省晉城縣,臺灣省立板橋中學初中部、中國海事專科學校(今臺北海洋科技大學)航運管理科畢業,是鴻海科技集團(富士康)和鴻海精密的董事長兼總經理。以個人資產705億美元名列富比士億萬富翁列表中的第7大富豪,同時也是臺灣首富。2019年4月17日,郭台銘宣布投入中國國民黨的2020年中華民國總統選舉黨內初選。

    郭台銘 - 企業領袖高峰會演講 APEC CEO Summit 2013: https://youtu.be/c733wqJup_I?t=175

    •聽完他的對答覺得講得很好
    •應該已經在商業界上運用英文三十幾年了
    •1985就建立在美國一家分公司
    •因為是商業場合,講的話算官方但直接
    •以流暢度來說,會給高的評分
    •英文詞彙上應用專業術語 (e.g., key components, technology integration)
    •不熟悉字型的變化 morphology/word form--manufacture, manufacturing, manufacturer --we emerged as an electronics manufacturer; we innovation designer --no be verb; we are use all component and integration --we utilize component integration testing?, etc.)
    •發音也蠻多問題的
    •猜測他應該是有在練英文口語
    •應該沒有太多寫作上的需求
    •猜測他學習英文的方式是蠻自然的
    •沒有花額外的時間在學習文法,刻意的去修正自己的錯誤
    •學習英文的只是為了工作需求
    •說話有連貫性也有技巧,但是無法精準表達意思
    •在特定場景的口說上應該是沒有問題,因為重複性高而且大概可以猜出他會講什麼
    •說實話,表現超出預料

    ★★★★★★★★★★★★

    柯文哲(1959年8月6日-),中華民國著名外科醫師、無黨籍政治人物。現任臺北市市長。國立臺灣大學醫學院臨床醫學研究所博士畢業,曾任臺大醫院急診部醫師、臺大醫院創傷醫學部主任、臺大醫學院教授,2014年宣布參選臺北市市長選舉,並以「在野大聯盟」為號召,同年當選臺北市第15任直轄市市長,成為臺北市改制直轄市後首位無黨籍市長。2018年,參選臺北市市長並成功連任。

    https://youtu.be/ffIxQ27jUdQ?t=159

    •首先媒體對柯市長太嚴格了
    •常講英文的時候是為了開玩笑「柯式幽默」
    •在這個影片當中他確實有看稿子
    •and da today
    •today (stress on the second syllable )
    •medical (stress on first syllable)
    •metary -- military
    • problems cause by L1 interference
    •從語音結構上來看,中文是一種「音節計時語言(syllable-timed language)及「聲調語言」(tone language),每個字由一個音節構成,唸起來各音節輕重相當且時間大致等長,而且每個字有自己的聲調;但英語是一種「重音計時語言」(stress-timed language)及「語調語言」(intonation language),每個字的音節數不一,由各音節是否有重音來決定其輕重、長短與音階高低,而重音落於何處也會決定其語意之不同。

    -campus.cavesbooks.com.tw

    •One of the most noticeable features of English is that some of its syllables are strong while many others are weak” (Roach, 2000, p81). English stress pattern is manifested through syllable length, loudness and pitch. In other words, stressed syllables are longer, louder and higher pitched than unstressed ones. Sometimes one word that is stressed differently may have different grammatical functions and meanings, for example, the homographs “record” (verb) and “record” (noun). “Record” has the stress on second syllable when it is a verb, and it has stress on the first when it is a noun. The shift of the stress even makes a noticeable difference to the sound of the vowels, for instance, “e” in noun “REcord” is pronounced as /e/, but /ɪ/ in verb “reCORD”.

    -http://ec-concord.ied.edu.hk

    •coal values -- core values
    •freedom, tolerance, rule of law
    •用詞大致上是正確的雖然還是有字形上(word form)的問題
    •expensive -- expense
    •每個句子都很短,但還是有溝通的功能
    •蠻多文法的問題
    •個人認為是有知識和魅力的一位候選人
    •聽他用英文演講一段時間真的有困擾,因為沒重音,很難辨識重點
    •講話沒有太多語調和節奏,在英文發音裡面是一個非常重要的環節
    •會導致聽者需要完全專注他每一個字才能辨識他在說什麼
    •不覺得每一個政治人物都需要英文,有專業和可靠的翻譯輔助,就覺得不會是一種困擾
    •英文是一種工具,多一種工具就多一種選擇,但這種工具用不好時也有可能會造成一些誤解

    ★★★★★★★★★★★★

    在此提供我的「心智圖詞彙攻略」課程: https://bit.ly/2teELDq

    英文學習專頁: https://www.facebook.com/ericsenglishlounge/

    還有Howard老師《會走路的翻譯機,神級英文學習攻略本》的傳送門 http://bit.ly/2DfGrhH

    ★★★★★★★★★★★★

    同時也再次感謝炙瞳夢 RED FILM幾位大導演和貓哥的友情協助,幫我們拍攝和剪接出如此精彩的影片!

    ★★★★★★★★★★★★