雖然這篇tcp/ip教學鄉民發文沒有被收入到精華區:在tcp/ip教學這個話題中,我們另外找到其它相關的精選爆讚文章
在 tcp/ip教學產品中有5篇Facebook貼文,粉絲數超過44萬的網紅李開復 Kai-Fu Lee,也在其Facebook貼文中提到, 近日,我與阿萊克斯·彭特蘭教授(Alex Pentland)展開了一場”AI如何重塑人類社會”的精彩對話。 《連線》雜誌的資深撰稿人威爾·奈特(Will Knight)主持了這場對話。 阿萊克斯·彭特蘭教授任教于麻省理工學院,為全球大資料權威專家之一,現任MIT連接科學研究所主任、MIT媒體藝術...
tcp/ip教學 在 李開復 Kai-Fu Lee Facebook 的最佳解答
近日,我與阿萊克斯·彭特蘭教授(Alex Pentland)展開了一場”AI如何重塑人類社會”的精彩對話。
《連線》雜誌的資深撰稿人威爾·奈特(Will Knight)主持了這場對話。
阿萊克斯·彭特蘭教授任教于麻省理工學院,為全球大資料權威專家之一,現任MIT連接科學研究所主任、MIT媒體藝術與科學教授,擁有“可穿戴設備之父”、《福布斯》“全球七大權威大資料專家”、《麻省理工科技評論》“年度十大突破性科技”兩度桂冠獲得者等頭銜,曾參與創建MIT媒體實驗室,是全球被引述次數最多的計算科學家之一。
對話金句:
李開復:
AI最大的機會蘊藏在與傳統企業的結合中,這種價值的產生極其迅速,只需要幾個月,甚至短短幾周。
未來突破很難預測,對奇點、超級智慧的爭辯,在我看來都過於樂觀了。
小型AI公司與巨頭競爭,我的建議是找准巨頭沒有平臺優勢的細分領域,為某個針對性產業創造價值,不要與巨頭核心業務正面硬碰。
阿萊克斯·彭特蘭:
AI絕非試圖取代人類,而是促進多元文化之間的相互連接、團隊合作,讓人們更好的進行社交和連接彼此。
最困難的其實是說服人們改變商業流程去使用AI,因為大多數人是墨守成規的。
人工智慧有朝一日可以取代人類所有的能力,但是這個過程會非常漫長,可能需要上百年或更久。
我在對話中表示,當我們試圖解決AI問題時,應該用技術來解決技術的問題,可以尋求與監管部門協作,而不只是丟給他們,“新技術會衍生新的問題,我們應該多方嘗試用更進階的技術性解決方案,就像電腦病毒剛出現時,殺毒軟體隨之誕生。”
彭特蘭教授認為,人工智慧的核心,是促進多元文化之間的相互連接。不只是工程師或科學家,連經濟學家、政治家都必須參與進來。“國家之間應該促進合作、制定互通標準,就像TCP/IP互聯網協定那樣,避免AI冷戰。” 我們都贊同,AI發展從來不是單打獨鬥,跨學科思維、跨領域合作尤為重要。 這場對話是麻省理工學院中國創新與創業論壇(MIT-CHIEF) 組織的高峰對話系列活動,主題是《計算與未來: AI與資料科學如何重塑人類社會》。
麻省理工學院中國創新與創業論壇(MIT-CHIEF)由麻省理工學院的中國留學生創立,至今已有十年,是北美歷史最悠久的、由高校學生組織的中國創新創業論壇。系列高峰對話邀請了頂級科學家、投資人及創業者,共同探討科技創新及商業化過程中面臨的挑戰。
以下是我們對話的核心內容,由我的同事整理、分享給大家:
Part I 主題演講
▌李開復:各方應協作,讓AI 更務實
非常榮幸再次受到MIT-CHIEF的邀請,對於人工智慧的看法,這次我主要想講四點。
第一點是我書裡的主題,人工智慧的超能力。我們已經從人工智慧的發明期步入應用期階段,從應用落地層面來說,正迎來了AI發展最大的機遇。
很多科技公司目前已對人工智慧進行了多樣化佈局,從視覺、語言、觸覺和其他感知技術,到自動化機器人、無人駕駛等,對很多領域開啟了深遠的影響。雖然眼下所見的AI應用仍有局限性,但我預測未來的格局會非常龐大,依據統計,各行各業採用AI的程度目前不到5%,AI應用的中長期增長曲線相當可期。
第二點是我很欣喜看到的一點,AI正在和傳統行業深度融合。隨著人們對人工智慧的瞭解越來越多,更多的AI公司湧現出來。
AI最大的機會蘊藏在與傳統企業的結合中,創新工場也正在説明金融、製造、物流、零售、醫療等行業的公司進行AI變革。
作為AI投資人,我認為在這些行業如果找到正確的AI應用方向,就能帶來上千萬的回報。這種商業價值的產生是極其迅速的,通常只需要幾個月,甚至短短幾周就能看到成果。
現在人工智慧在傳統產業的滲透率仍在個位數,仍然有很大的提升空間。然而對於很多公司來說,它們需要的是高度定制化的方案,而非通用型AI方案,所以融合的過程中,不可避免會遇到不少挑戰和痛點。
第三,我早年做過很多科研工作,很高興能看到關於系統一和系統二(System One, System Two)的討論,我們期待人工智慧技術從系統一升級為系統二,即從識別、決策、優化等能力,升級到感知、認知等進階智慧的能力。
有不同的學派都在努力讓人工智慧更接近人類智慧,其中一個流派主張回歸經典的AI理念,甚至重新構建嶄新的模型結構,在深度學習技術的基礎上利用人類的知識。但我更支持另一個理論——深度學習的潛力還沒有完全釋放。
回看人工智慧過去60多年的歷程,最大的突破來自於計算能力和資料量大增而產生的可擴展演算法。我們看到了卷積神經網路(CNN)帶來的喜人成績,還有預訓練自然語言處理模型(Pre-Trained Models for Natural Language Processing)的廣泛運用。
預訓練模型與人類語言學習的模式類似,不管是英語還是中文,在習得這些語言之後,再去學習程式設計、藝術、化學。在無人監督的學習環境中,這種模式比我們想像得還要強大,就像阿爾法圍棋(AlphaGo)一樣。
最後一點我想說的是,如何讓AI變得更務實。
AI有很多問題,例如隱私、資料安全、治理和監管,在此就不一一討論了。當我們試圖解決這些AI難題時,有人認為讓監管部門加強管理是唯一辦法,其實不然,我們是否也可以朝著研發更厲害的技術性解決方案去努力?
就像電腦病毒剛出現時,殺毒軟體隨之誕生;面對千年蟲難題時,也迅速找到了技術應對方案。我們可以通過研發新技術,應對DeepFake深度換臉程式的挑戰;或者通過聯邦學習技術,在保證資料私密性的同時,滿足深度學習訓練需求。
作為握有技術能力的群體,我們需要與監管部門一起協作,而不只是把工作丟給他們。相信有了各方的助力,我們可以讓AI的應用變得更有深度,更加務實,更高效地克服現在面臨的種種問題。
▌阿萊克斯·彭特蘭:國家間應建立互通標準,避免“AI冷戰”
我對當前的深度學習技術不太樂觀。
最為主要原因是,深度學習不僅需要龐大的資料來源,而且要求這些資料長時間恒定不變,以保證模型訓練結果的可靠性,例如人類的面容、語言,就是相對穩定不變的資料來源。
但深度學習卻沒法應對快速變化的真實情況。亞馬遜在新冠疫情蔓延速度暴增時,出現了倉庫貨物緊缺,不得不停止送貨服務。這種經過深度學習高度優化後的系統發生崩潰,就是因為快速變化的疫情,和深度學習對恒定資料來源的需求是矛盾的。
另外,我想談談如何通過聯邦學習,促進資料的流通。
大多數公司沒有足夠豐富的資料,需要聯合不同的資料來源。基於這種需求,出現了很多新商業模式,比如“資料經紀人”——他們不出售資料,而是把資料借出去,作特定需求的使用。
“資料經紀人”業務湧現了很多,他們促進了資料的流通,也加強了資料的隱私性。因此,像聯邦學習這樣的技術和商業策略結合,有效解決了資料在合規性和所有權方面的難題。
聯邦學習也依賴於新的基礎設施建設,為資料應用和深度學習提供基礎環境,比如區塊鏈技術。現在世界上很多國家在做相關系統的建設實驗,新加坡等國家設置了一種相互競爭的區塊鏈系統,來解決支付和物流問題。我們最近也幫助瑞士做了類似的實驗,涉及不同資料的互通性和連貫性問題。
我們仍在研究如何用儘量少的資料,實現人工智慧的目標。少量資料是指不斷更新的短期資料,這些資料能使AI應對迅速變化的情況,並及時做出調整。
我們打算將AI與其他基礎科學結合,例如阿爾法圍棋(AlphaGo)就是這類結合的初步嘗試。這些方法不依賴于大量恒定資料,可能會比深度學習更加強大。
除此之外,我們在探討用AI保障聯邦學習過程中不同資料方的權益,這是實現不同國家之間的互通性、支付信任度、物流運輸等方面合作的關鍵前提。
另一方面,我們探索如何將AI技術應用於加密資料上。我們和大公司以及政府密切合作,找出解決系統入侵和保障網路安全的方法。
我同時花了很多時間研究與政府的合作。政府很多時候不知道如何通過大資料做決策,也不知道如何進行資料優化。而AI能夠幫助政府實現更高的效率,比如聯合國現在已經有了很多可持續發展目標的相關評估指標,世界經濟論壇也可以為會員國提供不同的標準測算。
基於我們已有的多中繼資料庫,現在可以利用AI實現全新的資料優化方式,將貧困、不平等這種之前無法量化的指標,通過可量化的指標進行評估。
同時,要真正實現這個目標,我們還需要制定統一的互通性標準。如果沒有這個標準,國家之間就不會相互信任去合作,就可能出現AI冷戰。
因此我們需要找到促進合作的方式,就像TCP/IP互聯網協議那樣。而之前我提到的,新加坡、瑞士等現在正在嘗試的區塊鏈系統,將有希望解決國家間缺乏互通標準的問題。
Part II 對話
▌ 美國線上教育發展難度更大,只在ZOOM上講課是不夠的
Q1:疫情加速了行業的改變,遠端醫療、線上教育開始蓬勃發展,這只是AI對人類社會產生影響的冰山一角。想請兩位談一談,目前看好AI在哪些領域應用的未來前景?
李開復:疫情的確對整個社會產生了實質性的影響,人們行為習慣發生了很多改變,更願意接受線上學習和工作了。
這種新的行為習慣產生了大量資料流程,為AI應用帶來了更多可能性。比如大健康領域以及遠端醫療中所產生的資料,可以訓練更智慧的模型。同時更多人開始在基因組學、新藥研發方面結合新的AI技術進行研究,因此我相信AI在醫療健康領域的潛能是非常巨大的。
AI與教育的結合也很值得期待。一方面可以説明老師處理重複性的日常事務,例如批改作業,讓老師得以將時間精力投入到更有創造性的事情上,能更悉心地為孩子提供優質教學。另一方面可以提高學生的課堂參與度和積極性,比如設置卡通版AI虛擬老師,讓課程充滿趣味性。
在中國,有很多線上教育公司在疫情之前就已經發展迅速,像創新工場投資的VIPKID,讓國外的純正英語老師線上上教授中國學生。目前,中國的線上教育已經擴展到了更多科目,包括體育、舞蹈、書法等素質教育課程。
相比之下,美國線上教育發展的難度會更大。畢竟只在ZOOM上講課是不夠的,好的線上教育必須要有好的內容。
▌AI核心是增強人際互聯,應注重文化多樣性
阿萊克斯·彭特蘭:李開復博士提到的教育案例,我不是很認同。
MIT大約20年前就在教育中使用AI,重點根本不是內容,我們甚至提倡將內容免費開放給大眾。
AI絕非試圖取代人類的作用,我們更強調用AI增強人與人之間的互動,讓人們更好的社交和連接彼此。比如手機上人工智慧技術,不是要取代你,而是讓你高效地找到最適合的工作、最正確的人,讓你更容易的獲取資訊,並進行創新。
我們可以利用資料激發更強的創新力,培養領導力。只有基於這樣的宗旨,才能促進更有創造力的教育和學習,這比關注教育內容本身重要得多。
在加拿大,有家創業公司正在訓練普通民眾學習AI,比如水管工,教學效果非常不錯。他們的教育方式不是簡單的教授基本知識,而是以一種能夠激發人們互動思考的方式。
我們之前在中國調研了3000多個孵化器,發現創業公司成功的要素裡,第一個是文化多樣性,也就是說創始團隊背景的複雜性和多樣性。第二個是團隊成員專業的多樣性,他們能否發揮自己所長,並很好地進行團隊合作。
1956年,馬文·明斯基 (Marvin Minsky)提出了人工智慧這個詞。但我們對於人工智慧的理解,不應該只停留在“人工”層面,而應擴展到多元文化之間的相互連接、團隊合作,我把它叫做延伸智能(Extended Intelligence)。這也是我想強調的,人工智慧這個名詞有一定的偶然性,但它的核心點是增強人與人之間的互聯性。
▌AI未來突破難預測,奇點、超級智慧過於樂觀
Q2:未來十年AI有沒有可能取得重要突破?比如GPT-3近期展現驚人的能力。兩位認為未來的突破方向是什麼?
李開復:過去60多年來,深度學習是唯一的重大突破。在這之後,卷積神經網路(CNN)和GPT-3等都算是重要的改善,我對於人工智慧的漸進式改善保持樂觀。
對科學家來說,他們更期待著技術上的突破式進展。但我覺得未來十年基礎科研或許不會有大的突破。但模型相對容易,只要有大量的資料,就可以從實驗室進入到行業應用,CNN和GPT-3都是模型加海量資料的成果。
我是務實派的,雖然持有樂觀態度,但並不是一位“未來學家”。未來的突破很難預測,對奇點(Singularity)的爭辯,甚至預測超級智慧的出現,在我看來都過於樂觀了。
阿萊克斯·彭特蘭:我同意李博士的觀點。很多生物機制很難解釋,包括用感知認識事物、理解聲音、尋找食物等,是深度學習演算法做不到的。但深度學習可以研究科學、制定規則、研究理論,並進行實踐。
從務實的角度來說,我最感興趣的就是聯邦學習。就醫療而言,我們有這麼多醫院,在新冠疫情期間做了很多的實驗,為什麼這些實驗資料不能進行聯合呢?
儘管資料有不相容的地方,但這也是一個很好的機會去探究不同的資料之間的關聯性。在未來,我們對資料的需求也許會越來越少,外科醫生或者物理學家或許不需要太多資料,因為他們對規則已經瞭若指掌了。
▌不要墨守成規,要跨領域、跨學科應對挑戰
Q3:人工智慧會有什關鍵挑戰?對於想從事這個行業的人,有什麼是需要瞭解的關鍵點?
李開復:首先,大背景在改變,新科技層出不窮,我們每年都需要學習新的東西。
其次,人工智慧可能引起各種問題,包括偏見、歧視、倫理道德等,是否危害人類的身體健康,無人駕駛技術該何去何從等等。
第三,人工智慧的研發需要深刻地理解技術對社會、生活與人類健康會產生的影響。我非常欣賞斯坦福和MIT這樣的高校,能夠把AI教育擴展到各個學科,讓研發人員及早意識到自己的責任和價值。
阿萊克斯·彭特蘭:是的,我朋友做過一個有關電的趣味類比,電動馬達最初在工廠裡用於生產的時候,並沒有發揮出多大的作用,因為大家並不知道如何改造生產流程。
AI在一些領域發揮的作用是顯著的,但應用到其他領域時,就需要改造流程。很多情況下,最困難的就是說服人們改變商業流程去使用AI,因為大多數人是墨守成規的。
而有意思的是,就像李博士提到的,像MIT和斯坦福這樣的高校確實在認真嚴肅地對待這個問題。
比如,我今天早上正好就這個話題跟G20領導人對話,大家一致認為我們必須從跨領域、跨學科的角度去面對這個問題,不能只是工程師或者社會科學從業者們在做,經濟學家,政治家等等都必須參與進來緊密合作。
隨著AI的應用領域越來越廣,除了必須具備強有力的技巧來建立社會規則,還需要對研究經費、企業投入等進行各種調整。
▌雖然大公司實力不容小覷,但依舊對小公司抱有期待
Q4:AI研究會消耗大量的資源,我們是否應該將資源往學術界平衡?現在已經發生資源的重新分配和平衡了嗎?
李開復:就人才而言,現在已經有重新平衡的跡象了。
過去,頂尖大學的學者基於待遇和種種考量,不少選擇去企業界工作。而近期,曾任職於百度、海爾、位元組跳動等公司的數位優秀AI科學家已經回歸高校。
但像GPT-3這樣的技術,仍然不是大學和小公司能支付得起的。支撐GPT-3運行的電腦是世界算力第五的超級電腦。每進行一次演算法訓練,就要花費460萬美金,只有像騰訊、穀歌、微軟這個級別的公司才能負擔得起如此強大的算力。
我觀察到,近年的AI創業公司已經和5年前截然不同了。它們一般由AI科學家和商業人才共同創建,為了解決特定問題而生,並非紙上談兵做突破性科研,切入的領域也往往是巨頭公司忽略的地方。
例如,為製造業進行AI賦能,不是一件輕鬆的事,需要去工廠實地勘查,瞭解運作方式。大公司因為賺錢很容易,不願意做這些性價比低的苦活累活。這些小公司的努力一旦有了成果,就會給產業界帶來革命性的影響。所以,雖然大公司的實力不容小覷,但我依舊對小公司抱有期待。
阿萊克斯·彭特蘭:大學和公司是一種融合的關係,不僅體現在人才流動上,也會進行資訊資源分享,彼此是整體性的合作態勢。
當然這也不是絕對,產業界的保密需求還是存在的,只是從學校的出發點來說,我們願意毫無保留地為大家提供更好的研究成果,並與企業合作,形成標準化平臺。
▌人工智慧取代人類需要上百年或更久
Q5:兩位認為什麼是AI不能取代的?
李開復:一類是創造力、分析能力、邏輯辯論能力,瞭解自己知道什麼不知道什麼,這些是人工智慧無法取代的。另外一類是同理心,人類之間的信任、友誼,自我認知、意識等。
阿萊克斯·彭特蘭:人工智慧有朝一日可以取代人類所有的能力,但是這個過程會非常漫長,可能需要上百年或更久。
▌AI創業建議I:找到小切入點,不要與巨頭正面硬碰
Q6:李博士提到了AI在小企業中的運用,可否再舉例說明是如何運用的?
李開復:這個問題分兩部分:一個是小型AI公司與巨頭競爭,我的建議是找准巨頭沒有平臺優勢的細分領域,為某個針對性產業創造價值,並且不要與巨頭核心業務正面硬碰。
對於那些中小型非AI、但想應用AI的公司,需要確保有足夠的資料,以訓練與核心商業價值掛鉤的AI模型,並且有願意變革的開放性公司文化。
所以,早期應用AI的公司可能規模較大,因為他們有足夠大的資料,和可相容變革的商業模型。每個例子都不同,不是任何一家公司都要應用AI。
阿萊克斯·彭特蘭:如果我們放寬AI的定義,或許水管工、合同工都有資料,通過一些簡單的分析、整合,AI也可以在很大程度上改進他們的工作。
這些都是很小的切入點,基於簡單的AI分析、機器學習,依舊可以產生巨大的潛力。
▌ AI創業建議II:知曉技術,同時理解商業
Q7:兩位再分享一下最後的建議?
李開復:我們在步入一個AI開始滲透到方方面面的令人振奮的時代,我希望所有的學生們都能參與到這個改革浪潮中。要深刻地理解人工智慧的商業落地,而不僅僅鑽研技術本身。
阿萊克斯·彭特蘭:不要太較真於深度學習或者冗長的演算法,一切始於要解決的現實問題。不要止步於技術本身,要明白資料類型、形態和規律,關注商業流程。
感謝葉樂斐、劉諾、藍萱、張昊、陳冬傑、劉子昂、張梓煜、錢淩寒、水一方、沈雍在校譯和審閱上對本文的貢獻。
tcp/ip教學 在 李開復 Kai-Fu Lee Facebook 的最佳解答
近日,我與阿萊克斯·彭特蘭教授(Alex Pentland)展開了一場”AI如何重塑人類社會”的精彩對話。
《連線》雜誌的資深撰稿人威爾·奈特(Will Knight)主持了這場對話。
阿萊克斯·彭特蘭教授任教于麻省理工學院,為全球大資料權威專家之一,現任MIT連接科學研究所主任、MIT媒體藝術與科學教授,擁有“可穿戴設備之父”、《福布斯》“全球七大權威大資料專家”、《麻省理工科技評論》“年度十大突破性科技”兩度桂冠獲得者等頭銜,曾參與創建MIT媒體實驗室,是全球被引述次數最多的計算科學家之一。
對話金句:
李開復:
AI最大的機會蘊藏在與傳統企業的結合中,這種價值的產生極其迅速,只需要幾個月,甚至短短幾周。
未來突破很難預測,對奇點、超級智慧的爭辯,在我看來都過於樂觀了。
小型AI公司與巨頭競爭,我的建議是找准巨頭沒有平臺優勢的細分領域,為某個針對性產業創造價值,不要與巨頭核心業務正面硬碰。
阿萊克斯·彭特蘭:
AI絕非試圖取代人類,而是促進多元文化之間的相互連接、團隊合作,讓人們更好的進行社交和連接彼此。
最困難的其實是說服人們改變商業流程去使用AI,因為大多數人是墨守成規的。
人工智慧有朝一日可以取代人類所有的能力,但是這個過程會非常漫長,可能需要上百年或更久。
我在對話中表示,當我們試圖解決AI問題時,應該用技術來解決技術的問題,可以尋求與監管部門協作,而不只是丟給他們,“新技術會衍生新的問題,我們應該多方嘗試用更進階的技術性解決方案,就像電腦病毒剛出現時,殺毒軟體隨之誕生。”
彭特蘭教授認為,人工智慧的核心,是促進多元文化之間的相互連接。不只是工程師或科學家,連經濟學家、政治家都必須參與進來。“國家之間應該促進合作、制定互通標準,就像TCP/IP互聯網協定那樣,避免AI冷戰。” 我們都贊同,AI發展從來不是單打獨鬥,跨學科思維、跨領域合作尤為重要。 這場對話是麻省理工學院中國創新與創業論壇(MIT-CHIEF) 組織的高峰對話系列活動,主題是《計算與未來: AI與資料科學如何重塑人類社會》。
麻省理工學院中國創新與創業論壇(MIT-CHIEF)由麻省理工學院的中國留學生創立,至今已有十年,是北美歷史最悠久的、由高校學生組織的中國創新創業論壇。系列高峰對話邀請了頂級科學家、投資人及創業者,共同探討科技創新及商業化過程中面臨的挑戰。
以下是我們對話的核心內容,由我的同事整理、分享給大家:
Part I 主題演講
▌李開復:各方應協作,讓AI 更務實
非常榮幸再次受到MIT-CHIEF的邀請,對於人工智慧的看法,這次我主要想講四點。
第一點是我書裡的主題,人工智慧的超能力。我們已經從人工智慧的發明期步入應用期階段,從應用落地層面來說,正迎來了AI發展最大的機遇。
很多科技公司目前已對人工智慧進行了多樣化佈局,從視覺、語言、觸覺和其他感知技術,到自動化機器人、無人駕駛等,對很多領域開啟了深遠的影響。雖然眼下所見的AI應用仍有局限性,但我預測未來的格局會非常龐大,依據統計,各行各業採用AI的程度目前不到5%,AI應用的中長期增長曲線相當可期。
第二點是我很欣喜看到的一點,AI正在和傳統行業深度融合。隨著人們對人工智慧的瞭解越來越多,更多的AI公司湧現出來。
AI最大的機會蘊藏在與傳統企業的結合中,創新工場也正在説明金融、製造、物流、零售、醫療等行業的公司進行AI變革。
作為AI投資人,我認為在這些行業如果找到正確的AI應用方向,就能帶來上千萬的回報。這種商業價值的產生是極其迅速的,通常只需要幾個月,甚至短短幾周就能看到成果。
現在人工智慧在傳統產業的滲透率仍在個位數,仍然有很大的提升空間。然而對於很多公司來說,它們需要的是高度定制化的方案,而非通用型AI方案,所以融合的過程中,不可避免會遇到不少挑戰和痛點。
第三,我早年做過很多科研工作,很高興能看到關於系統一和系統二(System One, System Two)的討論,我們期待人工智慧技術從系統一升級為系統二,即從識別、決策、優化等能力,升級到感知、認知等進階智慧的能力。
有不同的學派都在努力讓人工智慧更接近人類智慧,其中一個流派主張回歸經典的AI理念,甚至重新構建嶄新的模型結構,在深度學習技術的基礎上利用人類的知識。但我更支持另一個理論——深度學習的潛力還沒有完全釋放。
回看人工智慧過去60多年的歷程,最大的突破來自於計算能力和資料量大增而產生的可擴展演算法。我們看到了卷積神經網路(CNN)帶來的喜人成績,還有預訓練自然語言處理模型(Pre-Trained Models for Natural Language Processing)的廣泛運用。
預訓練模型與人類語言學習的模式類似,不管是英語還是中文,在習得這些語言之後,再去學習程式設計、藝術、化學。在無人監督的學習環境中,這種模式比我們想像得還要強大,就像阿爾法圍棋(AlphaGo)一樣。
最後一點我想說的是,如何讓AI變得更務實。
AI有很多問題,例如隱私、資料安全、治理和監管,在此就不一一討論了。當我們試圖解決這些AI難題時,有人認為讓監管部門加強管理是唯一辦法,其實不然,我們是否也可以朝著研發更厲害的技術性解決方案去努力?
就像電腦病毒剛出現時,殺毒軟體隨之誕生;面對千年蟲難題時,也迅速找到了技術應對方案。我們可以通過研發新技術,應對DeepFake深度換臉程式的挑戰;或者通過聯邦學習技術,在保證資料私密性的同時,滿足深度學習訓練需求。
作為握有技術能力的群體,我們需要與監管部門一起協作,而不只是把工作丟給他們。相信有了各方的助力,我們可以讓AI的應用變得更有深度,更加務實,更高效地克服現在面臨的種種問題。
▌阿萊克斯·彭特蘭:國家間應建立互通標準,避免“AI冷戰”
我對當前的深度學習技術不太樂觀。
最為主要原因是,深度學習不僅需要龐大的資料來源,而且要求這些資料長時間恒定不變,以保證模型訓練結果的可靠性,例如人類的面容、語言,就是相對穩定不變的資料來源。
但深度學習卻沒法應對快速變化的真實情況。亞馬遜在新冠疫情蔓延速度暴增時,出現了倉庫貨物緊缺,不得不停止送貨服務。這種經過深度學習高度優化後的系統發生崩潰,就是因為快速變化的疫情,和深度學習對恒定資料來源的需求是矛盾的。
另外,我想談談如何通過聯邦學習,促進資料的流通。
大多數公司沒有足夠豐富的資料,需要聯合不同的資料來源。基於這種需求,出現了很多新商業模式,比如“資料經紀人”——他們不出售資料,而是把資料借出去,作特定需求的使用。
“資料經紀人”業務湧現了很多,他們促進了資料的流通,也加強了資料的隱私性。因此,像聯邦學習這樣的技術和商業策略結合,有效解決了資料在合規性和所有權方面的難題。
聯邦學習也依賴於新的基礎設施建設,為資料應用和深度學習提供基礎環境,比如區塊鏈技術。現在世界上很多國家在做相關系統的建設實驗,新加坡等國家設置了一種相互競爭的區塊鏈系統,來解決支付和物流問題。我們最近也幫助瑞士做了類似的實驗,涉及不同資料的互通性和連貫性問題。
我們仍在研究如何用儘量少的資料,實現人工智慧的目標。少量資料是指不斷更新的短期資料,這些資料能使AI應對迅速變化的情況,並及時做出調整。
我們打算將AI與其他基礎科學結合,例如阿爾法圍棋(AlphaGo)就是這類結合的初步嘗試。這些方法不依賴于大量恒定資料,可能會比深度學習更加強大。
除此之外,我們在探討用AI保障聯邦學習過程中不同資料方的權益,這是實現不同國家之間的互通性、支付信任度、物流運輸等方面合作的關鍵前提。
另一方面,我們探索如何將AI技術應用於加密資料上。我們和大公司以及政府密切合作,找出解決系統入侵和保障網路安全的方法。
我同時花了很多時間研究與政府的合作。政府很多時候不知道如何通過大資料做決策,也不知道如何進行資料優化。而AI能夠幫助政府實現更高的效率,比如聯合國現在已經有了很多可持續發展目標的相關評估指標,世界經濟論壇也可以為會員國提供不同的標準測算。
基於我們已有的多中繼資料庫,現在可以利用AI實現全新的資料優化方式,將貧困、不平等這種之前無法量化的指標,通過可量化的指標進行評估。
同時,要真正實現這個目標,我們還需要制定統一的互通性標準。如果沒有這個標準,國家之間就不會相互信任去合作,就可能出現AI冷戰。
因此我們需要找到促進合作的方式,就像TCP/IP互聯網協議那樣。而之前我提到的,新加坡、瑞士等現在正在嘗試的區塊鏈系統,將有希望解決國家間缺乏互通標準的問題。
Part II 對話
▌ 美國線上教育發展難度更大,只在ZOOM上講課是不夠的
Q1:疫情加速了行業的改變,遠端醫療、線上教育開始蓬勃發展,這只是AI對人類社會產生影響的冰山一角。想請兩位談一談,目前看好AI在哪些領域應用的未來前景?
李開復:疫情的確對整個社會產生了實質性的影響,人們行為習慣發生了很多改變,更願意接受線上學習和工作了。
這種新的行為習慣產生了大量資料流程,為AI應用帶來了更多可能性。比如大健康領域以及遠端醫療中所產生的資料,可以訓練更智慧的模型。同時更多人開始在基因組學、新藥研發方面結合新的AI技術進行研究,因此我相信AI在醫療健康領域的潛能是非常巨大的。
AI與教育的結合也很值得期待。一方面可以説明老師處理重複性的日常事務,例如批改作業,讓老師得以將時間精力投入到更有創造性的事情上,能更悉心地為孩子提供優質教學。另一方面可以提高學生的課堂參與度和積極性,比如設置卡通版AI虛擬老師,讓課程充滿趣味性。
在中國,有很多線上教育公司在疫情之前就已經發展迅速,像創新工場投資的VIPKID,讓國外的純正英語老師線上上教授中國學生。目前,中國的線上教育已經擴展到了更多科目,包括體育、舞蹈、書法等素質教育課程。
相比之下,美國線上教育發展的難度會更大。畢竟只在ZOOM上講課是不夠的,好的線上教育必須要有好的內容。
▌AI核心是增強人際互聯,應注重文化多樣性
阿萊克斯·彭特蘭:李開復博士提到的教育案例,我不是很認同。
MIT大約20年前就在教育中使用AI,重點根本不是內容,我們甚至提倡將內容免費開放給大眾。
AI絕非試圖取代人類的作用,我們更強調用AI增強人與人之間的互動,讓人們更好的社交和連接彼此。比如手機上人工智慧技術,不是要取代你,而是讓你高效地找到最適合的工作、最正確的人,讓你更容易的獲取資訊,並進行創新。
我們可以利用資料激發更強的創新力,培養領導力。只有基於這樣的宗旨,才能促進更有創造力的教育和學習,這比關注教育內容本身重要得多。
在加拿大,有家創業公司正在訓練普通民眾學習AI,比如水管工,教學效果非常不錯。他們的教育方式不是簡單的教授基本知識,而是以一種能夠激發人們互動思考的方式。
我們之前在中國調研了3000多個孵化器,發現創業公司成功的要素裡,第一個是文化多樣性,也就是說創始團隊背景的複雜性和多樣性。第二個是團隊成員專業的多樣性,他們能否發揮自己所長,並很好地進行團隊合作。
1956年,馬文·明斯基 (Marvin Minsky)提出了人工智慧這個詞。但我們對於人工智慧的理解,不應該只停留在“人工”層面,而應擴展到多元文化之間的相互連接、團隊合作,我把它叫做延伸智能(Extended Intelligence)。這也是我想強調的,人工智慧這個名詞有一定的偶然性,但它的核心點是增強人與人之間的互聯性。
▌AI未來突破難預測,奇點、超級智慧過於樂觀
Q2:未來十年AI有沒有可能取得重要突破?比如GPT-3近期展現驚人的能力。兩位認為未來的突破方向是什麼?
李開復:過去60多年來,深度學習是唯一的重大突破。在這之後,卷積神經網路(CNN)和GPT-3等都算是重要的改善,我對於人工智慧的漸進式改善保持樂觀。
對科學家來說,他們更期待著技術上的突破式進展。但我覺得未來十年基礎科研或許不會有大的突破。但模型相對容易,只要有大量的資料,就可以從實驗室進入到行業應用,CNN和GPT-3都是模型加海量資料的成果。
我是務實派的,雖然持有樂觀態度,但並不是一位“未來學家”。未來的突破很難預測,對奇點(Singularity)的爭辯,甚至預測超級智慧的出現,在我看來都過於樂觀了。
阿萊克斯·彭特蘭:我同意李博士的觀點。很多生物機制很難解釋,包括用感知認識事物、理解聲音、尋找食物等,是深度學習演算法做不到的。但深度學習可以研究科學、制定規則、研究理論,並進行實踐。
從務實的角度來說,我最感興趣的就是聯邦學習。就醫療而言,我們有這麼多醫院,在新冠疫情期間做了很多的實驗,為什麼這些實驗資料不能進行聯合呢?
儘管資料有不相容的地方,但這也是一個很好的機會去探究不同的資料之間的關聯性。在未來,我們對資料的需求也許會越來越少,外科醫生或者物理學家或許不需要太多資料,因為他們對規則已經瞭若指掌了。
▌不要墨守成規,要跨領域、跨學科應對挑戰
Q3:人工智慧會有什關鍵挑戰?對於想從事這個行業的人,有什麼是需要瞭解的關鍵點?
李開復:首先,大背景在改變,新科技層出不窮,我們每年都需要學習新的東西。
其次,人工智慧可能引起各種問題,包括偏見、歧視、倫理道德等,是否危害人類的身體健康,無人駕駛技術該何去何從等等。
第三,人工智慧的研發需要深刻地理解技術對社會、生活與人類健康會產生的影響。我非常欣賞斯坦福和MIT這樣的高校,能夠把AI教育擴展到各個學科,讓研發人員及早意識到自己的責任和價值。
阿萊克斯·彭特蘭:是的,我朋友做過一個有關電的趣味類比,電動馬達最初在工廠裡用於生產的時候,並沒有發揮出多大的作用,因為大家並不知道如何改造生產流程。
AI在一些領域發揮的作用是顯著的,但應用到其他領域時,就需要改造流程。很多情況下,最困難的就是說服人們改變商業流程去使用AI,因為大多數人是墨守成規的。
而有意思的是,就像李博士提到的,像MIT和斯坦福這樣的高校確實在認真嚴肅地對待這個問題。
比如,我今天早上正好就這個話題跟G20領導人對話,大家一致認為我們必須從跨領域、跨學科的角度去面對這個問題,不能只是工程師或者社會科學從業者們在做,經濟學家,政治家等等都必須參與進來緊密合作。
隨著AI的應用領域越來越廣,除了必須具備強有力的技巧來建立社會規則,還需要對研究經費、企業投入等進行各種調整。
▌雖然大公司實力不容小覷,但依舊對小公司抱有期待
Q4:AI研究會消耗大量的資源,我們是否應該將資源往學術界平衡?現在已經發生資源的重新分配和平衡了嗎?
李開復:就人才而言,現在已經有重新平衡的跡象了。
過去,頂尖大學的學者基於待遇和種種考量,不少選擇去企業界工作。而近期,曾任職於百度、海爾、位元組跳動等公司的數位優秀AI科學家已經回歸高校。
但像GPT-3這樣的技術,仍然不是大學和小公司能支付得起的。支撐GPT-3運行的電腦是世界算力第五的超級電腦。每進行一次演算法訓練,就要花費460萬美金,只有像騰訊、穀歌、微軟這個級別的公司才能負擔得起如此強大的算力。
我觀察到,近年的AI創業公司已經和5年前截然不同了。它們一般由AI科學家和商業人才共同創建,為了解決特定問題而生,並非紙上談兵做突破性科研,切入的領域也往往是巨頭公司忽略的地方。
例如,為製造業進行AI賦能,不是一件輕鬆的事,需要去工廠實地勘查,瞭解運作方式。大公司因為賺錢很容易,不願意做這些性價比低的苦活累活。這些小公司的努力一旦有了成果,就會給產業界帶來革命性的影響。所以,雖然大公司的實力不容小覷,但我依舊對小公司抱有期待。
阿萊克斯·彭特蘭:大學和公司是一種融合的關係,不僅體現在人才流動上,也會進行資訊資源分享,彼此是整體性的合作態勢。
當然這也不是絕對,產業界的保密需求還是存在的,只是從學校的出發點來說,我們願意毫無保留地為大家提供更好的研究成果,並與企業合作,形成標準化平臺。
▌人工智慧取代人類需要上百年或更久
Q5:兩位認為什麼是AI不能取代的?
李開復:一類是創造力、分析能力、邏輯辯論能力,瞭解自己知道什麼不知道什麼,這些是人工智慧無法取代的。另外一類是同理心,人類之間的信任、友誼,自我認知、意識等。
阿萊克斯·彭特蘭:人工智慧有朝一日可以取代人類所有的能力,但是這個過程會非常漫長,可能需要上百年或更久。
▌AI創業建議I:找到小切入點,不要與巨頭正面硬碰
Q6:李博士提到了AI在小企業中的運用,可否再舉例說明是如何運用的?
李開復:這個問題分兩部分:一個是小型AI公司與巨頭競爭,我的建議是找准巨頭沒有平臺優勢的細分領域,為某個針對性產業創造價值,並且不要與巨頭核心業務正面硬碰。
對於那些中小型非AI、但想應用AI的公司,需要確保有足夠的資料,以訓練與核心商業價值掛鉤的AI模型,並且有願意變革的開放性公司文化。
所以,早期應用AI的公司可能規模較大,因為他們有足夠大的資料,和可相容變革的商業模型。每個例子都不同,不是任何一家公司都要應用AI。
阿萊克斯·彭特蘭:如果我們放寬AI的定義,或許水管工、合同工都有資料,通過一些簡單的分析、整合,AI也可以在很大程度上改進他們的工作。
這些都是很小的切入點,基於簡單的AI分析、機器學習,依舊可以產生巨大的潛力。
▌ AI創業建議II:知曉技術,同時理解商業
Q7:兩位再分享一下最後的建議?
李開復:我們在步入一個AI開始滲透到方方面面的令人振奮的時代,我希望所有的學生們都能參與到這個改革浪潮中。要深刻地理解人工智慧的商業落地,而不僅僅鑽研技術本身。
阿萊克斯·彭特蘭:不要太較真於深度學習或者冗長的演算法,一切始於要解決的現實問題。不要止步於技術本身,要明白資料類型、形態和規律,關注商業流程。
感謝葉樂斐、劉諾、藍萱、張昊、陳冬傑、劉子昂、張梓煜、錢淩寒、水一方、沈雍在校譯和審閱上對本文的貢獻。
tcp/ip教學 在 Taipei Ethereum Meetup Facebook 的最佳解答
📜 [專欄新文章] 隱私、區塊鏈與洋蔥路由
✍️ Juin Chiu
📥 歡迎投稿: https://medium.com/taipei-ethereum-meetup #徵技術分享文 #使用心得 #教學文 #medium
隱私為何重要?區塊鏈是匿名的嗎?洋蔥路由如何改進區塊鏈?
前言
自2008年區塊鏈以比特幣的面貌問世後,它便被視為 Web 3.0,並被期許能夠進一步為人類帶來金融與治理上的大躍進。區塊鏈或許會成為如同全球資訊網一般的基礎建設,如果我們已經開始注重個人於網路上的隱私,那麼我們更應該關心這項全新的技術是否能更好地保護它。
筆者將於本文中闡述隱私的重要性,接著進一步分析區塊鏈是否能夠保護用戶隱私,最後再簡介一個知名的匿名技術 — 洋蔥路由,並列舉幾個其用於改進區塊鏈(特別是以太坊)的相關提案。
特別感謝以太坊研究員 Chih-Cheng Liang 與民間高手敖烏協助校閱並給予回饋。
隱私的重要
網際網路(Internet)無疑是 20 世紀末最偉大的發明,它催生了全新的商業模式,也使得資訊能以位元的形式進行光速傳播,更使人類得以進行前所未有的大規模協作。而自從 1990 年全球資訊網(World Wide Web)的問世以來,網路已和現代文明生活密不可分。經過近 30 年的發展,人類在網路上製造了巨量的資料,這些資料會揭露使用者的隱私。透過一個人的資料,企業或者政府能夠比你自己更了解你。這促使用戶對隱私的愈發重視 — 正如同你不會允許第三者監聽你的電話,你也不希望有第三者監看你的瀏覽器搜尋歷史。
然而,如今的網路是徹底的中心化,中心化也意謂著過大的權力,有種種跡象顯示:網路正在成為政府當局監控人民的工具。例如:中國的淨網衛士[1]、美國的稜鏡計劃[2]等。那麼,政府應該監控人民嗎?其中一派的人認為平日不做虧心事,半夜不怕鬼敲門,這也就是常見的無所隱瞞論[3]:
我不在乎隱私權,因為我沒什麼好隱瞞的。
不過持有這類論點的人通常會被下面的說法反駁:
既然沒什麼好隱瞞的,那請把你的 Email 帳號密碼給我,讓我揭露其中我認為有趣的部分。
大多數正常人應該都不會接受這個提議。
隱私應當與言論自由一樣,是公民的基本權利。事實上,隱私是一個既廣且深的題目,它涉及了心理學、社會學、倫理學、人類學、資訊科學、密碼學等領域,這裡[4]有更多關於關於隱私的討論以及網路隱私工具的整理。
隱私與區塊鏈
有了網際網路後,接下來人類或許可以透過區塊鏈來建構出一個免除人性且完全仰賴自然法則(數學)運行的去中心化系統。在中心化世界中,我們需要免於政府監控的隱私;在去中心化世界中,我們仍然需要隱私以享有真正的平等。
正如同本文的前言所述:區塊鏈也許會成為如同全球資訊網一般的基礎建設,如果我們已經開始注重網路隱私,那麼我們更應該關心區塊鏈是否能更好地保護它。
隱私與匿名
Privacy vs Anonymity [5]
當我們論及隱私時,我們通常是指廣義的隱私:別人不知道你是誰,也不知道你在做什麼。事實上,隱私包含兩個概念:狹義的隱私(Privacy)與匿名(Anonymity)。狹義的隱私就是:別人知道你是誰,但不知道你在做什麼;匿名則是:別人知道你在做什麼,但不知道你是誰。
隱私與匿名對於隱私權來說都很重要,也可以透過不同的方法達成,接下來本文將聚焦於匿名的討論。另外,筆者在接下來的文章中所提及的隱私,指的皆是狹義的隱私。
網路的匿名
以當今的網路架構(TCP/IP 協定組)來說,匿名就是請求端(Requester)向響應端(Responder)請求資源時藏匿其本身的 IP 位址 — 響應端知道請求端在做什麼(索取的資源),但不知道是誰(IP 位置)在做。
IP 位置會揭露個人資訊。在台灣,只需透過 TWNIC 資料庫就可向台灣的網路服務供應商(Internet Service Provider, ISP),例如中華電信,取得某 IP 的註冊者身份及姓名/電話/地址之類的個資。
ISP 是網路基礎建設的部署者與營運者,理論上它能知道關於你在使用網路的所有資訊,只是這些資訊被法律保護起來,並透過公權力保證:政府只在必要時能夠取得這些資訊。萬一政府本身就是資訊的監控者呢?因此,我們需要有在 ISP 能窺知一切的情形下仍能維持匿名的方法。
區塊鏈能保護隱私、維持匿名嗎?
區塊鏈除了其本身運作的上層應用協定之外,還包含了下層網路協定。因此,這個問題可以分為應用層與網路層兩個部分來看 。
應用層
應用層負責實作狀態機複製(State Machine Replication),每個節點收到由共識背書的交易後,便可將交易內容作為轉換函數(Transition Function)於本機執行狀態轉換(State Transition)。
區塊鏈上的交易內容與狀態是應當被保護的隱私,一個保護隱私的直覺是:將所有的交易(Transaction)與狀態(State)加密。然而實際上,幾乎目前所有的主流區塊鏈,包含以太坊,其鏈上的交易及狀態皆為未加密的明文,用戶不僅可以查詢任一地址的交易歷史,還能知道任一地址呼叫某智能合約的次數與參數。也就是說,當今主流區塊鏈並未保護隱私。
雖然區塊鏈上的交易使用假名(Pseudonym),即地址(Address),但由於所有交易及狀態皆為明文,因此任何人都可以對所有假名進行分析並建構出用戶輪廓(User Profile)。更有研究[6]指出有些方法可以解析出假名與 IP 的映射關係(詳見下個段落),一旦 IP 與假名產生關聯,則用戶的每個行為都如同攤在陽光下一般赤裸。
區塊鏈的隱私問題很早便引起研究員的重視,因此目前已有諸多提供隱私保護的區塊鏈被提出,例如運用零知識證明(Zero-knowledge Proof)的 Zcash、運用環簽章(Ring Signature)的 Monero、 運用同態加密(Homomorphic Encryption)的 MimbleWimble 等等。區塊鏈隱私是一個大量涉及密碼學的艱澀主題,本文礙於篇幅不再深入探討,想深入鑽研的讀者不妨造訪台北以太坊社群專欄,其中有若干優質文章討論此一主題。
網路層
節點於應用層產生的共識訊息或交易訊息需透過網路層廣播(Broadcast)到其他節點。由於當今的主流區塊鏈節點皆未採取使網路維持匿名的技術,例如代理(Proxy)、虛擬私人網路(Virtual Private Network, VPN)或下文即將介紹的洋蔥路由(Onion Routing),因此區塊鏈無法使用戶維持匿名 — 因為對收到訊息的節點來說,它既知道廣播節點在做什麼(收到的訊息),也知道廣播節點是誰(訊息的 IP 位置)。
一個常見的問題是:使用假名難道不是匿名嗎?若能找到該假名與特定 IP 的映射關係的話就不是。一般來說,要找到與某假名對應的 IP 相當困難,幾可說是大海撈針,但是至少在下列兩種情況下可以找到對應關係:1. 該假名的用戶自願揭露真實 IP,例如在社群網站公開以太坊地址;2. 區塊鏈網路遭受去匿名化攻擊(Deanonymization Attack)[6]。
洩漏假名與 IP 的關聯會有什麼問題? 除了該 IP 的真實身份可能被揭露外,該區塊鏈節點亦可能遭受流量分析(Traffic Analysis)、服務阻斷(Denial of Service)或者審查(Censorship),可以說是有百害而無一利。
區塊鏈如何維持匿名?
其實上文已給出了能讓區塊鏈維持匿名的線索:現有匿名技術的應用。我們先來進一步理解區塊鏈網路層與深入探討網際網路協定的運作原理。
區塊鏈網路層的運作原理
P2P Overlay Network [7]
區塊鏈是一個對等網路(Peer-to-peer, P2P),而對等網路是一種覆蓋網路(Overlay Network),需建構於實體網路(Physical Network)之上。
覆蓋網路有兩種常見的通訊模式:一種是基於中繼的(Relay-based)通訊,在此通訊模式下的訊息皆有明確的接收端,因而節點會將不屬於自己的訊息中繼(Relay)給下一個可能是接收端的節點,分散式雜湊表(Distributed Hash Table, DHT)就是一種基於中繼的對等網路;另一種是基於廣播的(Broadcast-based)通訊,在此通訊模式下的訊息會被廣播給所有節點,節點會接收所有訊息,並且再度廣播至其他節點,直到網路中所有節點都收到該訊息,區塊鏈網路層就是一種基於廣播的對等網路。
覆蓋網路旨在將實體網路的通訊模式抽象化並於其上組成另一個拓墣(Topology)與路由機制(Routing Mechanism)。然而實際上,實體網路的通訊仍需遵循 TCP/IP 協定組的規範。那麼,實體網路又是如何運作的呢?
網際網路的運作原理
OSI Model vs TCP/IP Model
實體網路即是網際網路,它的發明可以追朔至 Robert Kahn 和 Vinton Cerf 於1974 年共同發表的原型[12],該原型經過數年的迭代後演變成我們當今使用的 TCP/IP 協定組[8]。全球資訊網(WWW)的發明更進一步驅使各國的 ISP 建立基於 TCP/IP 協定組的網路基礎建設。網際網路在多個國家經過近 30 年的部署後逐漸發展成今日的規模,成為邏輯上全球最巨大的單一網路。
1984 年,國際標準化組織(ISO)也發表了 OSI 概念模型[9],雖然較 TCP/IP 協定組晚了 10 年,但是 OSI 模型為日後可能出現的新協定提供了良好的理論框架,並且與 TCP/IP 協定組四層協定之間有映射關係,能夠很好地描述既存的 TCP/IP 協定組。
TCP/IP 協定組的各層各有不同的協定,且各層之間的運作細節是抽象的,究竟這樣一個龐大複雜的系統是如何運作的呢?
Packet Traveling [10][11]
事實上,封包的傳送正如同寄送包裹。例如筆者從台北寄一箱書到舊金山,假設每個包裹只能放若干本書,這箱書將分成多個包裹寄送,每個包裹需註明寄件地址、收件地址、收件者。寄送流程從郵局開始,一路經過台北物流中心 → 北台灣物流中心 → 基隆港 → 洛杉磯港 → 北加州物流中心 → 舊金山物流中心 → 收件者住處,最後由收件者收取。
這如同從 IP 位於台北的設備連上 IP 位於舊金山的網站,資料將被切分成多個固定大小的封包(Packet)之後個別帶上請求端 IP、響應端 IP 及其他必要資訊,接著便從最近的路由器(Router)出發,一路送至位於舊金山的伺服器(Server)。
每個包裹上的收件地址也如同 IP 位置,是全球唯一的位置識別。包裹的收件地址中除了包含收件者的所在城市、街道,還包含了門號,每個門號後都住著不同的收件者。門號正如同封包中後綴於 IP 的連接埠(Port),而住在不同門號的收件者也如同使用不同連接埠的應用程式(Application),分別在等待屬於他們的包裹。實際上,特定的連接埠會被分配給特定的應用程式,例如 Email 使用連接埠 25、HTTPS 使用連接埠 443 等等。
雖然包裹的最終目的地是收件地址,但包裹在運送途中也會有數個短程目的地 — 也就是各地的物流中心。包裹在各個物流中心之間移動,例如從北部物流中心到基隆港,再從基隆港到洛杉磯港,雖然其短程目的地會不斷改變,但其最終目的地會保持不變。
封包的最終目的地稱為端點(End),短程目的地稱為轉跳(Hop) — 也就是路由器(Router)。路由器能將封包從一個網段送至另一個網段,直到封包抵達其端點 IP 所在的網段為止。封包使用兩種定址方法:以 IP 表示端點的位置,而以 MAC 表示路由器的位置。這種從轉跳至轉跳(From Hop to Hop)的通訊是屬於 TCP/IP 協定組第一層:網路存取層(Network Access Layer)的協定。
那麼要如何決定包裹的下一個短程目的地呢?理論上,每個物流中心皆需選擇與最終目的地物理距離最短的物流中心作為下一個短期目的地。例如對寄到舊金山的包裹來說,位於基隆港的包裹下一站應該是洛杉磯港,而不是上海港。
封包則使用路由器中的路由表(Routing Table)來決定下一個轉跳位置,有數種不同的路由協定,例如 RIP / IGRP 等,可以進行路由表的更新。從端點到端點(From End to End)的通訊正是屬於 TCP/IP 協定組第二層:網際層(Internet Layer)的協定。
若一箱書需要分多次寄送,則可以採取不同的寄送策略。至於選擇何種寄送策略,則端看包裹內容物的屬性:
求穩定的策略:每個包裹都會有個序號,寄包裹前要先寫一封信通知收件者,收件者於收到信後需回信確認,寄件者收到確認信後“再”寫一次信告訴收件者「我收到了你的確認」,然後才能寄出包裹。收件者收到包裹後也需回確認信給寄件者,如果寄件者沒收到某序號包裹的回信,則會重寄該包裹。
求效率的策略:連續寄出所有的包裹,收件者不需回信確認。
橫跨多個封包的通訊是屬於 TCP/IP 協定組第三層:傳輸層(Transport Layer)的協定。這兩種策略也對應著傳輸層的兩個主要協定:TCP 與 UDP。TCP 注重穩定,它要求端點於傳送封包前必須先進行三向交握(Three-way Handshake),也就是確認彼此的確認,以建立穩固的連線,且端點在接收封包後也會回傳確認訊息,以確保沒有任何一個封包被遺失;反之,UDP 注重效率,它不要求端點在通訊前進行繁瑣的確認,而是直接傳送封包。
包裹本身亦可以裝載任何內容:這箱書可以是一套金庸全集,也可以是一年份的交換日記;同理,封包內的資料也可以是來自任何上層協定的內容,例如 HTTPS / SMTP / SSH / FTP 等等。這些上層協定都被歸類為 TCP/IP 協定組第四層:應用層(Application Layer)的協定。
維持匿名的技術
區塊鏈仰賴於實體網路傳送訊息,欲使區塊鏈網路層維持匿名,則需使實體網路維持匿名。那麼實體網路如何匿名呢? 若以寄包裹的例子來看,維持匿名,也就是不要讓收件者知道寄件地址。
一個直覺的思路是:先將包裹寄給某個中介(Intermediary),再由中介寄給收件者。如此收件者看到的寄件地址將會是中介的地址,而非原寄件者的地址 — 這也就是代理(Proxy)以及 VPN 等匿名技術所採取的作法。
不過這個作法的風險在於:寄件者必須選擇一個守口如瓶、值得信賴的中介。由於中介同時知道寄件地址與收件地址,倘若中介將寄件地址告知收件人,則寄件者的匿名性蕩然無存。
有沒有辦法可以避免使單一中介毀壞匿名性呢?一個中介不夠,那用兩個、三個、甚至多個呢?這便是洋蔥路由的基本思路。由於沒有任何一個中介同時知道寄件地址與收件地址,因此想破壞寄件者匿名性將變得更困難。
洋蔥路由與 Tor
洋蔥路由(Onion Routing)最初是為了保護美國政府情報通訊而開發的協定,後來卻因為其能幫助平民抵抗政府監控而變得世界聞名。
1997 年,Michael G. Reed、Paul F. Syverson 和 David M. Goldschlag 於美國海軍研究實驗室首先發明了洋蔥路由[13],而 Roger Dingledine 和 Nick Mathewson 於美國國防高等研究計劃署(DARPA)緊接著開始著手開發 Tor,第一版 Tor 於 2003 年釋出[14]。2004 年,美國海軍研究實驗室以自由軟體授權條款開放了 Tor 原始碼。此後,Tor 開始接受電子前哨基金會(Electronic Frontier Foundation)的資助;2006年,非營利組織「Tor 專案小組」(The Tor Project)成立,負責維護 Tor 直至今日。
Tor [15]是洋蔥路由的實作,它除了改進原始設計中的缺陷,例如線路(Circuit)的建立機制,也加入若干原始設計中沒有的部分,例如目錄伺服器(Directory Server)與洋蔥服務(Onion Service),使系統更強健且具有更高的匿名性。
Tor 自 2004 年上線至今已有超過 7000 個由志願者部署的節點,已然是一個強大的匿名工具。然而這也使其成為雙面刃:一方面它可以幫助吹哨者揭露不法、對抗監控;另一方面它也助長了販毒、走私等犯罪活動。但不論如何,其技術本身的精巧,才是本文所關注的重點。
Tor 的運作原理
Tor Overview [16]
Tor 是基於中繼的(Relay-based)覆蓋網路。Tor 的基本思路是:利用多個節點轉送封包,並且透過密碼學保證每個節點僅有局部資訊,沒有全局資訊,例如:每個節點皆無法同時得知請求端與響應端的 IP,也無法解析線路的完整組成。
Tor 節點也稱為洋蔥路由器(Onion Router),封包皆需透過由節點組成的線路(Circuit)傳送。要注意的是,Tor 線路僅是覆蓋網路中的路徑,並非實體網路的線路。每條線路皆由 3 個節點組成,請求端首先會與 3 個節點建立線路並分別與每個節點交換線路密鑰(Circuit Key)。
請求端會使用其擁有的 3 組線路密鑰對每個送出的封包進行 3 層加密,且最內層密文需用出口節點的密鑰、最外層密文需用入口節點的密鑰,如此才能確保線路上的節點都只能解開封包中屬於該節點的密文。被加密後的封包被稱為洋蔥,因其如洋蔥般可以被一層一層剝開,這就是洋蔥路由這個名稱的由來。
封包經過線路抵達出口節點後,便會由出口節點送往真正的響應端。同樣的線路也會被用於由響應端回傳的封包,只是這一次節點會將每個送來的封包加密後再回傳給上一個節點,如此請求端收到的封包就會仍是一顆多層加密的洋蔥。
那麼,請求端該選擇哪些節點來組成線路呢?Tor 引入了目錄伺服器(Directory Server)此一設計。目錄伺服器會列出 Tor 網路中所有可用的節點[17],請求端可以透過目錄伺服器選擇可用的洋蔥路由器以建立線路。目前 Tor 網路中有 9 個分別由不同組織維護的目錄,中心化的程度相當高,這也成為 Tor 安全上的隱憂。
Tor 線路的建立機制
Tor Circuit Construction [18]
Tor 是如何建立線路的呢?如上圖所示,Tor 運用伸縮(Telescoping)的策略來建立線路,從第一個節點開始,逐次推進到第三個節點。首先,請求端與第一個節點進行交握(Handshake)並使用橢圓曲線迪菲 — 赫爾曼密鑰交換(Elliptic Curve Diffie–Hellman key Exchange, ECDH)協定來進行線路密鑰的交換。
為了維持匿名,請求端接著再透過第一個節點向第二個節點交握。與第二個節點交換密鑰後,請求端再透過第一、二個節點向第三個節點交握與交換密鑰,如此慢慢地延伸線路直至其完全建立。線路建立後,請求端便能透過線路與響應端進行 TCP 連線,若順利連接,便可以開始透過線路傳送封包。
洋蔥服務
Clearnet, Deepweb and Darknet [21]
洋蔥服務(Onion Service)/ 隱藏服務(Hidden Service)是暗網(Darknet)的一部分,是一種必須使用特殊軟體,例如 Tor,才能造訪的服務;與暗網相對的是明網(Clearnet),表示可以被搜尋引擎索引的各種服務;深網(Deep Web)則是指未被索引的服務,這些服務不需要特殊軟體也能造訪,與暗網不同。
當透過 Tor 使用洋蔥服務時,請求端與響應端都將不會知道彼此的 IP,只有被響應端選定的節點:介紹點(Introduction Point)會引領請求端至另一個節點:會面點(Rendezvous Point),兩端再分別與會面點建立線路以進行通訊。也就是說,請求端的封包必須經過 6 個節點的轉送才能送往響應端,而所有的資料也會採取端對端加密(End-to-end Encryption),安全強度非常高。
洋蔥服務及暗網是一個令人興奮的主題,礙於篇幅,筆者將另撰文闡述。
混合網路、大蒜路由與洋蔥路由
這裡再接著介紹兩個與洋蔥路由系出同源的匿名技術:混合網路與大蒜路由。
Mix Network Overview [22]
混合網路(Mix Network)早在 1981 年就由 David Chaum 發明出來了[23],可以說是匿名技術的始祖。
洋蔥路由的安全性奠基於「攻擊者無法獲得全局資訊」的假設[24],然而一旦有攻擊者具有監控多個 ISP 流量的能力,則攻擊者仍然可以獲知線路的組成,並對其進行流量分析;混合網路則不僅會混合線路節點,還會混合來自不同節點的訊息,就算攻擊者可以監控全球 ISP 的流量,混合網路也能保證維持匿名性。
然而高安全性的代價就是高延遲(Latency),這導致混合網路無法被大規模應用,或許洋蔥路由的設計是一種為了實現低延遲的妥協。
Garlic Routing Overview [25]
混合網路啟發了洋蔥路由,洋蔥路由也啟發了大蒜路由。2003年上線的 I2P(Invisible Internet Project)便是基於大蒜路由(Garlic Routing)的開源軟體,可以視為是去中心化版的 Tor。幾乎所有大蒜路由中的組件,在洋蔥路由中都有對應的概念:例如大蒜路由的隧道(Tunnel)即是洋蔥路由的線路;I2P 的網路資料庫(NetDB)即是 Tor 的目錄;I2P中的匿名服務(Eepsite)即是 Tor 的洋蔥服務。
不過,大蒜路由也有其創新之處:它允許多個封包共用隧道以節省建立隧道的成本,且其使用的網路資料庫實際上是一個分散式雜湊表(DHT),這使 I2P 的運作徹底去中心化。若想進一步理解 DHT 的運作原理,可以參考筆者之前所撰寫的文章:
連Ethereum都在用!用一個例子徹底理解DHT
I2P 最大的詬病就是連線速度太慢,一個缺乏激勵的去中心化網路恐怕很難吸引足夠的節點願意持續貢獻頻寬與電費。
區塊鏈與洋蔥路由
那麼,基於實體網路的區塊鏈能不能使用洋蔥路由或大蒜路由/混合網路/其他技術,以維持節點的匿名?答案是肯定的。事實上,目前已經出現數個專案與提案:
全新的專案
Dusk:實作大蒜路由的區塊鏈[32],不過官方已宣布因其影響網路效能而暫停開發此功能。
cMix:透過預先計算(Precomputation)以實現低延遲的混合網路[33],是混合網路發明者 David Chaum 近期的研究,值得期待。
Loki:結合 Monero 與 Tor/I2P 的區塊鏈 [34],並使用代幣激勵節點貢獻頻寬與電力,由其白皮書可以看出發明者對於匿名技術的熱愛與信仰。
於主流區塊鏈的提案
比特幣:全世界第一條區塊鏈,將於其網路使用一個不同於洋蔥路由的匿名技術:Dandelion++[30][31],該匿名技術因其訊息傳播路徑的形狀類似浦公英而得其名。
閃電網路(Lightning Network):知名的比特幣第二層方案,將於其網路內實作洋蔥路由[27]。
Monero:使用環簽章保護用戶隱私的區塊鏈,將於其網路內實作大蒜路由,已開發出 Kovri[28] 並成為 I2P 官方認可的客戶端之一[29]。
於以太坊的提案
2018 年 12 月,Mustafa Al-Bassam 於以太坊官方研究論壇提議利用洋蔥路由改進輕節點之資料可得性(Light Client Data Availability)[36]。若讀者想了解更多關於以太坊輕節點的研究,可以參考台北以太坊社群專欄的這篇文章。資料可得性是輕節點實現的關鍵,而這之中更關鍵的是:如何向第三方證明全節點的資料可得性?由於這個提案巧妙地運用了洋蔥路由的特性,因此在今年 7 月在另一則討論中,Vitalik 亦強烈建議應儘速使洋蔥路由成為以太坊的標準[35]。
在這個提案中,輕節點需建立洋蔥路由線路,然而線路節點並非由目錄中挑選,而是由前一個節點的可驗證隨機函數(Verifiable Random Function, VRF)決定。例如線路中的第二個節點需由第一個節點的 VRF 決定。線路建立後,出口節點便可以接著向全節點請求特定的可驗證資料。由於輕節點在過程中維持匿名,因此可以防止全節點對輕節點的審查(Censoring)。取得可驗證資料後,其便與 VRF 證明沿著原線路傳回輕節點,輕節點再將可驗證資料與 VRF 證明提交至合約由第三方驗證。若第三方驗證正確,則資料可得性得證。
結語
隱私與匿名是自由的最後一道防線,我們應該盡可能地捍衛它,不論是透過本文介紹的匿名技術或者其他方式。然而,一個能保護隱私與維持匿名的區塊鏈是否能實現真正的去中心化?這是一個值得深思的問題。
本文也是筆者研究區塊鏈至今跨度最廣的一篇文章,希望讀者能如我一樣享受這段令人驚奇又興奮的探索旅程。
參考資料
[1] Jingwang Weishi, Wikipedia
[2] PRISM, Wikipedia
[3] privacytools.io
[4] Nothing-to-hide Argument, Wikipedia
[5] Anonymity vs Privacy vs Security
[6] Deanonymisation of Clients in Bitcoin P2P Network, Alex Biryukov, Dmitry Khovratovich, Ivan Pustogarov, 2014
[7] Example: P2P system topology
[8] Internet protocol suite, Wikipedia
[9] OSI model, Wikipedia
[10] Packet Traveling: OSI Model
[11] Packet Traveling — How Packets Move Through a Network
[12] A Protocol for Packet Network Intercommunication, VINTON G. CERF, ROBERT E. KAHN, 1974
[13] Anonymous Connections and Onion Routing, Michael G. Reed, Paul F. Syverson, and David M. Goldschlag, 1998
[14] Tor: The Second-Generation Onion Router, Roger Dingledine, Nick Mathewson, Paul Syverson, 2004
[15] Tor, Wikipedia
[16] What actually is the Darknet?
[17] Tor Network Status
[18] Inside Job: Applying Traffic Analysis to Measure Tor from Within, Rob Jansen, Marc Juarez, Rafa Galvez, Tariq Elahi, Claudia Diaz, 2018
[19] How Does Tor Really Work? The Definitive Visual Guide (2019)
[20] Tor Circuit Construction via Telescoping
[21] The DarkNet and its role in online piracy
[22] Mix network, Wikipedia
[23] Untraceable Electronic Mail, Return Addresses, and Digital Pseudonyms, David Chaum, 1981
[24] The differences between onion routing and mix networks
[25] Monitoring the I2P network, Juan Pablo Timpanaro, Isabelle Chrisment, Olivier Festor, 2011
[26] I2P Data Communication System, Bassam Zantout, Ramzi A. Haraty, 2002
[27] BOLT #4: Onion Routing Protocol
[28] Kovri
[29] Alternative I2P clients
[30] Bitcoin BIP-0156
[31] Dandelion++: Lightweight Cryptocurrency Networking with Formal Anonymity Guarantees, Giulia Fanti, Shaileshh Bojja Venkatakrishnan, Surya Bakshi, Bradley Denby, Shruti Bhargava, Andrew Miller, Pramod Viswanath, 2018
[32] The Dusk Network Whitepaper, Toghrul Maharramov, Dmitry Khovratovich, Emanuele Francioni, Fulvio Venturelli, 2019
[33] cMix: Mixing with Minimal Real-Time Asymmetric Cryptographic Operations, David Chaum, Debajyoti Das, Farid Javani, Aniket Kate, Anna Krasnova, Joeri De Ruiter, Alan T. Sherman, 2017
[34] Loki: Private transactions, decentralised communication, Kee Jefferys, Simon Harman, Johnathan Ross, Paul McLean, 2018
[35] Open Research Questions For Phases 0 to 2
[36] Towards on-chain non-interactive data availability proofs
隱私、區塊鏈與洋蔥路由 was originally published in Taipei Ethereum Meetup on Medium, where people are continuing the conversation by highlighting and responding to this story.
👏 歡迎轉載分享鼓掌