不要實驗不要問卷,小論文也可以寫點新鮮的|助教實作坊
哈囉大家,我是助教Lucy~
今天是實作坊的第三篇文章(應該也是過年前最後一篇
我們要來聊聊「小論文」啦!
最近在一個活動上,
助教認識了一個高中同學,
他提到自主學習,他不知道要研究什麼題目,
但看到同學們好像都很認真做,...
不要實驗不要問卷,小論文也可以寫點新鮮的|助教實作坊
哈囉大家,我是助教Lucy~
今天是實作坊的第三篇文章(應該也是過年前最後一篇
我們要來聊聊「小論文」啦!
最近在一個活動上,
助教認識了一個高中同學,
他提到自主學習,他不知道要研究什麼題目,
但看到同學們好像都很認真做,
所以他就做了份小論文叫做「探討XX地區高中生對OOO的看法」
然後發了問卷調查。
助教問他,做完的感想,
他說:「恩就是了解大家對OOO的看法,其實跟我原本想的差不多。做這個其實蠻無聊的欸。」
等等話不是這麼說的,小論文其實可以很有趣!
今天助教就要來分享,做出有趣小論文的眉角,給大家參考參考囉!
___________________________________________
1.不是只有網路才能找靈感
不少同學會跟助教說,他不知道該怎麼找題目,所以他就去看網路上大家在做什麼。這樣不是不行,但很容易少了自我探索的動力和興趣啦!那可以從哪裡找題目呢?其實生活周邊就有很多可以研究的啦!
舉例來說,助教之前就很好奇自己住家附近的歷史,一對照地圖才知道,隔壁的隔壁的隔壁條街的停車場,白色恐怖時期居然是一座關押政治犯的看守所,甚至附近有居民的長輩曾經就被關押在那邊,是不是很酷?
講遠了,其實助教想說不要只關注網路熱題,生活周遭有很多小事,也非常值得研究喔!試著花一點注意力在生活週遭的問題上吧,一點點興趣也好,他就能夠凸顯「你」做這個題目的獨特性喔!
2.論文範圍縮小再聚焦
第二點,要來分享之前政大統計系教授跟助教分享的一個建議,他說很多學生面試時,會分享在小論文上如何統計這些數據呀,怎麼分析,怎麼得出結論。但是,這些計算方式其實沒有那麼正確(比如說:有少數學生不太清楚中位數和平均數,在數據分析時代表的意義),所以降低了結論的參考價值,這是非常可惜的。
尤其部分學生喜歡討論「全台高中生」、「學生」對於XXX事情的想法,可是實際問卷數太少,很難去真實反映結果。教授也建議,學生如果對於瞭解他人想法有興趣的話,可以縮小範圍,或者訪問較為代表性的團體去討論這樣的議題,比如討論憂鬱症這樣的狀況,可以多參考政府單位提供的數據、詢問學校輔導室、採訪相關基金會、團體,或許會有更不一樣的觀點喔!
3.質化研究也能說一個好故事
許多同學在選擇做小論文時,傾向作量化研究,發問卷、做實驗,用資料去建構故事;但如果你想要專注於討論這個事件的來龍去脈、對於社會或是團體的影響,質化研究會是一個比較好的選擇喔!
那麼什麼是質化研究呢?簡單來說,他就是透過去深入尋找資料、踏查訪問,從與人的互動中了解事件如何,和為何發生。所以比起用大量數據去佐證,他更主題式的討論個案。在白話文一點,就是透過搜集各種非數據資料,去說一個故事。
就像前面助教提到的研究自家附近的歷史,他要的不是大量數據去佐證說有多少人住過這,後來又搬走,更重要的是這個街區興起跟沒落的故事,他需要透過比對大量的歷史資訊、訪問街區的長輩,你才能把故事拼湊起來。
而這樣的研究往往重要的不是「新發現」,而是你從中去看見了什麼影響與現象,然後你把它分享出來。
如果你跟助教一樣對數字不那麼擅長,不妨試試看質化研究,在各文獻與故事中穿梭,相信你最後也能和老師、教授分享一個好故事啦~~~
___________________________________________
好啦又是很多字,希望大家有看到最後!
有問題歡迎同學私訊助教啦!
我們下一篇文見啦👋
#助教實作坊
#學習歷程檔案
#自主學習時間
#自主學習計畫
#小論文
論文比對範圍 在 Facebook 的最佳貼文
W2 2021/4/27(星期二)
連續放假三天,星期日去爬山,隔天乳酸堆積的下半身讓我有說不出的爽快痛感,還好休息一天之後,又恢復到能屈能伸的巴低。
「台式香腸便當」是我的最愛,也是陽陽的;只是要台式菜色,都不是圈圈的菜,但如果依照他的喜好帶便當,那就是一三帶肉派,二四帶雞塊薯條,星期五Hot dog,那可不行。
今天學校有越野競跑活動(Cross Country),圈圈要求我去參加,才使得便當文稍晚發放。他今天跑步從一開始吹哨起跑,倒數第一(屬於很沒有爆發力的小孩),跑到四分之一的時候倒數第八,看他沒有放棄的繼續在爬坡奔跑(上坡很多孩子都用走的了),我很感動,本來就不是運動咖,但運動家的精神倒是沒讓我失望,鬥志很堅強,一路追趕到終點,竟然跑進前十名,完全是龜兔賽跑裡的小烏龜以耐力取勝啊,媽我都落淚了,很慶幸自己今天去見證了他的努力。
繼續來說:
陽陽升學記(三)
「選校!選到起笑」
「選校」這是屬於父母的業務專區,小孩就是上學和去參加考試就好。
選私校?還是公校?要報考幾所才夠?要選哪幾所?怎麼選?要報考什麼班?
這個說起來真的是講不完,所以,我直接以陽陽的學業條件和我的經驗來分享,當然所有的決定還包含了經濟考量,所以,大家參考就好,不要當成指標和學習的對象。畢竟每一家的各項客觀條件和主觀考量因素都是不同的。
先講公校:
跨區就讀公校,一定是要參加考試,他們會透過考試篩選出成績相對優異的學生,除了考試,還要審核成績單,看在校成績和品性以及是否積極參與社團,如果通過考試的學生太多,名額有限 ,那成績單就是決勝的關鍵,通常都是以五年級的成績單為必須送件的參考。
我們決定學校的參考依據之一是透過一個叫 The Better Education
https://bettereducation.com.au/ 的網站,查詢學校的評鑑分數,這些分數來自於學生參加Naplan成績平均值和學校各項學術表現得出來的結果 。這個網站還能交叉比對你心儀的幾所學校輸入之後的排名。可以幫助你在喜歡的幾所學校中,那一所排為第一志願,那一所作為候補志願。當然這都是以學術成績來作為參考標準。
另外,需要考量的因素就是接送是否方便,將來我必須奔波於兩校之間接送孩子,跨區就讀,選校必須要在能力所及的範圍,或是老杯是否有條件可以就近支援,大眾運輸是否方便(如果你放心孩子自己搭公車火車的話)。
再來就是學校的校風如何?是否有種族歧視的問題?校園霸凌事件是否頻傳?負面新聞是否多於正面新聞?這些對我們應該是最重要的考量因素。
其實以上三點考量,在選擇私校與公校時都是一樣的考慮範圍。
最後,我們選GC中區北區最搶手的A高中,最近一次2019年評鑑成績還不錯落在94分(老杯方便接送),以及兩所我們家隔壁學區評鑑成績大約在中上評比同88分的公校稱B和C ,一共三所公校,兩所要參加考試,一所申請就好。每個學校的申請條件和考試時間都不同。
你以為選好就去報名,然後就等考試了嗎?私校可能如此,公校(搖頭)沒這麼簡單。
孩子六年級第一個學期開始,我們就開始關注學校的網站,等公佈Open day我們就得上網登記參加,時間到,就帶著孩子前往學校聽簡報。孩子絕對是心不干情不願的前往,對他們來說真的很無聊,但你得去了解,才能知道學校招生條件是什麼?也能在第一時間拿到申請表。
我們只參加公立學校的Open Day,三所都參加了,辛苦老杯。
拿到申請表以為填寫資料,附上成績單就繳費就可以等考試,又錯了。
我沒想到這裡的高中跨區申請會這樣麻煩,
A校:獨招,考試依照Naplan考題模式出題。
申請表中需要選填分組志願:
1.法語班:用法文學習數學,科學和電腦和程式語言等學科,當然必修法語。(這個我們直接放在第三志願,雖然老杯是在法國巴黎念拿的博士學位,也用法文通過博士論文答辯,但要他用法語教數學和科學,人生沒有必要這樣找自己的麻煩,直接跳過)
2. Stem班:我理解為理工班,在這理會比較著重數學,科學和電腦程式等理工方面的學科,未來大學也是朝這個面向去重點學習和選科,我們了解到女兒對於電腦程式語言是非常的弱項,而且排斥,雖然在校成績總能拿到A或B,但每次問他「不是討厭,怎麼還能拿A或B」他自己也不知道。(所以這個成為第二志願)
3.Waldorf 華德福教育體制班:全GC應該是唯一創辦這個班級的學校吧,這個教育體制源自於德國。是一種新的教育思想,創始人相信這是一套能夠照顧學生身心靈整體發展的教育模式。(有興趣的朋友可以自己去google一下 Waldorf Education)
學校的文案說明中表示:這是一種創造性的學術學習方式,對英文,數學,歷史和地理還有科學的學習,輔以藝術角度和公開演說訓練及發展獨立思考的能力。這個班級主要在學習獨立創造和思考,自己尋找答案,而不只是老師單向的傳授。我覺得如果孩子熱愛藝術和充滿寫作興趣、饒富文藝氣息可以選擇這個科系。
老杯說,當參加學校簡報時,這是陽陽唯一抬起頭來聆聽的部分,當然,陽陽自己決定了Waldorf為第一志願。我們也認為這個最適合他。
另外學校還有其他特長班可以報考,像是音樂班,體育班和戲劇班。這些特長班除了要參加學科考試,還得有術科面試。也是三個志願中可以選擇的項目。
學校B:獨招,試題以ICAS考題模式進行。
需要先送成績單,符合資格,才通知考試。
所以,你有可能送報名表,繳了報名費,然後不一定能參加考試。(哼!跩什麼跩,但還是默默地報名了ˊ)
申請表中的志願選項有:
1學術班:同上stem班,就不贅述。報考資格:數學和科學和英文,電腦程式語言四個科目中,至少要兩個A,兩個B
2商業領袖人才培訓班:數學和英文一定要拿A才擁有考試資格。課程內容包含數學會帶到商業應用,科學和電腦應用程式都會著重在商業領域,聽說還會學習分組成立公司和經營。學校還有作業是發五元給孩子們當創業基金,讓他們利用所學,用五元創造更大利潤,曾有個孩子用五元賺了800元。學校舉例說明如此。(他們才11、12歲耶,要開始學這些了?!)
3日語班:需要基礎日文能力。學術成績要求(我忘了)
老杯說,不想女兒太早沾染銅臭味,於是我們就報了第一和第三,兩樣都拿到考試資格,因為當時open day遲到,沒聽到日語班的條件,拿到考試資格時才發現根本不會日文,所以直接放棄沒有去考。
B校申請資格這麼硬,你要不要送件?
當然要送,哪來這麼多AAAA的學生,不管孩子成績單幾個ABC,就賭他收不到這麼多符合資格的人數,不得不把把資格放寬,所以不要被條件限制所影響而退縮。有送有機會,有考有希望👍。
第三所學校是送審成績單,但成績單也都要求主要科目要拿A,時間也壓在比較後期,我們想說如果報考的學校都名落孫山,再考慮送件,畢竟公校報考費用至少都是100元起跳,在加上兩所私立學校的報名費又是兩三百元,能先不花,就省下來。
公校申請完畢,私校申請和考試及放榜過程明天繼續,時光飛逝,我又要去接小孩放學了。
祝大家有美好的午後時光❤️
論文比對範圍 在 台灣物聯網實驗室 IOT Labs Facebook 的最佳解答
【除了逮你還能逮誰~】用 AI 人臉辨識緝凶,警卻誤抓嫌犯莫名被關 10 天
Posted on2021/01/04
TO 精選觀點
【我們為什麼挑選這篇文章】AI 辨識技術日趨成熟,也開始應用在生活中的方方面面,包含緝匪。但是 AI 做出的判斷真的能直接作為扣押人的依據嗎?以目前技術來看,AI 頂多能縮小緝查範圍,找到相似的面貌。但直接判定的證據仍然需要多方比對才不致冤獄。美國警方前陣子就發生了一件烏龍,不僅用假護照的照片作為追查依據,還扣押了這位被 AI 誤判的人。(責任編輯:郭俐伶)
作者:量子位
什麼都沒做,就莫名其妙被員警關了 10 天?
這是發生在美國新澤西州的一段真實故事。
一個酒店偷竊案件,嫌疑人駕車逃逸。員警沒有驗指紋、沒測 DNA,僅靠人臉識別系統,就鎖定了「罪犯」Nijeer Parks(帕克斯)。
編按:駕車逃逸的嫌疑犯當初受警方臨檢的時候,出示了假證件,該證件被警方懷疑之時對方就逃之夭夭了,留下這本假證件。警方就根據假證件上的相片用 AI 找到了帕克斯。
但尷尬的是,帕克斯壓根就沒去過那個地方,也不知道那個酒店在哪。甚至也不會開車,連駕照都沒有。去警局的時候,還是他的表哥開車送他的,結果還是被關了 10 天。
警方用「假證件」上的照片追查嫌犯?
據 NJ Advance Media 報導,去年(2020)1 月,在新澤西州伍德布裡奇市漢普頓酒店,發生了一起偷竊案。嫌疑人在酒店禮品店偷了糖果和其他零食,在酒店人員報警後逃到了一間男廁所。在警方趕到時, 該男子交出一張駕照,顯示自己是 Jamal Owens。
警方通過巡邏車內的電腦查到,該駕照無效的,可能是嫌疑人偽造。正當警方準備逮捕時,該男子從酒店門口逃出,跳上了一輛道奇挑戰者後逃逸。據 NJ Advance Media 援引法庭檔披露,當時嫌疑人還撞上了他們的巡邏車。一名警員追蹤該車後發現車輛被遺棄在一個停車場。
「道奇挑戰者」(非當事車輛)
於是,神奇的事情從第二天開始了。
來自紐約、新澤西兩大州的調查人員,通過面部識別軟體,掃描了駕照檔,與警察局、FBI 資料庫中存檔的嫌疑人照片進行比對,找到了與照片「高度匹配」的人。
編按:不是,既然都知道是假證件,那照片也有很高的機率是假的吧?
這類軟體,主要依賴於數十億張社交媒體照片來識別犯罪嫌疑人,一直飽受詬病。由於某種原因,NJ Advance Media 沒有具體透露。目前,新澤西州已經禁止使用這種軟體。
然後,兩個州的警方告訴伍德布裡奇市的同事:我們找到嫌疑人啦!
警方找到與證件照片找片吻合的嫌犯
嫌疑人被確定為帕克斯,並以他的名義發出了逮捕令,指控他犯有商店盜竊、偽造政府檔、拒捕、嚴重的武器攻擊、離開事故現場等罪名。隨後,警方檢查了幾個地址,試圖逮捕帕克斯,但無法找到他。
帕克斯通過祖母知曉了這件事情,隨即要求表哥開車送他去警察局,想澄清誤認問題。但是一到警察局門口,他就直接被銬上手銬,被七八個員警同時審訊。在裡面,員警給他看了受損的道奇挑戰者的照片,並一直逼問:你知道你做了什麼?
帕克斯解釋無果,直接被關進監獄,他透露在保釋前,在那裡待了 10 天。
當時監獄檢察官提醒他:如果乖乖認罪,作為交換條件,他將在監獄中服刑 6 年,直到他服完 85% 的刑期就可以提前釋放,其中還有 3 年假釋。但帕克斯認為,如果他接受審判,檢察官會根據他以前的犯罪歷史尋求 20 年或更長時間的判決。
帕克斯曾因販賣毒品而被定罪 6 年,但出獄後決定改過自新,找到一份普通的工作,與未婚妻過著安穩的生活。但這件人臉識別案件,打破了他的寧靜。開啟了一年多的訴訟之旅。
帕克斯的律師頓對鎮政府、警察局和包括市長約翰-麥科馬克在內的公職人員提起訴訟,指控調查人員依靠面部識別軟體侵犯了他客戶的權利。市長的發言人表示,鎮政府還沒有看到民事申訴,無法發表評論。目前,一名高級法院的法官已經開始向檢察官辦公室施壓,要求他們在案件中拿出更多的證據,而不僅是面部識別軟體。
總之,看起來事情還沒結束。
抓罪犯,人臉辨識說了算?
無獨有偶,這不是美國第一次出現人臉識別抓錯人。帕克斯被抓還不是類似事件中最嚴重的一起。2014 年,一位名叫史蒂夫•塔利(Steve Tally)的財務顧問被誣告搶劫了兩次銀行。第一次是在當年 5 月 14 日,第二次是在他被捕前 10 天,也就是 9 月 5 日,並且被控在第二次搶劫中毆打一名警官。
在警方公開發佈 9 月份搶劫案的監視圖像之後,認識塔利的三個熟人撥打了警方熱線,並指出了塔利外表與劫匪之間的相似之處。就連塔利的前妻在看了警方提供的圖片後,也認為是他。
但塔利有充分的不在場證據:他當時正在一家公司裡上班。警方沒有理會,還把塔利關押了兩個月,在這期間打傷了他。直到兩個月後,塔利的辯護人拿出了他在公司上班的監控錄影,塔利才得到釋放。
2009 年,美國國家科學院的一篇論文指出:除了 DNA 測試外, 沒 有其他法醫證據方法可以可靠且始終如一地證明證據與特定個人或資料來源之間的聯繫 。
從技術上來說,人們無法從人臉識別上確定某個嫌疑人的唯一性。而 FBI 的法醫音訊視頻圖像分析部門自己也知道,人工進行人臉比對,結論最終會基於個人觀點。
AI 演算法能一次辨識數百萬張臉,但卻不能成為絕對性的證據
早在 2008 年,FBI 年的一份報告中建議圖像部門研究量化面部特徵的頻率。然而人類已經努力了 100 多年,目前為止還沒有定論。人臉識別另一個問題是,將監控攝像頭會壓縮視頻圖像,導致用來區分嫌疑人的皮膚、靜脈和痣等圖案被去除、損壞或變形。塔利被捕就是因為 9 月的監控視頻中強盜的臉上存在痣。
實際上,由於採集視頻的光照條件不同,會導致一些偽影被誤認為痣。雖然當年抓捕塔利使用的是人工對比,但到了今天,準確率更高的 AI 來做人臉識別依然問題重重。
演算法可以在幾秒鐘內搜索數百萬張臉,對於具有規則照明和標準化姿勢的圖像,許多人臉識別系統的準確率都超越了人類。但仍然沒有一個演算法可以保證 100% 的正確率。
在專業性上,AI 演算法的可解釋性差,人臉識別缺乏支援法醫意見的經驗資料。
說到人臉識別抓罪犯,不知你是否會想起幾年前張學友演唱會的五連殺?當時警方依靠人臉識別,連續抓住了 5 名逃犯。但相比之下,英國的員警就沒有這麼好運了。在 2017 年的歐冠比賽上,英國警方使用了人臉識別系統,結果總共發出了 2470 次警報,相當於每隔三秒就會提示嫌犯來了,錯誤率高達 92%。
因為擔心隱私被圖像採集方洩露,浙江理工大學副教授郭兵將使用人臉識別技術的杭州野生動物世界告上了法庭,成為中國「人臉識別第一案」。
最終,動物世界刪除郭兵辦理年卡時提交的面部特徵資訊。
人臉識別面部資訊屬於個人敏感資訊,一旦洩露將對個人的人身與財產安全造成極大的危害。也正因如此,人們對於人臉識別的態度越來越慎重。
去年 5 月,三藩市出於安全與隱私的考慮,禁止政府使用人臉識別技術,成為全球第一個禁用人臉識別的城市。科技公司對人臉識別的態度這些年也越來越謹慎,IBM 退出研究這項技術,微軟也刪除了用於研究的大型人臉識別資料集 MS Celeb。
人臉識別這項 AI 最初的殺手級應用,成就許多 AI 明星公司。但發展至今,人臉識別也正在來到一個十字路口。一端,它的便利已經充分展現;另一端,伴隨的隱私爭議和錯誤率難題,也不斷以新事件登上熱搜。
用不用人臉識別?在什麼地方用人臉識別?如何用人臉識別?都在成為新時代裡的難題。
另外,聽說現在不少社區,都改人臉識別了?
資料來源:https://buzzorange.com/techorange/2021/01/04/ai-arrest-wrong-criminal/?fbclid=IwAR1NWVHkY_JLQmwaObcWgumpCHXI3Ya3aJWZiJ740tI99dgbZIHG-CAmb-Y
論文比對範圍 在 Facebook 的最讚貼文
「它將改變一切!」
DeepMind AI解決生物學50年來重大挑戰,破解蛋白質分子折疊問題。
本週振奮全球AI界的消息:Google旗下人工智能企業DeepMind發布了最新 AlphaFold成果,這是全球AI界無比振奮的重大科研突破。蛋白質存在於我們世界中的所有有機物體及奧妙人體中,全新的AlphaFold 算法揭秘了生物學界50年來試圖破解蛋白質分子折疊的難題,這項AI帶來的重大突破,將幫助科學家弄清某些困擾人們的疾病機制、加速找出新型流行病的具體原因(比如今年的全球新冠大流行),促進新藥設計、幫助農業增產、解析可有效降解廢棄物的嶄新成分、甚至探索為大氣減碳的全新解決方案。
我特別期待 AlphaFold 能為人類健康、環境生活推向更寬廣的可能性。在魔幻2020 最後一個月,這真是一個讓人懷抱希望的全新技術可能性,期待 AlphaFold之後締造更多 AI for Good 落地應用。
以下文章詳盡解釋了這項突破,內容經《機器之心》微信公眾號授權轉載。
▎生物學界最大的謎團之一,蛋白質折疊問題被 AI 破解了。
11 月 30 日,一條重磅消息引發了科技界所有人的關注:谷歌旗下人工智能技術公司 DeepMind 提出的深度學習算法「Alphafold」破解了出現五十年之久的蛋白質分子折疊問題。
最新一代算法 Alphafold 2,現在已經擁有了預測蛋白質 3D 折疊形狀的能力,這一複雜的過程對於人們理解生命形成的機制至關重要。
DeepMind 重大科研突破的消息一出即被《Nature》、《Science》等科學雜誌爭相報導,新成果也立刻獲得了桑達爾 · 皮查伊、伊隆 · 馬斯克等人的祝賀。
科學家們表示,Alphafold 的突破性研究成果將幫助科研人員弄清引發某些疾病的機制,並為設計藥物、農作物增產,以及可降解塑料的「超級酶」研發鋪平道路。
「這是該研究領域激動人心的一刻,」DeepMind 創始人、首席執行官德米斯 · 哈薩比斯說道。 「這些算法今天已經足夠成熟強大,足以被應用於真正具有挑戰性的科學問題上了。」
蛋白質對於生命至關重要,它們是由氨基酸鏈組成的大型複雜分子,其作用取決於自身獨特的 3D 結構。弄清蛋白質折疊成何種形狀被稱為「蛋白質折疊問題」。在過去 50 年裡,蛋白質折疊一直是生物學領域的重大挑戰。
DeepMind 的 AlphaFold 讓人類在這一問題上取得了重要突破。在今年的國際蛋白質結構預測競賽 CASP 中,DeepMind 開發的 AlphaFold 最新版本擊敗了其他選手,在準確性方面比肩人類實驗結果,被認為是蛋白質折疊問題的解決方案。這一突破證明了 AI 對於科學發現,尤其是基礎科學研究的影響。
在兩年一次的 CASP 競賽中,各組爭先預測蛋白質的 3D 結構。今年,AlphaFold 擊敗了所有其他小組,並在準確性方面與實驗結果相匹配。
對於不熟悉生物領域的人來說,CASP 的大名可能有些陌生——CASP 全稱 The Critical Assessment of protein Structure Prediction,旨在對蛋白質結構預測進行評估,被譽為蛋白質結構預測的奧林匹克競賽。 CASP 從 1994 年開始舉辦,每兩年一屆,目前正在進行的一屆是 11 月 30 日開始的 CASP14。
而 DeepMind 這一突破有什麼影響?
用哥倫比亞大學計算生物學家Mohammed AlQuraishi 在Nature 文章中的話來說,「可以說這將對蛋白質結構預測領域造成極大影響。我懷疑許多人會離開該領域,因為核心問題已經解決。這是一流的科學突破,是我一生中最重要的科學成果之一。」
▎蛋白質折疊問題
蛋白質的形狀與它的功能密切相關,而預測蛋白質結構對於理解其功能和工作原理至關重要。很多困擾全人類的重大問題(如尋找分解工業廢料的酶)基本上都與蛋白質及其扮演的角色有關。
多年以來,蛋白質結構一直是熱門的研究話題,研究者使用核磁共振、X 射線、冷凍電鏡等一系列實驗技術來檢測和確定蛋白質結構。但這些方法往往依賴大量試錯和昂貴的設備,每種結構的研究都要花數年時間。
1972 年,美國科學家 Christian Anfinsen 因「對核糖核酸酶的研究,特別是對其氨基酸序列與生物活性構象之間聯繫的研究」獲得諾貝爾化學獎。在頒獎禮上,他提出了一個著名的假設:從理論上來說,蛋白質的氨基酸序列應該可以完全決定其結構。這一假設引發了長達五十年的探索,即僅僅基於蛋白質的一維氨基酸序列計算出其三維結構。
但這一思路的挑戰在於,在形成三維結構之前,蛋白質的理論折疊方式是一個天文數字。 1969 年,Cyrus Levinthal 指出,如果使用蠻力計算的方式來枚舉一種蛋白質可能存在的構象,要花費的時間甚至比宇宙的年齡還要長。 Levinthal 估計,一種蛋白質大約存在 10^300 種可能構象。但在自然界中,蛋白質會自發折疊,有些只需幾毫秒,這被稱為 Levinthal 悖論。
CASP 14 比賽最新結果:AlphaFold 中位 GDT 高達 92.4
CASP 競賽由 John Moult 和 Krzysztof Fidelis 兩位教授於 1994 年創立,每兩年進行一次盲審,以促進蛋白質結構預測方面的新 SOTA 研究。
一直以來,CASP 選擇近期才經過實驗確定的蛋白質結構,作為參賽團隊測試其蛋白質結構預測方法的目標(有些結構即使在評估時仍然處於待確定狀態)。這些蛋白質結構不會事先公佈,參賽者也必須對其結構進行盲測,最後將預測結果與實驗數據進行對比。正是基於這種嚴苛的評估原則,CASP 一直被稱為預測技術評估方面的「黃金標準」。
CASP 衡量預測準確率的主要指標是 GDT(Global Distance Test),範圍從 0 到 100,可以理解為預測的氨基酸殘基在正確位置閾值距離內的百分比。 John Moult 教授表示,GDT 分數在 90 分左右,即可視為對人類實驗方法具備競爭力。
在剛剛公佈的第14 屆CASP 評估結果中,DeepMind 的最新AlphaFold 系統在所有預測目標中的中位GDT 達到92.4,意味其平均誤差大概為1.6 埃(Angstrom),相當於一個原子的寬度(或0.1納米)。即使在難度最高的自由建模類別中,AlphaFold 的中位 GDT 也達到了 87.0。
歷屆 CASP 競賽自由建模類別中預測準確率中位數的提升情況,度量指標為 BEST-OF-5 GDT。
CASP 競賽自由建模類別中的兩個目標蛋白質示例。 AlphaFold 能夠預測出高度準確的蛋白質結構。
這些令人振奮的結果開啟了生物學家使用計算結構預測作為科研主要工具的時代。 DeepMind 提出的方法對於某些重要的蛋白質類別尤其有用,例如膜蛋白(membrane protein)。膜蛋白很難結晶,因此很難通過實驗方法來確定其結構。
該計算工作代表了在蛋白質折疊這一具備 50 年曆史的生物學問題上的驚人進展,比該領域人士成功預測蛋白質折疊結構早了幾十年。我們將很興奮,它能從多個方面對生物學研究帶來基礎性改變。 ——Venki Ramakrishnan 教授(諾貝爾獎得主,英國皇家學會會長)
▎DeepMind 這樣解決蛋白質折疊問題
2018 年,DeepMind 團隊使用初始版 AlphaFold 參加 CASP13 比賽,取得了最高的準確率。之後,DeepMind 將 CASP13 方法和相關代碼一併發表在 Nature 上。而現在,DeepMind 團隊開發出新的深度學習架構,並使用該架構參加 CASP14 比賽,達到了空前的準確率水平。這些方法從生物學、物理學、機器學習,以及過去半個世紀眾多科學家在蛋白質折疊領域的工作中汲取靈感。
我們可以把蛋白質折疊看作一個「空間圖」,節點表示殘基(residue),邊則將殘基緊密連接起來。這個空間圖對於理解蛋白質內部的物理交互及其演化史至關重要。對於在 CASP14 比賽中使用的最新版 AlphaFold,DeepMind 團隊創建了一個基於注意力的神經網絡系統,並用端到端的方式進行訓練,以理解圖結構,同時基於其構建的隱式圖執行推理。該方法使用進化相關序列、多序列比對(MSA)和氨基酸殘基對的表示來細化該圖。
通過迭代這一過程,該系統能夠較強地預測蛋白質的底層物理結構,並在幾天內確定高度準確的結構。此外,AlphaFold 還能使用內部置信度度量指標判斷預測的每個蛋白質結構中哪一部分比較可靠。
DeepMind 團隊在公開數據上訓練這一系統,這些數據來自蛋白質結構數據庫(PDB)和包含未知結構蛋白質序列的大型數據庫,共包括約 170,000 個蛋白質結構。該系統使用約 128 個 TPUv3 內核(相當於 100-200 個 GPU)運行數週,與現今機器學習領域出現的大型 SOTA 模型相比,該系統所用算力相對較少。
此外,DeepMind 團隊透露,他們準備在適當的時候將這一 AlphaFold 新系統相關論文提交至同行評審期刊。
AlphaFold 主要神經網絡模型架構概覽。該模型基於進化相關的蛋白質序列和氨基酸殘基對運行,迭代地在二者的表示之間傳遞信息,從而生成蛋白質結構。
▎對現實世界的潛在影響
「讓 AI 突破幫助人們進一步理解基礎科學問題」,經過 4 年的研究攻關,現在 AlphaFold 正在逐步實現 DeepMind 初創時的願景,在藥物設計和環境可持續性等領域都產生了重要的影響。
馬克斯· 普朗克演化生物學研究所所長,CASP 評估員Andrei Lupas 教授表示:「AlphaFold 的精確模型讓我們解決了近十年來被困擾的蛋白質結構,重新啟動關於信號如何跨細胞膜傳輸的研究。 」
DeepMind 表示願與其他研究者合作,以進一步了解 AlphaFold 在未來幾年的潛力。除了作用於經過同行評審的論文以外,DeepMind 還在探索如何以最佳的可擴展方式為系統提供更廣泛的訪問可能。
同時,DeepMind 的研究者還研究了蛋白質結構預測如何幫助人們理解一些特殊的疾病。例如,通過幫助識別存在故障的蛋白質,並推斷其相互作用的方式,來理解一些疾病的原理。這些信息能夠讓藥物開發更加精確,從而補充現有的實驗方法,並更快找到更有希望的治療方法。
AlphaFold 是十分卓越的,它在預測結構蛋白質的速度和精度上有著驚人的表現。這一飛躍證明了計算方法對於生物學中的轉換研究,加速藥物研發過程都具有廣闊的前景。
同時許多證據也表明,蛋白質結構預測在未來的大流行應對上是有用的。今年早些時候,DeepMind 使用 AlphaFold 預測了包括 ORF3a 在內的幾種未知新冠病毒蛋白質結構。在 CASP14 中,AlphaFold 預測了另一種冠狀病毒蛋白質 ORF8 的結構。目前,實驗人員已經證實了 ORF3a 和 ORF8 的結構。儘管具有挑戰性,並且相關序列很少,但與實驗確定的結構相比,AlphaFold 在兩種預測上都獲得了較高的準確率。
除了加速對已知疾病的了解,AlphaFold 還具備很多令人興奮的技術潛力:探索數億個目前還沒有模型的數億蛋白質,以及未知生物的廣闊領域。由於 DNA 指定了構成蛋白質結構的氨基酸序列,基因組學革命使大規模閱讀自然界的蛋白質序列成為可能——在通用蛋白質數據庫(UniProt)中有 1.8 億個蛋白質序列。相比之下,考慮到從序列到結構所需的實驗工作,蛋白質數據庫(PDB)中只有大約 170000 個蛋白質結構。在未確定的蛋白質中可能有一些新的和未確定的功能——就像望遠鏡幫助人類更深入的觀察未知宇宙一樣,像 AlphaFold 這樣的技術可以幫助找到未確定的蛋白質結構。
▎開創新的可能
AlphaFold 是 DeepMind 迄今為止取得的最重要進展之一,但隨著後續科學研究的開展,依然有很多問題尚待解決。 DeepMind 預測的結構並非全部都是完美的。還有很多要學習的地方,包括多蛋白如何形成複合體,如何與 DNA、RNA 或者小分子交互,以及如何確定所有氨基酸側鏈的精確位置。此外,在與他方合作的過程中,還需要學習如何以最好的方式將這些科學發現應用在新藥開發以及環境管理方式等諸多方面。
對於所有致力於科學領域中計算和機器學習方法的人而言,像 AlphaFold 這樣的系統彰顯了 AI 作為基礎探索輔助工具的驚人潛力。正如 50 年前 Anfinsen 提出的遠超當時科研能力所及的挑戰一樣,這個世界依然有諸多未知的方面。
DeepMind 取得的這一進展令人們更加堅信,AI 將成為人類擴展科學知識邊界的最有用工具之一,同時也期待未來多年的艱苦工作能夠帶來更偉大的發現。
影片及原文,參考 DeepMind官方部落客 https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology