[爆卦]機器學習工程師薪水是什麼?優點缺點精華區懶人包

為什麼這篇機器學習工程師薪水鄉民發文收入到精華區:因為在機器學習工程師薪水這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者stmilk (我男的)看板Soft_Job標題Re: [請益] 想從零開始轉行當AI軟體工程師...

機器學習工程師薪水 在 Cher 雪兒 Instagram 的精選貼文

2021-03-29 14:48:14

【就職三個月不適應,我該離職嗎?】 如果人生職場重來一次,你會想做什麼事? 我想,認為就職的公司有問題時, 就應該頭也不回的離開,而不是傻傻的死撐在那。 剛畢業時我就業一家非常創新的小公司, 老闆年輕有為,從資訊業出身,然後白手起家, 嚮往有一天可以變成科技新貴,找到一些小門路, 於是招兵買馬,...


來用自己的例子勸退一些想跳機器學習的人

首先是數學程度,
我是數學系的,什麼線代,微積分,機率,統計的都很熟其實工作也會用到,
描述一些比較有印象的工作用過的數學,
比較有趣關於微積分的經驗:
老闆把問題用一個式子 exp(-rx)*((1/delta)*sqrt(A))*exp(-x^2/(A))來解釋,
並要對x積整個實數範圍。
在場大家都面面相覷我就被要求積了。
但這其實不難積,就高斯積分,有背整理一下秒解,
沒背也不難推。我大學微積分沒在背的所以是當場直接推,然後才繼續那場會議。

機率統計就那些常見的像是:
在一堆數據中給一些想法假設然後檢定,
或是想辦法對一直變動pattern的資料去建對應的機率模型。

但我具體數學程度到哪,舉兩個例子一個是深度學習WGAN一個是經典的random forest。
https://arxiv.org/pdf/1701.07875.pdf 這是WGAN。
https://link.springer.com/article/10.1023/A:1010933404324 這是RF。
基本上裡面的純數推導我幾乎都理解,
WGAN用到實分析跟線性規劃,
RF則是機率。
以上大概描述一下我的數學程度。

接著是我的電腦技能,
我熟悉的語言有C++跟PYTHON,基本上各有兩年以上的工作實務經驗。
python就絕大部份公司機器學習用的語言不解釋。
C++曾被公司要求所有演算法都要自己刻,這之中還包刮神經網路,
連 backpropagation 都要自己刻,
然後資料結構演算法,計算機組織,作業系統都讀過。
至於程度到哪我也不好說,我自知去參加程式比賽會被電死,但基本程度應該是有。
資料結構的程度至少是在刷題的時候不會卡在"天啊這個是什麼資料結構",
跟曾經在工作被要求刻了一個紅黑樹,雖然我現在忘了而且skip list太好用。
演算法就刷題的時候不會無止境一直設條件,
會嘗試用一些演算法想法比如 divide and conquer or dp 來解題。
計組作業系統就是那些什麼cpu pipeline 記憶體管理緩存設計都懂。
資料庫則是公司用什麼我就學什麼。

機器學習的部分就是幾乎現在大家喊得出名字的我都可以實作,
有要證明的模型我都可以證明,不過需要回憶準備一下哈哈因為模型太多沒全記。
大致用書來表示一下我懂得大概範圍好了。
https://www.deeplearningbook.org/
deep learning 的經典不解釋。

http://www.cs.cmu.edu/~tom/mlbook.html
machine learning 也算經典但很老的一本了。

https://www.tenlong.com.tw/products/9787302275954
各種經典的機器學習模型的推導書,雖然這個作者幾乎只是翻譯論文,但翻的還滿好的。

新技術太多我就不提了我都有在追。

以上大致描述一下我的程度,目前的結果是我近半年完全找不到工作XD
不管國內國外,丟履歷都沒回覆,基本上連面試機會都沒有。
搞得現在只能送foodpanda,
真的是能力不足阿...

希望這慘痛的經歷能拯救還想再跳AI的人阿。

==================================================
發現太多人執著實作的部分,其實要求手刻的只有一家公司,雖然我也在那邊做很久
除了那間公司其他的我也是用包啦,Tensorflow,cntk 之類的都會用。

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.137.88.3 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1636524507.A.D68.html
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 14:12:47
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 14:23:19
jobintan: 大佬可以考慮下轉SDE了………………………………………11/10 14:18
billchen123: 祝原PO找到工作11/10 14:21
longlyeagle: 是不是CV寫太爛了?11/10 14:23
問過獵頭獵頭說還行,所以我也不知道哈哈哈
qwe70302: 比起外送,不如先找個web後端蹲一下,雖然月薪七八萬可11/10 14:29
qwe70302: 能比不上資料處理十幾萬~11/10 14:29
對阿所以我現在在補 distribution system 的東西了哈哈哈看能不能去撈個資料庫相關的?
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 14:31:53
j0958322080: 那個積分做配方後還是高司積分,不過面面相覷也太慘11/10 14:38
對阿,更有趣的是其中一個人的同職務薪水還是我的三倍....
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 14:42:43
devilkool: 咦...原本的公司是倒了嗎?11/10 14:51
想去國外,還有存款就辭了唸英文跟丟履歷,然後國外都沒回覆,
改丟國內的國內也都沒回覆,慘
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 14:54:17
GameGyu: 比較好奇 你台灣投那些公司?11/10 15:00
stmilk: 沒有只投百萬的啦,雖然我最後一份工作是有破百11/10 15:01
stmilk: 基本上看到覺得符合就丟了11/10 15:02
empliu: 冒昧問一下原po學歷?11/10 15:05
empliu: 據我所了解的台灣有招比較多AI的 內部幾乎都是台清交11/10 15:06
stmilk: 只有數學學士還不是四大哈哈,所以上述的東西全部都是自修11/10 15:06
DrTech: 不懷疑能力,但方法很沒效率吧,手刻技術演算法或數學很厲11/10 15:06
DrTech: 害,實務上根本沒必要。11/10 15:06
empliu: 或者有相關會議 publication11/10 15:07
對阿,我最後一間就是被推薦去面試的,一面試就上了。但我之前自己丟根本也沒鳥我XD
DrTech: 而且實務上,你數學再強也輸給爛資料。11/10 15:07
你說的沒錯XD但是主要還是看你怎麼處理,再爛都有辦法處理,
爛的資料神經網路無法處理因為神經網路是強逼近,就垃圾進垃圾出
但數學反倒可以找到很好的方向,
比如說我處理過那種雜訊很多就算了,哪些是雜訊還都不知道的數據。
方法就把資料換個方便我弄成隨機過程的樣子,
然後抽特徵的時候隨機,根據大數法則我可以期待他會逼近一個我要的值,
且也可以淡化雜訊的影響畢竟是隨機取,最終效果很好這樣
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 15:16:24
isaacting: 要自己刻bp?! 是在gpu上實作嗎11/10 15:09
isaacting: 如果是要在cpu上刻BP, 為何不用現成library ?!11/10 15:11
我怎麼知道XD 是公司要求阿
DrTech: "要證明的模型我都可以證明,不過需要回憶準備一下",這句11/10 15:12
DrTech: 話看起來很強,實際上面試大廠也是不合格的。11/10 15:12
DrTech: 李航那本書很多人在背喔,某些職缺的基本功而已。11/10 15:14
其實我不想跟你爭辯這個啦....
我只是想表示這麼基本的東西我都有公司也是不要阿
真的要說的話不然你試著準備一下那個WGAN的中為什麼Wasserstein比原本的GAN的cost function 還要好的證明然後試試?
stmilk: 痾.....我沒說這些東西很難啊= =11/10 15:17
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 15:22:36
DrTech: 原文這種做法,真的不如好好學 TF或 keras範例,還比較好11/10 15:18
DrTech: 找工作。11/10 15:18
empliu: D的意思不是這些東西難易度的問題11/10 15:20
empliu: 是在跟你說面試就是不太能有"回憶準備一下"這種情況11/10 15:20
DrTech: 這跟能力無關而是市場選擇問題。11/10 15:20
empliu: 面試當下我也只能根據你講出來的東西去判斷11/10 15:20
empliu: 所以你如果當場表現不太流暢熟練的話對我來說就是負面訊號11/10 15:21
empliu: 這就跟考試一樣 我真的都會阿 只是考試時間不夠11/10 15:22
empliu: 或者太久沒用忘記 這樣還是沒分11/10 15:22
我說的要準備的當然不是面試時,我到恨不得面試時他們都問我這些推導問題咧
最好還要問李航那本書沒有的,像是PCA為什麼是用特徵值,還有上面說的RF為什麼可行
L1 L2 為什麼會有那些效果怎麼用數學分析,BLABLABLA的

哀我真的只是想勸退還想進AI的人啦
這個東西真的水很深而且缺很少啦
DrTech: 非懷疑我原文能力,只是原文選擇的技術展示方式,是台灣工11/10 15:26
DrTech: 作的小量市場。11/10 15:26
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 15:37:11
yoshonabee: 感覺可以找想進的公司,然後去LinkedIn找員工內推,11/10 15:43
yoshonabee: 這樣到面試關的機會應該會大一點11/10 15:43
stmilk: 疑這招我沒想過耶,我來試試感謝你~~11/10 15:45
DiscreteMath: 完全可以理解手刻c++甚至bp的需求xD11/10 16:24
DiscreteMath: 其實現有套件很多c++ backend還是太慢 尤其只能用cp11/10 16:25
DiscreteMath: u的情況 要不然就是包台大 不好用 懂原理還是怒刻一11/10 16:25
DiscreteMath: 波最快11/10 16:25
DiscreteMath: 包太大*11/10 16:25
DiscreteMath: 蠻羨佩服大大的技能組欸 不考慮往遊戲引擎或底層走11/10 16:34
DiscreteMath: 嗎 業務而非效能技術導向的工作可能真的不好上QQ11/10 16:34
其實畢業的時候有考慮過,現在也覺得那個東西有趣。但我對機器學習其實非常有愛哈哈,
johny777: 業界比較care model compression11/10 16:46
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 16:53:36
Findagreen: 靠背有夠強 你應該是找不到滿意的不是找不到吧11/10 17:17
沒有,真的連面試的機會都沒有。慘
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 17:34:07
bochengchen: 感覺同上11/10 17:30
min86615: 有比賽經驗嗎?還有github上面都放什麼專案,可以把Side11/10 17:43
min86615: project放上去,如果真的要找研究缺大部分還是需要PhD11/10 17:43
我對kaggle其實滿排斥的哈哈,尤其是我有個前同事kaggle是前1%但......
不過主要是我都把時間拿來唸書了。
我沒在經營github,我是不知道自己的讀書心得丟那有沒有用,
我應徵時到是有附一些讀書的筆記,
像是上面提到的GAN的一些東西,為什麼強大,為什麼難訓練,WGAN為什麼強大,
能怎麼修正的一些整理都一起寄過去,展現我不是嘴巴說說有在讀書,是真的有在讀深入的
且工作上工也有用到,但一樣沒用哈哈哈哈
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 18:04:21
min86615: 會找一些有其他背景的人,我覺得有一篇回覆挺好的,在台11/10 17:52
min86615: 灣AI是加分項是工具。當然要做圖神經網路就得另外探討了11/10 17:52
對阿我認同他是個工具,我當初工作還是有另外讀那邊的產業知識。
所以我才真心建議不要再跳進AI了,沒想像地這麼美好
本職學能持續精進,有需要再碰就好了。
其實我在找工作,現在大部分的缺都是傾向:他們方法有了。
機器學習工程師就是架構一個data pipeline,然後建模型訓練,接著實際應用。
最終就是要自動化。實際有關機器學習的問題去跟公司的data scientist 討論即可,本質?
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 18:11:18
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 18:13:02
libitum: 感覺你興趣的缺 都是給phd比較多的 實務上你不找方式呈現11/10 18:15
libitum: 連面試都沒有也不太意外11/10 18:16
libitum: 但你又有幾年經歷 完全沒面試也沒headhunter找也太離奇11/10 18:16
libitum: 針對jd上得去準備吧 不然很容易準備方向偏離市場需求11/10 18:17
libitum: 找幾個現在有在徵才 你理想的職缺來看看?11/10 18:22
stmilk: 其實原因有在分析,只是我本來覺得沒這麼扯,但看起來是11/10 18:26
stmilk: 最主要的問題還是缺太少,其他缺就是工程師缺。跟機器學習11/10 18:28
stmilk: 有關的就是build model。11/10 18:28
stmilk: 啊我的經歷有興趣請站內。我是覺得會離題哈哈11/10 18:30
stmilk: 這篇主要是不要在跳AI,因為可能會徒勞無功。不如還是老實11/10 18:35
libitum: 其實你整篇提到理論會的部分 找不到面試不太意外11/10 18:36
stmilk: 點高SDE的技能,然後多點個distribution system的技能還比11/10 18:36
stmilk: 較實際11/10 18:36
libitum: 缺少 學經歷完全輪不到你11/10 18:36
libitum: github跟kaggle某方面是ds 最好量化了解的方式11/10 18:37
我是覺得我時間花下去也差不多啦,最主要的問題就是你說的:缺少就是輪不到我。
kaggle還要考慮我手邊的的裝備,所以能做的題目大概也都是那些普通的題目
最主要的問題就是我學經歷不夠,所以我相信現在有想跳AI的一定都是一樣的狀態
所以這篇的重點一直都是:拜託,別在專門跳機器學習的領域,好好點高自己的技能比較實?
而不是討論我為什麼沒工作沒面試阿。一直討論我為什麼沒工作不是很好笑嗎= =
現在就是僧多粥少,不只如此,那些還不是僧只是剃光頭阿。
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 18:56:44
shan31613: 純研究的缺沒有正統學經歷連面試機會都沒有,建議還是11/10 18:50
shan31613: 朝RD(fw or sw)裡DL應用的缺找看看,應該有機會,加油11/10 18:50
golang: 推文裡面看到kaggle排斥那段11/10 18:52
golang: 心態上建議也調整一下11/10 18:54
其實你也沒說錯哈哈,我的確對KAGGLE有些偏見
不過撇開這個,我是有考慮分析不少事情。
而結論是:
那個時間成本不如拿去刷題,從SDE的路進公司,在從公司內部轉比較有機會。
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 19:02:56
s910: 應該是學歷爛吧11/10 18:59
james732: 看起來實力超強的說QQ11/10 19:00
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 19:03:34
a27417332: 推這種追根究柢的精神,但這方面感覺不好走QQ11/10 19:08
MoonCode: 感覺很厲害耶 是不是自己做產品當老闆比較快11/10 19:18
bill1992: 真的都懂應該機會很多吧11/10 19:21
Findagreen: 原po484不會寫履歷.. 找人幫你寫應該面試收到手軟11/10 19:28
kiwi946946: 我覺的你超強,但適合你的缺在ML中也是最為搶手的存在11/10 19:56
kiwi946946: ,你的競爭者學歷肯定比你厲害,不知你有沒有試著數11/10 19:56
kiwi946946: 據化你的數學能力,讓面試官看到你的產能11/10 19:56
kiwi946946: 比方說你舉的雜訊很多那個例子,你可以說一般調包的出11/10 20:03
kiwi946946: 來是正確率A,但你用啥數學方法,把正確率提升到B,總11/10 20:03
kiwi946946: 提升B-A,多量化你數學能力的貢獻11/10 20:03
感謝一直鼓勵我的人QQ
其實我不強啦哈哈我不是四大數學系的哈哈,我只是愛讀書而已。
其實專案量化成績是有啦,但我不知道是不是命運使然還是怎樣。
我舉的這個例子,是我進公司之前他們搞了快兩年都沒結果,因為一直在用傳統的CNN做
真的是各種花俏CNN,連deepfake都被拿來用
但我進去觀察一下資料就覺得不適合,所以花了很多時間在搞數學方法
然後撇開新創有的沒的雜事和動不動就換目標,七八個月後也是不容易地搞出來了。
然後老闆很高興地拿去做了一些事,後續的一些計畫也開始在動時,老闆走了...
結果業務端好像都是老闆在搞,老闆一去世公司就炸掉了。
所以這個就沒下文啦,後續是有人私底下要跟我買,我覺得麻煩也不道義就沒賣了。
但我其實不想講太細節就是因為這看起來超像嘴砲,所以想著重在方法跟技術知識面而已
不過就算被當嘴砲也沒差反正人生是我自己的哈哈
ManOfSteel: 感覺原po很強阿!幫推11/10 20:25
everglow: 稍微看一下你在板上的文章 感覺你的gap year才是致命傷11/10 21:10
jcaosola: 你有競賽網站的積分之類來量化技術能力的紀錄嗎?11/10 21:14
solitude6060: 身為完整看過WGan論文然後現職是相關領域的人,我11/10 21:26
solitude6060: 相信原po 是有能力的。但不是每個人資或是主管都有11/10 21:26
solitude6060: 能力判別,所以是不是其實撥點念書的時間去打比賽11/10 21:27
solitude6060: 或是充實github會比較容易讓人一眼看出你的能力?11/10 21:27
其實真的考慮時間成本下來,我真心認為刷題可能效益比較高,而且學到的東西也比較多哈
所以我比較願意刷題而起也滿享受的。但請注意我知道這之中的差異,
KAGGLE"可能"會讓我"多一點"面試的機會,而刷題會讓我現階段往SDE的方向走。
我刷題是為了增強自己的能力,而不是為了"機器學習相關工作的面試"

不過話說回來我真的覺得太聚焦我的狀況了
直接說我目前的打算,我還想工作只是為了存點應急錢去唸博士,
現在應該就是不會在嘗試存應急錢直接去唸博士,我也確定我愛研究,
我直覺判斷我讀博時intern應該會好找,應該啦。
所以大家別在聚焦在這個啦哈哈哈
DrTech: 不是履歷的問題啦,研發職缺,原文有相關學歷或論文嗎?11/10 21:27
DrTech: 沒有直接過濾,很現實。開發職缺,需要一直算數學的技能嗎11/10 21:27
DrTech: ?不需要也沒加分。11/10 21:27
viper9709: 推~這也太扯,這種能力去送foodpanda...11/10 21:29
ManOfSteel: 真der。看完之後我心裡會想:我才是那個該去送foodpan11/10 21:33
ManOfSteel: da der人11/10 21:33
ManOfSteel: 想誘我轉職foodpanda,嘖嘖11/10 21:35
真的沒有強啦我真的只是普通而已
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 22:11:49
caseypie: 你搞錯了,根本不需要懂原理,反正現在都是調包調參而已11/10 22:30
caseypie: 一堆公司面試時狂問CNN RNN LSTM Transformer11/10 22:30
caseypie: 進去以後不是random forest就是xgboost,更難的根本沒用11/10 22:31
caseypie: 重點是如何證明你懂實際業務上的問題並且迅速設計模型11/10 22:32
caseypie: 想走演算法設計只能去deepmind那類機構,但得有paper11/10 22:34
所以您有沒有發現我在叫大家別來了,這太簡單了錢也不多呀
yoshonabee: 我覺得懂原理還是有優勢的,大概就是普通台廠跟一線11/10 22:35
yoshonabee: 外商的差別11/10 22:35
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 22:36:57
final01: 你的問題應該是嘴泡能力大於技術...11/10 22:43
paint: 找工作跟面試 就我的觀察是 能力 運氣 與相性的結果 祝順利11/10 22:46
lukelove: 要馬打比賽 要馬發paper 要馬leetcode 要馬side project11/10 22:59
lukelove: , 版友說的沒錯, 你的問題就是你認同的東西在別人眼裡是11/10 22:59
lukelove: 嘴裡11/10 22:59
ericrobin: 把時間浪費在寫紅黑樹跟基本DNN找不到工作剛好而已= =11/10 23:09
ericrobin: 而且八成大概是在簡歷關就在學歷部分被刪掉了11/10 23:10
mmonkeyboyy: 就 不管是不是人才 別人不需要也沒用啊11/10 23:35
stmilk: 樓上你說的沒錯,所以我看很開哈哈哈,生命要另尋出路11/10 23:38
fr75: 這種找國外遠端還比較有機會 大家都說了台灣的職位只要你用11/10 23:57
fr75: library不用懂那麽深啦11/10 23:57
yagerbomb: 學歷太爛+只會嘴砲吧。你可能實力真的不錯但沒有強到能11/11 00:35
yagerbomb: 突破學歷限制11/11 00:35
yagerbomb: 台灣AI缺都台清交電資碩,尤其很多AI跟硬體相關的特別11/11 00:35
yagerbomb: 多,有學歷要找的話輕鬆多了11/11 00:35
stmilk: 就算我真的在嘴砲好了,假設我說的程度只有我寫的四分之11/11 00:48
stmilk: 一,也就是數學只會微積分,電腦技能只會寫python迴圈然11/11 00:48
stmilk: 後只會套模型調參,機器學習只會李航的那本但只到聽過的11/11 00:48
stmilk: 等級,結果還是我後半生會失業也賺不到錢,結論還是不衝11/11 00:48
stmilk: 突啊,你們到底在執著什麼我不懂=_=11/11 00:48
Hsins: 幫補血, 老實說李航那本我不認為看完對於找 AI 職缺有什麼11/11 00:51
Hsins: 幫助...11/11 00:51
Hsins: 另外, "線代、微積分、機率、統計都很熟, 工作也會用到"11/11 00:52
Hsins: 但你給的例子卻不太像是日常工作會被 "應用" 的問題...11/11 00:53
Hsins: 我能理解工作中會應用到這些數學概念的情境, 但很少會是證11/11 00:54
Hsins: 明或是求出解析解的方式呈現, 通常比較像是將問題抽象化簡11/11 00:55
Hsins: ?11/11 00:55
我好不容易等到一個人願意討論一下技術但不知為啥他刪掉了=_=但我都打完了就貼一下哈哈哈,順便回答你的問題。我之前碰到的問題,就是因為有論文證明該問題處,我才沒在多花時間在那個模型上,我是還沒辦法做到那種程度的證明啦,但還是有能力做一些證明,這些證明也讓我跟老闆溝通順暢些沒在做些我認為的偏路,然後我同意你說的,更多時候就是抽象化簡化問題就是。以下是我剛回覆的技術部份。

當時我處理的影像超稀疏的。gan難train是在那個模型非常
容易被一個函數分開,也就是可以找到完美的discriminato
r,這是這兩個機率support的問題,而且條件還不用是這兩
個support不相交,只要幾乎處處不相交就可以,這個至少廣
大的實驗告訴我們非常容易發生。所以本質上只要是那個co
st function,初始值不好不管做甚麼調整丟什麼模型進去都
會遇到這個問題。然後可能是我的處理的影像真的太稀疏,
應該是可以理解成這個pattern的support超小,基本上根本
train不起來。所以我那時的想法是就是想要一個理論上直接
可行的結果。這樣我不用把模型弄得巨爆幹複雜,設計一堆
有的沒的只為了能先train,與其想辦法各種嘗試引導訓練,
抽象地說就是想辦法找一個先驗讓兩個pattern的support能
重合。不如直接一個理論可行的再去處理wgan模型的問題,因
為比較具體有方向。順便說之前的別組也是各種花式加self
-attention在decoder和encoder中也是沒用,至於原因因為
不是我做的我沒去也不想去深思,或許也可以就是~可能有錯
,多包涵啦。
shomingchang: 貴圈真的有夠內卷的。。11/11 01:14

※ 編輯: stmilk (223.137.88.3 臺灣), 11/11/2021 01:46:54
※ 編輯: stmilk (223.137.88.3 臺灣), 11/11/2021 01:56:19
mmonkeyboyy: 雖然我不知道為什麼要欺負做數值的 11/11 04:43
mmonkeyboyy: 很多做減模型的....都跟數學沒啥關的 11/11 04:47
mmonkeyboyy: 啊很多AI公司都要這種人 薪水$200k起跳哦 11/11 04:48
mmonkeyboyy: 更別提那一堆做data的 11/11 04:50
caseypie: 工作很簡單,但錢並沒有不多,主要是marketing的問題 11/11 05:14
caseypie: 要有把ML和公司業務結合的能力,這並沒有那麼簡單 11/11 05:15
mmonkeyboyy: 其實很多AI公司都不太賺錢的XD 11/11 05:19
viper9709: 推原po重心根本不在自身上+1~推文整個歪樓了XD 11/11 17:41
hahaxd78: 推一個。 11/11 20:34
hahaxd78: 想請教一般ML不平衡分類模型,變數也都很稀疏情況下, 11/11 20:34
hahaxd78: 除了up sampling跟套class weights外,有更創意的做法 11/11 20:34
hahaxd78: 嗎? 11/11 20:34
其實都差不多吧,看狀況用不同的方式去做增加或減少而已
我稍微想到可能比較有創意(?)你可以嘗試的方法。
從sample的特徵下手,而且我會傾向不用up sample因為我不喜歡人工數據XD。

雜訊很多的情況就上面有提到,從sample中隨機取特徵,然後創個新sample。
但因為我的問題是哪些是雜訊也不知道,
所以這樣的好處是資料都是是自然環境產生的,
我不用去考慮這樣取是不是會有bias,反正隨機數拉高一定會逼近我要的樣子。
注意如果特徵彼此之間獨立性高,這樣做會有問題,
依我的經驗我還想不到哪些可能的題目可以用這個XD

然後是特徵少且彼此獨立性高且樣本數也很少的話,
這種的就麻煩因為你的資訊本來就少,大概只能用加雜訊的方式去up sample了,

然後是特徵少且獨立性高然後樣本高,那這樣我會採down sample,
我現在直觀想到就 greedy 地去做。
先根據你的問題,觀察哪個特徵最重要(簡單的方法就隨機森林),
從這個特徵來看聚的狀況,但注意這個聚集狀況可以用不同的方式來定義,
就是用不一樣的距離公式來嘗試,
把這個群體中sample數偏高的類別刪掉一些,
基本假設就是因為這個特徵影響大,
那又特別多的sample聚集在一起的東西可能影響會太大有bias
同樣地你可以反過來從不重要的特徵下手去砍,這樣對整個資料的影響會最小

然後反過來特徵多且獨立性高樣本數多,因為這種狀況可能會有為度災難的可能
所以會特徵一起砍
觀察不重要的特徵的聚的狀況,
直接砍掉這個特徵,並砍掉不平衡的那個地方,然後一直持續到樣本平衡

特徵多且獨立性高樣本少,其實會發現樣本少就是麻煩,
所以我一樣會砍最沒影響往上的特徵,然後觀察從最重要往下的特徵的群,
去砍裏面不平衡的那方
不過樣本數少可能會有問題,我應該還是傾向up sample就是

然後我現在想的到的終極狀況之一是特徵沒有特別的群聚現象,
因為這個太抽象可能個別問題有不同的方法XD
在目前抽象的假設下我只能建議加雜訊 up sample
或是隨機去 down sample

以上你參考一下,但畢竟我不知道你做的題目,
所以我盡量先考慮比較一般只考慮抽象特徵的情況了
但對某些特定題目不一定可行你要小心使用哈哈
最後我上面除了雜訊那個都假設獨立性高,這個可以很簡單地用PCA達成,
所以如果你想要維持原本的特徵,不用獨立性高的假設其實應該差別也不大

對不起我昨天其實滿累得沒注意到你應該就是問樣本數很少還稀疏的情況,
樣本數少的時候方法想得很混。

如果樣本數少,並假設超級極端狀況99%比1%。
一樣觀察特徵附近(注意這個"附近"一樣是根據你的距離定義,根據不同問題是用的距離定義),
因為資訊實在太少,基本只能假設這個樣本附近可能會有同樣的標注。
所以從附近去生成樣本,
如果這個某個標注還在另外一個標注的某個聚落附近,你也可以考慮降低這個聚落的影響,
就是在這個聚落去砍掉多數的樣本。

其實概念上都差不多,就是根據你的問題,看有沒有某些前提資訊可用,然後去resample。
根據你的問題,這個特徵的選法就不同,探討聚落的方式也不同(像是KNN,T-SNE)。
若是你用的是隨機森林的方法,你甚至可以考慮把這個算法啟發化。
其他的方式想啟發化也不是不行,但是就是沒有tree model這麼乾淨俐落就是

以上就是我目前想的到的處理方法哈哈
※ 編輯: stmilk (223.137.88.3 臺灣), 11/11/2021 21:46:44
※ 編輯: stmilk (223.137.88.3 臺灣), 11/11/2021 21:58:18
tkigood: 所以其實講白了 就是前面講爛了的 "AI這職缺在台灣" 11/11 22:44
tkigood: "擁有碩博士學位只是基本門票" 非本科轉行或學士根本是連 11/11 22:44
tkigood: 你有多強都不想看 我相信有看的話 不會一點機會都沒有 11/11 22:45
tkigood: 但是都是直接 "蛤? 學士? 還不是本科 直接PASS吧" 11/11 22:46
x3795566: 你有投MTK嗎? 我能力搞不好沒有你十分之一 沒被考什麼 11/12 00:36
x3795566: 就上了.. 11/12 00:36
stmilk: 大廠我連履歷有沒有被已讀都不知道哈哈哈哈 11/12 00:41
NTUmaki: MTK不收學士吧 11/12 08:12
※ 編輯: stmilk (223.137.88.3 臺灣), 11/12/2021 12:25:17
※ 編輯: stmilk (223.137.88.3 臺灣), 11/12/2021 12:27:45
hahaxd78: 謝謝分享 11/12 21:41
希望能有給你一些想法啦哈哈
hsiaoeddie: 可是我非本科四大理工碩找演算法相關的職缺還是一堆人 11/13 01:55
hsiaoeddie: 來找我欸 只能説原po時運不濟 11/13 01:56
stmilk: 其實沒關係啦我看很開,因為是我自己喜歡做的事,然後現 11/13 15:11
stmilk: 在放棄在台灣掙扎要出國去唸書了哈哈哈 11/13 15:11
stmilk: 就一邊foodpanda一邊刷題一邊找代辦了 11/13 15:12
※ 編輯: stmilk (223.137.88.3 臺灣), 11/13/2021 15:17:46
pjwck: 數學系學士沒有經營Github或展示你實力的方法的話,就會變 11/15 19:33
pjwck: 成都是空口說白話,通常會更願意找頂大碩士CS來面試吧?只 11/15 19:33
pjwck: 針對沒拿到面試回一下會不會是這個原因 11/15 19:33
stmilk: 應該單純是實力不足 11/15 22:40
pjwck: 不是這些原因的話,應該真的是實力不好了 11/16 01:20
alksjdf: 原po真的強,我是四大非本科跳AI的 個人感覺AI缺比去年 11/16 20:26
alksjdf: 很多了,但感覺你是想找純做AI演算法的 台灣真的比較少 11/16 20:27
alksjdf: 就連外商的AI缺都需要data engineer/software engineer技 11/16 20:28
alksjdf: 能 11/16 20:28
KAOKAOKAO: 看到最後一段下巴都掉了 祝原PO海外求學順利 11/18 11:51
Kinchtwck: HR說還行你就信?感覺就是CV亂寫一通,面試沒準備到重點 11/19 01:07
Kinchtwck: ,也沒有connection,不過你想要的工作內容,也只有dee 11/19 01:07
Kinchtwck: pmind/google research/Microsoft research 或是其他以 11/19 01:07
Kinchtwck: 研究為主的地方才比較適合,但這些地方超難進 11/19 01:07
leviathen: 有E2E deployment經驗還是最重要,理論在強,無法商品 12/09 12:39
leviathen: 化的模型就是沒用 12/09 12:39

你可能也想看看

搜尋相關網站