[爆卦]LLM Dcard是什麼？優點缺點精華區懶人包

為什麼這篇LLM Dcard鄉民發文收入到精華區：因為在LLM Dcard這個討論話題中，有許多相關的文章在討論，這篇最有參考價值！作者EvilSD (星塵遠征君)看板Soft_Job標題Re: [討論] 關於 Dcard ML 實...

作者EvilSD (星塵遠征君)

看板Soft_Job

標題Re: [討論] 關於 Dcard ML 實習作業

時間Mon May 15 21:35:24 2023

: 題目是用結構資料，包含標題、看板資訊以及1-6小時的愛心數和評論數等等
: 來預測發文後 24 小時的愛心數

來雲一下我可能會怎麼做

如果假設我沒理解錯誤題目的話，應該基於給予的前六小時的資料，
去預測未來24小時候的愛心數吧?

首先這題目我可能就不會考慮用NLP來做處理，主要是資料量可能不足
再加上中文NLP來做除了麻煩外效果可能也不會太好

想法是有了1~6小時的愛心數跟評論量，預測未來24小時的愛心數
基本上標題文字的意義其實可能就不是那麼重大，有強烈特徵的可能只是一兩個關鍵字
而且有了前六小時的數據，基本上不用標題也能夠推估未來的數字

所以覺得這題比較難的是，你沒有6小時之後的資料，所以很難預估一個趨勢
(除非有給完整趨勢資料)

因此我會將看板資訊轉成單純數字的Label，
或是可以取得與看版相關的人氣值正規化後做代替
將標題做關鍵字提取，並且做文字雲把重複的強烈關鍵字與留言愛心數做對應，
重新建一個特徵值

接下來就有完整的特徵值資料，做一下特徵值的關聯性或是強度分析
挑幾個覺得強烈的出來訓練一個模型即可(ML與DL都可以)
(應該用LSTM效果比較好)

基本上能簡單做就不會想太複雜處理，單純一個想法也確定可不可行，供大家討論參考

--
那片有座高塔哭著朝北方奔去的天空，是我此刻片尋不著的風景

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.166.82.176 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1684157729.A.940.html

推 hsuchengmath: 為啥會沒有24小時後的資料，dcard文章不是一大堆， 05/16 07:55

→ hsuchengmath: 隨便爬都有啊 05/16 07:55

我不知道他們題目有沒有說可以拿外部資料，只為了符合遊戲規則而已
如果是我理解這樣，這題目其實比較有點類似工業界的生命預估

推 oopFoo: 我也覺的是這個方向，但關鍵字應該也是重要，但關鍵字如何 05/16 07:56

→ oopFoo: 提取，應該是dl訓練出來的。我覺的這題關鍵是如何提取關鍵 05/16 07:57

→ oopFoo: 字，不然有6小時的資料應該很容易預測24小時的愛心數。 05/16 07:58

推 oopFoo: 而且給time series的資料，應該就是想用transformer 05/16 08:02

能簡單就比較不會想複雜用，雖然不確定考官想要的方向是什麼

→ DrTech: 5萬筆資料用transformer 去over-fitting？資料量那麼少， 05/16 11:10

→ DrTech: 模型用那麼複雜，效果好也是運氣 05/16 11:10

→ DrTech: 沒有對錯，純個人不同看法。 05/16 11:12

認同
※ 編輯: EvilSD (59.120.53.15 臺灣), 05/16/2023 12:23:10

推 ekids1234: transformer 一般來說要到哪個數量級才勉強及格 ? 05/16 12:27

如果在NLP感覺至少也要數十萬以上才夠用
但目前的題目是只要抓標題，文本量很少因此我猜五萬筆是足夠的
只是如果今天拿去測外部資料會不會準，就不知道了

推 oopFoo: 我猜現在所有人都在用bert/gpt，找intern應該也是想要延續 05/16 13:01

→ oopFoo: 公司正在做的，transformer也許不是最適合這題，但可能是 05/16 13:01

→ oopFoo: dcard想找的人。只是盲猜，提出來聊聊。面試，考題，機運 05/16 13:03

→ oopFoo: 蠻重要的。 05/16 13:03

推 oopFoo: 這種"標題"對"星星"的decoder應該很簡易訓練，反正資料少 05/16 13:12

的確考量考官想看的差異度會很大，有些考官喜歡看新東西新技術，有些考官喜歡實用性

→ h920032: 用BOW就夠了吧 05/16 13:38

真是懷念XD 但依我原先的想法用BOW應該就是最直接的了
※ 編輯: EvilSD (59.120.53.15 臺灣), 05/16/2023 14:01:23

推 penniless: 挑一個預訓練的中文模型，五萬條fine tune transformer 05/17 13:58

→ penniless: 很夠了... 2023了沒人在train from scratch 05/17 13:58

噓 brucetu: 你在講什麼自己改題目? 還沒發文哪來的前六小時? 05/18 00:00

→ DrTech: 用transformer，尤其是直接標題放進去train就是準備 over- 05/18 00:05

→ DrTech: fitting啊，ML基本常識。 BERT Embedding+ 下游小模型，我 05/18 00:05

→ DrTech: 還覺得稍微有點ML常識。 05/18 00:05

→ DrTech: 這吳恩達的deep learning或各種ML經典教科書都有寫吧。資 05/18 00:06

→ DrTech: 料量少要用小模型。 05/18 00:06

→ DrTech: 或者把 transformer或BERT的layer抽掉幾層成為較小模型也 05/18 00:10

→ DrTech: 可。用小模型是為了降低模型的Variance，這基本常識吧。 05/18 00:10

→ DrTech: 這就是為什麼原PO用XGBoost LightGBM ，反而效果可能好 05/18 00:12

推 oopFoo: 這就是很詭異的地方，現在用LLMs，用少少的data fine tune 05/18 08:49

→ oopFoo: 效果奇異的好。也許LLMs裡的"知識"夠多，adaptation效果 05/18 08:50

→ oopFoo: 奇佳。在twitter上看到一些專研NLP的學者有點垂頭喪氣，說 05/18 08:52

→ oopFoo: 以後不用研究了 05/18 08:52

→ brucetu: 這也不是今年才這樣沒人在from scratch了 05/18 20:04

→ DrTech: 你們都來亂的吧，你去看各種task排行榜，paperwithcode排 05/21 13:46

→ DrTech: 行榜，有哪個top-3 solution是LLM+fine-tune?完全沒有。 05/21 13:46

→ DrTech: 身為工程人員，講科學證據吧。不要靠幻想感受。 05/21 13:46

→ DrTech: 而且LLM跑一個完整預測結果，正常機器，要數秒。用怎麼可 05/21 13:48

→ DrTech: 能上正常有流量的產品。 05/21 13:48

→ DrTech: 效果好要講科學證據啦，公開資料集測一下，不要靠猜測或個 05/21 13:50

→ DrTech: 人感受。 05/21 13:50

[爆卦]LLM Dcard是什麼？優點缺點精華區懶人包

為什麼這篇LLM Dcard鄉民發文收入到精華區：因為在LLM Dcard這個討論話題中，有許多相關的文章在討論，這篇最有參考價值！作者EvilSD (星塵遠征君)看板Soft_Job標題Re: [討論] 關於 Dcard ML 實...

你可能也想看看

搜尋相關網站

#1LLM

#2請益LLM學位- 法律人板

#3#經驗分享【美國法學碩士LL.M.】該先工作或先出國？攻讀 ...

#4美國LLM留學申請經驗分享

#5請益2023 Fall US LLM 選校及推薦信人選- 留學

#6討論辭職準備考試or出國讀llm - 法律人板

#7#資訊分享南加大USC 課程介紹: Master of Laws, LLM (法學 ...

#8LLM? JD? - 留學板

#9請益申請llm安排計劃- 留學板

#10美國LLM留學申請經驗分享- B8 留言

#11請益英國留學llm - 留學板

#12請益國外研究所、llm申請可以交研所成績嗎？ - 留學板

#13美國LLM留學申請經驗分享- B15 留言

#14美國LLM留學申請經驗分享- B9 留言

#15美國LLM留學申請經驗分享- B17 留言

#16該去哪念LLM - 留學板

#17JD、LLM、或文學...? - 留學板

#18請益新加坡LLM以及法律工作- 法律人板

#19分享ChatGPT、AIGC、LLM技術&應用群組- 軟體工程師板

#20徵伴#徵伴美國LLM申請者- 留學板

#21托福96#美國LLM - 留學板

#22留學#請益#美國美國llm的需要- 留學板

#23請益請教法研跟律師執照對於申請美國LLM與JD的優勢- 留學

#24在台灣讀法研所對申請LLM有幫助嗎? - 留學板

#25有關美國LLM T20的申請問題- 留學板

#26組LLM讀書會- 留學板

#27經驗分享京都大學法學研究科研究生申請（內含美國荷比LLM ...

#28問申請美國名校的LLM - 留學板

#29留學#英國#LLM - 留學板

#30X申請者（Northwestern）：我依舊沒有時光機，但我有Eri與學律

#31Dcard Tech Studio

#32初級法務人員/中級法務人員(需具備LLM或JD學歷)｜永豐 ...

#33Poyen Chou - Associate Legal Counsel - Dcard

#34Re: [討論] 關於Dcard ML 實習作業- 看板Soft_Job - 批踢踢實業坊

#35無聊重考台大醫律師嘆：意義在哪裡？

#362023 Machine Learning Intern 作業解析| by Dcard Tech

#37llm申請ptt的問題包括PTT、Dcard、Mobile01，我們都能挖掘 ...

#38劉維人、黃豆泥／後LLM的權力地景：擁抱暗夜呢喃的時刻已然 ...

#39大型語言模型職缺

#40網路上關於llm價值-在PTT/MOBILE01/Dcard上的升學考試資源 ...

#41「LLM」相關新聞

#42【specialist｜account ing】職缺- 2023年7月熱門工作機會

#43放送你的知識與想像

#44全面數據！2023 年留學申請落點彙整，助你提升碩博錄取 ...

#45個人化推薦如何每月吸睛15億次，先得撐過3千次午夜爆量挑戰

#46[荷蘭留學申請-LLM]荷蘭法律碩士申請心得 - 叉子人生

#47[錄取] 荷蘭LLM法律碩士申請心得- 看板studyabroad

#48藥師考試錄取率

#49職缺搜尋

#50雙聯學位/國外入學優惠 - 國立政治大學法學院

#51眾博法律事務所

#52依渟實況剪輯：當靠腰主播不再靠腰剩下什麼可愛嗎? - YouTube

#53Why LL.M.? @ 老流氓的低吟

#54千萬別當法官助理

#55沒學過程式，你也能當工程師？ChatGPT新應用再發威

#56葉雲卿 :: 博碩士論文下載網

#57llm申請的評價和優惠，DCARD、PTT、YOUTUBE和商品老實 ...

#58Re: [討論] 關於Dcard ML 實習作業- 看板 ... - PTT熱門看板

#59國家高速網路與計算中心

#60Re: [討論] 關於Dcard ML 實習作業- 看板Soft_Job - Web PTT

#61曦道留學-專業申請美國法學碩士LL.M.

#62法律一本生，想出国留学读LLM，是选择美国，英国好还是澳洲