作者a0099090 (a0099090)
看板Statistics
標題Fw: [其他] 分組資料的全距有好幾種算法?
時間Wed Oct 7 22:49:53 2015
※ [本文轉錄自 Math 看板 #1M5J123l ]
作者: a0099090 (a0099090) 看板: Math
標題: [其他] 分組資料的全距有好幾種算法?
時間: Wed Oct 7 22:46:23 2015
例如20~29歲.......60~69歲
2人 .........5人
在某些地方看到全距的算法有下面幾種
1.用最大組的上限-最小組的下限=>69-20=49
2.用最大組的組中點減最小組的組中點=>64.5-24.5=40
3.組距=最大組的組上界-最小組的組下界
而組下界=組下限-1/2(最小測量單位)
組上界=組上限+1/2(最小測量單位)
所以變成69.5-19.5=50
一個全距有這麼多種算法!?有沒有人能幫忙解釋一下阿 囧
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.26.20.39
※ 文章網址: https://www.ptt.cc/bbs/Math/M.1444229186.A.0EF.html
※ 發信站: 批踢踢實業坊(ptt.cc)
※ 轉錄者: a0099090 (114.26.20.39), 10/07/2015 22:49:53
→ yhliu: 才3種而已, 不多. 如果你學到中位數, 那才是無語... 10/08 05:29
→ yhliu: 第3種是最保守的, 也就是說算出來的全距最大. 不過, 10/08 05:30
→ yhliu: "最小測量單位" 似乎改成 "最小記錄單位", 也就是資料記錄 10/08 05:32
→ yhliu: 之單位較適當? 10/08 05:33
恩...我大概懂你的意思,不過我也不敢確定@@(統計菜鳥)
最小測量單位是從書上抄來的
→ yhliu: 第1種與第3種接近, 但它把資料記錄都當成精確值而非近似值. 10/08 05:35
→ yhliu: 以上2種都是基於一個假設: 在每組中, 原資料都是分散於整組 10/08 05:36
→ yhliu: 之範圍. 而原問之第2種, 則是另一種假設: 各組資料集中於組 10/08 05:37
→ yhliu: 準差之計算, 也是採用這樣的假設. 10/08 05:40
感謝,大概知道為什麼會有第2種的方式了(我原本以為應該是第1種 by直覺)
不過第3種還是不太懂,在未分組資料=>分組資料,決定組距,組數的時候
不是應該已經包含所有的資料在裡面了嗎?
譬如說 22 33 44 55 66 77 88 用2^k法來決定組數=3 組距為(88-22)/3=22
為求方便,組距一般採整數原則(最好為2、5、10的倍數)(須包含所有數據)=>組距為25
這樣分組後就會變成20~45、45~70、70~95
這樣不是表示,分組資料的原始資料,最大不會超過95,最小不會低於20嗎?
為什麼還需要+-1/2最小記錄單位呢?
※ 編輯: a0099090 (114.26.30.155), 10/08/2015 09:16:08
→ yhliu: 如果分組是寫成 0-45, 45-70 之類的, 上下組限就等於上下組 10/08 20:33
→ yhliu: 界. 不過這好像是很老的中文教本才有這樣的寫法? 10/08 20:35
→ yhliu: 近40年來的原文(及中譯)教本不是這樣做的, 以你舉的資料, 10/08 20:38
→ yhliu: 可能分組會是 20-44, 45-69, ... 或 21-45, 46-70, ... 10/08 20:39
→ yhliu: 虻1位1疆種, 第一組下組限是 20, 上組限是44, 而下組界就是 10/08 20:40
→ yhliu: 19.5, 上組界是44.5。 10/08 20:40
→ yhliu: 以前一種分, 第一組下組限是 20, 上組限是44, 而下組界就是 10/08 20:41
→ yhliu: 19.5, 上組界是44.5。 10/08 20:41
我這邊書寫的是,要看是否為連續資料,若為連續則"20<=第一組<45","45<=第二組<70"
若為間斷(有些翻譯為離散)資料則分組如y大你寫的那樣,20-44,45-69
我的疑問在,原始資料一定在分組裡面吧?(不可能有樣本是19,卻被歸在20-45)
全距的意思不是最大數-最小數嗎?
因已分組,不曉得20-45裡的樣本有沒有20,70-95裡的樣本有沒有95
以最保守來看95-20=75
那最大組的組上界-最小組的組下界相減95.5-19.5=76
是有什麼含意在裡面呢@@?
※ 編輯: a0099090 (114.26.30.155), 10/08/2015 21:23:01
→ yhliu: 就記錄的資料而言, 表面疥是離散的. 以年齡為例, 記錄都是 10/09 02:00
→ yhliu: 整數歲, 但實際年齡當然不是只有整數歲. 10/09 02:01
→ yhliu: 再以體重為例, 記錄可能都是整數公斤, 當然實際上體重是連 10/09 02:03
→ yhliu: 續資料. 這也是為什麼我用 "最小記錄單位" 這名詞. 10/09 02:03
→ yhliu: 另者, 若資料中有 19, 最低值一組當然耍包含 19 在內, 而 10/09 02:05
→ yhliu: 不可能是 20-44 或 21-45. 10/09 02:05
→ yhliu: 至於分組應該是 20-45, 45-70 之類的, 或是 20-44, 45-69 10/09 02:08
→ yhliu: 之類的, 個人是有些不同看泠. 只是目前看到的美國教本大概 10/09 02:09
→ yhliu: 都是後一種... 10/09 02:10
→ yhliu: 以 "年齡" 而言, 台灣以前的慣例是用 "足歲". 因此, 實際上 10/09 02:12
→ yhliu: 20-29歲指的是 "滿20歲, 不滿30歲", 所以真正的組界應是 10/09 02:13
→ yhliu: 20 與 40. 但美國人慣例用 "最近歲", 所以20歲代表的是19歲 10/09 02:14
→ yhliu: 半到20歲半, 所以 20-29歲組就是19.5歲至29.5歲. 10/09 02:15
→ yhliu: 修正: 以足歲而言, 20-29歲組的真實組界是 20 與 30. 10/09 02:16
→ yhliu: 再說體重的例子: 如果記錄是到小數點1位, 分組取整數, 古老 10/09 02:18
→ yhliu: 的分組寫法有, 例如 30-35,35-40..., 30-34.9, 35-39.9... 10/09 02:19
→ yhliu: 在解釋上都認為是一樣的. 而美式教本的方法, 是把記錄先化 10/09 02:20
→ yhliu: 簡成整數(採四捨五入), 再以新記錄資料分組為 30-34,35-39 10/09 02:22
→ yhliu: 之類的. 此時 30-34 代表的是 29.5-34.5。 10/09 02:23
非常感謝,我終於理解為什麼會有+-1/2這種做法了
※ 編輯: a0099090 (114.26.30.155), 10/10/2015 16:01:08