[爆卦]db housekeeping意思是什麼?優點缺點精華區懶人包

為什麼這篇db housekeeping意思鄉民發文收入到精華區:因為在db housekeeping意思這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者lelojack (莉羅夾克)看板Biotech標題Re: [求救] microarray no...


※ 引述《wouldfly (瑋瑋)》之銘言:
: 是這樣的... 在看microarray data挑選一些顯著差異的candidates
: 不免讓人想到是怎樣分析的,因為data分析前條件的設定,都會牽扯到可信度..
: 有一天有一位前輩跟我說
: http://ppt.cc/H9p9 這樣代表會有很多不可信的雜訊進去
: 但重點是我看不多懂這張圖~~~~~~
: 我有爬文或查過一些網路上的資料
: 像以下這些資料http://ppt.cc/H9p9
: http://www.slideshare.net/antiplastics/normalization-of-microarray
: 或http://genpromarkers.com/Bioinformatics/Bioinformatics.html
: 好像就是在解釋這個概念
: 但我還是看不懂那個盒鬚圖代表的概念是什麼,上下調整會影響什麼?
: 條件設高設低代表的意思?
: 不好意思~~~拜託懂得大大可以解釋,感激QQ

"Normalization(正規化)是讓數據之間可以比較的前處理"

以qPCR來說,針對housekeeping gene數質的處理就是一種正規化

之所以會有原始數質彼此不能比較的原因

大部分在於operation variation(每次加樣的量都不同)跟platform background

過去Microarray 正規化也有人嘗試以qPCR的想法,把原始數值跟house keeping相除得到

delta CT,把這個數值當作正規化的數值。

這種想法十分的生物,但是遇到兩個問題,

第一個問題:housekeeping gene如何挑選?

高表現的housekeeping gene跟低表現的house keeping gene是不同的,

而正規化的比較標準又要一致,

第二個問題:真的有housekeeping gene嗎?

此外每間實驗室認為的housekeeping gene都有自己的一套know-how.....

由於housekeeping gene是人定義的,定義方式也不客觀

我碩論也被正規化的問題問得很慘,也告訴念生資或念生物的千萬不要自己開發統計方法

我們怎麼搞也無法說服統計學家........

好的! 回來目前通行的正規化方式

目前Micorarray正規化的基本假設是:"大部分的基因表現在所有樣品間的差異不大"

換句話說有差異的基因佔的比例很低

這個假設捨棄了house keeping gene的概念,用population的概念去讓數值之間可以比較


http://genpromarkers.com/Systems_biology/img173.gif

上圖是原始數據,下圖是正規化的數值

我們看到每筆"原始數值"的population都不同,違反上面提到的假設

正規化後的數值就是調整每樣本的數值分佈是一樣的<-分佈!?

講到分佈~ 統計學家又高潮了~ 這就是我碩士論文又拖兩個月的原因

每套正規化工具所定義的分佈,不同的假設下,數值分佈會不同

回來看原始數值,我們可以了解Microaray的數值為何需要正規化

1. 我們可以看到 有些樣品的原始數值普遍偏高,這就是我提到operation variation

我們無法肯定每次RNA下的量都一樣,因此整體數值就會不同

2. 我們可以看到 有些樣品的variaion(iner-quataile range)小,而有些不是

這可能也是hybridization技術的問題(platform background)

因為hybridazation的技術一直有over-saturation及none-specific noise的問題

低表現的基因訊號會高估(因為有非專一的雜訊), 而高表現的基因訊號會低估(飽和問題)

也是有論文認為microarray是一個dynamic range相對不好的技術

(跟qPCR及RNA-seq相比, 我的工作跟NGS相關 趁機酸一下Microarray)

不過microarray的相關資源也比較多,例如GSE, bioGPS 等等db

很多分析工具也很成熟,在一般分析工具上很少人會質疑

而NGS的軟體還在蓬勃發展中........

舉個例子來說GSEA的分析 在官方網站方面說:

The GSEA team has yet to determine whether any of
these ranking statistics,......., are appropriate
for use with expression data derived from RNA-seq experiments.
(就說不要惹統計學家,統計學家沒時間處理的軟體就成敗自負拉)

所以.....正規化就是這樣 有問題就再說吧


--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.146.55.199
※ 文章網址: http://www.ptt.cc/bbs/Biotech/M.1415216000.A.596.html
※ 編輯: lelojack (122.146.55.199), 11/06/2014 03:40:21
※ 編輯: lelojack (122.146.55.199), 11/06/2014 03:43:06
KittyGod: 那NGS的誤差跟primer效率有沒有關係呢? 11/06 06:11
liuse: NGS的normalization也還不成熟,大家各有自己的方法 11/06 07:00
oplz: NGS 比較的前提在各 sample 的 total RNA numbers 相同..但 11/06 07:43
oplz: 這假設通常無法驗證... 11/06 07:44
我修改文章在順便題一下NGS表達量的算法

RPKM (Reads Per Kilobase per Million mapped reads)

其實這個算法真的很單純,就是用基因的長度和定序的通量進行正規化

由於NGS會讀到很多cDNA片段,最直觀的計算RNA表現的算法就是去計算cDNA片段的數量

每條cDNA片段就是代表RNA表現的證據

但是這有兩個bias:
1.基因越長,片段越多
2.定序總通量越大,所定序到的片段數量也越多

因此計算上真的很單純 Mapped reads/(基因長度[kb]*定序通量[總條數])

至於有沒有缺點,哥在碩士念完就沒認真念論文惹

就等版上的強者來分享拉
※ 編輯: lelojack (122.146.39.146), 11/06/2014 20:00:26
blence: TCGA的RNAseq是RPKM,但新的RNAseqV2則是另一個RSEM算法 11/06 21:06
blence: 不過我只會用data,沒去管怎麼來的,細節就不清楚了 11/06 21:07
oplz: 主要是平常 wet lab 用的 housing keeping gene 表現量都不 11/07 14:50
oplz: 是最高的 1% gene.. reads 數量低..不能用來做為 NGS 的 11/07 14:51
oplz: control.. 但現在 NGS normalization 的方式是拿 total read 11/07 14:52
oplz: 數去較正表現量.. 所以需要假設不同情況下的 total reads 差 11/07 14:53
oplz: 不多.. 事實上這是不太可能的事..但也沒有更好的方法 11/07 14:54
oplz: (應該是 total RNA transcripts.. not totals).. 11/07 14:56
liuse: RPKM只算是一種表示基因表現量的方法,現在有的NGS分析 11/08 09:05
liuse: 都還是用raw mapped read count來運算 11/08 09:06
liuse: 加入spike-in用來normalize是目前大家覺得比較精確的 11/08 09:08

你可能也想看看

搜尋相關網站