通常d=1的效果不錯,即此弱模型是由一次分割所得的樹模型所組成。而更常見的split數可能介在\(1; Learning rate: 決定演算法計算gradient descent的速率。
確定! 回上一頁