最近學做WOE binning,筆記如下
WOE Binning是什麼呢?
Weight of Evidence(WOE)就是把continuous variable轉成discrete!設定門檻(cutoff)把連續數字分成一組一組的bin,有點類似……把長短差不多的筷子放在一起,分成好幾綑
用在哪裡?
Credit Score Model的前置作業,把資料處理好再去下一步選擇variable
好處/壞處
好處是variable當中,有時會有把太大、太小、missing等不合理的值,binning能把這些outlier跟其他的值分開
壞處是不夠客觀,100個人有101種分法,每一組cutoff要取多少自己決定,每一位分析師做出來的都不同
公式怎麼算
Overview of the Interactive Grouping Node — Weight of Evidence
SAS Miner
Interactive Grouping可以視覺化每一組event count的數量,配合WOE值上升或下降趨勢,可以判讀WOE值對應變數之意義是否合理,原則為monotonic
白話文: 例如消費者拖欠付款的日子越久,欠債比例會越高,所以WOE會由左下往右上點上升,呈現遞增
注意!!!也有可能是由左上到右下的下降關係! 例如公司利潤/負債比例越高,表示公司發大財,欠債比例會越低,WOE值則遞減
調整binning時需注意event count/non event count,每個bin應至少有一個non-event
可以點選fine和coarce看細項和總體cutoff
參考Information value值,0.3以上就是很有預測能力的變數!
