決策支援系統之應用 : 特徵擷取與支援向量機多層架構之信用評分模式

作者/黃昭瑋

前言 信用評分(Credit Scoring)為許多銀行衡量申請者違約或逾期的風險之指標,其目的為決定該客戶是否有違約等風險存在,避免造成銀行的損失。然而,於審查大量之客戶的資料過程中,需費長久的時間,且客戶之資料可能存在不必要的特徵因子,因而造成誤判的情況。因此,本研究提出一個結合因素分析與支援向量機之信用評分模式,此模式先以因素分析法(factor analysis)篩選影響信用評分之重要屬性,再以支援向量機(support vector machines)進行信用分類。本研究以兩個信用評分資料(澳洲資料及Bene1資料) 進行信用分類,實驗結果顯示本研究之分類準確率優於先前之相關文獻;因此,本研究所提出之模式為一個在信用評分上可行且有用的模式。 緒論 面對金融機構競爭激烈環境下,各家銀行紛紛推出各種優惠方案來爭取客戶,有些銀行以簡化繁雜的信用審核過程來吸引客戶;因此,相對的提高了違約、呆帳的風險。過去的信用卡審核主要由負責人員憑著專業知識與經驗來判斷客戶是否會違約,但近來隨著客戶的增加以及同業的激烈競爭,如何正確判斷申請人是否會違約,以成為銀行業競爭的關鍵所在。然而,當銀行受理的申請個案越來越多時,憑藉著專業人員去審查客戶是相當費力耗時的;但是這些問題大多可藉由以電腦為基礎的信用評分系統來解決。在過去二十年內,各種分類技術廣泛的應用到信用評分問題上,期望以這些技術應用取代費力耗時的人工作業,並且正確地分類客戶信用資料,進而增進審查準確率。 特徵擷取與信用評分模式之相關文獻探討 信用評分系統乃是利用個人、企業的相關資訊及信用紀錄等,透過統計、機器學習等方法,對個人、企業的信用品質來評分,並建構一評分系統,以判斷客戶的信用風險,做為核准與否及信用額度之決策(Makuch, 2001)。透過信用評分系統不僅可以減少金錢、人力、時間成本,同時可隨時間評估模型的適用性而做出適當的修正(孫敏瑗,2004);因此,信用評分的方法的導入確實能提高銀行業的競爭優勢。在統計方法的應用上,判別分析最初應用在公司危機預警分析上,找出各企業違約可能性之高低且加以評分,後來進而被用於信用評分上(Altman ,1968)。在機器學習方法的應用上,類神經網路(artificial neural networks)、決策樹(decision tree)等技術皆被廣泛使用。Ong 等人(2005)以基因規劃法(genetic programming)對澳洲與德國信用評分資料進行分析,並比較類神經網路、粗略集合論(rough sets theory)與決策樹等方法,結果發現基因規劃法的誤差比其他方法低; Mues 等人(2004)以類神經網路分類德國信用評分資料及兩個Benelux金融機構的信用評分資料,再以各種決策樹萃取出類神經網路的規則,最後以決策圖(decision diagram來修剪決策樹,使決策樹萃取的規則更利於解釋與了解。Wang 等人(2005)提出模糊支援向量機(fuzzy support vector machine)以處理信用評估之問題,結果發現比支援向量機準確度要來的高。Martens等人(2007)結合支援向量機與規則萃取技術,以挖掘支援向量機的知識,並且比較規則萃取後的支援向量機與原支援向量機於信用評比分類之準確度,結果發現兩者差異很小,但規則萃取技術可用來挖掘支援向量機的知識。Hoffmann等人(2007)提出演化式模糊規則學習演算法以進行信用評分,並且與Nefclass分類器、類神經網路、C4.5演算法等分類器比較,結果顯示演化式模糊規則學習演算法在某些資料上亦有不錯的分類效果與解釋能力。 於資料探勘的過程中,特徵擷取 (feature selection)之主要目的是藉由移除不相關或多餘屬性來減低資料大小;因此,篩選後的屬性集合能更容易理解(Han 等人,2006)。關於以特徵篩選後再進行分類預測的信用評分研究,Lee 等人(2005)結合類神經網路與多元適應性雲形迴歸(multivariate adaptive regression splines) 的混合式信用評分模形以評估台北某銀行的信用卡資料,此研究先利用多元適應性雲形迴歸找出重要的相關屬性作為類神經網路的輸入節點,再以類神經網路來預測,結果發現其提出的混合式模型的分類準確率高於傳統分類方法。Huang 等人(2007)提出了結合基因演算法(genetic algorithms)與支援向量機的方法來處理信用評分之問題,該言就以基因演算法來進行支援向量機的參數選取與特徵擷取,結果發現所提之模型的準確度較類神經網路與C4.5演算法高。本研究以因素分析找出客戶信用之重要因子,再以支援向量機進行分類,並與先前文獻之分類比較結果。 結合特徵擷取與支援向量機之信用評分模式 一、因素分析 因素分析(Spearman,1904)將所有觀察變數分解成成數目較少的共同因素與獨特因素所形成的線性組合,以降低變數的維度,因此可以利用較精簡的屬性來取代原本的屬性。因素分析最常用的理論模式如(1)所示:
其中,觀察變數:,平均數:,p為變數個數,為共同因素且,r為共同因子數目,且為因素負荷矩陣。為獨特因素且相互獨立。而且,。通常,是觀察不到的,而要求出,必須經過幾個重要的步驟。其中包含因素選取方法及因素的轉軸。 因素選取方法主要有主成分法與最大概似法,本研究以主成分法進行因素選取,主成分法目的是找出原有變數之線性組合使其變異數最大,其進行步驟如下所示。令R為的相關係數矩陣,為R的特徵值且A為R的特徵向量。 的所有主成分為,由於,所以 由於,所以 接著,決定要保留的共同因素,在此,選擇所有特徵值大於1的因素,作為共同因素F,因此,,r為所有大於1的特徵值的數目,而將其餘特徵值小於1的因素Fi所構成的線性組合,作為獨特因素,如此,因素分析模式(1)便產生。因素的轉軸主要目的是使轉軸後的因素矩陣中每一個觀察變數都只歸於一個或少數幾個因素上,使轉軸後因素負荷矩陣L*中,零或接近於零的因素負荷增多,以減低因素的複雜性,使因素的解釋由繁雜趨向簡單,轉軸分為直交旋轉與斜交旋轉,直交旋轉後的因素互為直交,斜交較不易解釋也較不被成用,本研究所用的直交轉軸方式為變異最大旋轉法,目的在找出一個因素結構,使得每個變數僅在某個因素的因素負荷較高,其餘因素的因素負荷都接近0,這樣的因素結構將使得每一因素表示不同構念。最後,進行變數的選取,即特徵擷取。首先,依序在轉軸後因素負荷矩陣L*中,挑選出絕對值大於0.5的因素負荷,保留其對應的觀察變數,若沒有任何一個因素負荷的絕對值大於0.5,則移除觀察變數,因此,挑選出的觀察變數即為本研究挑選的特徵 (Hair 等人,1995)。 二、支援向量機 支援向量機 (Vapnik,1995) 藉由決定訓練資料中最接近點之間的最大距離分隔邊界,支援向量機透過最小化結構風險(structural risk)有效降低可能的分類錯誤;因此,支援向量機比傳統分類方法有較佳的普遍化能力。給定n個訓練資料為輸入向量且為輸出向量且,支援向量機的主要目的是要找出一個具有最大邊界(margin)來區隔訓練資料的最佳區隔超平面(optimal separating hyperplane):,而是一個將輸入空間映射至一個高維度特徵空間的非線性函式,並且滿足下列條件: 支援向量機的區隔超平面與邊界的關係如圖一所示:

《圖一》支援向量機之區隔超平面示意圖
由式(4)可知,邊界的距離為,然而資料的分佈通常是非線性的,所以不太可能得到一個沒有分類誤差的線性最佳區隔超平面,必須導入一個鬆弛變數來容忍分類誤差;因此,支援向量機的最佳化問題等同於求出最大邊界,此邊界將分類誤差發生的降至最低。此最佳化問題可轉換為下列二次規劃(quadratic programming)問題: 其中C為懲罰參數,用來調整支援向量機的複雜度與錯誤分類的資料數目之間的平衡,而式(5)的限制最佳化問題可轉換成為式(6)所示拉格蘭吉形式(primal Lagrangian form) 為拉格蘭吉乘數(Lagrange multiplier),使用KKT條件(Karush-Kuhn-Tucker conditions),等式(6)可轉換為等式(7)所示的對偶(dual)問題,並且求解出式(8)的最佳區隔超平面。 因此,在式(7)中,整個最佳化問題簡化為的二次規劃問題,表示在特徵空間中兩向量X與Xi的內積,而內積的結果可由任何滿足Mercer’s 情況(Mercer,1909)之核函數(kernal function)替代,即,本研究以高斯RBF(gaussian radical basis function)為支援向量機的核函數: 其中 資料分析與結果討論 本研究的模擬資料為澳洲資料與Bene1資料。澳洲資料共有690筆資料,包含15個屬性,分別為6個連續數值型態的屬性、8個名目型態的屬性及1個類別型資料。而Bene1資料總共有3122筆資料,其中2082筆資料為信用良好的資料,1041筆資料為違約資料,包含28個條件屬性,及1個類別型資料。本研究先將某些有空缺值屬性的資料刪除,接著,隨機挑選80%的資料進行因素分析來進行特徵擷取,最後,以支援向量機來進行分類並且比較特徵擷取前後的結果。本研究的實驗流程如圖二所示。

《圖二》本研究之信用評分資料分析流程圖
澳洲資料經由因素分析後,15個屬性中,共可挑選出6個共同因素,再經由變異最大旋轉法進行因素轉軸後,選取出因素負荷的絕對值大於0.5的屬性,並且刪除因素負荷量的絕對值小於0.5的屬性,因此,擷取出11個屬性。而在Bene1資料經由因素分析後,可選取出8個共同因素,再經最大變異轉軸後刪除因素負荷的絕對值小於0.5的6個屬性,因此,擷取出23個屬性。 為了使分類效果更具普遍性,本研究將進行五次交叉驗證(cross validation)。首先,將資料隨機分成數目相等的五個樣本,在第1次實驗中,先以第1個樣本作為測試資料,其餘四個樣本作為訓練資料來進行分類,在第2次實驗,以第2個樣本作為測試資料,其餘四個樣本作為訓練資料來進行分類,依此類推。五次實驗完成後,將每次的實驗準確度進行平均,以求得整體平均準確度並降低因資料選取的誤差。實驗結果發現,本研究所提出之模式皆較先前文獻之模式有較好之分類表現準確度(表一)。

《表一》各分類模式對於澳洲資料及Bene1資料之分類表現
結論與建議 對於銀行客戶的大量信用資料而言,存在著許多不確定特徵因子,影響分類上的正確性。本研究藉由因素分析法有效地擷取出具有代表性的信用特徵,再以支援向量機進行分類,此模式模擬實驗證實可提高信用分類之準確度。因此,本研究證實了特徵擷取是建構分類系統前的一個重要的步驟,擷取的特徵對於系統的分類能力以及降低系統的運算複雜程度上皆是有助益的(Zhang, 2000)。 在未來研究方面,若能夠取得的真實銀行客戶資料來進行分析,則較能夠增加篩選後屬性之解釋度。其次,在本研究中,支援向量機之參數對分類準確度影響甚巨,未來可利用次經驗演算法則或其他系統化之方法來決定支援向量機之參數以提高分類之準確度。最後,支援向量機之分類結果的知識很難加以解釋,因此,未來若能以規則萃取技術來發現這些知識,提供決策者制定決策時之依據,則將使這個信用評分系統更加完善。 參考文獻
  • 孫敏瑗(2004),《加入信用評等下的銀行績效評估》,碩士論文,東吳大學經濟學系。
  • Altman, E. I.(1968), “Financial Ratios, Discriminant Analysis and the Prediction of Corporate Bankruptcy,” Journal of Finance,23(4),589-609.
  • Hair, J. F., Anderson, R. E., Tatham, R. L. and Black, W. C.(1995), Multivariate Data Analysis: With Readings 4th ed., New Jersey:Prentice Hall
  • Hoffmann, F., Baesens, B., Mues, C., Gestel, T.V. and Vanthienen, J. (2007) , ”Inferring descriptive and approximate fuzzy rules for credit scoring using evolutionary algorithms,” European Journal of Operational Research,177(1),540–555.
  • Huang, C.C. ,Chen, M.C. and Wang, C.J.(2007), ”Credit scoring with a data mining approach based on support vector machines,” Expert Systems with Applications,33(4),847-856.
  • Lee, T.S. and Chen, I. F.(2005), “A two-stage hybrid credit scoring model using artificial neural networks and multivariate adaptive regression splines,” Expert Systems with Applications ,28(4),743–752.
  • Makuch, W.M.(2001), “Ch.1 Scoring Application,” in Handbook of Credit Scoring, edited by Mays, E., Routledge,3-21.
  • Martens, D., Baesens, B., Gestel, T.V. and Vanthienen, J. (2007), ”Comprehensible credit scoring models using rule extraction from support vector machines,” European Journal of Operational Research,183(3),1466-1476.
  • Mercer, T.(1909), ”Functions of positive and negative type and their connection with the theory of integral equations,” Philosophical Transactions of the Royal Society of London. Series A, Containing Papers of a Mathematical or Physical Character,209,415-446.
  • Mues, C., Baesens, B., Files, C.M. and Vanthienen, J. (2004),“Decision diagrams in machine learning: an empirical study on real-life credit-risk data,” Expert Systems with Applications, 27(2),257–264.
  • Ong, C.S., Huang, J.J. and Tzeng, G..H.(2005),”Building credit scoring models using genetic programming,” Expert Systems with Applications,29(1), 41-47.
  • Spearman, C.(1904), “General intelligence, objectively determined and measured,” American Journal of Psychology, 15, 201-293.
  • Vapnik, V. (1995), The nature of statistical learning theory, New York:Springer.
  • Wang, Y., Wang, S. and Lai, K.K.(2005), ”A New Fuzzy Support Vector Machine to Evaluate Credit Risk”, IEEE Transactions on Fuzzy Systems, 13(6), 820-831.
  • Zhang, G. P. (2000), ”Neural networks for classification :a survey,” IEEE Transactions on Systems, Man, and Cybernetics-Part C: Applications and Revuews,30(4),451-462