脫貧潛客分析
Mentor:謝宗震、陳潔寧
Project Manager:呂岱恩
Project Partner:臺北市政府社會局
臺北市政府社會局自民國89年起陸續開辦超過15個脫貧方案,各方案辦理期限約3~5年,由於人力有限,約服務一百多人,開辦前業務同仁需投入大量時間,篩選名單後逐一寄發申請表、辦理方案說明會、受理民眾申請再審查是否符合資格等;過程中,需籌備辦理多元課程、督導學生完成方案任務、關懷學生參與情形等,惟最終完成參與方案者僅占最初參與方案人數的百分之七十,而未能完成方案的百分之三十參與者,多數不願配合方案規定,或其家庭除經濟問題外,還有更迫切的福利需求,而無法達成方案任務。
由於每個個案需花費大量時間與資源,因此如何積極輔導適合對象優先參與脫貧方案,以提高參與者完成方案的比例同時讓有迫切需求的參與者有機會參與服務方案成為優先要務。此次資料英雄計畫透過資料分析找出家戶適合接受的服務,提供業務同仁評估是否適合參與方案,以妥善運用有限資源,提升方案服務效益。
研究資料與主題
本次研究以臺北市100年07月至103年06月的「Young Young 精彩青年培力希望發展帳戶專案」為例進行資料分析,瞭解社會局脫貧方案是否有助於提升家戶平均收入,並找出影響家戶脫貧的家庭類型。
由臺北市政府社會局提供去識別化後有參加及未參加定期儲蓄型方案的家庭特徵,依此資料嘗試回答:
1. 參加方案且脫貧者具何種家庭特徵。
2. 參加脫貧方案與未參加方案家戶是否有差異。
分析手法
在現有的低收家戶資料中,有參加方案的實驗組(A)以及沒有參加方案的對照組(B),均有一定比例的家戶脫貧(A1, B1)。而此專案的主要目的之一是欲藉著資料的分析,找出未來適合參與脫貧方案的家戶,把資源做更有效地分配,讓更多家庭有機會脫離貧窮。
.利用 Gower’s Distance 計算不同組別的家庭特徵相似程度
Gower’s Distance (Gower, 1971) 是用來計算兩組資料的相似程度 (距離),資料的型態可以同時包含類別,數值,邏輯(true or false)。Gower’s Distance 的量測值介於0到1之間,數值愈大則距離愈遠,也就是差異性愈大。
紅色區:對照組中未脫貧的家戶與實驗組成功脫貧的家戶之 Gower’s Distance 分布。
綠色區:對照組中未脫貧的家戶與實驗組中未脫貧的家戶之 Gower’s Distance 分布。
虛線:是控制組中未脫貧家戶與參與方案組未脫貧家戶 Gower’s Distance 的最小值 (=0.123),以此做為挑選參與方案家戶的參考。
分析結果令人驚喜,從相似度分析可以看出控制組中未脫貧者與實驗組脫貧以及未脫貧者的相似度有明顯的差異。而且,與實驗組成功脫貧者的相似度比與未脫貧者的相似度高。也就是說:對照組中這些未參與方案者,如果參與方案的話,很有可能會成功脫貧。
此份資料也有侷限,因參加儲蓄專案家戶累積的樣本量少,還無法驗證模型推薦的效益,必須在未來專案加入推薦家戶後再做後續效益的追蹤後才能驗證。
結語
目前台灣社會救助體系已經有很多專案,但救助體系的人力資源一直很有限,透過團隊中的資料科學相關背景的成員協助審視資料收集的品質以及設計合適的欄位,並建立模型了解關鍵因子進一步建立專案推薦模型,讓救助專案媒合更為精準,節省人力資源。
延伸閱讀
優化社會局脫貧專案-簡介與索引 (Ning Chen)
R做資料探索及視覺化 (Jamie Yang)
用決策樹及隨機森林了解變數的重要性 (陳再說)
Python做資料清理及code (Andrew Li)
Gower’s Distance計算不同組別相似程度 (Tricia Tsai)