家暴案件風險與預警管理系統
Mentor:謝宗震、劉嘉凱
Project Manager:張盈宜
Project Partner:台北市家庭暴力暨性侵害防治中心
本專案與臺北市家庭暴力暨性侵害防治中心(簡稱家防中心)合作,以家庭暴力案件預警與風險管理為目標,希望達到「降低被害人再受暴風險」及「提高社工服務效能」兩個主要目的。
我們以現有資料發現能夠從「區域」及「個案」兩觀點切入問題。透過區域資料建立家暴案件特徵地圖,能夠達到社區預防作用,減少盲目的宣導政策,另外以個案特徵(因案件種類及資料完整度,我們僅限縮在親密關係暴力),嘗試建立預測模型,此模型能作為預警系統,新進個案若呈現高再受暴特徵,則社工能早期預防,防止多次家暴發生,避免受害者身心狀況惡化以及過多的人力資源投入。
以下我們將分別描述此兩觀點的詳細作業流程。
[地圖組]
以「區域」觀點探索家暴案件
「村(里)」為中華民國之第四級行政區劃名稱;亦是最基層之地方自治單位,因此多數政府單位資料上的建置皆是以此做劃分,家防中心的資料亦有此特性。故我們針對家庭暴力案件建置以「地點 (村里)」為主體的通報熱點警示指標,透過有效評估工具篩選個案件類型之高危機區域,希望能減少與里長溝通的資訊不對稱,共同推動社區意識防護家暴發生,加上外部單位如:學校、醫院、警察等通力合作責任也是依據區域分工,此時家暴區里風險地圖正式成為相互共通語言,大家需要共同知道處理問題之資源分配的優次緩急,才能一齊有效率的解決台北市家暴問題,進而將此機制推廣至全台灣,讓台灣最美的風景依然是人。
方法 (Methods)
-
Google 地圖API
- 讓填答地址先轉經緯度
- 再以經緯度判斷轉成里
- 判斷失敗的地址以人眼辨識修正
-
資料清理ETL
- 移除重複CA夾
- 去除非台北市的案件
- 去除沒有地址者
- 計算欄位:各區、里by案種的男女比重、年齡比重,及總家暴案件數、案種排名百分比、低收或者障礙排名百分比
-
AxShare 設計地圖
- 腦力激盪遊戲:設身處理釐清社工 (by 案種分工,在乎案種嚴重區域)、里 (by 里分工,在乎該里嚴重家暴的成因)、家防中心管理者 (全都在乎,擔任分配資源責任) 等角色需求,設計網頁
- 網頁版面:參考 http://crisis-in-your-city.herokuapp.com/
-
D3.js 完成地圖
- 依據 wireframe 形成網頁框架
- 依據參考網站配色
- 依據清理完成的資料檔連結資料呈現於介面
結果與討論 (Results and discussion)
-
另一半很重要
第一名 (52%) 家暴是「親密關係」,第二名 (31%) 家暴是「其他家虐」,而當中大部分 (43%) 是姻親關係,結論非原生家暴佔大多數,小結論是如果台灣人和另一半都幸福美滿,可以減少近七成的家暴件數,預防家暴最佳方法:台灣人請慎選另一半。
-
地理區位影響家暴程度多寡
依地圖呈現家暴視覺化是否代表家暴一定和地理區位有關呢?地理區塊位置對家暴的影響到底多大,我們不敢貿然說明,我們需要更多資料最為自動分群依據,也需要更多下一期的資料科學家支持。
◆ 親密關係/兄弟姊妹/兒少 排名均位於前端:萬華區XX里
◆ 親密關係/其他家虐/兒少 排名均位於前端:士林區XX里
◆ 親密關係/其他家虐 排名均位於前端:文山區XX里
-
女生當自強
近七成的家暴被害者都是女性,不管任何案件種類皆然,只有兒少家暴是均分狀態,因此女生,結婚不是你一定要走的路,但結婚一定是你最重要的選擇,好好選!不後悔。
小結 (Summary I)
-
重大發現
平價國宅與嚴重家暴里有高比例的重疊性,但樣本數少可待未來驗證。
-
重要性
地圖最重要的任務是作為共通語言,預防家暴重要的是身旁關心的人以及受害者自覺,希望有一天這工具可幫忙外部單位分辨嚴重與不嚴重的家暴案件,有效的分配社工資源,有效預防,早一步覺察進而防範於未然。
[建模組]
以「個案」觀點探索多次受暴者特徵並建立預測模型
藉由個案資訊系統各項表單萃取重要項目來建置警示指標,支援社工處遇決策預警及督導管理社工處服務品質,以維護被害人安全及降低其再度受暴之可能與提高社工服務效能。
為能有效預測受暴者未來再次受暴的風險以即時防治暴力的再發生,我們選擇以預測受暴者的「再次通報率」作為模型建構的目的,建立一個「再通報」預警系統,藉由識別受暴者的特質來預測期再次通報受害的可能性,在進案的第一時間便可採取防治降低再度受暴的機會。在這次的計畫中,我們選擇資料最完整的「親密關係暴力」案件類型個案作為建模的對象。
方法 (Methods)
-
資料清理ETL
- 使用地圖組整理好的案件資料
- 透過被害人ID,合併身心障礙與低收資料
- 透過被害人地址,合併通報單上的親密關係暴力危險量表(TIPVDA)
- 年齡產生:遇到日期格式不一且有未來人的狀況,建議家防中心未來填答格式設計為固定滑鼠點選日曆
-
資料探索結果
- 不同種類型的年齡分布不太一樣,以親密關係暴力來說,同居偏年輕、離婚中等、婚姻中最長
- 男性受害人年齡中位數50歲左右;女性則是30歲左右
- 再犯者較少對小孩有身體暴力行為
- 再犯者較少拿武器威脅恐嚇被害者
- 再犯者較少說過:要XXX就一起死
- 再犯者較少有經濟困境
- 再犯受害者較少相信加害者有可能殺掉自己
-
模型建構
- if 再次通報次數大二次 then Y = 2, else Y = 1
- 我們測試了廣義線性模型 (Generalized Linear Model)、支持向量機器(Support Vector Machine)與隨機森林模型 (Random Forest)
- 最終我們採用隨機森林模型 (Random Forest),將 46 個危險因子生成500棵決策樹
- 危險因子:
- 個人面:教育層度、經濟壓力、身心障礙、子女暴力史、是否有自殺意念…
- 關係面:婚姻狀態、是否有威脅殺害、受暴持續時間、求助時間差…
小結 (Summary II)
- 「高危險個案」與「高再受暴危機者」行為樣態相反
傳統上親密關係暴力危險量表(TIPVDA)測得的數據與「高再受暴危機者」呈現相反的樣態。由於此量表發展目的為測量「致命(或高傷害)危險性」而非再受暴危機,因此無法測得一致結果。另外我們也推論容易成為多次受暴者的個案,相較於一次性受暴者其受到的暴力傷害程度較輕微,所以量表分數偏低。
- 以現有資料能夠區分高再受暴危機者協助家暴預防
透過資料分析,我們定義出再次受暴危機高、中、低三個層級,未來有新的案件進來時,可以透過這個資料預警算法評估該案件的再次受暴危機,若新進個案風險偏高時,社工處置則應採用新的對應作法。
結論與限制 (Conclusion and limitation)
建議
- TIPVDA需確實填答各題
- TIPVDA填寫地域或時間校正
- 時間資料格式統一
- 修改受案評估填寫程序
- 發展測量再受暴機率之新量表
限制
- TIPVDA完成率70%
- 由警察人員所填寫的TIPVDA分數相較社工與醫護人員等偏低
- 時間資料誤植與格式不一
- 缺少過去文獻所列之預測關鍵變項
未來規劃 (Future works)
- 完成自動化,變成動態地圖 (dynamic map)
- 完成不同案件類型的預測模型
- 探討不同縣市是否呈現不同的案件樣貌
4 Comments
Hi,
請問是否有近一步做預測的效能評估?想知道Random Forest可以做到什麼程度.
另外,這批資料是要怎麼申請?
謝謝
關於研究方法,請參考論文 Measuring the unmeasurable – a project of domestic violence risk prediction and management https://arxiv.org/pdf/1710.06842.pdf
關於資料申請,請洽台北市家庭暴力暨性侵害防治中心。https://www.dvsa.gov.taipei/
當時都有做模型成效評估。若對該資料有研究需求,請洽該資料的主管機關。