Data for Social Good Data for Social Good
  • 最新消息
    • 佈告欄
    • 熱門活動
  • 資料英雄計畫
    • 團隊募集
    • 專案成果
    • 資料英雄榜
  • 媒體報導
  • 聯絡我們
  • 最新消息
    • 佈告欄
    • 熱門活動
  • 資料英雄計畫
    • 團隊募集
    • 專案成果
    • 資料英雄榜
  • 媒體報導
  • 聯絡我們

Year: 2017

  • Home
  • 2017 Archives
26 十二月

高風險危機警示模組

  • Posted by 郭 泰竹
  • Categories 資料英雄計畫
  • Comments 4 comments

Fellows:林峰生、林廷州、林恆宇、胡馨勻、葉憲周、郭泰竹、郭家諭
Mentor:謝宗震
Project Manager:李苡菲
Project Partner:新北市政府社會局

摘要
新北市高風險中心由100年執行至105年,新北市高風險兒少通報案件累計達66,397案件(平均每年約1萬件),考量此類高風險家庭常面臨多元化之風險,為能協助網絡中的工作人員對於家庭的危機程度有更精確的掌握,可於處理眾多高風險案件時,導入更適宜之資源與服務模式協助,使此類家庭免於再次發生高風險危機或進而演變成更嚴重的兒童虐待案件,如果無法提早找出類似嚴重的家庭,極有可能會發生更嚴重的事件。因此,找出容易重複被通報的「回頭客」以及預測個案是否有機會「進入家暴防治中心」(以下簡稱家防),可望幫助解決以上時間有限但人力不足,並適應多元化風險的問題。
背景說明
新北市為全台灣最大縣市、六都之首,人口數高達400萬人,涵蓋29個行政區,擁有豐富的自然資源及科技進步的城市,但在光鮮亮麗的外表下,社會邊緣的角落正在發生許多鮮為人知的問題,而這些問題可能就發生在你我周遭,關係著社會安全以及未來主人翁的幸福。
新北市高風險家庭服務管理中心(以下簡稱:高風險中心)成立於民國一百年,主要負責進行高風險家庭案件之分級管派與服務狀況追蹤,目的是為了提前預防家庭暴力以及兒童受虐等問題發生,民國101年至105年新北市高風險兒少通報案件累計達66,397件(平均每年約一萬件),等於每一個小時就要處理一件高風險家庭的個案,且是24小時待命、全年無休。
有鑑於此,由D4SG資料英雄計畫組織了一支擁有社工、統計、資工、資料科學以及專案管理背景的團隊,透過高風險中心十萬多筆的資料,經由大數據分析,希望能夠協助高風險中心對於家庭的危機程度有更精確的掌握,可於處理眾多高風險案件時,導入更適宜之資源與服務模式協助,避免再次發生高風險危機或進而演變成更嚴重的兒童虐待案件。
專案目標
新北市是個有著多元文化與族群聚集的城市,約有百分之七十是外移人口,但隨著家庭結構的改變、傳統自掃門前雪觀念的根深柢固。為了要讓兒少能獲得更完善的照護,新北市高風險家庭中心建立一個完善的兒少安全保護網,以普及宣導、預防支持、保護服務三個層級,希望能做出完善預防的工作,避免兒虐事件的發生。
新北市高風險兒少通報案件量平均每年約有10,000件,每人每年約需處理1,666件案件。因此,在如此龐大的案件量中如何更準確的評估每個案件的輕重緩急並且妥善安排人力資源做出最適當的處理著實重要。「預防勝於治療」基於以上種種原因,我們希望可以建立一個良好的預測機制,先找出容易重複進案的「回頭客」以及個案是否有很大風險會「進入家防中心」,再藉由這些因子建立出預測模型,幫助高風險中心人員往後對於這些高風險家庭能進行主動且預先的關懷訪視,對這些家庭的危機程度有更精確的掌握,在處理高風險案件時,導入更適宜之資源與服務模式協助,讓此類家庭免於再度發生高風險危機或進而演變成更嚴重的兒童虐待案件。
資料集介紹
本專案所使用的資料取自於「新北市高風險家庭整合型安全網資訊管理系統」,將資料個案之身分證加密後,整合成單一資料總表,取得近147萬筆原始資料,包含每一個案之重複案件以及個案評估量表、通報表、派案評估表等資訊。重點資訊條列如下:

該案兒少人口變項之資料,包含如:性別、年齡、居住區域、國籍等
每通報案件於通報時經由通報人勾選之風險指標
每通報案件於社工初篩派案時所評估勾選之兒少所遭遇的家庭問題情形 (如經濟問題、就學問題、父母親藥癮問題等)
各網絡局處受理案件後對於案件危機程度的評估資料(以紅黃綠燈進行危機程度區分)
各網絡局處每月對於案件之服務紀錄
資料勾機外部資料情形

「新北市高風險家庭整合型安全網資訊管理系統」橫跨10個局處 (民政、教育、社會、衛生、工務、勞工、警政、消防、原民、資訊中心)與 1,300個窗口。亦勾稽相關外部資料,包含新北市福利補助系統、教育局兒少學籍系統以及兒童虐待保護案件資訊系統,是一個多元整合管理系統。

執行方式
由於工作期程有三個月,因此我們將工作切分成兩段,第一階段包含流程理解、資料盤點、預期成果;第二階段是進行資料清理、資料分析並且撰寫成果報告。
由於在此案之前顧問已有台北市家防專案的經驗,所以對於社工的組織較為了解,也較清楚資料專案的困難之處。最初的一個多月,主要的工作在於理解高風險中心的工作流程,配合資料盤點的結果,利用資料驅動的討論方式收斂到兩個專案目標,首先是避免案件無法結案不斷的重複開案,又或者是個案落入更危險的兒少保護體系 (家暴)。
接下來的一個月主要工作是制定資料分析策略,首先進行資料處理,將資訊系統拉出來的資料轉換成可供機器學習模型所使用的資料大表 (data.frame),其中最困難的工作在於如何從凌亂的資料表中,找出高風險中心處理的個案屬於哪個家庭,以及如何做跨表格的合併。接下來是做資料探索,找出與落入家暴問題案件相關的特徵以及派案回頭客的相關特徵。統整這些資料探索結果後本組使用邏輯斯迴歸、支持向量機、隨機森林等演算法針對家暴個案、回頭客個案進行預測,最終選擇準確度高達八成的隨機森林模型作為成果。
資料探索

Read More
26 十二月

[心得] 用數據預測危機,一個社工系學生的學習之旅

  • Posted by 胡 馨勻
  • Categories 紀錄
  • Comments 0 comment

參加初衷
一開始之所以會參加資料英雄計畫,是因為看到大數據運用於商業、行銷,並大致了解大數據的概念之後,覺得如果可以把大量資料分析並預測、調整作法的概念運用於社會工作領域上面那該是一件多麼美好的事,不但可以較容易了解擁有什麼樣行為模式的案主比較可能發生狀況、讓社工可以加強對他們的處遇,將預防做得更全面,同時也可以讓社工人員追蹤什麼樣的處遇方式對什麼樣的個案可能最有效果,將最適當的資源放置在最需要的地方,減輕工作的負擔。抱持著這樣的想法,某一天在網路上搜尋時正好看到資料英雄計畫之前做有關於火災預警以及台北市家暴防治的成果,覺得這是一個可以對資料科學增進了解,同時也了解自己想法實際行動的樣貌,於是就報名,幸運地獲選入高風險危機示警的計畫中,也看到了當初未曾想過的風景。
對高風險系統的認識
雖然身為社工系的學生,對於社會工作的工作方法、社會福利及輸送的體系有大致知識上的了解,但是實際上在台灣每個縣市政府下的社會安全網是如何被建構、系統的運作流程及方法也都不盡相同,我也沒有對這部分有進一步的了解。整個資料英雄計畫中最重要的部分大概就是對於新北市高風險系統運作流程的了解了,唯有了解整個高風險運作體系以及高風險中心在當中扮演的角色,才知道要用什麼樣的資料以及用什麼變項來分析,分析結果才可以對高風險中心的業務產生效益。新北市的高風險系統真的做得非常完善,從通報、成案、派案到開案、結案,除了社會局以及高風險中心本身以外,還結合了九個局處一起來為高風險家庭及兒童服務,透過高風險中心的同一派案可以讓個案儘快至適當的局處接受服務,達成個案管理的效果,除了讓個案能夠獲得最需要的資源與服務,也能減少各局處做重複業務的行政成本。
不過於此同時,也了解了中央與地方上的差異,高風險的通報標準是中央政府訂出的,不過對於高風險家庭卻沒有確切的定義,各縣市政府的流程及方法也不同,不只如此,中央與地方的資訊系統也不一致,工作人員要適應不同系統,每個系統也都有很多內容或是步驟、有一定的複雜度,導致還要花費額外的時間去適應以及填寫不同的欄位,若是中央和各地區的系統可以整合成同一個的話,不僅同樣一份資料只要寫一次,若要轉介至其他縣市,也可以方便工作人員進入狀況,銜接服務。
對資料分析過程的觀察
而這次計畫讓我收穫最多的當屬於資料分析的部分了,不但實際參與了整個過程,也讓我了解如何將不同的統計方法應用於真實的情況中,也開始學習一點R語言。
我覺得在資料分析中,除了對於整個系統與狀態的了解以外,最重要的即是資料取得的來源與定義,因為這樣才能夠對資料做最合適的處理,做出來的結果才能產生意義。在決定到底要做什麼內容之前,需要不斷討論、不斷了解、不斷確認,一來是要確認哪些資料是可以使用的,包含資料的內容、什麼狀況會填答、填答的狀況是否有許多空值等等,也要確定什麼題目是對需要資料分析的單位是有意義的,所以要確認題目就要花費很長一段時間,這是我始料未及的事。
高風險中心給我們數萬筆資料,但許多欄位是一些基本資料的描述,是質性的資料無法分析,或者因為制度設計上並沒有強制規定一定要填而產生了許多空值,同時也有產生因為資訊系統勾稽上產生的問題而導致的困難,所以光是確定要做的題目是不行的,要清理資料、確定某一筆資料是可以使用的才能夠真正確定。同時出乎我意料之外的是,原本以為只能做什麼樣的家庭背景或者指標可能較容易進入高風險系統甚至兒童保護系統,後來竟然可以運用通報次數或者燈號的變化等做出預測,又學到了新的想法!
這次的經驗真的很寶貴,不但整體參與了討論的過程,也從其他成員們做的事情當中了解了在處理資料時要做的事情有哪些,而不只是單純的紙上談兵,真的覺得很幸運可以參與資料英雄計畫的高風險中心組!
學R的一些心得想法
最後,在毫無任何R語言基礎即進入專案中的狀況下,為了能夠跟大家一起工作,在暑假時我也開始學習R語言。我所參考的資料是R語言翻轉教室,裡面的課程設計是一課一課進行,會有說明、舉例,同時也可以自行操作,每一課最後都會有作業,可以自己思考。對於不熟悉程式語言的人來說,自學還是會有一定困難。對我來說最複雜的部分應該是在函數裡面要放的內容,或是物件性質的差異,另外,自學課程相較於實體課程困難的部分也還是學生的差異性,每個學生有問題的地方也都不同,不可能面面俱到,有些地方也不一定都說明詳細,需要自行查資料。還有最痛苦的是腦袋中有想法可是無法實現,上網查的時候,可能也因為關鍵字不正確所以也找不到做法。程式碼無法順利運作時,找錯誤也是一個困難的過程,可能還是需要不斷練習、參考別人寫的程式碼才能夠有持續的進步,我也會在學習R的路上繼續邁進。
延伸閱讀

D4SG專案成果:高風險危機警示模組 (新北市高風險中心)
D4SG專案成果:家暴預警與風險管理 (台北市家防中心)
D4SG專案成果:建築物火災風險地圖 (高雄市消防局)
高風險家庭及新北市通報方式
R語言翻轉教室

Read More
15 十二月

D4SG資料英雄計畫 2018 冬季班錄取公告

  • Posted by 值班編輯
  • Categories 佈告欄, 資料英雄計畫
  • Comments 0 comment

錄取提案
脫貧潛客分析(臺北市政府社會局)
為了協助低收入戶及中低收入戶家庭脫貧自立,擬訂積極性脫離貧窮之服務,找出有迫切服務需求及具有脫貧潛力之對象,擬定對症下藥之脫貧策略,協助其真正自立脫貧,將有限資源發揮最大效用。
▌關鍵詞:低收入戶、貧窮線、潛客分析
 
外傷醫療功德工程(台灣外傷醫學會)
分析全國外傷病患數據,理解供需之落差,補足台灣外傷現況之資訊透明度,作為相關政策規劃之基礎。
▌關鍵詞:醫療動態、檢傷計算、重大傷病卡
 
法律扶助資源配置優化(法律扶助基金會)
法律扶助基金會在全國有22個分會,宣傳資源有限,希望各分會能夠依據在地特性,發掘應該被服務卻尚未觸及的弱勢族群,了解他們較常發生的法律問題,並針對該對象發展適合的推廣方式。
▌關鍵詞:資源配置、精準行銷、個案管理
 
兒少暴力風險預警管理(新北市 × 臺北市 家庭暴力暨性侵害防治中心)
透過資料分析,找出兒少再受虐案件的危險因子,並針對兒少保護案件之風險程度進行分級,協助社工選擇適當的處遇策略,進而提升組織服務效能。
▌關鍵詞:兒少暴力、風險預測、危險因子
 
錄取英雄
蔡O淳、蔡O如、陳O峰、陳O嘉、傅O穎、高O祥、郭O諭、黃O宇、
黃O安、姜O安、賴O如、李O旻、林O緯、劉O恩、劉O瑄、王O懿、
楊O思、葉O彣、葉O周、葉O蓁、張O豪、張O偉、趙O恩、謝O翰
備取:
顧O樺、邱O涵、郭O芊、賴O龍、陳O穎、廖O程
啟動會議

時間:2018年1月中旬的週間晚上
地點:台北市某個交通方便的聚會場所
議程:

提案單位簡報
簡報內容包含組織介紹、想解決什麼樣的問題、有什麼樣的資料、需要怎樣的幫助、預期成果、成果將如何導入組織運作…等。
各組團隊首次討論

自我介紹(背景、技能、期許)
選出組長
選定共同會議時間(建議每週一次、提案單位要派人參與)、共同工作時間與地點
粗估幾個里程碑(期中、期末)

Read More
30 六月

D4SG資料英雄計畫 2017 夏季班錄取公告

  • Posted by johnson
  • Categories 佈告欄
  • Comments 0 comment

錄取提案
高風險危機警示模組(新北市政府社會局)
為防範家庭陷入兒少虐待之困境,新北市政府推動「新北市高風險家庭整合型安全網服務計畫」,連結跨局處共同針對家中具有恐易導致兒虐的高風險因素 (如:照顧者精神障礙、酒藥癮、高衝突、經濟困難等) 的家庭提供服務。100-105年間累積達 66,397 案件。為促使個案處理時能導入更適宜之資源與服務模式協助,希望建置「高風險危機警示模組」,讓網絡人員以更智慧的方式協助高風險家庭。
▌關鍵詞:兒少虐待、風險預警、跨局處系統
▌資料範疇:

通報個案基本資料 (超過6萬件個案)
由通報人勾稽之風險指標
由社工評估之家庭問題 (經濟問題、就學問題…)
各網絡局處評定之風險燈號與服務記錄 (社政、教育、衛政、民政、警政、司法 …等跨單位數據)
其他外部資料

改善公益性線上學習平台的服務效能(誠致教育基金會、均一教育平台)
均一教育平台透過雲端平台提供「免費、均等、一流」的教育機會給每一個人,學習主題涵蓋中小學的數學、自然、英文、社會與電腦科學。目前每週都有數萬名學生使用均一教育平台,還有許多老師在平台上面開發客製化的課程模組,提身班級同學的學習表現。
▌關鍵詞:使用者分群、標籤分析、推薦系統
▌資料範疇:

歷年用戶行爲紀錄(約一億筆紀錄)
歷年用戶學習績效

畜牧廢水防治便民看板(新竹縣政府環保局)
畜牧產業為台灣農業生產中重要的一環,其生產總值每年均超過新臺幣 1千億元,占農產品生產總值 33%以上,對繁榮農村經濟及安定社會,深具貢獻,惟畜牧業發展的過程,也帶來大量廢水、廢棄物,經常是民眾及輿論關切的焦點。本案由新竹縣環保局發起,以開放政府的精神,整合水污染之利害關係數據,期待能夠建立一個「畜牧廢水防治便民看板」。
▌關鍵詞:畜牧廢水、開放資料、便民看板
▌資料範疇:

列管畜牧業場域基本資料 (名稱、位址、運作狀態、規模, …)
定檢申報資料 (名稱、定檢時間、原廢水與放流水監測數據,

Read More
11 六月

高風險家庭資料建置與預警

  • Posted by johnson
  • Categories 資料英雄計畫
  • Comments 0 comment

Fellows:林庭蔚、林瑜軒、曾俊維、陳沛瑜、呂寧遠、鍾幸芸、羅町光
Mentor:莊友欣、謝宗震
Project Manager:許瑋
Project Partner:財團法人漢慈公益基金會
社會變遷及家庭結構的改變,隔代、單親、外籍配偶及近貧等經濟弱勢家庭有逐年增加的趨勢。處於這種資源相對弱勢的家庭中,不僅課業無人指導,甚至下課後連晚餐也沒有著落。弱勢兒童及少年在成長過程中比一般家庭孩子要面臨較多貧窮風險。同時,主要照顧者因為本身照顧能力薄弱或多重角色負荷,甚難獨立承擔育兒及教養之壓力。
有鑑於家庭是個人發展重要關鍵,2008歲末,正逢金融海嘯席捲,原本就處於社會邊緣的經濟弱勢族群,影響更是首當其衝,許多家庭面臨失業、貧困的困境。在新竹科學園區的漢民科技公司,秉持扶助弱勢的使命,在風雨飄搖的2009年,成立財團法人漢慈公益基金會 ,結合當地清華大學、交通大學、新竹科學園區優勢的社會人文資源,無償為弱勢服務,提供「高關懷家庭支持服務」、「弱勢兒少生活陪讀」,免費提供課業輔導、品格教育、家庭關懷服務,藉由優勢觀點「與其給他魚吃,不如教他釣魚」自立理念,提升家庭復原力及韌性,進而恢復家庭功能。
建置高風險家庭的預測模型
在漢慈想要建置高風險家庭預測模型背後的想法,因爲在漢慈所輔導的家庭相對於一般政府機構更加的複雜和難處理,且漢慈在個案的輔導和幫助上是非常細膩的,從財務、法律支持、孩童教育上著手,往往需要課輔老師、社工、志工等一同完成,也因此有各式各樣紙本紀錄的資料。因此社工們在繁忙的情況下,往往還需要花很大心力去爬梳個案資料,得出一個全貌,尤其是對於初接案的社工,或是新手基金會夥伴,使得經驗不易傳承。
總結圍繞漢慈想要建置高風險家庭預測模型的相關問題:

如何使用這些記錄幫助漢慈裡的夥伴能更快速簡單掌握一個家庭的全貌,減少花費在翻閱紙本紀錄,且能由幾年來累積的資料萃取出一些經驗呢?

能否梳理漢慈夥伴們過去幾年的心血,設計一套高風險家庭的預警系統呢?

如何幫助社工們更方便的存取紀錄資料,以利往後進行資料分析,發揮資料的價值呢?

解決方案
專案開始是以建置高風險家庭的預測模型為出發,經過跟漢慈的夥伴討論後,評估三個月的工作時間和收集相關圍繞漢慈細節的問題,我們提出的解決方案包含一系列可以做的事情和優先順序。

整理漢慈內部所擁有的資料
挑選可以用來作為高風險家庭預測模型的資料
嘗試可能的分析方式來預測相關高風險家庭
將整個分析方案建置成完整的應用

資料描述
漢慈這邊提供的資料,主要有下面幾類:

個案的開案資料,共有78個個案
個案的家訪資料,共有46個個案
高風險家庭的風險因子對照表,共有7大類風險因子,分別代表家庭功能的各個面向

經濟功能:46個細項指標
教育功能:40個細項指標

Read More
11 六月

建築物火災風險地圖

  • Posted by 莊 靜雅
  • Categories 資料英雄計畫
  • Comments 1 comment

Fellows:劉憲錡、林立哲、郭冠伶
Mentor:謝宗震
Project Manager:莊靜雅
Project Partner:高雄市政府消防局

Introduction
高雄市消防局自成立以來,咸奉「預防火災」、「搶救災害」、「緊急救護」之消防三大任務及其他為民服務事項,共同努力。為達成積極主動為民服務之使命,消防員24小時受理民眾需求並隨時出勤執行各項救災救護任務。每次的出勤任務都代表著人民傷亡或財物損失,同時也耗費國家的人力資源,卻無法徹底解決問題,因此預防火災便成了消防局積極推動的首要目標。
Problems
有鑑於住宅火災佔總案件數一半以上,高雄市消防局加強宣導住宅社區火災預防措施。但如何善用有限人力與資源,進而顯著降低火災發生頻率,一直讓消防局苦無對策。於是消防局與資料英雄合作,冀望能從建築物角度出發,彙整住戶與周遭環境資料以建構出建物火災風險預測模型,進而找出高風險住宅戶做居家訪視與社區消防觀念宣導,此外,本專案交叉分析不同數據,希望從中闡述新穎觀點以作為決策參考。
Method
資料處理
為評估建物火災機率,建築物火災風險地圖是以建物門牌號作為每一筆資料的索引,在高雄市政府機關大力的配合下,取得自稅捐處取得十三萬餘筆左營區地價資料、地政局建照十三萬餘筆建照資料。透過 Python 與 SQLite 反覆比對地址以及對地址進行正規化處理後,我們合併出約八萬九千筆資料。另外,根據金門大學火災預測碩士論文(link),承蒙社會局提供左營區身障、低收、獨居老人資料,加上消防局的狹小巷弄、火災報案紀錄,我們整理出以下特徵值。

資料處理實際上是這次專案花掉最多時間的地方,因各處室資料格式繁紊不一,資料整併窒礙難成。冀望將來,市府能將跨處室之集中資料倉儲作為資訊基礎建設之基石。

平衡學習 & 非平衡學習
在訓練建物火災機率模型初期,我們嘗試以深度學習演算法建置模型。我們得到 99.9% 的準確度,而後發現模型預測所有的建物都不會失火,因訓練資料中未失火的建物佔絕大多數,僅約四百筆建物曾失火,模型無法學習到失火建物的特徵,故模型猜測沒失火,且可藉此得到高準確度。
建物火災機率預測實為典型的非平衡學習,而準確度之於非平衡學習不是個好的指標。我們發現我們的初期模型在召回率方面的表現非常差。參考過往文獻後,我們決定以 BalanceCascade 的方法來訓練模型。下面我們將一步步介紹如何實作 Blanace Cascade 方法。
首先,我們需要對所有未失火的建物進行分群。我們將建物分成 137 群,每一群擁有八百筆建物資料。為此,我們採用了kNN(k-Nearest Neighbors)演算法。

Read More
11 六月

「到院前心肺休止」(OHCA) 風險地圖

  • Posted by A-ping Lin
  • Categories 資料英雄計畫
  • Comments 0 comment

為期四個月的資料英雄計畫,一群來自不同背景的資料夥伴被集結。從程式開發、統計分析、資料探勘到系統開發不同的技能,有人是醫學系學生,有人是消防隊緊急救護員志工、還有醫院急診部的醫師。「透過資料力,讓急診救護達到正向的循環」,這樣共同的想法將我們聚在一起。與提案方高雄市衛生局進行合作,引入資料科學的方法論,對高雄地區的歷年救護資料進行分析,為緊急救護與醫療界盡一份力。
OHCA(Out-of-Hospital Cardiac Arrest ,到院前心肺休止)是指病患在送達醫院的急診室前出現心肺功能停止之情況。當心跳停止達四分鐘時,腦部將會因為缺氧而受損;當超過十分後,腦部就可能達到永久損害而成植物人。因此,OHCA 病患的分分秒秒都在與時間拔河,在急重症檢傷分類中視為最優先處理的案例。
搶救黃金時間,不能只靠一己之力,必須仰賴上、中、下游的資源整合。「生命之鏈(Chains of Survival)」從社區、消防端、急診端及照護端整合眾人之力,透過五個環環相扣的流程,提高急救復甦及癒後健康的機會。
(https://i.imgur.com/rGYnl0T.png)
根據「熱區辨識」、「危險因子分析」、「緊急醫療優化」三個角度,定義了下列三個具體的問題,並預期從資料中解析出改善之道:

了解 OHCA 發生風險及其因素
了解 旁觀者 CPR 介入情況與效益
了解 社區救護資源分配優先順序

資料旅程 Data Journey
採用的資料集主要分為兩份資料:

OHCA 救護資料集 : 2010-2016 的 OHCA 消防端+醫院端資料
外部資料集 : 空氣/溫度/人口公開資料

我們針對了「OHCA 救護資料集」當中重要的

Read More
01 五月

D4SG資料英雄計畫-提案單位常見問題集

  • Posted by johnson
  • Categories 佈告欄, 紀錄
  • Comments 0 comment

這是一個讓政府單位、非營利組織快速了解 D4SG資料英雄計畫的說明頁面。

什麼是 D4SG資料英雄計畫?
D4SG 資料英雄計畫,指在透過媒和資料專家與 GOV/NPO 夥伴,以及 Workshop (資料工作坊)、Fellowship (資料英雄之旅) 等實作活動,讓組織的資料可以獲得更多應用,發現並解決更多組織內/外的議題!D4SG資料英雄計畫有兩種主要的活動,一種是短期密集式的 Workshop;另一種是長期鍛鍊式的 Fellowship。Workshop適合初次體驗資料應用的組織;Fellowship 適合資料成熟度較高的組織,根據組織關注議題提出資料科學的創新解方。

可以參與怎樣的活動?
對於資料世界的新鮮人可以先從我們的活動說明會與成果發表會進行了解。你可以查詢 D4SG官網的 Events 頁面,關注最新/過往的活動消息。

Workshop 的活動流程是?

每個人都要帶電腦來查找/整理資料
組織應該派誰來參加?透過報名表格,描述參加者在活動的身份位置和資料專長
GOV/NPO 夥伴們要自備資料(可以是組織或相關政府機關的公開資料)、思考要解決的題目
共同討論工作坊時間:須在週末舉辦,因為除了 NPO 夥伴之外,還需要其他資料科學家與設計師跨領域加入,一起豐富視野和技術
強調活動方式:帶你的資料來(BYOD)、帶你的問題來(BYOQ)


Read More
29 三月

[心得] 用數據來溫暖社會,一場家暴防治的奇幻旅程

  • Posted by Chen Ya-Yun
  • Categories 紀錄
  • Comments 0 comment

大家好,我是雅韵。
我想分享參與「公私協力 資料治理防家暴」計畫的心得,因為從中我得到太多太多了!
來自心理學與腦科學研究領域的我,清楚地知道創傷經驗對受害個案及周圍親友的影響。因此,藉由資料分析的能力參與第一線社工人員的工作,將是我能以所學,降低家暴事件對於個人、家庭與社會傷害的一個機會。
首先感謝「臺北市家庭暴力暨性侵害防治中心」決定公私協力,參加「D4SG 資料英雄計畫」,讓我有機會貢獻一己之力於如此重要的社會議題上。我參與的資料科學團隊中,有夥伴來自金融業、也有來自科技業,有人因為小燈泡事件而決心親身投入社會議題,也有人希望用看似冰冷的程式語言來溫暖社會。在這樣子綜合的團隊裡,我看到了跨領域合作的優勢,每個人貢獻所長、每個人也以不同的觀點切入問題,讓資料能夠被更全面的詮釋以及更快的完成分析。
「資料治理防家暴」計畫在大家利用下班時間投入於社會議題的熱情當中有了初步卻也重要的成果。在三個多月的團隊合作期間,社工師的寶貴經驗、國內外的相關文獻回顧以及個案管理的工作記錄,包括數據與文字資料,讓我們經歷了一場數據、理論與實務經驗結合的奇幻旅程。這趟旅程,順利產出兩個成果,分別是:「家暴通報地圖」與「親密關係暴力風險指標」的建立。
「家暴通報地圖」讓我們了解鄰里的收入高低、職業種類、社區是老舊或新興並不能區別該地區通報數量的高低。怎樣的社會組成會使通報數量上升?可能是家暴數量本身就很多,當然,也可能是個案或者鄰里親友積極守望相助的結果。這部分是數字解釋不了的現場實務面,需要仰賴後續社工人員與里長乃至相關機關的夥伴努力,帶著這份數據、這些家暴通報地圖,深入社區本身,與里長、社區居民共同討論與分享,同時,讓社區中的每位成員都成為改變社區,創造友善和平社區的重要角色。
另一個成果是「親密關係暴力風險指標」,也就是建立了「親密關係暴力再發生的危機指數」,建立這份指標的目的在於希望能讓家防中心及早介入親密關係暴力的處理,促使重複發生親密關係暴力的風險有效下降。受到重複性家暴的個案,會有生理與心理健康方面的問題,此類案件不僅是社工與醫療人員的負擔,其家庭成員日後複製家暴經驗的可能性也會倍增,部分的人出現攻擊傾向,部分的人會成為新家庭的新受害者。我們利用橫斷一年的親密關係家暴紀錄資料來預測個案未來重複被家暴或被通報家暴的風險,若個案第一次被通報時,社工人員就能了解個案屬於高再受害風險,便能更積極有效的策劃協助方案,防止下一次的不幸發生。(目前此模型已完成,進入驗證階段中…)
這個資料治理計畫,其實大家投入最多心力的,並非在於數據統計的部分,反而是在資料分析結果的詮釋。因為在這次的資料當中看到了「主觀經驗」與「客觀真實」之間不小的差距,當看到資料分析的結果與主觀經驗、甚至與過去國內外文獻不一致時,所有人其實都嚇了一跳。但也感謝這個嚇一跳,家防中心決定改變過去一貫的防治宣導政策,改以鄰里差異化取代,以及讓實務經驗與數據科學在未來的工作中並行。而我們資料團隊也從中學了一大課,結果不一致時,我們不斷檢查數據是不是放錯了,是不是用了不恰當的演算法?等等。團隊成員的資料分析能力也因為透過與來自 「智庫驅動」 的資料分析專家一同實戰,有了實質進步。
聽聞最近這些資料分析成果的相關新聞引起了社會波瀾,謝謝大家願意關注在這個議題上。「公私協力 資料治理防家暴」計畫目前看似告一小段落,但其實這只是一小步而已,第一,這些看似固定的地圖是「互動式地圖」,目前只有一年的資料,家防中心預計將往後各年的資料也以同樣的方式整理、呈現,讓參與防治的上下機關以及社會大眾能夠看到社區中每個成員對於家暴防治的努力,需要協助的家庭主動尋求協助、而平常忙於各自工作的鄰居們也有了活絡社區的氣氛的機會,相信一年兩年過去,看著自己的社區的家暴數量因大家努力而逐漸減少,或是因為大家守望相助而使得以往看不見的家暴黑數能夠有機會浮上檯面,都會是一個非常感動的成果,也會是一個向他人證明自己住在好社區的客觀證據。第二為了使資料結果能有更恰當的詮釋,未來還需要仰賴里長、各界專家、第一線的社工人員與家暴防治相關的公私立機構,進行更近一步的研究與實地訪查。敏感性資料去識別化之後,期待各界有興趣的夥伴,無論是學術或是相關防治機構,都可以利用這份資料進行更廣泛的應用或是更深入的研究探討。
謝謝大家,通過這個計畫,我更確信有效利用資料絕對能推進社會福祉。感謝能有這個機會參與如此有意義的計畫!讓我們一同使世界更加美好!
延伸閱讀

「面對家暴 只能被動挨打嗎?」公部門大挑戰 大數據這樣防家暴 (風傳媒 2017/03/06)
觀點投書:一張家暴風險地圖說了什麼?科學分析和社區防治還有話要說 (風傳媒 2017/03/09)
資料治理讓社區對家暴「心裡有數」公部門與社區組織公私協力防暴向下紮根 (臺北市政府社會局 2017/03/15)
北市繪家暴地圖 盼降低再通報個案 (中時電子報 2017/03/15)

Read More
13 三月

預測模型的準確率 99.9% 就夠了嗎?錯,鍵盤打火英雄告訴你該怎麼辦!

  • Posted by Guo Guan Ling
  • Categories 紀錄
  • Comments 0 comment

如何有效運用人力與資源來宣導火災預防觀念,進而降低火災發生率,一直是高雄市消防局終極目標。
有別於火災風險地圖 1.0,消防局冀望能從建築物角度出發,彙整住戶與周遭環境資料以建構出建物火災風險預測模型。經過多次討論,決議以各式建物混雜的鳳山區為例,希望用機器學習方式得到預測模型。資料英雄用8萬筆資料訓練 DNN 模型,哇!準確率幾乎百分之百,這一切都太完美了,對嗎?

錯!建物有上萬棟,但實際在104到105年間發生過火災數量卻不到一百,像這種非均衡的二分類數據 (1:800) 實務上很常見,高準確率的模型往往只預測一種類別,這就是 Accuracy Paradox!
遇到數據失衡時,我們能怎麼辦?
1. 擴大時間範圍,蒐集更多歷年火災資料
新增多筆歷年火災資料,並重複抽樣出比例均衡的小樣本來訓練模型,來避免數據失衡的問題。
2. 用不同抽樣方法來抽取樣本
下面條列一些經驗法則:
a. 在母數少的類別中隨機複製資料
b. 在母數多的類別中隨機刪除資料
c. 考慮隨機和非隨機的抽樣方法,如分層
d. 考慮不同比例的抽樣方式
3. 嘗試不同類型的演算法
試試其他演算法,如決策樹算法、CART 以及隨機森林等等,或許其他演算法能有效分類。
4. 調整權重因子
確定只能使用的演算法是適當的且無法採樣時,可藉由調整權重或是增加懲罰因子,來平衡數據類別。
5. 嘗試用不同角度或創新想法
考慮是否可以將其拆分為類似的小問題,如把大數據分成許多小類別數據。
許多方法都可嘗試,這次,資料英雄該如何快速找到最佳的方法來破解難題呢?敬請期待。

Read More
  • 1
  • 2
  • >

分類

  • 佈告欄
  • 未分類
  • 紀錄
  • 資料英雄計畫

近期文章

  • 採購稽核智慧化
  • D4SG 333短期方案-錄取公告
  • [提案招募] D4SG 333 短期方案
  • D4SG Fellowship 冬季班暫停公告
  • 智慧防洪,韌性城市

標籤

OCHA workshop 便民看板 兒少保護 家暴預警 就業輔導 急轉診 排班管理 政府採購 文字雲 水土保持 法律扶助 火災風險 畜牧廢水 社會救助 空汙 結巴 緊急醫療優化 脫離貧窮 自然語言處理 資料工作坊 資料英雄計畫 農地種電 開放資料 防洪 隨機森林 韌性城市 高風險家庭

彙整

  • 2021 年 十月
  • 2020 年 十月
  • 2020 年 五月
  • 2019 年 十二月
  • 2019 年 八月
  • 2019 年 二月
  • 2019 年 一月
  • 2018 年 十二月
  • 2018 年 十一月
  • 2018 年 七月
  • 2018 年 六月
  • 2018 年 二月
  • 2018 年 一月
  • 2017 年 十二月
  • 2017 年 六月
  • 2017 年 五月
  • 2017 年 三月
  • 2017 年 二月
  • 2017 年 一月
  • 2016 年 十二月
  • 2016 年 十一月
  • 2016 年 八月
  • 2016 年 七月
  • 2016 年 六月
  • 2016 年 一月
  • 2013 年 六月

D4SG資料英雄計畫 ©2014-2019