Data for Social Good Data for Social Good
  • 最新消息
    • 佈告欄
    • 熱門活動
  • 資料英雄計畫
    • 團隊募集
    • 專案成果
    • 資料英雄榜
  • 媒體報導
  • 聯絡我們
  • 最新消息
    • 佈告欄
    • 熱門活動
  • 資料英雄計畫
    • 團隊募集
    • 專案成果
    • 資料英雄榜
  • 媒體報導
  • 聯絡我們

值班編輯

  • Home
  • Author 值班編輯
06 十月

採購稽核智慧化

  • Posted by 值班編輯
  • Categories 資料英雄計畫
  • Comments 0 comment

Fellows:王政雲、張沛詠、曾仲毅、楊寓鈞
Mentor:劉嘉凱
Project Partner:臺北市政府工務局採購科
問題描述
每個月稽核委員完成現場查察後須依限撰寫稽核報告,將查證結果以三段式寫法呈現,分別為「法規依據」、「違規事證」及「改善建議」,並送交稽核小組查核員同仁進行校稿彙整。當採購稽核委員在系統輸入缺失意見及其援引法規時,容易誤用法規,因此台北市查核員經常需要花費大量心力協助調整為正確法規。
希望藉由「法規推薦」的方式,在委員輸入缺失意見時,自動推薦相關的法規,降低錯誤使用法規的頻率,提升委員稽核報告之撰寫效能與品質。
分析方法
一、流程概述
依據市府提供資料進行討論,補足相關資料後進行推薦系統的設計,並重複進行準確率評估和調整模型。

(一)、資料蒐集
除了北市府提供的訓練資料和測試資料外,我們依據建模需求,藉由網路爬蟲蒐集相關輔助資料。
資料清單

訓練資料:200801至202008缺失類型(法規分段例),法規的部分有23,228筆。
測試資料:原始意見及定稿意見彙整表_v3,共49筆。原始意見為委員原本輸入的文字,定稿意見則為稽核同仁修改後的版本,用詞較為一致。
輔助資料 – 移除法規:法令依據/事實/改進建議分段,法規跟錯誤態樣各50筆。
輔助資料 – 移除法規:法令依據/事實/改進建議分段,法規跟錯誤態樣各50筆。
輔助資料 – 字典:法規字典、法規切分字典。

(二)、資料前處理
對原始資料和另外蒐集的輔助資料進行資料前處理。
以下為處理步驟:

(三)、模型建立及模型評估
進行資料前處理後,我們開始進行模型配適以及評估。

反覆使用不同模型進行訓練,再比對測試結果準確度,找到最高準確度的模型。
二、探索式資料分析(EDA)
在訓練資料的筆數分佈上,政府採購法的占比最高,將近三成,樣本的分佈不均可能會有兩個影響,一方面是樣本足夠的類別會得到較多的資訊,推薦成果較為準確,部分過少樣本可能因為資料不足而無法取得充足的資訊,而成效較差。

訓練資料的法規名稱的筆數分佈
測試資料集上,與訓練資料筆數分佈較為不同的有

Read More
08 十月

D4SG 333短期方案-錄取公告

  • Posted by 值班編輯
  • Categories 佈告欄
  • Comments 0 comment

提案:狂風暴雨、安全救災 (金門縣林務所)
颱風天風倒木對民眾生命財產安全一大威脅。金門縣林務所為金門縣行道樹管理養護之負責單位,同時負擔颱風期間路樹傾倒之緊急清運工作,如何在大風大雨之中快速清運並確保救災人力安全是所內關心事務,這次提案透過過往救災紀錄及氣象局相關颱風資訊,讓林務所在颱風發生前超前部署,減少風倒木事件發生數量,颱風發生當下做適宜人力及機具安排,維護民眾及救災人員之安全。
▌關鍵詞:救災防災、資料探索
▌錄取英雄:廖O程、葉O縈

提案:提升採購稽核業務品質及效能(臺北市政府工務局採購科)

政府採購的生命週期包括招標、開標、決標、履約、驗收與保固等階段,標案執行過程之稽核,仰仗機關內外部稽核委員的採購相關法令與實務專業能力。如何透過自然語言處理,協助稽核委員以結構化方式記錄執行缺失,並分析系統性與結構性之問題,將是本專案探索分析之重點。
▌關鍵詞:政府採購、自然語言處理
▌錄取英雄:王O雲、張O詠、曾O毅
社會住宅租戶輪廓分析(臺北市政府社會局)

社會住宅租戶輪廓分析(臺北市政府社會局) 社會住宅是由政府作莊,採「只租不賣」模式,提供給符合條件的一般家戶和弱勢戶申請的住宅。臺北市目前已有13處社會住宅開放申請,整個流程包含招租、入住與維運。本專案的核心議題是透過分析社會住宅弱勢住戶資料,期待能建立資料視覺化儀表板,了解哪種類型的人經常來申請、比較容易入住、實際保障哪些弱勢類型,以作為調整投注資源之參考依據。

▌關鍵詞:社會住宅、資料視覺化
▌錄取英雄:陳O廷、邱O禎、林O廷
每個提案將派遣專家與提案單位進行資料盤點、問題聚焦、預期成果評估等討論,再根據預期成果的社會影響力、資料成熟度、時限內可完成程度、經驗可複製性、以及主管是否積極支持讓成果能確實導入組織運作等面向進行審查,以決定提案錄取名單。
關於資料英雄的錄取標準,則是以完成專案主題的技能需求為基準,由負責專案的指導顧問進行選秀,根據個人技能與興趣分配。

Read More
11 五月

[提案招募] D4SG 333 短期方案

  • Posted by 值班編輯
  • Categories 佈告欄
  • Comments 0 comment

感謝過往合作夥伴組織的建議,我們正式推出全新的「D4SG 333 短期方案」,即日起接受報名,預定於2020年六至八月舉辦。
333 短期方案

每個月選出至多三個提案,每個提案選派三名資料英雄參與,以三天時間為期,完成「最小可行性產品」的概念測試。
確切工作時間由各專案分別決定,但是為減少資料英雄請假做公益的時間,將以週末為優先考量。
提案單位需派員全程參與專案執行過程,但無須支付資料英雄之服務費用。惟如最終媒合成功之資料英雄所在地與提案單位距離較遠者,則須請提案單位協助提供交通費用補貼或安排提供住宿事宜。
D4SG 將優先媒合在地資料英雄,以便回饋鄉里。

歡迎有興趣而且有資料的政府機關或非營利組織報名。請填寫報名表單 (http://d4sg.org/fellowship/call-for-proposal/)
若有任何問題,請隨時聯絡我們。
聯絡方式:

陳潔寧 經理
電話:(02) 2720-4228
Email: ning.chen@dsp.im

 
D4SG 資料英雄計畫
D4SG 資料英雄計畫 (Data for Social Good) 是由 DSP 智庫驅動股份有限公司與財團法人開拓文教基金會共同發起的「資料力做公益」計畫。有鑒於公益性質組織(非營利、政府等)雖然累積了大量的營運數據,卻遲遲無法發揮資料價值,我們從 2016 年開始,號召社會各界的資料科學家組成團隊,協助超過 40 個非營利組織與政府機關從做中學,體驗資料價值,讓想像力起飛,促進公共服務的創新。
誰適合參加

Read More
11 十二月

D4SG Fellowship 冬季班暫停公告

  • Posted by 值班編輯
  • Categories 佈告欄
  • Comments 0 comment

2019 歲末,和曾經參加、以及還沒來得及參加 D4SG 的夥伴們道安。
回顧今年,感謝各路資料英雄持續的正能量貢獻,我們不僅讓資料英雄專案在成果發表之後還能持續發展,更啟發其他政府機關起而效法,推動類似計畫。
除此之外,我們也積極推動國際連結,協助泰國與緬甸的在地組織開始規劃當地的 D4SG 計畫,並邀請柬埔寨與其他國家的國際團隊參與「總統盃黑客松」,促進國際交流與合作。
遺憾的是,D4SG Fellowship 冬季班將暫停舉辦,因為我們的專案經理為了解決國安問題,親力親為,提升生育率。
展望 2020 年, D4SG Fellowship 將轉型為其他形式,讓大家以更歡樂的方式參與,動手做資料分析,解決社會問題。

Read More
22 八月

智慧防洪,韌性城市

  • Posted by 值班編輯
  • Categories 資料英雄計畫
  • Comments 0 comment

#pl-8188 .panel-grid-cell .so-panel { margin-bottom:30px } #pl-8188 .panel-grid-cell .so-panel:last-child { margin-bottom:0px } @media (max-width:780px){ #pg-8188-0 .panel-grid-cell { float:none;width:auto } #pl-8188 .panel-grid { margin-left:0;margin-right:0 } #pl-8188 .panel-grid-cell { padding:0 } }

應用過去十年的雨量、流量、上下游測站水位資料,透過資料整合、資料探索和統計建模的方式,來建立彈性且低成本的防洪解決辦法。以有效預測降雨時下游下水道的水位可能高度,為相關單位做到預警的效果,提前應對防洪的時間。
 
Fellows:廖昱程、李佳臻、張升懋、姜亭安、蕭聖哲、葉禹安、江政矩、蔡涵涵、張哲偉
Mentors:陳潔寧、詹欣諭
Project

Read More
27 二月

空汙追追追

  • Posted by 值班編輯
  • Categories 資料英雄計畫
  • Comments 0 comment

Fellows:林祺傑、沈佩璇、王懌琪、陳敬宜、曾期毓、李貞沂、陳蓓蓓、陳焌彥
Mentor:劉嘉凱
Project Managers:呂國禎、康育萍
Project Partner:天下雜誌

為何政府說空氣品質改善了,天空仍然灰濛濛?是民眾要求變高,還是感受變得更明顯?為何CEMS固定污染源頻頻傳出造假案件?這些是本專案想探索的問題。
本專案結合多種空氣品質監測資料來源,嘗試分析污染的時間和空間趨勢以及污染的行為模式、並且檢驗原始監測資料的品質。
分析方法如下圖。

 
完整的專案成果簡報檔。

——–
延伸閱讀:

天下雜誌針對 CEMS 資料的調查報導。

Read More
23 一月

脫貧就業:協助經濟弱勢者重回勞動市場

  • Posted by 值班編輯
  • Categories 資料英雄計畫
  • Comments 0 comment

Fellows:林祁衡、蕭玉資、胡文馨、徐紹婷、李佳昇、余佑駿
Mentor:陳潔寧、詹欣諭
Project Manager:巫坤達
Project Partner:臺北市政府社會局社會救助科

臺北市政府社會局與伊甸社會福利基金會合作進行專案,協助經濟弱勢者重回勞動市場。
社會局每年會從經濟弱勢的低收入戶、中低收入戶、從事代賑工的清寒戶中,選取目前沒有就業的經濟弱勢者為待輔導就業對象,委託伊甸基金會進行輔導。伊甸基金會於獲得經濟弱勢者名單後,即進行聯絡與訪談,透過訪談內容判定個案是否應「開案」繼續進行就業輔導。
開案後,伊甸基金會會以個別化的服務模式,針對個人就業阻礙與需求提供就業輔導,包含職業諮詢、重返職場信心建立、開辦職訓課程等,持續輔導至個案穩定就業或社會局評估可停止追蹤。當個案穩定就業重返職場,即達到專案目的「幫助經濟弱勢者脫離貧窮」。

 
痛點與解方

然而,社會局與伊甸基金會在過去幾年的合作上遇到了瓶頸:篩選出的經濟弱勢者名單開案率不高;即使開案,依照開案數量,最後脫貧的比例也不高。因此,社會局與伊甸基金會希望透過各項服務紀錄,優化服務流程及作法,以提升開案率與就業意願。
本次資料英雄將處理以下兩個議題:
A. 優化推薦至伊甸基金會名單,提高成功開案率
B. 找出容易成功就業的個案特性,提高社工的工作效率
資料英雄根據資料分析流程先進行需求訪談和資料初探,實際了解工作流程細項與資源,再針對兩個議題規劃不同的資料分析策略。

 
議題A:優化社會局推薦至伊甸基金會名單,提高成功開案率

一、用關聯規則萃取重要變數
先利用關聯規則萃取出重要變數,社會局的資料變項有三種類型,人口變項包含性別、年齡、教育程度等變項;家庭因素包含家中0-6歲小孩人口數、7-12歲小孩人口數、65歲以上長者人口數等變項;收入相關則包含收入等級、補助金額等變項。
實作關聯規則是採用R語言的arules套件,參數設定包含最小規則長度為3(minlen=3)、規則所篩選出的最小樣本佔比為1%(support=0.01)以及樣本的最小開案率為8%(condifence=0.08)。將結果以Lift排序,以排序第一的規則為例,輸出如下表。
對於「教育程度為高中職、家中補助金額低於36K、沒有13-15歲小孩、沒有65歲以上長者」這個族群而言,佔訓練資料中的1.9%,開案率為25%,是訓練資料8%開案率的2.79倍。

根據排序前30筆規則,歸納出以下兩種族群具有比較高的開案率:
1. 教育程度為高中職且補助金額低於36K
2. 教育程度為高中職、收入為低收等級且沒有不動產的紀錄
除此之外,其他與開案成功相關的重要變項包含女性、無0-6歲小孩、無13-18歲小孩以及無65歲以上長者。
二、用廣義線性模型優化社會局推薦名單
1. 動機與目的

Read More
14 十二月

D4SG資料英雄計畫 2019 冬季班錄取公告

  • Posted by 值班編輯
  • Categories 佈告欄, 資料英雄計畫
  • Comments 0 comment

錄取提案
家事訴訟:以歷史的判決看外配是否受到法律差異對待(法律扶助基金會)
參照內政部移民署網站統計資料,截至2018年底,外裔或外籍配偶人數已達近18萬人,又每年約1萬多人登記結婚、亦有近5千人離,是以對於非在台灣生長,對於台灣文化陌生,更不諳本國語言及法律之外籍配偶,其在家事訴訟程序中是否受差異之對待,其成因為何,現有之法律扶助律師是否已提供適切之服務等,皆為此次專案所欲探詢之問題。
▌關鍵詞:法院判決、文字探勘
 
有限社工人力資源解決高危機個案(桃園市政府家庭暴力暨性侵害防治中心)
家防中心針對家暴被害人及其家庭提供服務,乃為重要業務內容之一。桃園市平均一年約1萬餘件之家暴通報案件,如何在有限人力、資源前提下,針對具高度生命危機議題可能生的案件中,在定期網絡合作中共同找出當中的高高危機個案,立即並優先介入係顯得重要及必要。
▌關鍵詞:高風險家庭、風險預測、危險因子
 
智慧防洪,韌性城市(臺北市政府工務局大地工程處)
近期,午後豪大雨造成排水系統瞬間過載無法負荷,成為水災或坡地崩塌之主要成因,集中降雨以既有的水文學說而言,解決方式通常是投入更多的錢去整治,做出更高的防洪標準(有錢的縣市),或是乾脆將易淹水區域的居民遷移至別處安置(省錢的做法);但是近年來資料科學的進步,是否可以透過資料探索來摸索出一個彈性防洪的方法,讓有限的資源做出更好的利用(比如以50年防洪標準的設施搭配其他防洪手段,讓防洪標準可以等同75年水準等),即是我們想要探討的目標。
▌關鍵詞:防洪、韌性城市
 
錄取英雄
石O蓁、江O矩、吳O展、吳O萱、李O杰、李O雲、李O萱、李O臻、林O逵、邱O琪、
邵O磊、姜O文、姜O安、張O偉、張O婷、張O懋、陳O廷、黃O淳、黃O雅、葉O安、
廖O程、蔡O涵、蕭O哲、謝O翰。
 
本次資料英雄計畫的主題包含法律正義丶社會安全與災害防治。
每個提案都將派遣專家與提案單位進行資料盤點、問題聚焦、預期成果評估等討論,再根據預期成果的社會影響力、資料成熟度、時限內可完成程度、經驗可複製性、以及主管是否積極支持讓成果能確實導入組織運作等面向進行審查,以決定錄取名單。
關於資料英雄的錄取標準,則是以完成專案主題的技能需求為基準,由負責專案的指導顧問進行選秀,根據個人技能與興趣分配。
本期共錄取 24 位資料英雄 。將於 2018/12/17 (一) 寄發錄取通知,若屆時您沒有收到信件請來信 service@dsp.im,謝謝。

Read More
21 十一月

兒少保護案件之精準派案

  • Posted by 值班編輯
  • Categories 資料英雄計畫
  • Comments 0 comment

Fellows:陳姿君、張赫麟、張家豪、藍浩、潘怡均、吳奇倫、吳又建、林瑜軒
Mentor:謝宗震、楊思
Project Manager:陳映竹
Project Partner:衛生福利部保護服務司

通過文獻梳理,我們發現「風險評估」在兒少保領域的應用在20世紀90年代就已經普及(English & Pecora, 1994),在現如今依然是主要的評估工具。在學術領域,兒少保領域的「風險評估」可被定義為「評估某個既定的(通常是父/母)人在未來可能傷害兒童的一個過程」(Wald & Woolverton, 1990)。據已有研究,通過整理各種主要的風險評估工具,其共同考量的因素不超過三大類別的範圍:兒童特徵或受虐情況,父母特質與家庭環境(尹欣如,2013)。
大數據應用於兒少保領域的風險評估在其他國家早已有所應用,美國聖路易斯華盛頓大學的Jolley(2012)曾用神經網絡模型將風險因素分為靜態因素和動態因素,來預測兒童遭受不良對待的復發。也有學者通過分類和回歸樹分析來對兒童遭受不良對待的復發來進行預測,發現對高風險組有更好的預測力(Sledjeski, Dierker, Brigham & Breslin, 2008)。
一、研究資料與主題

圖 1
主題1:兒少保護通報開案預測
透過通報表資訊預測該案開案與否,提供兒少保社工進入調查階段前案件優先順序參考。分析使用2017年一類案件通報表及關係人基本資料,包含最終開案及未開案案件,共20,165筆。
從通報過渡到調查階段,大量的非緊急案件,現況仰賴社工專業判斷。我們目標是社工不僅是面對當下的通報案件、自身專業判斷,透過分析資料庫中歷史通報案件,建構開案預測模型輔助社工,綜合自身專業與模型結果資訊成為工作排程依據。

圖 2
主題2:共案特徵預測及訪視優先次序分析
兒少保護開案案件中,透過調查報告找出與「保護司與心口司共同列管案件(共案)」特徵類似,但未有心理衛生社工介入服務(未納入共訪機制)之案件,預先提示兒少保社工提高服務密度及敏感度。分析使用2016和2017年一類案件被害人父母調查報告資料,篩選出最終開案的案件,共13,621筆。
進到服務階段,實務經驗告訴我們保護司、心口司兩個單位共同列管個案,必須有較高服務密度。也已建立保護司兒少保社工、心口司心衛社工的「共案共訪」機制。相對的,非共同列管案件就沒有心衛社工介入服務。即便未納入共訪機制的個案,透過共案特徵預測,預先提示兒少保社工提高服務密度及敏感度,仍可提供綿密的服務。
 
二、分析手法

主題1:兒少保護通報開案預測模型
使用關聯分析找出通報表填報項目選項中影響開案的重要因素。並透過通報表結構化資料及案情陳述非結構化文字資料,結合自然語言處理(NLP)與Random Forest隨機森林技術建立開案預測模型。

Read More
31 七月

脫貧潛客分析

  • Posted by 值班編輯
  • Categories 資料英雄計畫
  • Comments 0 comment

Fellows:蔡佳淳、陳上峰、李泓旻、楊思、葉子蓁、張哲偉
Mentor:謝宗震、陳潔寧
Project Manager:呂岱恩
Project Partner:臺北市政府社會局
臺北市政府社會局自民國89年起陸續開辦超過15個脫貧方案,各方案辦理期限約3~5年,由於人力有限,約服務一百多人,開辦前業務同仁需投入大量時間,篩選名單後逐一寄發申請表、辦理方案說明會、受理民眾申請再審查是否符合資格等;過程中,需籌備辦理多元課程、督導學生完成方案任務、關懷學生參與情形等,惟最終完成參與方案者僅占最初參與方案人數的百分之七十,而未能完成方案的百分之三十參與者,多數不願配合方案規定,或其家庭除經濟問題外,還有更迫切的福利需求,而無法達成方案任務。
由於每個個案需花費大量時間與資源,因此如何積極輔導適合對象優先參與脫貧方案,以提高參與者完成方案的比例同時讓有迫切需求的參與者有機會參與服務方案成為優先要務。此次資料英雄計畫透過資料分析找出家戶適合接受的服務,提供業務同仁評估是否適合參與方案,以妥善運用有限資源,提升方案服務效益。
 
研究資料與主題

本次研究以臺北市100年07月至103年06月的「Young Young 精彩青年培力希望發展帳戶專案」為例進行資料分析,瞭解社會局脫貧方案是否有助於提升家戶平均收入,並找出影響家戶脫貧的家庭類型。
由臺北市政府社會局提供去識別化後有參加及未參加定期儲蓄型方案的家庭特徵,依此資料嘗試回答:
1. 參加方案且脫貧者具何種家庭特徵。
2. 參加脫貧方案與未參加方案家戶是否有差異。
 
分析手法

在現有的低收家戶資料中,有參加方案的實驗組(A)以及沒有參加方案的對照組(B),均有一定比例的家戶脫貧(A1, B1)。而此專案的主要目的之一是欲藉著資料的分析,找出未來適合參與脫貧方案的家戶,把資源做更有效地分配,讓更多家庭有機會脫離貧窮。
.利用 Gower’s Distance 計算不同組別的家庭特徵相似程度
 

Gower’s Distance (Gower, 1971) 是用來計算兩組資料的相似程度 (距離),資料的型態可以同時包含類別,數值,邏輯(true or false)。Gower’s Distance 的量測值介於0到1之間,數值愈大則距離愈遠,也就是差異性愈大。

Read More
  • 1
  • 2
  • >

分類

  • 佈告欄
  • 未分類
  • 紀錄
  • 資料英雄計畫

近期文章

  • 採購稽核智慧化
  • D4SG 333短期方案-錄取公告
  • [提案招募] D4SG 333 短期方案
  • D4SG Fellowship 冬季班暫停公告
  • 智慧防洪,韌性城市

標籤

OCHA workshop 便民看板 兒少保護 家暴預警 就業輔導 急轉診 排班管理 政府採購 文字雲 水土保持 法律扶助 火災風險 畜牧廢水 社會救助 空汙 結巴 緊急醫療優化 脫離貧窮 自然語言處理 資料工作坊 資料英雄計畫 農地種電 開放資料 防洪 隨機森林 韌性城市 高風險家庭

彙整

  • 2021 年 十月
  • 2020 年 十月
  • 2020 年 五月
  • 2019 年 十二月
  • 2019 年 八月
  • 2019 年 二月
  • 2019 年 一月
  • 2018 年 十二月
  • 2018 年 十一月
  • 2018 年 七月
  • 2018 年 六月
  • 2018 年 二月
  • 2018 年 一月
  • 2017 年 十二月
  • 2017 年 六月
  • 2017 年 五月
  • 2017 年 三月
  • 2017 年 二月
  • 2017 年 一月
  • 2016 年 十二月
  • 2016 年 十一月
  • 2016 年 八月
  • 2016 年 七月
  • 2016 年 六月
  • 2016 年 一月
  • 2013 年 六月

D4SG資料英雄計畫 ©2014-2019