本次專案以 111年度累積跨網絡會議案件資料為基礎,透過各種方法探索現行作業填寫方式之有效性、網絡資源介入機制運行狀況、以及檢定驗證各類指標、評估工具對於會議討論之幫助程度,並試圖提出更有效率的資料登打及收集流程。 本次亦進行了知識本體的建構,嘗試將兒少保護跨網絡合作會議運作及相關會議資料轉化為機器可讀的知識,以便未來進行深入分析;同時透過本體建構進行相關概念釐清,並初步探討了如何在資料面落實「強化社會安全網第二期計畫」中所提出從「以案主為中心」朝向「以家庭為中心、社區為基礎」服務模式轉變的可能性。
Fellows:簡毅慧、蘇彥庭、李俊穎、江泓德
Mentor:陳潔寧
Project Partner:不當黨產處理委員會
早期史料多以紙本或影像檔案儲存,造成史料研究難以有效整合有關聯的資訊。委員會的研究員們指出既有的史料雖然有豐富的文字訊息,但是在文章間的關聯性探索仍然得仰賴研究員們各自閱讀後的經驗積累,這使得研究成果不易橫向串連或者傳承。然而,文字探勘技術在這樣的手寫歷史文件分析中仍屬不易,我們將重心擺在已經轉為文字檔的史料故事,建立搜尋優化的支援系統、對外呈現友善簡潔的知識視窗,包含:文章推薦系統、社會網絡分析與數位專題等應用呈現。
首先,我們利用中央研究院中文詞知識庫小組(Chinese Knowledge and Information Processing, CKIP)的實體辨識技術進行文章斷詞與詞性的辨別,並且與研究員們合作,建立專屬不當黨產委員會的字典,這本字典有助於辨別文章內字詞的精準度,同時,我們也開放字典的增添,保留後續新增文章時的彈性調整。有賴於前述的基礎,我們建構文章間的字詞詞向量矩陣,並計算文章間的相關性,提供以文找文的文章推薦系統。
其次,文章內提及的人、機構也蘊含著一定的關聯性,但是在既有的探索中,未能系統性地釐清人物之間或者機構之間在特定主題下的關係結構。社會網絡分析(Social Network Analysis, SNA)既是一種以關係為核心的分析技術也是一種資料視覺化的工具。我們利用前述的字典建立人物與機構清單,爬梳這些名單在文章庫中出現的情況,共同出現在同一篇文章即視為有關係/連結,藉此繪製出社會網絡圖。此外,我們將節點進行分群,使得圖形大小得以反應該節點的重要性;而連結的強弱也利用關係線的粗細進行呈現,這些使得資料視覺化的過程中富含充裕的資訊。為了使網絡分析與文章庫有效地結合,我們也提供節點、連結對應的文章清單,讓研究員們在探索網絡關係時得以便捷地閱讀相關文章。
針對對外的友善簡潔知識視窗,我們採用數位專題呈現研究員們的史料研究成果,將數筆主題性的歷史文件轉化為生動且具互動的閱讀頁面。在與研究員們的討論過程中,我們自身也更加認識當時的歷史,而為了推廣這些知識,在專題頁面中圖、文併呈,使得故事深刻地被記憶而不乏味,我們也使用地圖跟時間軸呈現不當黨產的歷史變化與所有權流向,同時也結合委員會的紀錄影片讓讀者有不同層次的閱聽經驗。
完整的專案成果簡報檔。
___
延伸資料:
透過時間、空間、詞頻分析、史料間關係等面向出發建構數位化工具,協助研究員能夠更快速地從史料文章中,分析出人或組織之間的關係。
安裝說明:https://github.com/SuYenTing/d4sg_cipas_project
針對數位化敘事進行改善,提升研究成果閱讀、視覺化、可讀性等改善。
網頁成品:https://yihuai0806.github.io/cipas/index.html
\
Fellows:廖立文、陳薇亘、黃鼎豪、鄭雅憶
Mentor:陳潔寧
Project Partner:臺北市家庭暴力暨性侵害防治中心
家防中心保護性社工於外勤執行受暴者及行為人之訪視、庇護及安置服務時,存在各種人身安全風險,也許是被打、被言語侮辱、被威脅。社工出訪前會先閱讀系統中的個案相關紀錄,然而紀錄龐雜且繁瑣,每次的訪視風險都需要靠個人大量閱讀並綜合過往經驗才能判斷風險高低。
中心為了提高人為判斷精準度,設計外勤風險檢測指標,要求社工出勤前須填寫,並定期滾動修正,透過事先掌握風險,進行預防。在累積數年資料後,希望能透過資料進行填寫行為分析、結果比對及優化表單,從中發展出風險因應策略,建立循證治理的工作流程。
透過服務流程工作坊盤點出社工外勤挑戰
D4SG 資料英雄為了了解社工大量閱讀的個案資料及獲取資訊的流程、如何將資料轉化為所需資訊,我們在 110 年 11 月 17 日於家防中心辦理服務流程討論工作坊,參與人員包含家防中心綜規組、承保組、專線組、兒少組與性保組 16 位,以及本案資料英雄 6 位,共 22 位。依組別編列為四組,於工作坊過程中,皆有資料領域、服務設計領域之資料英雄一同參與討論。
本次工作坊透過情境將相關利害關係人以及所遇問題進行盤點,建構社工接案到受暴通報之程序。最後釐清步驟中的數據細項與來源,並思考何以透過數據優化現有的任務流程,期以避免社工出訪時的風險。綜合各組提到的執行挑戰如下:
1. 社工對於風險意識高低不同
新手經驗薄弱,對事件之風險敏感度較低;資深者則易低估風險。而現行系統中尚無客觀風險評估指示,可作為判斷風險之參考。
2. 風險釐清條件不足
相關通報資訊不足,於時效條件下,導致難以釐清風險狀況。潛在人生安全評估項目(如:環境衛生狀況、是否有危險寵物等),無法取得相關資料,以致難以提前規劃與預防。
3. 訪視時效與資料權限限制
系統需於網域中才可登打,尚不能透過行動載具使用。填寫內容項目不夠精簡或無自動帶入之功能,導致行政作業繁複。
4. 資料視覺化及預測的目的及目標理解不足
現行以紙本及簡易數字加總統計值進行管理,對於如何紀錄資料達到數據視覺化、風險預測及循證治理方式理解及經驗較少。
概念驗證 POC
本次資料科學家及服務設計學者等資料英雄參與上段詳列了家防中心自評及各組討論後的結果,其中的調整涉及跨部門協力、系統設計、管理手段上讓回報更彈性、風險預警共識等。基於近期中心即將做系統改版以及中心長期累積的出勤前資料,資料英雄提出概念驗證及實作。
一、系統設計概念
針對訪視前、後,我們分別提出系統規劃與系統優化的建議。
訪視前
Fellows:王政雲、張沛詠、曾仲毅、楊寓鈞
Mentor:劉嘉凱
Project Partner:臺北市政府工務局採購科
問題描述
每個月稽核委員完成現場查察後須依限撰寫稽核報告,將查證結果以三段式寫法呈現,分別為「法規依據」、「違規事證」及「改善建議」,並送交稽核小組查核員同仁進行校稿彙整。當採購稽核委員在系統輸入缺失意見及其援引法規時,容易誤用法規,因此台北市查核員經常需要花費大量心力協助調整為正確法規。
希望藉由「法規推薦」的方式,在委員輸入缺失意見時,自動推薦相關的法規,降低錯誤使用法規的頻率,提升委員稽核報告之撰寫效能與品質。
分析方法
一、流程概述
依據市府提供資料進行討論,補足相關資料後進行推薦系統的設計,並重複進行準確率評估和調整模型。
(一)、資料蒐集
除了北市府提供的訓練資料和測試資料外,我們依據建模需求,藉由網路爬蟲蒐集相關輔助資料。
資料清單
訓練資料:200801至202008缺失類型(法規分段例),法規的部分有23,228筆。
測試資料:原始意見及定稿意見彙整表_v3,共49筆。原始意見為委員原本輸入的文字,定稿意見則為稽核同仁修改後的版本,用詞較為一致。
輔助資料 – 移除法規:法令依據/事實/改進建議分段,法規跟錯誤態樣各50筆。
輔助資料 – 移除法規:法令依據/事實/改進建議分段,法規跟錯誤態樣各50筆。
輔助資料 – 字典:法規字典、法規切分字典。
(二)、資料前處理
對原始資料和另外蒐集的輔助資料進行資料前處理。
以下為處理步驟:
(三)、模型建立及模型評估
進行資料前處理後,我們開始進行模型配適以及評估。
反覆使用不同模型進行訓練,再比對測試結果準確度,找到最高準確度的模型。
二、探索式資料分析(EDA)
在訓練資料的筆數分佈上,政府採購法的占比最高,將近三成,樣本的分佈不均可能會有兩個影響,一方面是樣本足夠的類別會得到較多的資訊,推薦成果較為準確,部分過少樣本可能因為資料不足而無法取得充足的資訊,而成效較差。
訓練資料的法規名稱的筆數分佈
測試資料集上,與訓練資料筆數分佈較為不同的有
提案:狂風暴雨、安全救災 (金門縣林務所)
颱風天風倒木對民眾生命財產安全一大威脅。金門縣林務所為金門縣行道樹管理養護之負責單位,同時負擔颱風期間路樹傾倒之緊急清運工作,如何在大風大雨之中快速清運並確保救災人力安全是所內關心事務,這次提案透過過往救災紀錄及氣象局相關颱風資訊,讓林務所在颱風發生前超前部署,減少風倒木事件發生數量,颱風發生當下做適宜人力及機具安排,維護民眾及救災人員之安全。
▌關鍵詞:救災防災、資料探索
▌錄取英雄:廖O程、葉O縈
提案:提升採購稽核業務品質及效能(臺北市政府工務局採購科)
政府採購的生命週期包括招標、開標、決標、履約、驗收與保固等階段,標案執行過程之稽核,仰仗機關內外部稽核委員的採購相關法令與實務專業能力。如何透過自然語言處理,協助稽核委員以結構化方式記錄執行缺失,並分析系統性與結構性之問題,將是本專案探索分析之重點。
▌關鍵詞:政府採購、自然語言處理
▌錄取英雄:王O雲、張O詠、曾O毅
社會住宅租戶輪廓分析(臺北市政府社會局)
社會住宅租戶輪廓分析(臺北市政府社會局) 社會住宅是由政府作莊,採「只租不賣」模式,提供給符合條件的一般家戶和弱勢戶申請的住宅。臺北市目前已有13處社會住宅開放申請,整個流程包含招租、入住與維運。本專案的核心議題是透過分析社會住宅弱勢住戶資料,期待能建立資料視覺化儀表板,了解哪種類型的人經常來申請、比較容易入住、實際保障哪些弱勢類型,以作為調整投注資源之參考依據。
▌關鍵詞:社會住宅、資料視覺化
▌錄取英雄:陳O廷、邱O禎、林O廷
每個提案將派遣專家與提案單位進行資料盤點、問題聚焦、預期成果評估等討論,再根據預期成果的社會影響力、資料成熟度、時限內可完成程度、經驗可複製性、以及主管是否積極支持讓成果能確實導入組織運作等面向進行審查,以決定提案錄取名單。
關於資料英雄的錄取標準,則是以完成專案主題的技能需求為基準,由負責專案的指導顧問進行選秀,根據個人技能與興趣分配。
感謝過往合作夥伴組織的建議,我們正式推出全新的「D4SG 333 短期方案」,即日起接受報名,預定於2020年六至八月舉辦。
333 短期方案
每個月選出至多三個提案,每個提案選派三名資料英雄參與,以三天時間為期,完成「最小可行性產品」的概念測試。
確切工作時間由各專案分別決定,但是為減少資料英雄請假做公益的時間,將以週末為優先考量。
提案單位需派員全程參與專案執行過程,但無須支付資料英雄之服務費用。惟如最終媒合成功之資料英雄所在地與提案單位距離較遠者,則須請提案單位協助提供交通費用補貼或安排提供住宿事宜。
D4SG 將優先媒合在地資料英雄,以便回饋鄉里。
歡迎有興趣而且有資料的政府機關或非營利組織報名。請填寫報名表單 (http://d4sg.org/fellowship/call-for-proposal/)
若有任何問題,請隨時聯絡我們。
聯絡方式:
陳潔寧 經理
電話:(02) 2720-4228
Email: ning.chen@dsp.im
D4SG 資料英雄計畫
D4SG 資料英雄計畫 (Data for Social Good) 是由 DSP 智庫驅動股份有限公司與財團法人開拓文教基金會共同發起的「資料力做公益」計畫。有鑒於公益性質組織(非營利、政府等)雖然累積了大量的營運數據,卻遲遲無法發揮資料價值,我們從 2016 年開始,號召社會各界的資料科學家組成團隊,協助超過 40 個非營利組織與政府機關從做中學,體驗資料價值,讓想像力起飛,促進公共服務的創新。
誰適合參加
2019 歲末,和曾經參加、以及還沒來得及參加 D4SG 的夥伴們道安。
回顧今年,感謝各路資料英雄持續的正能量貢獻,我們不僅讓資料英雄專案在成果發表之後還能持續發展,更啟發其他政府機關起而效法,推動類似計畫。
除此之外,我們也積極推動國際連結,協助泰國與緬甸的在地組織開始規劃當地的 D4SG 計畫,並邀請柬埔寨與其他國家的國際團隊參與「總統盃黑客松」,促進國際交流與合作。
遺憾的是,D4SG Fellowship 冬季班將暫停舉辦,因為我們的專案經理為了解決國安問題,親力親為,提升生育率。
展望 2020 年, D4SG Fellowship 將轉型為其他形式,讓大家以更歡樂的方式參與,動手做資料分析,解決社會問題。