[心得] 用數據預測危機,一個社工系學生的學習之旅
參加初衷
一開始之所以會參加資料英雄計畫,是因為看到大數據運用於商業、行銷,並大致了解大數據的概念之後,覺得如果可以把大量資料分析並預測、調整作法的概念運用於社會工作領域上面那該是一件多麼美好的事,不但可以較容易了解擁有什麼樣行為模式的案主比較可能發生狀況、讓社工可以加強對他們的處遇,將預防做得更全面,同時也可以讓社工人員追蹤什麼樣的處遇方式對什麼樣的個案可能最有效果,將最適當的資源放置在最需要的地方,減輕工作的負擔。抱持著這樣的想法,某一天在網路上搜尋時正好看到資料英雄計畫之前做有關於火災預警以及台北市家暴防治的成果,覺得這是一個可以對資料科學增進了解,同時也了解自己想法實際行動的樣貌,於是就報名,幸運地獲選入高風險危機示警的計畫中,也看到了當初未曾想過的風景。
對高風險系統的認識
雖然身為社工系的學生,對於社會工作的工作方法、社會福利及輸送的體系有大致知識上的了解,但是實際上在台灣每個縣市政府下的社會安全網是如何被建構、系統的運作流程及方法也都不盡相同,我也沒有對這部分有進一步的了解。整個資料英雄計畫中最重要的部分大概就是對於新北市高風險系統運作流程的了解了,唯有了解整個高風險運作體系以及高風險中心在當中扮演的角色,才知道要用什麼樣的資料以及用什麼變項來分析,分析結果才可以對高風險中心的業務產生效益。新北市的高風險系統真的做得非常完善,從通報、成案、派案到開案、結案,除了社會局以及高風險中心本身以外,還結合了九個局處一起來為高風險家庭及兒童服務,透過高風險中心的同一派案可以讓個案儘快至適當的局處接受服務,達成個案管理的效果,除了讓個案能夠獲得最需要的資源與服務,也能減少各局處做重複業務的行政成本。
不過於此同時,也了解了中央與地方上的差異,高風險的通報標準是中央政府訂出的,不過對於高風險家庭卻沒有確切的定義,各縣市政府的流程及方法也不同,不只如此,中央與地方的資訊系統也不一致,工作人員要適應不同系統,每個系統也都有很多內容或是步驟、有一定的複雜度,導致還要花費額外的時間去適應以及填寫不同的欄位,若是中央和各地區的系統可以整合成同一個的話,不僅同樣一份資料只要寫一次,若要轉介至其他縣市,也可以方便工作人員進入狀況,銜接服務。
對資料分析過程的觀察
而這次計畫讓我收穫最多的當屬於資料分析的部分了,不但實際參與了整個過程,也讓我了解如何將不同的統計方法應用於真實的情況中,也開始學習一點R語言。
我覺得在資料分析中,除了對於整個系統與狀態的了解以外,最重要的即是資料取得的來源與定義,因為這樣才能夠對資料做最合適的處理,做出來的結果才能產生意義。在決定到底要做什麼內容之前,需要不斷討論、不斷了解、不斷確認,一來是要確認哪些資料是可以使用的,包含資料的內容、什麼狀況會填答、填答的狀況是否有許多空值等等,也要確定什麼題目是對需要資料分析的單位是有意義的,所以要確認題目就要花費很長一段時間,這是我始料未及的事。
高風險中心給我們數萬筆資料,但許多欄位是一些基本資料的描述,是質性的資料無法分析,或者因為制度設計上並沒有強制規定一定要填而產生了許多空值,同時也有產生因為資訊系統勾稽上產生的問題而導致的困難,所以光是確定要做的題目是不行的,要清理資料、確定某一筆資料是可以使用的才能夠真正確定。同時出乎我意料之外的是,原本以為只能做什麼樣的家庭背景或者指標可能較容易進入高風險系統甚至兒童保護系統,後來竟然可以運用通報次數或者燈號的變化等做出預測,又學到了新的想法!
這次的經驗真的很寶貴,不但整體參與了討論的過程,也從其他成員們做的事情當中了解了在處理資料時要做的事情有哪些,而不只是單純的紙上談兵,真的覺得很幸運可以參與資料英雄計畫的高風險中心組!
學R的一些心得想法
最後,在毫無任何R語言基礎即進入專案中的狀況下,為了能夠跟大家一起工作,在暑假時我也開始學習R語言。我所參考的資料是R語言翻轉教室,裡面的課程設計是一課一課進行,會有說明、舉例,同時也可以自行操作,每一課最後都會有作業,可以自己思考。對於不熟悉程式語言的人來說,自學還是會有一定困難。對我來說最複雜的部分應該是在函數裡面要放的內容,或是物件性質的差異,另外,自學課程相較於實體課程困難的部分也還是學生的差異性,每個學生有問題的地方也都不同,不可能面面俱到,有些地方也不一定都說明詳細,需要自行查資料。還有最痛苦的是腦袋中有想法可是無法實現,上網查的時候,可能也因為關鍵字不正確所以也找不到做法。程式碼無法順利運作時,找錯誤也是一個困難的過程,可能還是需要不斷練習、參考別人寫的程式碼才能夠有持續的進步,我也會在學習R的路上繼續邁進。