Data for Social Good Data for Social Good
  • 最新消息
    • 佈告欄
    • 熱門活動
  • 資料英雄計畫
    • 團隊募集
    • 專案成果
    • 資料英雄榜
  • 媒體報導
  • 聯絡我們
  • 最新消息
    • 佈告欄
    • 熱門活動
  • 資料英雄計畫
    • 團隊募集
    • 專案成果
    • 資料英雄榜
  • 媒體報導
  • 聯絡我們

自然語言處理

  • Home
  • 自然語言處理
06 十月

採購稽核智慧化

  • Posted by 值班編輯
  • Categories 資料英雄計畫
  • Comments 0 comment

Fellows:王政雲、張沛詠、曾仲毅、楊寓鈞
Mentor:劉嘉凱
Project Partner:臺北市政府工務局採購科
問題描述
每個月稽核委員完成現場查察後須依限撰寫稽核報告,將查證結果以三段式寫法呈現,分別為「法規依據」、「違規事證」及「改善建議」,並送交稽核小組查核員同仁進行校稿彙整。當採購稽核委員在系統輸入缺失意見及其援引法規時,容易誤用法規,因此台北市查核員經常需要花費大量心力協助調整為正確法規。
希望藉由「法規推薦」的方式,在委員輸入缺失意見時,自動推薦相關的法規,降低錯誤使用法規的頻率,提升委員稽核報告之撰寫效能與品質。
分析方法
一、流程概述
依據市府提供資料進行討論,補足相關資料後進行推薦系統的設計,並重複進行準確率評估和調整模型。

(一)、資料蒐集
除了北市府提供的訓練資料和測試資料外,我們依據建模需求,藉由網路爬蟲蒐集相關輔助資料。
資料清單

訓練資料:200801至202008缺失類型(法規分段例),法規的部分有23,228筆。
測試資料:原始意見及定稿意見彙整表_v3,共49筆。原始意見為委員原本輸入的文字,定稿意見則為稽核同仁修改後的版本,用詞較為一致。
輔助資料 – 移除法規:法令依據/事實/改進建議分段,法規跟錯誤態樣各50筆。
輔助資料 – 移除法規:法令依據/事實/改進建議分段,法規跟錯誤態樣各50筆。
輔助資料 – 字典:法規字典、法規切分字典。

(二)、資料前處理
對原始資料和另外蒐集的輔助資料進行資料前處理。
以下為處理步驟:

(三)、模型建立及模型評估
進行資料前處理後,我們開始進行模型配適以及評估。

反覆使用不同模型進行訓練,再比對測試結果準確度,找到最高準確度的模型。
二、探索式資料分析(EDA)
在訓練資料的筆數分佈上,政府採購法的占比最高,將近三成,樣本的分佈不均可能會有兩個影響,一方面是樣本足夠的類別會得到較多的資訊,推薦成果較為準確,部分過少樣本可能因為資料不足而無法取得充足的資訊,而成效較差。

訓練資料的法規名稱的筆數分佈
測試資料集上,與訓練資料筆數分佈較為不同的有

Read More

分類

  • 佈告欄
  • 未分類
  • 紀錄
  • 資料英雄計畫

近期文章

  • 採購稽核智慧化
  • D4SG 333短期方案-錄取公告
  • [提案招募] D4SG 333 短期方案
  • D4SG Fellowship 冬季班暫停公告
  • 智慧防洪,韌性城市

標籤

OCHA workshop 便民看板 兒少保護 家暴預警 就業輔導 急轉診 排班管理 政府採購 文字雲 水土保持 法律扶助 火災風險 畜牧廢水 社會救助 空汙 結巴 緊急醫療優化 脫離貧窮 自然語言處理 資料工作坊 資料英雄計畫 農地種電 開放資料 防洪 隨機森林 韌性城市 高風險家庭

彙整

  • 2021 年 十月
  • 2020 年 十月
  • 2020 年 五月
  • 2019 年 十二月
  • 2019 年 八月
  • 2019 年 二月
  • 2019 年 一月
  • 2018 年 十二月
  • 2018 年 十一月
  • 2018 年 七月
  • 2018 年 六月
  • 2018 年 二月
  • 2018 年 一月
  • 2017 年 十二月
  • 2017 年 六月
  • 2017 年 五月
  • 2017 年 三月
  • 2017 年 二月
  • 2017 年 一月
  • 2016 年 十二月
  • 2016 年 十一月
  • 2016 年 八月
  • 2016 年 七月
  • 2016 年 六月
  • 2016 年 一月
  • 2013 年 六月

D4SG資料英雄計畫 ©2014-2019