網絡安全:開放數據不應閉門造車

文章日期:2020年02月15日

【明報專訊】筆者因研究需要,經常瀏覽與數據有關的政府網站,留意到香港開放數據平台「資料一線通」出現兩大更新:一是以圖表實時展示天氣、交通等生活數據的「城市儀表板」;二是公布了2020至2022年度開放數據計劃。前者是全新功能,需時檢驗效果,後者是繼2019年之後的第二份年度計劃,一年來公衆及傳媒對此已有所探討,筆者願在此與讀者分享初步觀察。

1個數據集分拆36個 「發水」求達標

政府制定及公布開放數據年度計劃的做法始於2018年末,稱將在2019年開放超過650個新數據集,「資料一線通」的數據集將由3300個增至近4000個,增長約兩成,可謂雄心勃勃。有傳媒點算,截至2019年11月已經開放695個數據集。其間雖有部門延遲發布,不過綜觀全年是「交到數」。能按進度落實計劃值得肯定,惟原因既可能是執行力強,亦可能是刻意選取較容易的目標所致,魔鬼總是藏於細節中。

翻查2019年計劃清單,第一印象是龐雜,但略作瀏覽就不難發現規律乃至重複之處。以近月公衆較關心的區議會數據為例,計劃中列出的相關數據集多達40餘項,僅選民登記資料就分18個區公布(其實全由選舉事務處一個部門負責),然後分為「登記」和「新登記」兩類並再按年份列出,於是乎本應為一個數據集的資料被拆分為36個甚至更多,有「發水」之嫌疑。作為對照,香港的長期參考對象新加坡就簡潔得多,從1955至2015年的各類選舉資料全部匯集於同一個數據集之中,其實亦是一種更便利公衆查閱及分析的安排,值得學習。

將一個數據集拆分成多個發布可令當局「做靚盤數」,但用家就多了一重合併數據的工作(尤其是要做分析的研究人員),造成不便。不過,更重要的問題是公衆想要的數據當局又會否發布呢?

市民關心數據 未見蹤影

以熱門的房屋土地問題為例,2019及2020年發布的計劃中分別有74及53項相關數據集,但遍查兩年計劃及現有「資料一線通」網站,都找不到市民經常提及的公屋輪候時間,只有房委會網站刊登過去1年的輪候時間統計,至於過往數年的數據,除在一份房委會小組文件簡要提及外,幾乎無迹可尋(而且文件為PDF格式,亦不符合開放數據標準)。而另一公衆焦點「棕地」數據,就要等到今年6月才會發布。以上例子,難免令人質疑政府各部門在制定開放數據計劃時是否閉門造車?

「資料一線通」目前有提出意見一欄,但限於針對現有資料庫,若市民想建議增加某個資料庫便無功而還。而亞太區的其他先進城市,就比香港「開放」得多,例如台北市的平台便設立「建議開放資料」討論區,市民可以公開建議,相應的政府部門亦須答覆。上海市就在2019年度開放數據計劃中,明確要求各部門主動回應社會及企業的數據需求,「以需求為導向制定公共數據開放清單」,其平台亦設有與台北類似的公衆討論區,但暫時未見有上海政府在區內回覆。

特區政府近來重視開放數據,於1年前引入公布開放數據計劃的做法,是好事一樁。不過,開放的不應只是數據本身,更重要的是開放心態,制定政策與計劃的過程要透明,按照市民需要開放數據集,而閉門造車可能會引致與政策「初心」背道而馳。這是一個在今日香港尤其值得深入探討的議題。

文:周穗斌(香港互聯網協會研究員)