未來城市:政府開放數據 公眾更知情?

文章日期:2019年10月13日

【明報專訊】「數據有沒有蒐集?蒐集後有沒有公開?公開得夠不夠仔細?以什麼方式表達?」

「零時香港」發起人黃浩華說,香港政府在這些方面,統統要打手板。

每年我們緊緊盯着香港競爭力的全球排名,又是否知道在全球開放資料指標排名中,香港只位列24,更在5個評分細項中捧蛋?

為什麼我們要關心這個城市的資料是否足夠地開放?

夠開放,城市就會進步?

1.取得政府資料 程式做查證

約在首次光顧的餐廳見面,把地址輸入網上地圖,程式很快便為我定位,指引去路,暫且能解決我的尋路疑難。梁逸風問,現在你手上有的是一個地址,如果你有一千個地址,而你想做一些分析,譬如近日很流行,想知道哪些店是黃店,哪些是藍,零零散散靠不同人報料得知地址,一個地址又有很多種寫法,而電腦其實看不懂文字的,你想知道這些店的分佈,就要花大量人力物力,逐一搜尋地址,抄下資料,再歸類整理。梁逸風和同樣現職軟件工程師的黃漢斌在一次「黑客松」活動中一同創建「香港地址解析器」(Hong Kong Address Parser),此工具現於政府「資料一線通」開放予公眾使用,輸入地址,即可拆分成地區、街道、門牌、大廈,並得出經緯度坐標,方便批量分析和製作分佈圖,「如果你將黃藍店的所有地址扔到這個工具,就可以知道哪區多哪區少,加上有GPS,就可以一點點標示」。

問到程式設計的原理,梁逸風說其實依靠政府的開放數據。他說資訊科技總監辦公室和地政總署各有為公眾分拆地址的網上工具,但準繩度低,資料不整全,之前搜尋「政府總部」和「立法會」竟得出錯的答案,他在黑客松的報告環節上說,在資科辦的工具上無論搜尋什麼都有結果,「例如我打『a』,它怎也會給一個如『阿公岩道』的答案,假如大量處理資料,假設一千個地址,其實不會知道對錯」。梁逸風形容「香港地址解析器」是站在巨人的肩膊,巨人是政府,他們取得政府的資料和資源去建立,「我們的程式就是將資料做比對、查證,整理後提出結果」。

2.香港無規範資訊自由法例

明明是個巨人,擁有最多資料數據,為什麼偏會出錯?梁逸風曾就錯誤地址去信資科辦詢問,獲回覆「會適時更新」,一拖便是幾個月。「我相信它背後的資料分別從地政總署、路政署,有些從屋宇署拿取,再自己整理。我的理解是,資科辦不是很高層的決策部門,沒什麼牙力,署與署之間其實是平起平坐,很難叫其他部門提供資料。」

黑客松是組織「香港零時政府」(g0vhk.io)定期舉辦的活動,第六次聚會將在本周六(19日)舉行。發起人黃浩華說,香港並無任何規範資訊自由的專門法例,目前只有《公開資料守則》,雖然市民可要求查閱不同政策部門及其他相關機構持有的資料,但沒有法律效力,就算部門不跟進也不會被控告。「最終都會給你資料,但就衍生一些問題——給你的資料要有幾詳細?要給你多久的資料?沒有監管、規範。」黃浩華舉例說,如果想知道豬肉過去十五年每斤的售價變化,相關部門可能給出每年平均價格,「如果想知道豬瘟如何影響售價,看一整年的平均價可能不知道,要知道每個月,甚至每日,一年要有365個數字才看得清」。

3.無原始數據 只有圖檔 得個睇字

數據有沒有蒐集?蒐集後有沒有公開?公開夠不夠仔細?黃浩華說這些都是香港政府要「打手板」的地方。此外,他關注公開的資料是以什麼方式呈現,並說「資料一線通」上其實放了城市不同種類的數據資料,例如登革熱個案統計、樓宇買賣數據,也可按氣候、商業、發展、教育分類搜尋。但各種資料與數據,卻以不同格式展示,例如PDF、文字檔,甚至圖檔。黃浩華打開手機,向我展示搜尋隧道實時行車情况的結果,得出一張融入三個數字的圖,「人腦當然可以閱讀,但如果想提取data計算、做資料整理,就會發現唔對路」。黃浩華強調開放數據並非指任何電腦能夠下載的資訊,定義應該更為嚴謹,「要是機器可處理的格式,我才可以嵌入我的solution裏,否則只是『得個睇字』」。黃浩華繼續以隧道程式一例解釋,「知道呢一刻的行車情况,然後呢?問題是要透過數據分析來解決的,譬如想知早午晚,哪時段最塞車」。現在若要開發程式記錄數據,就要不停refresh再抄下,或者透過OCR技術存取照片靠程式認字,「但這並非正常蒐集資料的方法,除非是印刷資料才要這樣做」。梁逸風說資料「靚仔」,除了要整齊、統一和仔細,「原始」也是關鍵,愈原始愈能提取更多資訊。諷刺的是,許多政府部門公開的資料往往將原始資料處理,再以多種方式呈現,若要取用,需自行想辦法從「加工成品」逆向提取原始數據。黃浩華大嘆反智,卻承認他們某些項目的確做着這些反智的事,「要讓數據提升社會效率,靠不同團體使用這些數據開發多樣用途,無法innovate(創建)下去,那就止步了」。黃浩華認同不同數據以不同方式呈現有利閱讀,認為即使開始時出於善意,過去五年一直有意見回饋,當局沒可能不清楚這些流弊,質疑怎可能仍未了解開放數據的對象,也不知道下載數據後有什麼用途,「除了程式開發人員,就算做研究或者記者,都要下載excel睇,如果連這步都做不到,又serve少了某部分人」。

4.資訊透明 揪出塞車成因

g0vhk.io受台灣「零時政府」(g0v.tw)的理念啟發,黃浩華說希望透過開放源碼程式編寫(Open Source Program)令數據透明化,增加大眾知情權,「不一定與政治有關,可以是民生社會事,令大眾更了解事情,從而做到公民充權」。數據透明化,有助找出問題癥結,否則討論只會停留簡單層次,黃浩華以等不到巴士為例,受影響乘客可能將不滿發泄在巴士司機身上,「批評『你無做嘢啦』、『都係咁㗎啦』,其實未必是前線員工失誤造成,或者不是一次半次的問題,可透過數據提示系統、結構的問題」。「你沒有數據其實講不出這些成因的。」知道成因,才能訂定解決方案。

5.以數據監察政府

數據開放有助監察政府運作,g0vhk.io七月時更新他們的「開支預算問題書面答覆搜尋器」(budgetq.g0vhk.io),將2019年財務委員會開支預算共七千二百條問答上載。原意為議員助理設計,他們做資料蒐集時,一般不按年份去查,而是按議題或議員名字搜尋,但政府官網的會議紀錄則按署與局為單位,按年份分類,「我就想將它數碼化,成為人類可用的工具。讓人看到不同政黨、不同議員關心什麼。又或者你想知道一年拉了幾多水貨客,看到拉了五個、十個,你就會問,一日有咁多水貨客,一年點解拉得咁少。這就是想資料更透明的原因」。梁逸風說。政府官網的會議紀錄甚至以PDF格式呈現,若於搜尋引擎上搜索如「食環署」、「水貨客」,未能搜到特定紀錄檔案。

組織最近亦開發了「區議會投票指南」,只需輸入候選人,就能了解他的背景如政治聯繫、參選紀錄、會議出席率,稍後亦會加入政綱。搜尋選區,以屯門良景為例,除可得知已接獲提名的名單,亦顯示選民人數以及特色如「偏多與子女共住」、「偏少大專畢業生」、「偏少新移民」、「家庭月入偏低」和「甚多藍領」,有份參與開發程式的梁逸風認為這正好示範如何利用開放數據增加資訊透明度,「令人更易了解自己的區發生什麼事,這是選民的公民權利,有助他好好利用自己一票」。

6.公眾知情權侵犯私隱?

「為什麼政府不主動公開數字?有數據就可以說服大家實情如何。民間可能只蒐集到部分數據,未必夠全面,沒有數據作為基礎,就不能對質。」黃浩華認為大眾有一定的知情權,以反修例運動為例,資訊透明影響很多層面,譬如8‧31事件正因資訊不足,引起許多恐慌猜測。當事情一天慢慢沉寂下來,單方或雙方面希望查明政府部門在什麼時候出錯時,更需要如催淚彈發射時地、拘捕人數與年齡、警方使用武器等資料來「埋單計數」,「香港沒有集體訴訟,但某一天總要有個渠道解決問題,曾經受害的人以最和平理性方式追究就是循民事訴訟,受害者未必敢主動走出來,可能要靠某些團體找回他們,這些資料就有用了。跟法庭陳述事實時,這些資料對保障市民知情權非常重要」。黃浩華說。梁逸風說公眾知情權涵蓋政治上比較中性的關注,「發射過催淚彈的地方,其實有殘留物,哪裏有,哪裏沒有,當殘留物可致癌,其實要謹慎處理。普通街坊都想知道位置、幾多顆,可能會避免去」。

談到知情權,往往牽連保障私隱的考慮,黃浩華認為私隱是開放數據的必然考慮,但不應「一刀切」逃避,若牽涉國防機密或個人私隱,可分開處理,「其實香港很少這些情况,始終是一個特區,不是有很強軍事部署的國家。又例如病人私隱,假設想知道某醫院收到的血癌、腦癌個案,可能一年得一兩宗,透露哪區的醫院出現這個數字,就可能泄露了那病人的私隱。但有些好大路,譬如手足口病、發燒、急症室分流中每個級別幾多人睇病,相對來說就無咁私隱」。若遇上灰色地帶,亦可透過討論和諮詢處理。黃浩華舉例說,現時查詢巴士到站時間必須使用巴士公司app,他打開程式,先嘆一句「唔明點解可以有廣告」,他說若想就每條路線的成效深入分析,需要自行「撈數據」,但巴士公司的資料具商業價值,政府不能逼它交出,但若市民自行將資料還原成原始數據則可能被警告。於黃浩華看來,公共交通服務市民大眾,而且效率影響公眾利益,獲得專營權便應負上一定社會責任,所以它的數據應為市民財產,「無端端停站、跳站,影響大眾日常生活,公眾很理所當然有知情權」。梁逸風記得一次到越南旅遊,當地除了官方巴士app,也有不同人透過政府與巴士公司的開放數據開發更多巴士app,「有很多民間協作,市民也有很多選擇」。

7.政府責任 思維大改造

國際組織Open Knowledge Foundation最新的全球開放資料指標排名中,台灣位居榜首,香港卻排名24,更在「政府開支」、「公司註冊」、「行政邊界」、「位置資料」和「土地擁有權」5個領域中捧蛋。梁逸風說林鄭月娥上任後雖然升格資科辦,又要求不同行政部門訂立公開數據的目標並按量實行,但他形容情况像「捽數字地交功課」。黃浩華強調若要認真實行數碼轉型,並非金錢能夠解決,需要思維上徹頭徹尾地改變,「簡單來說就是教育員工,他們不會知道點儲data,data entry要如何入,如何分不同column,remark要另外標註,輸入數據後要覆查一次,定時透過IT部同事上載某個地方」。黃浩華提醒那是非技術層面上的部門整頓,「這個圖景要每一個部門,不止管理層知道,甚至要教育EO級別和合約員工,他們認知這樣做有什麼裨益」。因為資料和數據稍縱即逝,沒有刻意好好分類儲下,將來沒法挽回,他重申,須靠訂立法例、改革政府部門和提升資訊科技才能推動數據開放,因此政府責無旁貸。

【數據篇】

文//潘曉彤

圖 // 網上截圖

編輯 // 蔡曉彤

fb﹕http://www.facebook.com/SundayMingpao