六千英里公路,
六百英里地鐵路線,
四百英里腳踏車專用道,
半英里的有軌電車專用道
僅在羅斯福島。
這些數字構成了紐約市的基建。
這些基建的統計數字,
都可以在市政機關公佈的報告中找到。
譬如,交通部門可能會告訴你,
他們維護這多少英里的道路。
MTA(紐約交通運輸管理局)會自誇
他們掌管著多少英里捷運。
多數的市政機關都在公佈統計數據。
這是今年計程車與轎車委員會發佈的報告,
我們從中知道紐約市運營著
大約一萬三千五百輛計程車。
很有趣,是嗎?
但你有否想過這些數據來自哪裡?
既然有這些數字存在,
那肯定是因為在市政機關的某個人
想過:嗯......這個數字可能有人會想知道。
這個數字是市民們想知道的。
所以他們找回那些原始數據,
他們計數、相加、計算,
然後把得出的結果寫進報告中,
所以那些報告中會有這樣的數字。
那麼問題來了:他們怎麼會知道
我們的問題都是什麼?
我們有很多問題。
事實上,可以說我們有無窮無盡的問題
有關我們這座城市。
市政機關可無法跟得上(我們的節奏)。
現有模式並不具有實效,我覺得
我們的政策制定者也知道這點,
因為在2012年,彭博市長
簽署了一個法令,他稱之為
全美最具雄心和綜合性的
開放數據立法。
從各種意義上來說,他是對的。
在過去兩年中,市政有1000個數據庫
放在我們的開放數據門戶網站上,
還是蠻驚人的。
我們來檢視這些數據,
除了數數計程車的數量,
我們也能開始問不一樣的問題了。
我有一個問題:
紐約市的交通高峰在什麼時候?
這簡直煩人。高峰到底是什麼時候?
我想到,這些計程車可不僅僅是個數字,
它們可以是開遍全市道路的GPS記錄儀,
記錄著乘客的每一差車程。
數據是現成的。我檢視它們,
並制出一張圖表,標出
一天中紐約市計程車的平均時速。
大家可以看到,
從半夜到凌晨五點十八分,
時速一直在增加,然後到了拐點,
時速逐漸下降,在早間的八點三十五分,
時速降到十一英里半。
運營中計程車的平均時速
保持在十一英里半,
結果沒有變化,
整天都是如此。
(笑聲)
我告訴自己,紐約市並不存在高峰時段,
而是全天都高峰。
這是個有意義的結論,原因有幾點。
如果你是做交通規劃的,
知道這個結論會有意義。
如果你要快速到達某地,
只要把鬧鐘定在凌晨四點四十五分就行了。
紐約嘛!
但這個數據背後還有故事。
這個數據並不真的是現成的。
你需要做一個「信息自由法案申請」,
也叫「FOIL申請」。
你可以在計程車和轎車委員會的網站上
找到相關申請表。
如果要獲得這些數據,
你要弄到這張申請表,
填好上交,受理人員屆時會通知你。
一個叫克里斯▪旺的人就這樣做了。
克里斯來到委員會,工作人員告訴他
「帶個全新的硬盤來辦公室,
我們會把相關數據拷貝給你,
過五小時來拿。」
這就是拿到數據的經過。
克里斯想公開這些數據,
於是放到網路上供所有人使用,
所以我才能做出這張圖。
這一切——這些GPS記錄儀真是酷。
但是,市民要攜帶自己的移動硬盤
踏遍市政機關,
然後通過自己的努力公開,這件事——
政府數據可以說是公開的,
普通市民能得到它,
但這只是名義上的「公開」,
並不是真正的公開。
我們的城市可以做得更好。
我們不需要費力帶著移動硬盤到處跑。
並不是每一個數據庫都需要FOIL申請。
我做的這張地圖標出了紐約市最危險的路口,
來源是腳踏車騎行者的交通事故數據。
紅色區域更危險,
圖上顯示,首先,曼哈頓的東側,
特別是曼哈頓的下城區域,
腳踏車事故更多。
這可能是因為,
在這裡有更多的騎行者從大橋下來。
圖上還有其他的熱點區域值得研究。
威廉姆斯堡、皇后區的羅斯福大道,
這些咨詢才是Vision Zero項目所需要的。
這正是我們要找的東西。
這個數據背後也有個故事。
這個數據並不是現成的。
有多少人知道這個符號?
我看到有人點頭了。
你們有沒有試過從PDF文檔中
拷貝和黏貼數據,
並據此作出結論呢?
我看到更多人點頭了。
試圖拷貝粘貼的人
比認識這個標誌的人更多,真有趣。
你們剛剛看到的數據是做在PDF裡的。
事實上,是成千上萬頁的PDF文檔,
由我們的紐約警署發佈。
如果你想享用這些數據,
你要不就持續
做複製黏貼的動作,花掉成千上萬小時,
要不就像約翰▪克勞斯一樣。
約翰▪克勞斯
可不想重複地去複製黏貼,
他寫了一個程式。
這個程序叫做
「紐約警署交通事故數據OK蹦」,
它能到紐約警署的網站下載PDF文檔,
每天它都去搜索;
如果找到一個PDF文檔,就下載下來,
然後運行某個PDF解碼的程式,
把其中的文字信息提取出來,
其中的訊息會發佈在網路上,
人們就可以製作這些地圖。
這些數據就在那兒,我們都能得到——
每一個交通事故就是一行數據。
你們可以想像有多少PDF需要轉碼。
——我們能看到這些數據固然好,
但能不能不要弄成PDF格式的,
不然市民們就得去寫PDF解碼的程式,
這對市民的時間來說是一種浪費,
而我們的城市能做的更好。
有個好消息,白思豪市長的班底
在幾個月前公開了這份數據,
所以我們能直接享用這些數據,
然而還有很多數據是PDF格式的。
譬如,我們的罪案數據目前只有PDF格式的。
除了罪案數據,市政預算也是如此。
目前我們的市政預算只有PDF格式的。
不僅是我們無法分析這些數字,
那些為市政預算投票的立法委員們
也只能拿到PDF版本的數字。
所以我們的立法委員是無法分析
他們要為之投票的市政預算的。
我認為我們的城市還能做得更好。
很多數據已經不躲在PDF中了。
這裡有一幅地圖可以作為例證,
標示了紐約市最骯髒的水路。
我是如何衡量「骯髒」的呢?
這裡有些奇怪,
我衡量的是糞便大腸菌群的水平,
這是水路中糞便物質的一種衡量指標。
圓圈越大,水就越髒,
所以圖上的大圓圈代表髒水,
小圓圈代表乾淨的水。
大家看到的是內河水道。
這裡有紐約市過去五年採樣的所有數據。
內河水道總的來說變髒了。
這個結論挺合理的,對嗎?
大圓圈代表髒水。
我從中學到了幾件事情。
第一:千萬別在任何叫做「xx溪」
或「xx運河」的地方游泳。
但是第二:紐約市最髒的水路,
只看(糞便大腸菌群)這個唯一的指標,
在康尼島溪,幸好不是你們游泳的康尼島。
那在島的另一面。
但在康尼島溪中,
過去五年的採樣中有94%
含有超標的糞便含量,
以至於達到州法律禁止游泳的水平。
這種類型的事實
你可不會在市政報告中看到,不是嗎?
這也不會登上紐約市政府網站的頭條。
我們肯定不會看到的,
但能看到這些數據真實不錯。
同樣,拿到這些數據並不容易,
因為它們並不在公開數據門戶網站上。
如果你看公開數據的門戶網站,
你只能看到其中一些片段,
只有一年內或幾個月的數據。
這些數據其實是在環境保護部門的網站上。
每一個鏈接都是一個Excel文件,
而每個Excel文件都是不一樣的。
每一個表頭都不同:
需要複製、黏貼、還有重新整理。
一旦完成你就能做出這些地圖,
但我要再次重申,
我們的城市能做的更好,
我們可以標準化。
我們正在改善這裡有個
索克拉塔公司建立的網站
叫做「紐約市公開數據門戶」。
這裡,1100個數據庫
都不存在標準化的問題,
而且(這些無縫連接的數據庫)數字還在增加。
你可以下載任一格式的數據:
CSV、PDF或Excel文件都可以。
按你自己的需求來下載。
但問題又來了,
你會發現不同的機構
用不同的代碼來表示地址。
有街道名、有路口名、
行政區、地址、建築物、建築物地址等等。
所以,即使有這個門戶網站的幫助,
你還得花時間來標準化地址這塊的數據。
這也不是有效利用市民時間的方法。
我們的城市能做得更好。
我們可以對地址進行標準化,
如果做到了,
我們就能做出更多這樣的地圖。
這是紐約市消防龍頭的地圖,
但不僅於此。
這些是前250個吃到最多違章停車罰單的
消防栓位置圖。
(笑聲)
我從圖中學到了幾件事,
我也真的喜歡這張圖。
第一:別在上東區停車。
千萬別停。因為不管停哪裡都會吃罰單。
第二:我找出了全紐約市最最容易
吃到違章停車罰單的兩個消防栓的位置,
兩個都在下東區,
每年能在罰單上創收五萬五千多美金。
我注意到這點,覺得有些奇怪,
於是深入挖掘了一下原因,
結果發現消防栓
都有一個叫做控制擴展的區域,
是約有七英呎的一塊地方,可以走路,
然後是一個停車位。
所以車開過來,司機發現消防栓,
想“還有一段距離,這裡沒問題的”,
何況地上還有一個畫得美美的停車位,
司機停好車,但紐約警署不同意這種配置,
開出了罰單。
可不只是我本人吃了罰單,
這是谷歌街景拍到的一輛過路車,
也吃了同樣的一張罰單。
於是我把這件事發到自己的部落格上
以及“I Quant NY”上,
結果交通部門回復如下:
“交通部並未就此地點收到相關投訴,
我們會重新檢視道路標誌,
並做出適當的改善措施。”
我暗自想:多麼官腔!
好吧,我該幹嘛幹嘛去了。
然而,幾週時間過去,
發生了意料之外的事情。
停車位重新畫了,
那一瞬間我覺得能看到公開數據的未來。
大家想想這件事,
過去五年,這個讓人困惑的停車位
一直讓人吃罰單,
但某一天,一位市民發現了問題
報告市政機關,又過了幾週時間,
問題車位被修正了。
太不可思議了。很多人認為
公開數據讓市民變成政府的監視者,
並非如此,它實則讓人們成為了合作夥伴。
市民能夠有底氣成為政府更好的合作夥伴,
這並不難。
我們只需要作出一些改變。
如果我們在申請FOIL信息自由法案數據,
如果你看到自己申請的數據已經被反覆申請,
讓我們直接向公眾公開,
因為反覆申請就是需要公開的一种信號。
如果某個政府機關正在發佈PDF數據,
讓我們通過法案
要求他們發佈隱藏的數據,
因為這些數據必定有來源。
我不知道從哪兒,但肯定有來源,
可以發佈PDF之外的信息。
讓我們運用并分享一些公開數據的標準。
讓我們從紐約本市的地址開始,
把地址標準化。
因為紐約是公開數據的領導者。
儘管如此,我們絕對是公開數據的領導者,
如果我們開始做標準化的工作,
建立公開數據的標準,
其他人都會追隨的。州里會、聯邦政府也可能,
我知道這或許聽上去有些瘋狂,
但別的國家也未嘗不會追隨。
我們不久後也許能開發出
可以涵蓋100個國家地圖信息的程式。
這可不是科幻小說,
而是指日可待的事實。
這能幫助誰?
可不單單是約翰▪克勞斯和克里斯▪旺。
紐約城現在正有幾百個聚會在進行,
都是活躍的聚會。
這些聚會讓幾千人參與其中。
他們下班後或在週末會面,
共同研究空開數據,
幫助我們的城市變得更好,
BetaNYC這樣的團體,上週剛剛發佈了
citygram.nyc
讓你能夠訂閱311個
自己住家或辦公地周圍的投訴。
你輸入地址,就能看到附近的投訴。
而且,做這些事情的並不限於技術社團。
我在Pratt學院教的城市規劃學生
也在做同樣的事。
還有政策提倡者、以至每個人,
是擁有不同領域背景的市民們。
隨著一個個小的改變,
我們能解開市民們激情和能力的封印,
好好利用空開數據,建設更好的城市,
就算每次只有一個數據庫,或只是一個停車位。
謝謝。
(掌聲)