Sáu nghìn dặm đường, 600 dặm đường ngầm, 400 dặm đường xe đạp và nửa dặm xe điện, nếu bạn đã từng đến đảo Roosevelt. Đây là những con số tạo nên cơ sở hạ tầng của New York. Đây là thống kê cơ sở hạ tầng. Những con số tìm thấy trong báo cáo của cơ quan thành phố. Ví dụ, Sở Giao thông vận tải sẽ cho biết có bao nhiêu dặm đường được bảo trì. Cơ quan giao thông đô thị khoe về số dặm đường ngầm. Hầu hết các cơ quan thành phố cho ta thống kê. Báo cáo năm nay từ Uỷ ban taxi và xe Limousine, cho ta biết có khoảng 13,500 taxi ở thành phố New York. Khá thú vị, đúng không? Nhưng bạn có từng nghĩ những con số này đến từ đâu? Bởi vì để có những con số này, ai đó ở cơ quan thành phố phải dừng và nói, hmm, đây là con số mà ai đó rất muốn biết. Đây là một con số mà công dân muốn biết. Vì thế, họ tìm lại những dữ liệu gốc, họ đếm, họ cộng, họ tính toán, và họ đưa ra những báo cáo, và những báo cáo đó sẽ chứa những con số thế này. Vấn đề là làm thế nào để họ biết tất cả các câu hỏi? Chúng ta có rất nhiều câu hỏi. Trên thực tế, theo cách nào đó chúng ta có vô số câu hỏi về thành phố của chính mình. Những cơ quan không bao giờ có thể theo kịp. Vì thế, mô thức này không hiệu quả, tôi nghĩ những nhà chính sách nhận ra, bởi vì vào năm 2012, Mayor Bloomberg đã thông qua điều luật mà ông ấy gọi là điều luật về dữ liệu mở tham vọng và toàn diện nhất cả nước. Ở nhiều phương diện, ông đã đúng. Trong hai năm qua, thành phố đưa ra 1,000 tập dữ liệu trên cổng dữ liệu mở, và điều đấy khá là tuyệt vời. Bạn đi và nhìn những dữ liệu thế này, thay vì chỉ đếm số lượng xe taxi, ta có thể bắt đầu hỏi nhiều thứ khác nhau. Vì vậy tôi muốn hỏi. Khi nào là giờ cao điểm ở New York? Vấn đề này khá phiền phức. Khi nào mới đúng là giờ cao điểm? Và tôi tự ngẫm, những chiếc taxi không chỉ là con số, mà còn là những máy ghi dữ liệu GPS di chuyển trong thành phố ghi lại mỗi và mọi chặng đường của chúng. Dữ liệu có ở đây, và tôi nhìn vào dữ liệu đó, và phác hoạ tốc độ trung bình của những chiếc taxi ở New York trong ngày. Bạn có thể thấy từ nửa đêm đến khoảng 5:18 sáng, tốc độ tăng, và tại thời điểm đấy, mọi thứ quay ngược lại, chúng càng ngày càng chậm lại đến khoảng 8:35 sáng, khi chúng dừng hẳn ở khoảng 11,5 dặm mỗi giờ. Một chiếc xe taxi trung bình đi 11,5 dặm mỗi giờ trên phố và hoá ra là nó không thay đổi trong suốt cả ngày. (Cười) Vì thế tôi tự nhủ, không có giờ cao điểm ở New York. Chỉ có một ngày chen lấn mà thôi. Có lý. Và điều này quan trọng vì một số lý do. Nếu bạn là một nhà hoạch định giao thông, điều này có thể rất thú vị. Nhưng nếu bạn muốn đến một nơi thật nhanh, giờ bạn biết phải đặt báo thức lúc 4:45 sáng và sẵn sàng. New York đúng không? Nhưng có câu chuyện sau những dữ liệu này. Hóa ra dữ liệu không có sẵn. Thật ra có một thứ gọi là yêu cầu quyền tự do thông tin pháp luật, hay là yêu cầu FOIL. Đây là một tờ đơn tìm thấy trên web của Uỷ ban taxi và xe Limousine. Để truy cập dữ liệu này, bạn cần lấy được tờ đơn này, điền vào và họ sẽ thông báo bạn, và một anh chàng tên Chris Whong đã làm chính xác như thế. Chris đi đến và họ bảo anh ta, "Chỉ cần mang một ổ cứng mới đến văn phòng của chúng tôi, để ở đây trong vòng 5 tiếng, chúng tôi sẽ chép dữ liệu và bạn đến lấy về." Và dữ liệu này đến từ đấy. Chris là kiểu người muốn công khai mọi dữ liệu, và vì thế, mọi người đều có thể sử dụng nó và đấy là lý do có biểu đồ này. Và sự tồn tại của nó thật tuyệt vời. Những người ghi GPS - vô cùng tuyệt. Nhưng thực tế có những công dân mang theo những ổ cứng thu thập dữ liệu từ cơ quan để công khai chúng - nó đã là của chung, bạn có thể tiếp cận chúng, nhưng nó là chung, không công khai. Và ta có thể làm tốt hơn thế. Dân chúng không cần phải đi khắp nơi với những chiếc ổ cứng Giờ thì, không phải mẫu dữ liệu nào phù hợp yêu cầu FOIL. Đây là bản đồ những nút giao nguy hiểm nhất ở thành phố New York mà tôi đã làm. dựa trên số vụ tai nạn xe đạp. Những vùng màu đỏ là vùng nguy hiểm. Và đầu tiên là phía đông của Manhattan, đặc biệt là vùng thấp hơn, số tai nạn xe đạp xảy ra cao hơn. Điều này hợp lý vì có nhiều xe đạp phóng xuống cầu ở đây. Còn một địa điểm nữa rất đáng nghiên cứu. Khu Williamsburg. Khu Roosevelt Avenue ở Queens. Và đây chính xác là dữ liệu cần cho Vision Zero. Đây chính xác là thứ chúng ta đang tìm kiếm. Nhưng lại có một câu chuyện ẩn sau nó. Dữ liệu này không chỉ thế mà biến mất. Bao nhiêu thính giả ngồi đây biết đến logo này ạ? Vâng, tôi thấy vài cái lắc đầu. Các bạn có bao giờ cố gắng sao và chép dữ liệu từ một bản PDF và cắt nghĩa nó? Nhiều người lắc đầu hơn rồi. Nhiều người thà sao chép hơn là biết về cái logo này. Tôi thích. Chuyện là, dữ liệu các bạn vừa thấy thực ra là từ một file PDF. Thực tế, hàng trăm trăm trang PDF ra đời từ chính Cục cảnh sát Hoa Kỳ, để tiếp cận với nó, bạn sẽ phải chép hoặc dán trong hàng trăm và hàng trăm giờ hoặc bạn có thể là John Krauss. John Krauss đại khái là, tôi sẽ không sao chép lại dữ liệu này. Tôi sẽ viết một chương trình. Nó tên là Ban hỗ trợ sự cố về dữ liệu của Cục cảnh sát Hoa Kỳ ban này sẽ đăng nhập trang web của NYPD, và tải về các tệp PDF. Công việc mỗi ngày là tìm kiếm và tải về bất cứ tệp PDF nào xuất hiện sau đó, ban này sẽ chạy chương trình xuất thông tin và trả dữ liệu về dạng văn bản, dữ liệu này sẽ được đăng lên mạng, và ta có thể vẽ bản đồ bằng cách này. Thực tế những dữ liệu mà chúng ta tiếp cận - Mỗi vụ tai nạn, nhân tiện đây, là một hàng trong bảng này. Bạn có thể tưởng tượng số lượng tệp PDF nhiều thế nào. Việc mà chúng ta được tiếp cận với nguồn dữ liệu đó là một điều tuyệt vời, nhưng đừng xuất nó ra dưới định dạng PDF, vì sau đó dân chúng sẽ viết chương trình xuất file PDF. Điều này lãng phí thời gian, chúng ta hay cả thành phố có thể làm tốt hơn thế. Và bây giờ, đáng mừng là thị trưởng thành phố, ông Blasio vừa mới phát hành những dữ liệu này khoảng vài tháng trước, và vì vậy chúng ta mới có thể tham khảo nó, nhưng vẫn còn rất nhiều thông tin bị chôn vùi dưới dạng PDF Ví dụ, dữ liệu về tội phạm mới chỉ có dưới dạng PDF. và không chỉ có thế, còn có ngân sách thành phố chúng ta. Ngân sách thành phố hiện tại chỉ đọc được ở dạng PDF. Và không chỉ có mỗi chúng ta không thể phân tích được - mà cả những nhà lập pháp người mà ủng hộ cho bản ngân sách cũng chỉ có được bản PDF của nó thôi. Vì thế những nhà lập pháp không thể phân tích bản ngân sách mà họ bầu cử. Và tôi nghĩ rằng thành phố chúng ta cũng chỉ làm tốt hơn một chút thôi. Giờ có rất nhiều dữ liệu không còn ở dạng PDF. Đây là mẫu bản đồ mà tôi đã vẽ, và đây là những đường thuỷ bẩn nhất tại thành phố New York. Vậy tôi đã đo độ bẩn này như thế nào? Thực ra thì cách này khá là kì lạ, nhưng mà tôi đã nhìn vào mức độ nhiễm trực khuẩn ruột, chính là đo lượng phân có trong mỗi đường thuỷ này Vòng tròn càng lớn, mức độ bẩn càng cao, các vòng tròn to là vùng nước bẩn vòng tròn bé là vùng nước sạch hơn. Thứ các bạn thấy là đường thuỷ nội địa Đây là toàn bộ dữ liệu mẫu của thành phố trong vòng 5 năm tới. Và thường thì các đường thuỷ nội địa sẽ bẩn hơn. Điều này dễ hiểu, đúng không? Vòng tròn to hơn là bẩn. Tôi cũng học được vài điều. Thứ nhất: Không bao giờ bơi ở bất cứ nơi nào có chữ "lạch" hay "kênh". Nhưng thứ hai: tôi cũng tìm ra đường thuỷ bẩn nhất thành phố New York, bằng chính phương pháp này, bằng cách này. Ở con lạch Coney Island, may mắn không phải Coney Island các bạn hay bơi. Mà là ở bờ bên kia. Nhưng con lạch này, 94% các mẫu thử được lấy trong vòng 5 năm nay có mức nhiễm khuẩn cao đến mức con người không được phép bơi tại đây theo điều luật của bang. Và đây không phải là thứ bạn sẽ được thấy trong báo cáo của thành phố, đúng chứ? Điều này sẽ không được đăng trên trang nhất của nyc.gov. Chúng ta sẽ không biết, nhưng thật ra có được dữ liệu này là điều vô cùng tuyệt diệu. Nhưng phải nhắc lại lần nữa, chuyện đó không dễ chút nào, vì đó không phải dữ liệu mở trong cổng thông tin. Nếu bạn định truy cập, bạn sẽ chỉ tìm thấy vài mẩu thông tin trong vòng một năm hay vài tháng. Những thông tin này là từ web của Cục bảo vệ Môi trường. Và mỗi link này là một bảng excel, mỗi trang excel cũng khác nhau. Mỗi đầu đề cũng khác: bạn sao, chép, sắp xếp lại. Khi đó, bạn có thể vẽ bản đồ và điều này thật tuyệt, nhưng lần nữa, ta có thể làm tốt hơn cho thành phố, ta có thể chuẩn hoá mọi thứ. Và chúng ta đạt được điều này, bởi đã có một trang do Socrata tạo có tên là Cổng thông tin mở NYC. Đây là nơi đăng tải 1100 bộ dữ liệu mà không gặp những vấn đề tôi đã đề cập, và thật đáng mừng là con số đang tăng lên. Bạn có thể tải về tài liệu ở bất cứ định dạng nào, CSV hay PDF hay Excel. Bạn có thể tải bất kì tệp nào bạn muốn theo cách đó. Vấn đề là, mỗi lần như thế, bạn sẽ thấy mỗi nguồn mã hoá những địa chỉ khác nhau. Một địa chỉ gồm tên phố, ngã giao nhau, đường phố, khu phố, địa chỉ, toà nhà, địa chỉ toà nhà. Một lần nữa, bạn mất thời gian, kể cả khi đã có cổng thông tin này, để chuẩn hoá những trường địa chỉ. Và việc này thật hao phí thời gian. Thành phố chúng ta có thể làm tốt hơn. Chúng ta có thể tiêu chuẩn hóa địa chỉ, và nếu có thể, ta sẽ có nhiều bản đồ hơn nữa. Đây là bản đồ vòi chữa cháy ở thành phố New York. nhưng không chỉ có vòi chữa cháy thôi đâu. Đây là top 250 tổng số vòi chữa cháy liên quan đến vé phạt đỗ xe. (Cười) Tôi học được vài điều từ bản đồ này, tôi thực sự rất thích. Thứ nhất, đừng đỗ xe ở mạn trên phía Đông. Tốt nhất là đừng. Dù bạn đỗ xe ở đâu thì cũng bị nhận vé phạt thôi. Thứ hai, tôi đã tìm ra 2 vùng có tổng vòi nước máy lớn nhất New York, chúng đều ở Lower East Side, và 2 điểm này đã và đang mang lại hơn 55,000 đô la mỗi năm từ những vé đỗ xe. Khi biết tới điều này, tôi cảm thấy khá lạ vì vậy tôi đã tìm hiểu thêm và hoá ra vấn đề ở vòi nước máy và một thứ nữa gọi là vỉa hè, đây là một khu đi bộ khoảng 8 bước chân và bên cạnh là chỗ để xe. Rồi xe đi tới, và vòi nước máy - "Nó ở tít đằng kia, đỗ ở đây là ổn", và thực sự có cả vạch kẻ khéo léo để đỗ xe. Họ sẽ đỗ xe ở đó, và NYPD không đồng ý với lựa chọn này và sẽ phạt họ. Không chỉ có tôi nhận được thẻ phạt này đâu. Đây là chiếc xe Google Street View cũng nhận một vé phạt như thế. Tôi đã chia sẻ trên blog của mình, trang I Quant NY, và Sở Giao Thông đã hồi âm, họ nói rằng, "Dù chúng tôi chưa nhận được bất cứ phàn nàn nào về địa điểm này, nhưng DOT sẽ điều chỉnh lại vạch kẻ đường, cũng như tiến hành những thay đổi hợp lí." Và tôi tự ngẫm rằng, câu trả lời điển hình của chính phủ, tốt thôi, cuộc sống của tôi vẫn tiếp diễn. Nhưng vài tuần sau, điều phi thường đã xảy ra. Họ đã sơn lại vạch đỗ xe, trong phút chốc, tôi nghĩ mình thấy được tương lai của thông tin mở, chỉ với việc nghĩ đến điều đã xảy ra ở đây. Trong 5 năm, điểm này đã bị thu phí và chuyện cũng rối thêm, sau đó người dân phát hiện điều gì đó, họ báo lại với thành phố, chỉ trong vài tuần vấn đề đã được giải quyết. Thật ngạc nhiên. Có nhiều người canh chừng như khuyển canh nhà vậy. Chuyện không phải vậy. Chuyện liên quan việc trở thành một cộng sự. Ta có thể khiến người dân trở thành những cộng sự có ích cho chính phủ. chuyện đó không hề khó. Tất cả những gì ta cần là một vài thay đổi. Nếu bạn đang yêu cầu lưu trữ, nếu bạn thấy dữ liệu của mình được yêu cầu nhiều lần, hãy công khai nó, đó là dấu hiệu dữ liệu cần được công khai. Nếu bạn làm trong cơ quan chính phủ định công khai một bản PDF, hãy thông qua đạo luật yêu cầu người đăng phải ghi rõ dữ liệu gốc, vì dữ liệu đó được dẫn nguồn từ đâu đó. Tôi không biết từ đâu, nhưng chắc sẽ có nguồn gốc, bạn có thể công khai nó dưới dạng PDF. Hãy công nhận và chia sẻ tiêu chuẩn cho dữ liệu mở. Hãy bắt đầu bằng địa chỉ tại thành phố New York. Bắt đầu bằng việc chuẩn hoá địa chỉ. Bởi New York tiên phong trong dữ liệu mở. Bất luận thế nào, ta là người đi đầu với thông tin mở, nếu ta bình thường hoá mọi thứ, và đặt tiêu chuẩn dữ liệu mở, những người khác sẽ hưởng ứng theo. Bang và thậm chí chính phủ sẽ tán đồng. Những quốc gia khác sẽ tuân theo, và ta không còn xa thời điểm bạn có thể viết một chương trình và thông tin bản đồ của 100 quốc gia. Đây không phải khoa học viễn tưởng. Chúng ta thực sự tiến gần hơn. Đồng thời, ta đang trao quyền cho ai? Đó không phải là vì John Krauss hay Chris Whong. Có hàng trăm buổi gặp mặt đang diễn ra ở thành phố New York, những buổi meetup tích cực. Hàng ngàn người đang tham dự. Họ tới dự sau khi tan làm hay vào các ngày cuối tuần, và họ tham gia để thấy những thông tin mở và làm cho thành phố trở nên tốt đẹp hơn. Những tổ chức như BetaNYC, tuần trước công khai một thứ gọi là citygram.nyc cho phép bạn góp vào 311 lời phàn nàn xuất phát từ nơi ở, nơi làm việc của bạn. Bạn điền địa chỉ vào, nhận những lời phàn nàn từ địa phương. Không phải chỉ có cộng đồng công nghệ mới dùng cách này. Những người quy hoạch đô thị như học sinh tôi từng dạy ở Pratt cũng dùng. Đó là chủ trương chính sách, dành cho mọi người, dành cho công dân có hoàn cảnh khác nhau. Và với vài sự thay đổi nhỏ đang tăng dần, ta có thể mở khoá những đam mê và năng lực của người dân để trang bị cho nền thông tin mở, làm thành phố tươi đẹp hơn, cho dù đó chỉ là một tập dữ liệu, hay là một điểm đỗ xe đi chăng nữa. Cảm ơn. (Vỗ tay)