Loại bánh ưa thích tại Mỹ là ? Khán giả: Bánh táo. Kenneth Cukier: Bánh táo. Tất nhiên rồi. Làm sao ta biết được? Nhờ có dữ liệu. Nhìn vào doanh số bán hàng siêu thị. Nhìn vào doanh số bán của các loại bánh đường kính 30cm được đông lạnh, và bánh táo thắng tuyệt đối. Phần lớn bánh bán ra là bánh táo. Nhưng đến khi các siêu thị bắt đầu bán loại nhỏ hơn, cỡ 11 cm, thì đột nhiên, bánh táo tụt xuống hạng tư hay năm. Tại sao? Điều gì đã xảy ra? Hãy cùng suy nghĩ về điều này. Khi bạn mua bánh cỡ 30 cm, cả gia đình bạn phải đồng ý, thực tế, bánh táo chỉ đứng thứ hai trong danh sách yêu thích của mọi người. (tiếng cười) Nhưng khi mua một cái bánh cỡ 11 cm, bạn có thể mua cái mà bạn muốn. Bạn có thể mua loại mà mình thích nhất. Bạn có nhiều dữ liệu hơn. Bạn có thể thấy được những thứ không thể thấy khi chỉ có một lượng nhỏ dữ liệu. Điểm mấu chốt ở đây là, có nhiều dữ liệu hơn không những giúp ta thấy nhiều hơn, nhiều hơn về thứ ta đang nhìn. Nhiều dữ liệu hơn còn giúp ta thấy được những điều mới, mang đến một góc nhìn tốt hơn, cho phép ta thấy khác đi. Trong trường hợp này, nó cho phép ta thấy thứ bánh nào được ưa chuộng ở Mỹ: không phải bánh táo. Các bạn chắc hẳn đã từng nghe về khái niệm big data (dữ liệu lớn). Đúng hơn, hẳn các bạn đã chán ngấy về nó. Thật đúng khi cho rằng có nhiều sự thổi phồng xung quanh khái niệm trên, và điều đó thật đáng tiếc, vì big data là một công cụ cực kì quan trọng mà nhờ đó, xã hội sẽ trở nên tiến bộ hơn. Trong quá khứ, chúng ta thường nhìn vào những dữ liệu nhỏ, tìm hiểu ý nghĩa của chúng, để cố gắng hiểu về thế giới, và giờ, ta có nhiều dữ liệu hơn, nhiều hơn bao giờ hết. Những gì ta biết là khi có một lượng lớn dữ liệu, ta có thể làm những điều mà trước kia không thể. Dữ liệu lớn rất quan trọng, và mới mẻ, và đó có thể là cách duy nhất mà hành tinh này sẽ đối phó với những thử thách toàn cầu: đảm bảo thức ăn cho mọi người, cung cấp dịch vụ y tế, cung cấp năng lượng, điện, và đảm bảo người dân không bị thiêu rụi bởi sự nóng lên toàn cầu - tất cả nhờ vào việc sử dụng dữ liệu hiệu quả. Vậy thì, có gì mới về dữ liệu lớn? Có gì mà to tát vậy chứ? Được, để trả lời câu hỏi đó, hãy nghĩ về thông tin trông như thế nào, trước kia. Vào năm 1908, trên đảo Crete, các nhà khảo cổ học tìm ra một cái đĩa đất sét. Họ xác định nó từ là 2000 năm trước Công nguyên, vậy nó 4000 tuổi. Có chữ khắc trên tấm đĩa, nhưng ta không hiểu nó có nghĩa gì. Hoàn toàn là một bí ẩn, nhưng vấn đề là thông tin đã từng trông như thế 4000 năm trước. Đây là cách xã hội lưu trữ và truyền tải thông tin. Bây giờ, xã hội chưa tân tiến đến mức đó. Chúng ta vẫn lưu trữ thông tin trên đĩa, nhưng giờ, có thể lưu trữ nhiều thông tin hơn trước kia. Tìm kiếm nó thì dễ hơn. Sao chép nó cũng dễ hơn. Chia sẻ cũng dễ hơn. Xử lý dễ hơn. Những gì ta có thể làm là sử dụng lại thông tin này vào việc mà thậm chí chưa bao giờ tưởng tượng ra khi mới bắt đầu thu thập dữ liệu. Về lĩnh vực này, dữ liệu đã đi từ một kho tích trữ về một dòng chảy , từ thứ bất động và cố định sang linh hoạt và năng động. Có một thanh khoản thông tin. Cái đĩa được tìm thấy ở Crete đã 4000 năm tuổi, rất nặng, nó không lưu trữ được nhiều thông tin, và số thông tin đó không thể thay đổi. Ngược lại, tất cả những hồ sơ mà Edward Snowden lấy từ Cục An ninh Quốc gia Hoa Kỳ chứa vừa trong một thẻ nhớ bằng kích thước của móng tay, và có thể được chia sẻ với tốc độ ánh sáng. Nhiều dữ liệu hơn, hơn rất nhiều. Một lý do tại sao có quá nhiều dữ liệu trên thế giới hiện nay là vì chúng ta đang thu thập những thứ ta vẫn luôn thu thập, một lý do khác để giải thích việc chúng ta lấy những thứ đã luôn cung cấp thông tin nhưng chưa bao giờ được làm thành dạng dữ liệu và do đó, chúng ta bỏ những thứ đấy vào dữ liệu Lấy ví dụ, câu hỏi về địa điểm Lấy ví dụ, Martin Luther Nếu chúng ta muốn biết vào năm 1500 Martin Luther ở đâu, chúng ta sẽ phải theo dõi ông ấy mọi lúc, kèm theo một cây bút lông và một lọ mực để ghi chép lại. Nhưng bây giờ hãy nghĩ nó sẽ như thế nào ngày nay. Bạn biết rằng ở một nơi nào đó, khả năng là trong cơ sở dữ liệu của một hãng viễn thông có một bảng tính hoặc ít nhất một mục cơ sở dữ liệu lưu trữ lại thông tin của bạn những nơi bạn đã đến tại mọi thời điểm Nếu bạn có điện thoại di động, và chiếc điện thoại đó có GPS, nhưng ngay cả khi nó không có GPS, nó vẫn có thể lưu trữ thông tin của bạn Trong lĩnh vực này, việc định vị đã được dữ liệu hóa Bây giờ, lấy ví dụ vấn đề về tư thế tư thế mà các bạn đang ngồi bây giờ tư thế mà bạn ngồi, tư thế mà bạn ngồi, tư thế mà bạn ngồi Nó đều khác nhau, và đó là một chức năng giữa chiều dài chân bạn lưng bạn và những đường nét của lưng bạn và nếu bây giờ tôi đặt thiết bị cảm biến vào tất cả các ghế Tôi có thể tạo ra một chỉ số tương đối độc nhất về bạn, ví dụ như dấu vân tây, nhưng không phải là ngón tay của bạn Vậy chúng ta có thể làm gì với nó? Các nhà nghiên cứu ở Tokyo đang dùng dấu vân tay để tạo ra một thiết bị có tiềm năng chống trộm xe hơi. Ý tưởng là nếu tên trộm ngồi đằng sau tay lái và cố lái đi, nhưng nếu chiếc xe nhận ra rằng đằng sau bánh lái là một tài xế không được xác duyệt, thì động cơ sẽ tự động dừng, trừ khi bạn nhập mật khẩu vào bảng điều khiển để báo rằng "Tôi có sự cho phép". Tuyệt. Nếu như mọi chiếc xe ở Châu Âu đều có công nghệ này thì sao? Chúng ta có thể làm gì lúc đó? Nếu chúng ta có thể tập hợp dữ liệu có thể chúng ta sẽ khám phá ra các dấu hiệu dự đoán tốt nhất rằng một tai nạn xe hơi sẽ xảy ra trong 5 giây tiếp theo. Và rồi những gì chúng ta sẽ dữ liệu hóa sẽ là sự mệt mỏi của tài xế, và dịch vụ lúc đó sẽ là khi chiếc xe cảm nhận được rằng người tài xế đang rơi vào tình trạng mệt mỏi nó sẽ tự động biết và rồi cài một báo động bên trong để làm rung bánh lái, và bóp kèn ở trong xe báo rằng, "Này! dậy đi, chú ý đường đi kìa" Đây là những thứ mà chúng ta có thể làm khi chúng ta dữ liệu hóa các khía cạnh trong cuộc sống của chúng ta nhiều hơn Vậy thì giá trị của dữ liệu lớn là gì? Nào, hãy nghĩ xem. Bạn có nhiều thông tin hơn. Bạn có thể làm những việc mà bạn không thể làm trước đó Một trong những lĩnh vực ấn tượng nhất mà khái niệm này đang diễn ra là trong lĩnh vực máy học. Máy học là một nhánh của trí tuệ nhân tạo mà bản thân nó là một nhánh của khoa học máy tính. Ý tưởng chung là thay vì phải hướng dẫn máy tính những gì phải làm chúng ta sẽ chỉ ném dữ liệu liên quan đến vấn đề và bảo máy tính tự tính toán. Và để giúp bạn hiểu vấn đề này hãy cùng nhìn lại nguồn gốc của nó. Vào những năm 1950, Một nhà khoa học máy tính của IBM tên Arthur Samuel thích chơi cờ, nên ông ấy viết một chương trình máy tính để ông ấy có thể chơi cờ với máy tính Ông ấy chơi. Ông ấy thắng. Ông ấy chơi. Ông ấy thắng, Ông ấy chơi. Ông ấy thắng, vì máy tính chỉ biết nước đi đúng luật là thế nào. Arthur Samuel biết một số thứ khác. Arthur Samuel biết chiến lược. Và như thế, bên cạnh đó, ông ấy viết một chương trình con. hoạt động trên nền của chương trình chính, và những gì nó làm chỉ là ghi xác suất của bàn cờ cho sẵn có khả năng dẫn đến một ván thắng hoặc một vấn thua sau mỗi nước đi. Ông ấy chơi với máy tính. Ông ấy thắng Ông ấy chơi với máy tính. Ông ấy thắng Ông ấy chơi với máy tính. Ông ấy thắng Và rồi Arthur Samuel để máy tính tự chơi cờ với chính nó. Nó tự chơi cờ. Nó thu thập nhiều dữ liệu hơn. Nó thu thập nhiều dữ liệu hơn. Nó tăng độ chính xác về khả năng dự đoạn Và rồi Arthur Samuel quay lại máy tính và ông ấy chơi cờ với nó, và ông ấy thua và ông ấy chơi, ông ấy thua và ông ấy chơi, ông ấy thua và Arthur Samuel đã tạo ra một cỗ máy vượt qua khả năng của ông ấy trong một việc mà chính ông ấy dạy nó. Và ý tưởng này trong lĩnh vực máy học đang được ứng dụng ở mọi nơi. Bạn nghĩ làm sao chúng ta có xe hơi lái tự động? Xã hội chúng ta có khá hơn không khi chúng ta nhập tất cả các luật giao thông vào phần mềm? Không. Bộ nhớ rẻ hơn? Không Các thuật toán xử lý nhanh hơn? Không Bộ vi xử lý tốt hơn? Không Tất cả những điều này đều quan trọng, nhưng đó không phải là lý do. Mà là vì chúng ta đã thay đổi bản chất của vấn đề. Từ một vấn đề mà chúng ta tìm cách để giải thích rõ ràng và dứt khoát cho máy tính hiểu rằng làm thế nào để lái xe đến một vấn đề mà chúng ta nói rằng, "Đây là tập dữ liệu xung quanh chiếc xe. Hãy tự xử lý dữ liệu này. Hãy tự luận ra rằng đó là đèn giao thông, rằng đèn giao thông đó đang là đèn đỏ không phải đèn xanh rằng điều đó có nghĩa là bạn phải dừng lại và không đi về phía trước." Máy học là nền tảng cơ bản của rất nhiều thứ chúng ta làm trên mạng: các công cụ tìm kiếm, Thuật toán cá nhân hóa của Amazon, máy tính dịch thuật, hệ thống xác nhận giọng nói. Gần đây, các nhà nghiên cứu đã tìm hiểu về các vấn đề sinh thiết sinh thiết ung thư, và họ đã nhờ máy tính xác định, bằng cách nhìn vào dữ liệu và chỉ số sống sót để xác nhận rằng những tế bào này có thật sự bị ung thư hay không, và chắc chắn rằng, khi bạn nhập dữ liệu vào máy tính, qua một thuật toán máy học cỗ máy có thể xác định những dấu hiệu dự đoán tốt nhất rằng sinh thiết của các tế bào ung thư vú này thật sự bị ung thư. Vấn đề: Tài liệu y học chỉ biết được 9 dấu hiệu. Trong đó, có 3 dấu hiệu mà mọi người không cần phải tìm kiếm nhưng cỗ máy phát hiện ra. Dữ liệu lớn cũng có mặt tối của nó. Nó sẽ cải thiện cuộc sống của chúng ta, nhưng có những vấn đề mà chúng ta nên cảnh giác, và điều đầu tiên đó là quan niệm rằng chúng ta có thể bị trừng phạt do các dự đoán, rằng cảnh sát có thể sử dụng dữ liệu lớn cho mục đích của họ, tựa như phim "Minority Report" Nó là một thuật ngữ gọi là giám sát dự báo hoặc thuật toán tội phạm học, và khái niệm đó là: nếu chúng ta lấy nhiều dữ liệu, ví dụ dữ liệu về các địa điểm xảy ra tội phạm chúng ta sẽ biết nơi cần gửi đội tuần tra. Điều đó là hợp lý, nhưng vấn đề, dĩ nhiên không phải chỉ dừng về ở dữ liệu định vị, nó sẽ xuống cấp độ thu thập dữ liệu của từng cá nhân Tại sao chúng ta không dùng dữ liệu để biết về bảng điểm cấp 3 của một người nào đó? Có thể chúng ta nên dùng sự thật như họ thất nghiệp hay không, điểm tín dụng, cách họ lướt web hay họ có thức khuya hay không. Chí số Fitbit, khi nó có khả năng xác định các hóa sinh, sẽ chỉ ra rằng họ có suy nghĩ hiếu chiến. Chúng ta có thể có những thuật toán có khả năng dự đoán những gì chúng ta sẽ làm, và chúng ta có phải chịu trách nhiệm trước khi chúng ta thật sự làm những điều đó Bảo mật là thách thức trọng tâm trong thời đại dữ liệu nhỏ. Trong thời đại dữ liệu lớn, thách thức sẽ là bảo vệ tự do, lựa chọn đạo đức, ý chí con người, tính chủ thể. Còn có một vấn đề nữa: Dữ liệu lớn sẽ cướp đi việc làm của chúng ta. Dữ liệu lớn và các thuật toán sẽ thách thức công việc văn phòng, công việc chuyên môn trong thế kỷ 21 trong cùng một cách mà máy móc tự động và dây chuyền lắp ráp thách thức công nhân ở thế kỉ 20 Hãy nghĩ về kỹ thuật viên phòng thí nghiệm người tìm hiểu vấn đề qua một cái kính hiển vi ở viện sinh thiết ung thư và xác định xem sinh thiết này có bị ung thư hay không. Người này đã học xong đại học Người này mua nhà. Anh ấy hoặc cô ấy bỏ phiếu. Anh ấy hoặc cô ấy là một nhân tố trong xã hội. Và việc làm của người đó, cũng như toàn bộ đội ngũ của những người chuyên môn giống như người đó sẽ thấy rằng việc làm của họ bị thay đổi một cách triệt để hoặc bị loại bỏ hoàn toàn. Chúng ta thích nghĩ rằng công nghệ sẽ tạo nên việc làm sau một khoảng thời gian sau khoản thời gian rối loạn tạm thời, và điều đó là đúng cho các khung tham chiếu mà chúng ta sống, Cách mạng công nghiệp, vì đó chính xác là những gì đã xảy ra. Nhưng chúng ta quên điều gì đó trong bài phân tích đấy: Có một số loại công việc đơn giản là bị loại bỏ hoàn toàn và không bao giờ quay lại. Cách mạng công nghiệp không hề tốt nếu bạn là một con ngựa. Do đó chúng ta phải thận trọng trong việc sử dụng dữ liệu lớn và điều chỉnh nó cho nhu cầu của chúng ta nhu cầu rất con người của chúng ta. Chúng ta phải là chủ của công nghệ này, chứ không phải là người hầu của nó. Chúng ta chỉ khởi đầu một kỷ nguyên của dữ liệu lớn và thành thật mà nói, chúng ta không hề giỏi trong việc xử lý tất cả các dữ liệu mà chúng ta có thể thu thập. Nó không chỉ là vấn đề cho Cục An ninh Quốc gia. Các doanh nghiệp thu thập rất nhiều dữ liệu và họ cũng lạm dụng nó. Chúng ta phải làm tốt hơn và điều này sẽ tốn nhiều thời gian. Nó giống như là thử thách mà người nguyên thủy gặp phải với lửa Đây là một công cụ, nhưng là một công cụ mà nếu chúng ta không cẩn thận, sẽ thiêu cháy chúng ta. Dữ liệu lớn sẽ thay đổi cách sống của chúng ta cách chúng ta làm việc và cách chúng ta suy nghĩ. Nó sẽ giúp chúng ta quản lý sự nghiệp của chúng ta và dẫn đến cuộc sống của sự hài lòng và hy vọng và hạnh phúc và sức khỏe. Nhưng ở trong quá khứ, chúng ta thường nhìn vào công nghệ thông tin và con mắt chúng ta chỉ nhìn thấy những thứ như, công nghệ, phần mềm, những thứ vật chất. Chúng ta phải đúc kết lại cái nhìn của chúng ta, nhìn vào thông tin, dù nó ít rõ ràng hơn nhưng trong một số khía cạnh quan trọng hơn rất nhiều. Nhân loại cuối cùng cũng có thể học hỏi từ những thông tin mà nó có thể thu thập, như một phần của cuộc thám hiểm vô tận của chúng ta để hiểu về thế giới và vị trí của chúng ta trong thế giới, và đó là lý do tại sao dữ liệu lớn là một vấn đề quan trọng. (vỗ tay)