WEBVTT 00:00:00.787 --> 00:00:04.632 Loại bánh ưa thích tại Mỹ là ? NOTE Paragraph 00:00:04.632 --> 00:00:08.138 Khán giả: Bánh táo. Kenneth Cukier: Bánh táo. Tất nhiên rồi. 00:00:08.138 --> 00:00:09.369 Làm sao ta biết được? 00:00:09.369 --> 00:00:12.122 Nhờ có dữ liệu. 00:00:12.122 --> 00:00:14.188 Nhìn vào doanh số bán hàng siêu thị. 00:00:14.188 --> 00:00:17.054 Nhìn vào doanh số bán của các loại bánh đường kính 30cm 00:00:17.054 --> 00:00:21.129 được đông lạnh, và bánh táo thắng tuyệt đối. 00:00:21.129 --> 00:00:26.309 Phần lớn bánh bán ra là bánh táo. 00:00:26.309 --> 00:00:29.273 Nhưng đến khi các siêu thị bắt đầu bán 00:00:29.273 --> 00:00:31.856 loại nhỏ hơn, cỡ 11 cm, 00:00:31.856 --> 00:00:36.030 thì đột nhiên, bánh táo tụt xuống hạng tư hay năm. 00:00:36.030 --> 00:00:38.905 Tại sao? Điều gì đã xảy ra? 00:00:38.905 --> 00:00:41.723 Hãy cùng suy nghĩ về điều này. 00:00:41.723 --> 00:00:45.571 Khi bạn mua bánh cỡ 30 cm, 00:00:45.571 --> 00:00:47.832 cả gia đình bạn phải đồng ý, 00:00:47.832 --> 00:00:51.623 thực tế, bánh táo chỉ đứng thứ hai trong danh sách yêu thích của mọi người. 00:00:51.623 --> 00:00:53.558 (tiếng cười) 00:00:53.558 --> 00:00:57.173 Nhưng khi mua một cái bánh cỡ 11 cm, 00:00:57.173 --> 00:01:00.918 bạn có thể mua cái mà bạn muốn. 00:01:00.918 --> 00:01:04.508 Bạn có thể mua loại mà mình thích nhất. 00:01:04.508 --> 00:01:06.574 Bạn có nhiều dữ liệu hơn. 00:01:06.574 --> 00:01:08.128 Bạn có thể thấy được những thứ 00:01:08.128 --> 00:01:12.920 không thể thấy khi chỉ có một lượng nhỏ dữ liệu. NOTE Paragraph 00:01:12.920 --> 00:01:15.688 Điểm mấu chốt ở đây là, có nhiều dữ liệu hơn 00:01:15.688 --> 00:01:17.971 không những giúp ta thấy nhiều hơn, 00:01:17.971 --> 00:01:19.825 nhiều hơn về thứ ta đang nhìn. 00:01:19.825 --> 00:01:23.438 Nhiều dữ liệu hơn còn giúp ta thấy được những điều mới, 00:01:23.438 --> 00:01:26.532 mang đến một góc nhìn tốt hơn, 00:01:26.532 --> 00:01:30.188 cho phép ta thấy khác đi. 00:01:30.188 --> 00:01:33.361 Trong trường hợp này, nó cho phép ta thấy 00:01:33.361 --> 00:01:36.274 thứ bánh nào được ưa chuộng ở Mỹ: 00:01:36.274 --> 00:01:38.816 không phải bánh táo. NOTE Paragraph 00:01:38.816 --> 00:01:42.430 Các bạn chắc hẳn đã từng nghe về khái niệm big data (dữ liệu lớn). 00:01:42.430 --> 00:01:45.717 Đúng hơn, hẳn các bạn đã chán ngấy về nó. 00:01:45.717 --> 00:01:49.447 Thật đúng khi cho rằng có nhiều sự thổi phồng xung quanh khái niệm trên, 00:01:49.447 --> 00:01:51.779 và điều đó thật đáng tiếc, 00:01:51.779 --> 00:01:54.825 vì big data là một công cụ cực kì quan trọng 00:01:54.825 --> 00:01:58.559 mà nhờ đó, xã hội sẽ trở nên tiến bộ hơn. 00:01:58.559 --> 00:02:02.120 Trong quá khứ, chúng ta thường nhìn vào những dữ liệu nhỏ, 00:02:02.120 --> 00:02:03.824 tìm hiểu ý nghĩa của chúng, 00:02:03.824 --> 00:02:05.320 để cố gắng hiểu về thế giới, 00:02:05.320 --> 00:02:07.311 và giờ, ta có nhiều dữ liệu hơn, 00:02:07.311 --> 00:02:10.033 nhiều hơn bao giờ hết. 00:02:10.033 --> 00:02:11.910 Những gì ta biết là khi có 00:02:11.910 --> 00:02:14.634 một lượng lớn dữ liệu, ta có thể làm những điều 00:02:14.634 --> 00:02:17.910 mà trước kia không thể. 00:02:17.910 --> 00:02:20.551 Dữ liệu lớn rất quan trọng, và mới mẻ, 00:02:20.551 --> 00:02:22.328 và đó có thể là 00:02:22.328 --> 00:02:24.544 cách duy nhất mà hành tinh này sẽ 00:02:24.544 --> 00:02:26.333 đối phó với những thử thách toàn cầu: 00:02:26.333 --> 00:02:29.870 đảm bảo thức ăn cho mọi người, cung cấp dịch vụ y tế, 00:02:29.870 --> 00:02:32.680 cung cấp năng lượng, điện, 00:02:32.680 --> 00:02:34.469 và đảm bảo người dân không bị thiêu rụi 00:02:34.469 --> 00:02:35.707 bởi sự nóng lên toàn cầu - 00:02:35.707 --> 00:02:39.902 tất cả nhờ vào việc sử dụng dữ liệu hiệu quả. NOTE Paragraph 00:02:39.902 --> 00:02:43.772 Vậy thì, có gì mới về dữ liệu lớn? Có gì mà to tát vậy chứ? 00:02:43.772 --> 00:02:46.289 Được, để trả lời câu hỏi đó, hãy nghĩ về 00:02:46.289 --> 00:02:50.949 thông tin trông như thế nào, trước kia. 00:02:50.949 --> 00:02:54.830 Vào năm 1908, trên đảo Crete, 00:02:54.830 --> 00:02:59.565 các nhà khảo cổ học tìm ra một cái đĩa đất sét. 00:02:59.565 --> 00:03:03.624 Họ xác định nó từ là 2000 năm trước Công nguyên, vậy nó 4000 tuổi. 00:03:03.624 --> 00:03:07.195 Có chữ khắc trên tấm đĩa, nhưng ta không hiểu nó có nghĩa gì. 00:03:07.195 --> 00:03:09.053 Hoàn toàn là một bí ẩn, nhưng vấn đề là 00:03:09.053 --> 00:03:12.750 thông tin đã từng trông như thế 4000 năm trước. 00:03:12.750 --> 00:03:15.618 Đây là cách xã hội lưu trữ 00:03:15.618 --> 00:03:19.142 và truyền tải thông tin. NOTE Paragraph 00:03:19.142 --> 00:03:23.302 Bây giờ, xã hội chưa tân tiến đến mức đó. 00:03:23.302 --> 00:03:26.776 Chúng ta vẫn lưu trữ thông tin trên đĩa, 00:03:26.776 --> 00:03:31.000 nhưng giờ, có thể lưu trữ nhiều thông tin hơn trước kia. 00:03:31.000 --> 00:03:34.313 Tìm kiếm nó thì dễ hơn. Sao chép nó cũng dễ hơn. 00:03:34.313 --> 00:03:37.813 Chia sẻ cũng dễ hơn. Xử lý dễ hơn. 00:03:37.813 --> 00:03:40.319 Những gì ta có thể làm là sử dụng lại thông tin này 00:03:40.319 --> 00:03:42.933 vào việc mà thậm chí chưa bao giờ tưởng tượng ra 00:03:42.933 --> 00:03:45.608 khi mới bắt đầu thu thập dữ liệu. 00:03:45.608 --> 00:03:47.860 Về lĩnh vực này, dữ liệu đã đi 00:03:47.860 --> 00:03:51.392 từ một kho tích trữ về một dòng chảy , 00:03:51.392 --> 00:03:55.330 từ thứ bất động và cố định 00:03:55.330 --> 00:03:58.939 sang linh hoạt và năng động. 00:03:58.939 --> 00:04:02.962 Có một thanh khoản thông tin. 00:04:02.962 --> 00:04:06.436 Cái đĩa được tìm thấy ở Crete 00:04:06.436 --> 00:04:10.200 đã 4000 năm tuổi, rất nặng, 00:04:10.200 --> 00:04:12.162 nó không lưu trữ được nhiều thông tin, 00:04:12.162 --> 00:04:15.278 và số thông tin đó không thể thay đổi. 00:04:15.278 --> 00:04:19.289 Ngược lại, tất cả những hồ sơ 00:04:19.289 --> 00:04:21.150 mà Edward Snowden lấy 00:04:21.150 --> 00:04:23.771 từ Cục An ninh Quốc gia Hoa Kỳ 00:04:23.771 --> 00:04:26.190 chứa vừa trong một thẻ nhớ 00:04:26.190 --> 00:04:29.200 bằng kích thước của móng tay, 00:04:29.200 --> 00:04:33.945 và có thể được chia sẻ với tốc độ ánh sáng. 00:04:33.945 --> 00:04:38.240 Nhiều dữ liệu hơn, hơn rất nhiều. NOTE Paragraph 00:04:38.240 --> 00:04:41.174 Một lý do tại sao có quá nhiều dữ liệu trên thế giới hiện nay 00:04:41.174 --> 00:04:43.266 là vì chúng ta đang thu thập những thứ 00:04:43.266 --> 00:04:45.886 ta vẫn luôn thu thập, 00:04:45.886 --> 00:04:48.542 một lý do khác để giải thích việc chúng ta lấy những thứ 00:04:48.542 --> 00:04:51.354 đã luôn cung cấp thông tin 00:04:51.354 --> 00:04:53.840 nhưng chưa bao giờ được làm thành dạng dữ liệu 00:04:53.840 --> 00:04:56.259 và do đó, chúng ta bỏ những thứ đấy vào dữ liệu 00:04:56.259 --> 00:04:59.567 Lấy ví dụ, câu hỏi về địa điểm 00:04:59.567 --> 00:05:01.816 Lấy ví dụ, Martin Luther 00:05:01.816 --> 00:05:03.413 Nếu chúng ta muốn biết vào năm 1500 00:05:03.413 --> 00:05:06.080 Martin Luther ở đâu, 00:05:06.080 --> 00:05:08.172 chúng ta sẽ phải theo dõi ông ấy mọi lúc, 00:05:08.172 --> 00:05:10.309 kèm theo một cây bút lông và một lọ mực 00:05:10.309 --> 00:05:11.985 để ghi chép lại. 00:05:11.985 --> 00:05:14.168 Nhưng bây giờ hãy nghĩ nó sẽ như thế nào ngày nay. 00:05:14.168 --> 00:05:16.290 Bạn biết rằng ở một nơi nào đó, 00:05:16.290 --> 00:05:18.736 khả năng là trong cơ sở dữ liệu của một hãng viễn thông 00:05:18.736 --> 00:05:21.772 có một bảng tính hoặc ít nhất một mục cơ sở dữ liệu 00:05:21.772 --> 00:05:23.860 lưu trữ lại thông tin của bạn 00:05:23.860 --> 00:05:25.923 những nơi bạn đã đến tại mọi thời điểm 00:05:25.923 --> 00:05:27.283 Nếu bạn có điện thoại di động, 00:05:27.283 --> 00:05:30.130 và chiếc điện thoại đó có GPS, nhưng ngay cả khi nó không có GPS, 00:05:30.130 --> 00:05:32.515 nó vẫn có thể lưu trữ thông tin của bạn 00:05:32.515 --> 00:05:36.599 Trong lĩnh vực này, việc định vị đã được dữ liệu hóa NOTE Paragraph 00:05:36.599 --> 00:05:41.200 Bây giờ, lấy ví dụ vấn đề về tư thế 00:05:41.200 --> 00:05:42.485 tư thế mà các bạn đang ngồi bây giờ 00:05:42.485 --> 00:05:44.515 tư thế mà bạn ngồi, 00:05:44.515 --> 00:05:47.286 tư thế mà bạn ngồi, tư thế mà bạn ngồi 00:05:47.286 --> 00:05:49.363 Nó đều khác nhau, và đó là một chức năng giữa chiều dài chân bạn 00:05:49.363 --> 00:05:51.456 lưng bạn và những đường nét của lưng bạn 00:05:51.456 --> 00:05:53.987 và nếu bây giờ tôi đặt thiết bị cảm biến 00:05:53.987 --> 00:05:55.753 vào tất cả các ghế 00:05:55.753 --> 00:05:59.353 Tôi có thể tạo ra một chỉ số tương đối độc nhất về bạn, 00:05:59.353 --> 00:06:03.762 ví dụ như dấu vân tây, nhưng không phải là ngón tay của bạn NOTE Paragraph 00:06:03.762 --> 00:06:06.731 Vậy chúng ta có thể làm gì với nó? 00:06:06.731 --> 00:06:09.128 Các nhà nghiên cứu ở Tokyo đang dùng dấu vân tay 00:06:09.128 --> 00:06:13.516 để tạo ra một thiết bị có tiềm năng chống trộm xe hơi. 00:06:13.516 --> 00:06:16.440 Ý tưởng là nếu tên trộm ngồi đằng sau tay lái 00:06:16.440 --> 00:06:18.544 và cố lái đi, nhưng nếu chiếc xe nhận ra 00:06:18.544 --> 00:06:20.906 rằng đằng sau bánh lái là một tài xế không được xác duyệt, 00:06:20.906 --> 00:06:23.070 thì động cơ sẽ tự động dừng, trừ khi 00:06:23.070 --> 00:06:26.247 bạn nhập mật khẩu vào bảng điều khiển 00:06:26.247 --> 00:06:30.905 để báo rằng "Tôi có sự cho phép". Tuyệt. NOTE Paragraph 00:06:30.905 --> 00:06:33.458 Nếu như mọi chiếc xe ở Châu Âu 00:06:33.458 --> 00:06:34.915 đều có công nghệ này thì sao? 00:06:34.915 --> 00:06:38.080 Chúng ta có thể làm gì lúc đó? 00:06:38.080 --> 00:06:40.320 Nếu chúng ta có thể tập hợp dữ liệu 00:06:40.320 --> 00:06:44.134 có thể chúng ta sẽ khám phá ra các dấu hiệu 00:06:44.134 --> 00:06:46.843 dự đoán tốt nhất rằng một tai nạn xe hơi 00:06:46.843 --> 00:06:52.736 sẽ xảy ra trong 5 giây tiếp theo. 00:06:52.736 --> 00:06:55.293 Và rồi những gì chúng ta sẽ dữ liệu hóa 00:06:55.293 --> 00:06:57.076 sẽ là sự mệt mỏi của tài xế, 00:06:57.076 --> 00:06:59.410 và dịch vụ lúc đó sẽ là khi chiếc xe cảm nhận được 00:06:59.410 --> 00:07:02.847 rằng người tài xế đang rơi vào tình trạng mệt mỏi 00:07:02.847 --> 00:07:06.841 nó sẽ tự động biết và rồi cài một báo động bên trong 00:07:06.841 --> 00:07:08.866 để làm rung bánh lái, và bóp kèn ở trong xe 00:07:08.866 --> 00:07:10.587 báo rằng, "Này! dậy đi, 00:07:10.587 --> 00:07:12.491 chú ý đường đi kìa" 00:07:12.491 --> 00:07:14.344 Đây là những thứ mà chúng ta có thể làm 00:07:14.344 --> 00:07:17.165 khi chúng ta dữ liệu hóa các khía cạnh trong cuộc sống của chúng ta nhiều hơn NOTE Paragraph 00:07:17.165 --> 00:07:20.840 Vậy thì giá trị của dữ liệu lớn là gì? 00:07:20.840 --> 00:07:23.030 Nào, hãy nghĩ xem. 00:07:23.030 --> 00:07:25.442 Bạn có nhiều thông tin hơn. 00:07:25.442 --> 00:07:28.783 Bạn có thể làm những việc mà bạn không thể làm trước đó 00:07:28.783 --> 00:07:30.459 Một trong những lĩnh vực ấn tượng nhất 00:07:30.459 --> 00:07:32.188 mà khái niệm này đang diễn ra 00:07:32.188 --> 00:07:35.495 là trong lĩnh vực máy học. 00:07:35.495 --> 00:07:38.572 Máy học là một nhánh của trí tuệ nhân tạo 00:07:38.572 --> 00:07:41.950 mà bản thân nó là một nhánh của khoa học máy tính. 00:07:41.950 --> 00:07:43.493 Ý tưởng chung là thay vì 00:07:43.493 --> 00:07:45.610 phải hướng dẫn máy tính những gì phải làm 00:07:45.610 --> 00:07:48.230 chúng ta sẽ chỉ ném dữ liệu liên quan đến vấn đề 00:07:48.230 --> 00:07:51.436 và bảo máy tính tự tính toán. 00:07:51.436 --> 00:07:53.213 Và để giúp bạn hiểu vấn đề này 00:07:53.213 --> 00:07:56.765 hãy cùng nhìn lại nguồn gốc của nó. 00:07:56.765 --> 00:07:59.153 Vào những năm 1950, 00:07:59.153 --> 00:08:02.745 Một nhà khoa học máy tính của IBM tên Arthur Samuel thích chơi cờ, 00:08:02.745 --> 00:08:04.147 nên ông ấy viết một chương trình máy tính 00:08:04.147 --> 00:08:06.960 để ông ấy có thể chơi cờ với máy tính 00:08:06.960 --> 00:08:09.671 Ông ấy chơi. Ông ấy thắng. 00:08:09.671 --> 00:08:11.774 Ông ấy chơi. Ông ấy thắng, 00:08:11.774 --> 00:08:14.789 Ông ấy chơi. Ông ấy thắng, 00:08:14.789 --> 00:08:16.567 vì máy tính chỉ biết 00:08:16.567 --> 00:08:18.794 nước đi đúng luật là thế nào. 00:08:18.794 --> 00:08:20.881 Arthur Samuel biết một số thứ khác. 00:08:20.881 --> 00:08:25.510 Arthur Samuel biết chiến lược. 00:08:25.510 --> 00:08:27.906 Và như thế, bên cạnh đó, ông ấy viết một chương trình con. 00:08:27.906 --> 00:08:29.880 hoạt động trên nền của chương trình chính, và những gì nó làm 00:08:29.880 --> 00:08:31.697 chỉ là ghi xác suất 00:08:31.697 --> 00:08:34.260 của bàn cờ cho sẵn có khả năng dẫn đến 00:08:34.260 --> 00:08:37.170 một ván thắng hoặc một vấn thua 00:08:37.170 --> 00:08:39.678 sau mỗi nước đi. 00:08:39.678 --> 00:08:42.828 Ông ấy chơi với máy tính. Ông ấy thắng 00:08:42.828 --> 00:08:45.336 Ông ấy chơi với máy tính. Ông ấy thắng 00:08:45.336 --> 00:08:49.067 Ông ấy chơi với máy tính. Ông ấy thắng 00:08:49.067 --> 00:08:51.344 Và rồi Arthur Samuel để máy tính 00:08:51.344 --> 00:08:53.571 tự chơi cờ với chính nó. 00:08:53.571 --> 00:08:57.080 Nó tự chơi cờ. Nó thu thập nhiều dữ liệu hơn. 00:08:57.080 --> 00:09:01.389 Nó thu thập nhiều dữ liệu hơn. Nó tăng độ chính xác về khả năng dự đoạn 00:09:01.389 --> 00:09:03.493 Và rồi Arthur Samuel quay lại máy tính 00:09:03.493 --> 00:09:05.811 và ông ấy chơi cờ với nó, và ông ấy thua 00:09:05.811 --> 00:09:07.880 và ông ấy chơi, ông ấy thua 00:09:07.880 --> 00:09:09.927 và ông ấy chơi, ông ấy thua 00:09:09.927 --> 00:09:12.526 và Arthur Samuel đã tạo ra một cỗ máy 00:09:12.526 --> 00:09:18.814 vượt qua khả năng của ông ấy trong một việc mà chính ông ấy dạy nó. NOTE Paragraph 00:09:18.814 --> 00:09:21.312 Và ý tưởng này trong lĩnh vực máy học 00:09:21.312 --> 00:09:25.239 đang được ứng dụng ở mọi nơi. 00:09:25.239 --> 00:09:28.388 Bạn nghĩ làm sao chúng ta có xe hơi lái tự động? 00:09:28.388 --> 00:09:30.525 Xã hội chúng ta có khá hơn không 00:09:30.525 --> 00:09:33.810 khi chúng ta nhập tất cả các luật giao thông vào phần mềm? 00:09:33.810 --> 00:09:36.408 Không. Bộ nhớ rẻ hơn? Không 00:09:36.408 --> 00:09:40.402 Các thuật toán xử lý nhanh hơn? Không Bộ vi xử lý tốt hơn? Không 00:09:40.402 --> 00:09:43.174 Tất cả những điều này đều quan trọng, nhưng đó không phải là lý do. 00:09:43.174 --> 00:09:46.315 Mà là vì chúng ta đã thay đổi bản chất của vấn đề. 00:09:46.315 --> 00:09:47.845 Từ một vấn đề mà chúng ta tìm cách để giải thích 00:09:47.845 --> 00:09:50.090 rõ ràng và dứt khoát 00:09:50.090 --> 00:09:52.671 cho máy tính hiểu rằng làm thế nào để lái xe 00:09:52.671 --> 00:09:53.987 đến một vấn đề mà chúng ta nói rằng, 00:09:53.987 --> 00:09:55.863 "Đây là tập dữ liệu xung quanh chiếc xe. 00:09:55.863 --> 00:09:57.396 Hãy tự xử lý dữ liệu này. 00:09:57.396 --> 00:09:59.263 Hãy tự luận ra rằng đó là đèn giao thông, 00:09:59.263 --> 00:10:01.344 rằng đèn giao thông đó đang là đèn đỏ không phải đèn xanh 00:10:01.344 --> 00:10:03.358 rằng điều đó có nghĩa là bạn phải dừng lại 00:10:03.358 --> 00:10:06.441 và không đi về phía trước." NOTE Paragraph 00:10:06.441 --> 00:10:07.959 Máy học là nền tảng cơ bản 00:10:07.959 --> 00:10:09.950 của rất nhiều thứ chúng ta làm trên mạng: 00:10:09.950 --> 00:10:11.807 các công cụ tìm kiếm, 00:10:11.807 --> 00:10:15.608 Thuật toán cá nhân hóa của Amazon, 00:10:15.608 --> 00:10:17.820 máy tính dịch thuật, 00:10:17.820 --> 00:10:22.110 hệ thống xác nhận giọng nói. 00:10:22.110 --> 00:10:24.945 Gần đây, các nhà nghiên cứu đã tìm hiểu 00:10:24.945 --> 00:10:28.140 về các vấn đề sinh thiết 00:10:28.140 --> 00:10:30.907 sinh thiết ung thư, 00:10:30.907 --> 00:10:33.222 và họ đã nhờ máy tính xác định, 00:10:33.222 --> 00:10:35.693 bằng cách nhìn vào dữ liệu và chỉ số sống sót 00:10:35.693 --> 00:10:40.360 để xác nhận rằng những tế bào này 00:10:40.360 --> 00:10:42.904 có thật sự bị ung thư hay không, 00:10:42.904 --> 00:10:44.682 và chắc chắn rằng, khi bạn nhập dữ liệu vào máy tính, 00:10:44.682 --> 00:10:46.729 qua một thuật toán máy học 00:10:46.729 --> 00:10:48.606 cỗ máy có thể xác định 00:10:48.606 --> 00:10:50.868 những dấu hiệu dự đoán tốt nhất 00:10:50.868 --> 00:10:54.167 rằng sinh thiết của các tế bào ung thư vú này 00:10:54.167 --> 00:10:57.385 thật sự bị ung thư. 00:10:57.385 --> 00:10:59.883 Vấn đề: Tài liệu y học 00:10:59.883 --> 00:11:02.672 chỉ biết được 9 dấu hiệu. 00:11:02.672 --> 00:11:04.472 Trong đó, có 3 dấu hiệu 00:11:04.472 --> 00:11:07.447 mà mọi người không cần phải tìm kiếm 00:11:07.447 --> 00:11:12.978 nhưng cỗ máy phát hiện ra. NOTE Paragraph 00:11:12.978 --> 00:11:18.903 Dữ liệu lớn cũng có mặt tối của nó. 00:11:18.903 --> 00:11:20.977 Nó sẽ cải thiện cuộc sống của chúng ta, nhưng có những vấn đề 00:11:20.977 --> 00:11:23.617 mà chúng ta nên cảnh giác, 00:11:23.617 --> 00:11:26.240 và điều đầu tiên đó là quan niệm 00:11:26.240 --> 00:11:28.926 rằng chúng ta có thể bị trừng phạt do các dự đoán, 00:11:28.926 --> 00:11:32.796 rằng cảnh sát có thể sử dụng dữ liệu lớn cho mục đích của họ, 00:11:32.796 --> 00:11:35.147 tựa như phim "Minority Report" 00:11:35.147 --> 00:11:37.588 Nó là một thuật ngữ gọi là giám sát dự báo 00:11:37.588 --> 00:11:39.951 hoặc thuật toán tội phạm học, 00:11:39.951 --> 00:11:41.987 và khái niệm đó là: nếu chúng ta lấy nhiều dữ liệu, 00:11:41.987 --> 00:11:44.146 ví dụ dữ liệu về các địa điểm xảy ra tội phạm 00:11:44.146 --> 00:11:46.689 chúng ta sẽ biết nơi cần gửi đội tuần tra. 00:11:46.689 --> 00:11:48.804 Điều đó là hợp lý, nhưng vấn đề, dĩ nhiên 00:11:48.804 --> 00:11:53.348 không phải chỉ dừng về ở dữ liệu định vị, 00:11:53.348 --> 00:11:56.307 nó sẽ xuống cấp độ thu thập dữ liệu của từng cá nhân 00:11:56.307 --> 00:11:58.557 Tại sao chúng ta không dùng dữ liệu để biết về 00:11:58.557 --> 00:12:00.785 bảng điểm cấp 3 của một người nào đó? 00:12:00.785 --> 00:12:02.346 Có thể chúng ta nên dùng sự thật như 00:12:02.346 --> 00:12:04.374 họ thất nghiệp hay không, điểm tín dụng, 00:12:04.374 --> 00:12:05.926 cách họ lướt web 00:12:05.926 --> 00:12:07.804 hay họ có thức khuya hay không. 00:12:07.804 --> 00:12:10.965 Chí số Fitbit, khi nó có khả năng xác định các hóa sinh, 00:12:10.965 --> 00:12:15.201 sẽ chỉ ra rằng họ có suy nghĩ hiếu chiến. 00:12:15.201 --> 00:12:17.422 Chúng ta có thể có những thuật toán có khả năng dự đoán 00:12:17.422 --> 00:12:19.055 những gì chúng ta sẽ làm, 00:12:19.055 --> 00:12:20.299 và chúng ta có phải chịu trách nhiệm 00:12:20.299 --> 00:12:22.889 trước khi chúng ta thật sự làm những điều đó 00:12:22.889 --> 00:12:24.621 Bảo mật là thách thức trọng tâm 00:12:24.621 --> 00:12:27.501 trong thời đại dữ liệu nhỏ. 00:12:27.501 --> 00:12:29.650 Trong thời đại dữ liệu lớn, 00:12:29.650 --> 00:12:34.173 thách thức sẽ là bảo vệ tự do, 00:12:34.173 --> 00:12:37.952 lựa chọn đạo đức, ý chí con người, 00:12:37.952 --> 00:12:41.020 tính chủ thể. NOTE Paragraph 00:12:42.540 --> 00:12:44.765 Còn có một vấn đề nữa: 00:12:44.765 --> 00:12:48.321 Dữ liệu lớn sẽ cướp đi việc làm của chúng ta. 00:12:48.321 --> 00:12:51.833 Dữ liệu lớn và các thuật toán sẽ thách thức 00:12:51.833 --> 00:12:54.894 công việc văn phòng, công việc chuyên môn 00:12:54.894 --> 00:12:56.547 trong thế kỷ 21 00:12:56.547 --> 00:12:58.981 trong cùng một cách mà máy móc tự động 00:12:58.981 --> 00:13:01.170 và dây chuyền lắp ráp 00:13:01.170 --> 00:13:04.196 thách thức công nhân ở thế kỉ 20 00:13:04.196 --> 00:13:06.288 Hãy nghĩ về kỹ thuật viên phòng thí nghiệm 00:13:06.288 --> 00:13:07.697 người tìm hiểu vấn đề qua một cái kính hiển vi 00:13:07.697 --> 00:13:09.321 ở viện sinh thiết ung thư 00:13:09.321 --> 00:13:11.958 và xác định xem sinh thiết này có bị ung thư hay không. 00:13:11.958 --> 00:13:13.930 Người này đã học xong đại học 00:13:13.930 --> 00:13:15.360 Người này mua nhà. 00:13:15.360 --> 00:13:17.162 Anh ấy hoặc cô ấy bỏ phiếu. 00:13:18.964 --> 00:13:20.767 Anh ấy hoặc cô ấy là một nhân tố trong xã hội. 00:13:20.767 --> 00:13:22.161 Và việc làm của người đó, 00:13:22.161 --> 00:13:23.770 cũng như toàn bộ đội ngũ 00:13:23.770 --> 00:13:25.739 của những người chuyên môn giống như người đó 00:13:25.739 --> 00:13:28.889 sẽ thấy rằng việc làm của họ bị thay đổi một cách triệt để 00:13:28.889 --> 00:13:31.246 hoặc bị loại bỏ hoàn toàn. 00:13:31.246 --> 00:13:32.530 Chúng ta thích nghĩ rằng 00:13:32.530 --> 00:13:35.717 công nghệ sẽ tạo nên việc làm sau một khoảng thời gian 00:13:35.717 --> 00:13:39.182 sau khoản thời gian rối loạn tạm thời, 00:13:39.182 --> 00:13:41.123 và điều đó là đúng cho các khung tham chiếu 00:13:41.123 --> 00:13:43.265 mà chúng ta sống, Cách mạng công nghiệp, 00:13:43.265 --> 00:13:45.593 vì đó chính xác là những gì đã xảy ra. 00:13:45.593 --> 00:13:47.926 Nhưng chúng ta quên điều gì đó trong bài phân tích đấy: 00:13:47.926 --> 00:13:49.756 Có một số loại công việc 00:13:49.756 --> 00:13:53.176 đơn giản là bị loại bỏ hoàn toàn và không bao giờ quay lại. 00:13:53.176 --> 00:13:55.180 Cách mạng công nghiệp không hề tốt 00:13:55.180 --> 00:13:59.182 nếu bạn là một con ngựa. 00:13:59.182 --> 00:14:01.237 Do đó chúng ta phải thận trọng 00:14:01.237 --> 00:14:04.751 trong việc sử dụng dữ liệu lớn và điều chỉnh nó cho nhu cầu của chúng ta 00:14:04.751 --> 00:14:07.936 nhu cầu rất con người của chúng ta. 00:14:07.936 --> 00:14:09.890 Chúng ta phải là chủ của công nghệ này, 00:14:09.890 --> 00:14:11.546 chứ không phải là người hầu của nó. 00:14:11.546 --> 00:14:14.504 Chúng ta chỉ khởi đầu một kỷ nguyên của dữ liệu lớn 00:14:14.504 --> 00:14:17.654 và thành thật mà nói, chúng ta không hề giỏi 00:14:17.654 --> 00:14:21.861 trong việc xử lý tất cả các dữ liệu mà chúng ta có thể thu thập. 00:14:21.861 --> 00:14:25.191 Nó không chỉ là vấn đề cho Cục An ninh Quốc gia. 00:14:25.191 --> 00:14:28.229 Các doanh nghiệp thu thập rất nhiều dữ liệu và họ cũng lạm dụng nó. 00:14:28.229 --> 00:14:31.896 Chúng ta phải làm tốt hơn và điều này sẽ tốn nhiều thời gian. 00:14:31.896 --> 00:14:33.718 Nó giống như là thử thách mà 00:14:33.718 --> 00:14:36.125 người nguyên thủy gặp phải với lửa 00:14:36.125 --> 00:14:38.010 Đây là một công cụ, nhưng là một công cụ mà 00:14:38.010 --> 00:14:41.569 nếu chúng ta không cẩn thận, sẽ thiêu cháy chúng ta. NOTE Paragraph 00:14:44.008 --> 00:14:47.128 Dữ liệu lớn sẽ thay đổi cách sống của chúng ta 00:14:47.128 --> 00:14:49.929 cách chúng ta làm việc và cách chúng ta suy nghĩ. 00:14:49.929 --> 00:14:51.818 Nó sẽ giúp chúng ta quản lý sự nghiệp của chúng ta 00:14:51.818 --> 00:14:55.452 và dẫn đến cuộc sống của sự hài lòng và hy vọng 00:14:55.452 --> 00:14:58.444 và hạnh phúc và sức khỏe. 00:14:58.444 --> 00:15:01.750 Nhưng ở trong quá khứ, chúng ta thường nhìn vào công nghệ thông tin 00:15:01.750 --> 00:15:03.958 và con mắt chúng ta chỉ nhìn thấy những thứ như, 00:15:03.958 --> 00:15:05.644 công nghệ, phần mềm, 00:15:05.644 --> 00:15:07.906 những thứ vật chất. 00:15:07.906 --> 00:15:10.830 Chúng ta phải đúc kết lại cái nhìn của chúng ta, 00:15:10.830 --> 00:15:12.210 nhìn vào thông tin, 00:15:12.210 --> 00:15:13.583 dù nó ít rõ ràng hơn 00:15:13.583 --> 00:15:17.692 nhưng trong một số khía cạnh quan trọng hơn rất nhiều. 00:15:17.692 --> 00:15:21.157 Nhân loại cuối cùng cũng có thể học hỏi từ những thông tin 00:15:21.157 --> 00:15:23.575 mà nó có thể thu thập, 00:15:23.575 --> 00:15:25.690 như một phần của cuộc thám hiểm vô tận của chúng ta 00:15:25.690 --> 00:15:28.849 để hiểu về thế giới và vị trí của chúng ta trong thế giới, 00:15:28.849 --> 00:15:34.480 và đó là lý do tại sao dữ liệu lớn là một vấn đề quan trọng. NOTE Paragraph 00:15:34.480 --> 00:15:38.048 (vỗ tay)