1 00:00:00,787 --> 00:00:04,632 Loại bánh ưa thích tại Mỹ là ? 2 00:00:04,632 --> 00:00:08,138 Khán giả: Bánh táo. Kenneth Cukier: Bánh táo. Tất nhiên rồi. 3 00:00:08,138 --> 00:00:09,369 Làm sao ta biết được? 4 00:00:09,369 --> 00:00:12,122 Nhờ có dữ liệu. 5 00:00:12,122 --> 00:00:14,188 Nhìn vào doanh số bán hàng siêu thị. 6 00:00:14,188 --> 00:00:17,054 Nhìn vào doanh số bán của các loại bánh đường kính 30cm 7 00:00:17,054 --> 00:00:21,129 được đông lạnh, và bánh táo thắng tuyệt đối. 8 00:00:21,129 --> 00:00:26,309 Phần lớn bánh bán ra là bánh táo. 9 00:00:26,309 --> 00:00:29,273 Nhưng đến khi các siêu thị bắt đầu bán 10 00:00:29,273 --> 00:00:31,856 loại nhỏ hơn, cỡ 11 cm, 11 00:00:31,856 --> 00:00:36,030 thì đột nhiên, bánh táo tụt xuống hạng tư hay năm. 12 00:00:36,030 --> 00:00:38,905 Tại sao? Điều gì đã xảy ra? 13 00:00:38,905 --> 00:00:41,723 Hãy cùng suy nghĩ về điều này. 14 00:00:41,723 --> 00:00:45,571 Khi bạn mua bánh cỡ 30 cm, 15 00:00:45,571 --> 00:00:47,832 cả gia đình bạn phải đồng ý, 16 00:00:47,832 --> 00:00:51,623 thực tế, bánh táo chỉ đứng thứ hai trong danh sách yêu thích của mọi người. 17 00:00:51,623 --> 00:00:53,558 (tiếng cười) 18 00:00:53,558 --> 00:00:57,173 Nhưng khi mua một cái bánh cỡ 11 cm, 19 00:00:57,173 --> 00:01:00,918 bạn có thể mua cái mà bạn muốn. 20 00:01:00,918 --> 00:01:04,508 Bạn có thể mua loại mà mình thích nhất. 21 00:01:04,508 --> 00:01:06,574 Bạn có nhiều dữ liệu hơn. 22 00:01:06,574 --> 00:01:08,128 Bạn có thể thấy được những thứ 23 00:01:08,128 --> 00:01:12,920 không thể thấy khi chỉ có một lượng nhỏ dữ liệu. 24 00:01:12,920 --> 00:01:15,688 Điểm mấu chốt ở đây là, có nhiều dữ liệu hơn 25 00:01:15,688 --> 00:01:17,971 không những giúp ta thấy nhiều hơn, 26 00:01:17,971 --> 00:01:19,825 nhiều hơn về thứ ta đang nhìn. 27 00:01:19,825 --> 00:01:23,438 Nhiều dữ liệu hơn còn giúp ta thấy được những điều mới, 28 00:01:23,438 --> 00:01:26,532 mang đến một góc nhìn tốt hơn, 29 00:01:26,532 --> 00:01:30,188 cho phép ta thấy khác đi. 30 00:01:30,188 --> 00:01:33,361 Trong trường hợp này, nó cho phép ta thấy 31 00:01:33,361 --> 00:01:36,274 thứ bánh nào được ưa chuộng ở Mỹ: 32 00:01:36,274 --> 00:01:38,816 không phải bánh táo. 33 00:01:38,816 --> 00:01:42,430 Các bạn chắc hẳn đã từng nghe về khái niệm big data (dữ liệu lớn). 34 00:01:42,430 --> 00:01:45,717 Đúng hơn, hẳn các bạn đã chán ngấy về nó. 35 00:01:45,717 --> 00:01:49,447 Thật đúng khi cho rằng có nhiều sự thổi phồng xung quanh khái niệm trên, 36 00:01:49,447 --> 00:01:51,779 và điều đó thật đáng tiếc, 37 00:01:51,779 --> 00:01:54,825 vì big data là một công cụ cực kì quan trọng 38 00:01:54,825 --> 00:01:58,559 mà nhờ đó, xã hội sẽ trở nên tiến bộ hơn. 39 00:01:58,559 --> 00:02:02,120 Trong quá khứ, chúng ta thường nhìn vào những dữ liệu nhỏ, 40 00:02:02,120 --> 00:02:03,824 tìm hiểu ý nghĩa của chúng, 41 00:02:03,824 --> 00:02:05,320 để cố gắng hiểu về thế giới, 42 00:02:05,320 --> 00:02:07,311 và giờ, ta có nhiều dữ liệu hơn, 43 00:02:07,311 --> 00:02:10,033 nhiều hơn bao giờ hết. 44 00:02:10,033 --> 00:02:11,910 Những gì ta biết là khi có 45 00:02:11,910 --> 00:02:14,634 một lượng lớn dữ liệu, ta có thể làm những điều 46 00:02:14,634 --> 00:02:17,910 mà trước kia không thể. 47 00:02:17,910 --> 00:02:20,551 Dữ liệu lớn rất quan trọng, và mới mẻ, 48 00:02:20,551 --> 00:02:22,328 và đó có thể là 49 00:02:22,328 --> 00:02:24,544 cách duy nhất mà hành tinh này sẽ 50 00:02:24,544 --> 00:02:26,333 đối phó với những thử thách toàn cầu: 51 00:02:26,333 --> 00:02:29,870 đảm bảo thức ăn cho mọi người, cung cấp dịch vụ y tế, 52 00:02:29,870 --> 00:02:32,680 cung cấp năng lượng, điện, 53 00:02:32,680 --> 00:02:34,469 và đảm bảo người dân không bị thiêu rụi 54 00:02:34,469 --> 00:02:35,707 bởi sự nóng lên toàn cầu - 55 00:02:35,707 --> 00:02:39,902 tất cả nhờ vào việc sử dụng dữ liệu hiệu quả. 56 00:02:39,902 --> 00:02:43,772 Vậy thì, có gì mới về dữ liệu lớn? Có gì mà to tát vậy chứ? 57 00:02:43,772 --> 00:02:46,289 Được, để trả lời câu hỏi đó, hãy nghĩ về 58 00:02:46,289 --> 00:02:50,949 thông tin trông như thế nào, trước kia. 59 00:02:50,949 --> 00:02:54,830 Vào năm 1908, trên đảo Crete, 60 00:02:54,830 --> 00:02:59,565 các nhà khảo cổ học tìm ra một cái đĩa đất sét. 61 00:02:59,565 --> 00:03:03,624 Họ xác định nó từ là 2000 năm trước Công nguyên, vậy nó 4000 tuổi. 62 00:03:03,624 --> 00:03:07,195 Có chữ khắc trên tấm đĩa, nhưng ta không hiểu nó có nghĩa gì. 63 00:03:07,195 --> 00:03:09,053 Hoàn toàn là một bí ẩn, nhưng vấn đề là 64 00:03:09,053 --> 00:03:12,750 thông tin đã từng trông như thế 4000 năm trước. 65 00:03:12,750 --> 00:03:15,618 Đây là cách xã hội lưu trữ 66 00:03:15,618 --> 00:03:19,142 và truyền tải thông tin. 67 00:03:19,142 --> 00:03:23,302 Bây giờ, xã hội chưa tân tiến đến mức đó. 68 00:03:23,302 --> 00:03:26,776 Chúng ta vẫn lưu trữ thông tin trên đĩa, 69 00:03:26,776 --> 00:03:31,000 nhưng giờ, có thể lưu trữ nhiều thông tin hơn trước kia. 70 00:03:31,000 --> 00:03:34,313 Tìm kiếm nó thì dễ hơn. Sao chép nó cũng dễ hơn. 71 00:03:34,313 --> 00:03:37,813 Chia sẻ cũng dễ hơn. Xử lý dễ hơn. 72 00:03:37,813 --> 00:03:40,319 Những gì ta có thể làm là sử dụng lại thông tin này 73 00:03:40,319 --> 00:03:42,933 vào việc mà thậm chí chưa bao giờ tưởng tượng ra 74 00:03:42,933 --> 00:03:45,608 khi mới bắt đầu thu thập dữ liệu. 75 00:03:45,608 --> 00:03:47,860 Về lĩnh vực này, dữ liệu đã đi 76 00:03:47,860 --> 00:03:51,392 từ một kho tích trữ về một dòng chảy , 77 00:03:51,392 --> 00:03:55,330 từ thứ bất động và cố định 78 00:03:55,330 --> 00:03:58,939 sang linh hoạt và năng động. 79 00:03:58,939 --> 00:04:02,962 Có một thanh khoản thông tin. 80 00:04:02,962 --> 00:04:06,436 Cái đĩa được tìm thấy ở Crete 81 00:04:06,436 --> 00:04:10,200 đã 4000 năm tuổi, rất nặng, 82 00:04:10,200 --> 00:04:12,162 nó không lưu trữ được nhiều thông tin, 83 00:04:12,162 --> 00:04:15,278 và số thông tin đó không thể thay đổi. 84 00:04:15,278 --> 00:04:19,289 Ngược lại, tất cả những hồ sơ 85 00:04:19,289 --> 00:04:21,150 mà Edward Snowden lấy 86 00:04:21,150 --> 00:04:23,771 từ Cục An ninh Quốc gia Hoa Kỳ 87 00:04:23,771 --> 00:04:26,190 chứa vừa trong một thẻ nhớ 88 00:04:26,190 --> 00:04:29,200 bằng kích thước của móng tay, 89 00:04:29,200 --> 00:04:33,945 và có thể được chia sẻ với tốc độ ánh sáng. 90 00:04:33,945 --> 00:04:38,240 Nhiều dữ liệu hơn, hơn rất nhiều. 91 00:04:38,240 --> 00:04:41,174 Một lý do tại sao có quá nhiều dữ liệu trên thế giới hiện nay 92 00:04:41,174 --> 00:04:43,266 là vì chúng ta đang thu thập những thứ 93 00:04:43,266 --> 00:04:45,886 ta vẫn luôn thu thập, 94 00:04:45,886 --> 00:04:48,542 một lý do khác để giải thích việc chúng ta lấy những thứ 95 00:04:48,542 --> 00:04:51,354 đã luôn cung cấp thông tin 96 00:04:51,354 --> 00:04:53,840 nhưng chưa bao giờ được làm thành dạng dữ liệu 97 00:04:53,840 --> 00:04:56,259 và do đó, chúng ta bỏ những thứ đấy vào dữ liệu 98 00:04:56,259 --> 00:04:59,567 Lấy ví dụ, câu hỏi về địa điểm 99 00:04:59,567 --> 00:05:01,816 Lấy ví dụ, Martin Luther 100 00:05:01,816 --> 00:05:03,413 Nếu chúng ta muốn biết vào năm 1500 101 00:05:03,413 --> 00:05:06,080 Martin Luther ở đâu, 102 00:05:06,080 --> 00:05:08,172 chúng ta sẽ phải theo dõi ông ấy mọi lúc, 103 00:05:08,172 --> 00:05:10,309 kèm theo một cây bút lông và một lọ mực 104 00:05:10,309 --> 00:05:11,985 để ghi chép lại. 105 00:05:11,985 --> 00:05:14,168 Nhưng bây giờ hãy nghĩ nó sẽ như thế nào ngày nay. 106 00:05:14,168 --> 00:05:16,290 Bạn biết rằng ở một nơi nào đó, 107 00:05:16,290 --> 00:05:18,736 khả năng là trong cơ sở dữ liệu của một hãng viễn thông 108 00:05:18,736 --> 00:05:21,772 có một bảng tính hoặc ít nhất một mục cơ sở dữ liệu 109 00:05:21,772 --> 00:05:23,860 lưu trữ lại thông tin của bạn 110 00:05:23,860 --> 00:05:25,923 những nơi bạn đã đến tại mọi thời điểm 111 00:05:25,923 --> 00:05:27,283 Nếu bạn có điện thoại di động, 112 00:05:27,283 --> 00:05:30,130 và chiếc điện thoại đó có GPS, nhưng ngay cả khi nó không có GPS, 113 00:05:30,130 --> 00:05:32,515 nó vẫn có thể lưu trữ thông tin của bạn 114 00:05:32,515 --> 00:05:36,599 Trong lĩnh vực này, việc định vị đã được dữ liệu hóa 115 00:05:36,599 --> 00:05:41,200 Bây giờ, lấy ví dụ vấn đề về tư thế 116 00:05:41,200 --> 00:05:42,485 tư thế mà các bạn đang ngồi bây giờ 117 00:05:42,485 --> 00:05:44,515 tư thế mà bạn ngồi, 118 00:05:44,515 --> 00:05:47,286 tư thế mà bạn ngồi, tư thế mà bạn ngồi 119 00:05:47,286 --> 00:05:49,363 Nó đều khác nhau, và đó là một chức năng giữa chiều dài chân bạn 120 00:05:49,363 --> 00:05:51,456 lưng bạn và những đường nét của lưng bạn 121 00:05:51,456 --> 00:05:53,987 và nếu bây giờ tôi đặt thiết bị cảm biến 122 00:05:53,987 --> 00:05:55,753 vào tất cả các ghế 123 00:05:55,753 --> 00:05:59,353 Tôi có thể tạo ra một chỉ số tương đối độc nhất về bạn, 124 00:05:59,353 --> 00:06:03,762 ví dụ như dấu vân tây, nhưng không phải là ngón tay của bạn 125 00:06:03,762 --> 00:06:06,731 Vậy chúng ta có thể làm gì với nó? 126 00:06:06,731 --> 00:06:09,128 Các nhà nghiên cứu ở Tokyo đang dùng dấu vân tay 127 00:06:09,128 --> 00:06:13,516 để tạo ra một thiết bị có tiềm năng chống trộm xe hơi. 128 00:06:13,516 --> 00:06:16,440 Ý tưởng là nếu tên trộm ngồi đằng sau tay lái 129 00:06:16,440 --> 00:06:18,544 và cố lái đi, nhưng nếu chiếc xe nhận ra 130 00:06:18,544 --> 00:06:20,906 rằng đằng sau bánh lái là một tài xế không được xác duyệt, 131 00:06:20,906 --> 00:06:23,070 thì động cơ sẽ tự động dừng, trừ khi 132 00:06:23,070 --> 00:06:26,247 bạn nhập mật khẩu vào bảng điều khiển 133 00:06:26,247 --> 00:06:30,905 để báo rằng "Tôi có sự cho phép". Tuyệt. 134 00:06:30,905 --> 00:06:33,458 Nếu như mọi chiếc xe ở Châu Âu 135 00:06:33,458 --> 00:06:34,915 đều có công nghệ này thì sao? 136 00:06:34,915 --> 00:06:38,080 Chúng ta có thể làm gì lúc đó? 137 00:06:38,080 --> 00:06:40,320 Nếu chúng ta có thể tập hợp dữ liệu 138 00:06:40,320 --> 00:06:44,134 có thể chúng ta sẽ khám phá ra các dấu hiệu 139 00:06:44,134 --> 00:06:46,843 dự đoán tốt nhất rằng một tai nạn xe hơi 140 00:06:46,843 --> 00:06:52,736 sẽ xảy ra trong 5 giây tiếp theo. 141 00:06:52,736 --> 00:06:55,293 Và rồi những gì chúng ta sẽ dữ liệu hóa 142 00:06:55,293 --> 00:06:57,076 sẽ là sự mệt mỏi của tài xế, 143 00:06:57,076 --> 00:06:59,410 và dịch vụ lúc đó sẽ là khi chiếc xe cảm nhận được 144 00:06:59,410 --> 00:07:02,847 rằng người tài xế đang rơi vào tình trạng mệt mỏi 145 00:07:02,847 --> 00:07:06,841 nó sẽ tự động biết và rồi cài một báo động bên trong 146 00:07:06,841 --> 00:07:08,866 để làm rung bánh lái, và bóp kèn ở trong xe 147 00:07:08,866 --> 00:07:10,587 báo rằng, "Này! dậy đi, 148 00:07:10,587 --> 00:07:12,491 chú ý đường đi kìa" 149 00:07:12,491 --> 00:07:14,344 Đây là những thứ mà chúng ta có thể làm 150 00:07:14,344 --> 00:07:17,165 khi chúng ta dữ liệu hóa các khía cạnh trong cuộc sống của chúng ta nhiều hơn 151 00:07:17,165 --> 00:07:20,840 Vậy thì giá trị của dữ liệu lớn là gì? 152 00:07:20,840 --> 00:07:23,030 Nào, hãy nghĩ xem. 153 00:07:23,030 --> 00:07:25,442 Bạn có nhiều thông tin hơn. 154 00:07:25,442 --> 00:07:28,783 Bạn có thể làm những việc mà bạn không thể làm trước đó 155 00:07:28,783 --> 00:07:30,459 Một trong những lĩnh vực ấn tượng nhất 156 00:07:30,459 --> 00:07:32,188 mà khái niệm này đang diễn ra 157 00:07:32,188 --> 00:07:35,495 là trong lĩnh vực máy học. 158 00:07:35,495 --> 00:07:38,572 Máy học là một nhánh của trí tuệ nhân tạo 159 00:07:38,572 --> 00:07:41,950 mà bản thân nó là một nhánh của khoa học máy tính. 160 00:07:41,950 --> 00:07:43,493 Ý tưởng chung là thay vì 161 00:07:43,493 --> 00:07:45,610 phải hướng dẫn máy tính những gì phải làm 162 00:07:45,610 --> 00:07:48,230 chúng ta sẽ chỉ ném dữ liệu liên quan đến vấn đề 163 00:07:48,230 --> 00:07:51,436 và bảo máy tính tự tính toán. 164 00:07:51,436 --> 00:07:53,213 Và để giúp bạn hiểu vấn đề này 165 00:07:53,213 --> 00:07:56,765 hãy cùng nhìn lại nguồn gốc của nó. 166 00:07:56,765 --> 00:07:59,153 Vào những năm 1950, 167 00:07:59,153 --> 00:08:02,745 Một nhà khoa học máy tính của IBM tên Arthur Samuel thích chơi cờ, 168 00:08:02,745 --> 00:08:04,147 nên ông ấy viết một chương trình máy tính 169 00:08:04,147 --> 00:08:06,960 để ông ấy có thể chơi cờ với máy tính 170 00:08:06,960 --> 00:08:09,671 Ông ấy chơi. Ông ấy thắng. 171 00:08:09,671 --> 00:08:11,774 Ông ấy chơi. Ông ấy thắng, 172 00:08:11,774 --> 00:08:14,789 Ông ấy chơi. Ông ấy thắng, 173 00:08:14,789 --> 00:08:16,567 vì máy tính chỉ biết 174 00:08:16,567 --> 00:08:18,794 nước đi đúng luật là thế nào. 175 00:08:18,794 --> 00:08:20,881 Arthur Samuel biết một số thứ khác. 176 00:08:20,881 --> 00:08:25,510 Arthur Samuel biết chiến lược. 177 00:08:25,510 --> 00:08:27,906 Và như thế, bên cạnh đó, ông ấy viết một chương trình con. 178 00:08:27,906 --> 00:08:29,880 hoạt động trên nền của chương trình chính, và những gì nó làm 179 00:08:29,880 --> 00:08:31,697 chỉ là ghi xác suất 180 00:08:31,697 --> 00:08:34,260 của bàn cờ cho sẵn có khả năng dẫn đến 181 00:08:34,260 --> 00:08:37,170 một ván thắng hoặc một vấn thua 182 00:08:37,170 --> 00:08:39,678 sau mỗi nước đi. 183 00:08:39,678 --> 00:08:42,828 Ông ấy chơi với máy tính. Ông ấy thắng 184 00:08:42,828 --> 00:08:45,336 Ông ấy chơi với máy tính. Ông ấy thắng 185 00:08:45,336 --> 00:08:49,067 Ông ấy chơi với máy tính. Ông ấy thắng 186 00:08:49,067 --> 00:08:51,344 Và rồi Arthur Samuel để máy tính 187 00:08:51,344 --> 00:08:53,571 tự chơi cờ với chính nó. 188 00:08:53,571 --> 00:08:57,080 Nó tự chơi cờ. Nó thu thập nhiều dữ liệu hơn. 189 00:08:57,080 --> 00:09:01,389 Nó thu thập nhiều dữ liệu hơn. Nó tăng độ chính xác về khả năng dự đoạn 190 00:09:01,389 --> 00:09:03,493 Và rồi Arthur Samuel quay lại máy tính 191 00:09:03,493 --> 00:09:05,811 và ông ấy chơi cờ với nó, và ông ấy thua 192 00:09:05,811 --> 00:09:07,880 và ông ấy chơi, ông ấy thua 193 00:09:07,880 --> 00:09:09,927 và ông ấy chơi, ông ấy thua 194 00:09:09,927 --> 00:09:12,526 và Arthur Samuel đã tạo ra một cỗ máy 195 00:09:12,526 --> 00:09:18,814 vượt qua khả năng của ông ấy trong một việc mà chính ông ấy dạy nó. 196 00:09:18,814 --> 00:09:21,312 Và ý tưởng này trong lĩnh vực máy học 197 00:09:21,312 --> 00:09:25,239 đang được ứng dụng ở mọi nơi. 198 00:09:25,239 --> 00:09:28,388 Bạn nghĩ làm sao chúng ta có xe hơi lái tự động? 199 00:09:28,388 --> 00:09:30,525 Xã hội chúng ta có khá hơn không 200 00:09:30,525 --> 00:09:33,810 khi chúng ta nhập tất cả các luật giao thông vào phần mềm? 201 00:09:33,810 --> 00:09:36,408 Không. Bộ nhớ rẻ hơn? Không 202 00:09:36,408 --> 00:09:40,402 Các thuật toán xử lý nhanh hơn? Không Bộ vi xử lý tốt hơn? Không 203 00:09:40,402 --> 00:09:43,174 Tất cả những điều này đều quan trọng, nhưng đó không phải là lý do. 204 00:09:43,174 --> 00:09:46,315 Mà là vì chúng ta đã thay đổi bản chất của vấn đề. 205 00:09:46,315 --> 00:09:47,845 Từ một vấn đề mà chúng ta tìm cách để giải thích 206 00:09:47,845 --> 00:09:50,090 rõ ràng và dứt khoát 207 00:09:50,090 --> 00:09:52,671 cho máy tính hiểu rằng làm thế nào để lái xe 208 00:09:52,671 --> 00:09:53,987 đến một vấn đề mà chúng ta nói rằng, 209 00:09:53,987 --> 00:09:55,863 "Đây là tập dữ liệu xung quanh chiếc xe. 210 00:09:55,863 --> 00:09:57,396 Hãy tự xử lý dữ liệu này. 211 00:09:57,396 --> 00:09:59,263 Hãy tự luận ra rằng đó là đèn giao thông, 212 00:09:59,263 --> 00:10:01,344 rằng đèn giao thông đó đang là đèn đỏ không phải đèn xanh 213 00:10:01,344 --> 00:10:03,358 rằng điều đó có nghĩa là bạn phải dừng lại 214 00:10:03,358 --> 00:10:06,441 và không đi về phía trước." 215 00:10:06,441 --> 00:10:07,959 Máy học là nền tảng cơ bản 216 00:10:07,959 --> 00:10:09,950 của rất nhiều thứ chúng ta làm trên mạng: 217 00:10:09,950 --> 00:10:11,807 các công cụ tìm kiếm, 218 00:10:11,807 --> 00:10:15,608 Thuật toán cá nhân hóa của Amazon, 219 00:10:15,608 --> 00:10:17,820 máy tính dịch thuật, 220 00:10:17,820 --> 00:10:22,110 hệ thống xác nhận giọng nói. 221 00:10:22,110 --> 00:10:24,945 Gần đây, các nhà nghiên cứu đã tìm hiểu 222 00:10:24,945 --> 00:10:28,140 về các vấn đề sinh thiết 223 00:10:28,140 --> 00:10:30,907 sinh thiết ung thư, 224 00:10:30,907 --> 00:10:33,222 và họ đã nhờ máy tính xác định, 225 00:10:33,222 --> 00:10:35,693 bằng cách nhìn vào dữ liệu và chỉ số sống sót 226 00:10:35,693 --> 00:10:40,360 để xác nhận rằng những tế bào này 227 00:10:40,360 --> 00:10:42,904 có thật sự bị ung thư hay không, 228 00:10:42,904 --> 00:10:44,682 và chắc chắn rằng, khi bạn nhập dữ liệu vào máy tính, 229 00:10:44,682 --> 00:10:46,729 qua một thuật toán máy học 230 00:10:46,729 --> 00:10:48,606 cỗ máy có thể xác định 231 00:10:48,606 --> 00:10:50,868 những dấu hiệu dự đoán tốt nhất 232 00:10:50,868 --> 00:10:54,167 rằng sinh thiết của các tế bào ung thư vú này 233 00:10:54,167 --> 00:10:57,385 thật sự bị ung thư. 234 00:10:57,385 --> 00:10:59,883 Vấn đề: Tài liệu y học 235 00:10:59,883 --> 00:11:02,672 chỉ biết được 9 dấu hiệu. 236 00:11:02,672 --> 00:11:04,472 Trong đó, có 3 dấu hiệu 237 00:11:04,472 --> 00:11:07,447 mà mọi người không cần phải tìm kiếm 238 00:11:07,447 --> 00:11:12,978 nhưng cỗ máy phát hiện ra. 239 00:11:12,978 --> 00:11:18,903 Dữ liệu lớn cũng có mặt tối của nó. 240 00:11:18,903 --> 00:11:20,977 Nó sẽ cải thiện cuộc sống của chúng ta, nhưng có những vấn đề 241 00:11:20,977 --> 00:11:23,617 mà chúng ta nên cảnh giác, 242 00:11:23,617 --> 00:11:26,240 và điều đầu tiên đó là quan niệm 243 00:11:26,240 --> 00:11:28,926 rằng chúng ta có thể bị trừng phạt do các dự đoán, 244 00:11:28,926 --> 00:11:32,796 rằng cảnh sát có thể sử dụng dữ liệu lớn cho mục đích của họ, 245 00:11:32,796 --> 00:11:35,147 tựa như phim "Minority Report" 246 00:11:35,147 --> 00:11:37,588 Nó là một thuật ngữ gọi là giám sát dự báo 247 00:11:37,588 --> 00:11:39,951 hoặc thuật toán tội phạm học, 248 00:11:39,951 --> 00:11:41,987 và khái niệm đó là: nếu chúng ta lấy nhiều dữ liệu, 249 00:11:41,987 --> 00:11:44,146 ví dụ dữ liệu về các địa điểm xảy ra tội phạm 250 00:11:44,146 --> 00:11:46,689 chúng ta sẽ biết nơi cần gửi đội tuần tra. 251 00:11:46,689 --> 00:11:48,804 Điều đó là hợp lý, nhưng vấn đề, dĩ nhiên 252 00:11:48,804 --> 00:11:53,348 không phải chỉ dừng về ở dữ liệu định vị, 253 00:11:53,348 --> 00:11:56,307 nó sẽ xuống cấp độ thu thập dữ liệu của từng cá nhân 254 00:11:56,307 --> 00:11:58,557 Tại sao chúng ta không dùng dữ liệu để biết về 255 00:11:58,557 --> 00:12:00,785 bảng điểm cấp 3 của một người nào đó? 256 00:12:00,785 --> 00:12:02,346 Có thể chúng ta nên dùng sự thật như 257 00:12:02,346 --> 00:12:04,374 họ thất nghiệp hay không, điểm tín dụng, 258 00:12:04,374 --> 00:12:05,926 cách họ lướt web 259 00:12:05,926 --> 00:12:07,804 hay họ có thức khuya hay không. 260 00:12:07,804 --> 00:12:10,965 Chí số Fitbit, khi nó có khả năng xác định các hóa sinh, 261 00:12:10,965 --> 00:12:15,201 sẽ chỉ ra rằng họ có suy nghĩ hiếu chiến. 262 00:12:15,201 --> 00:12:17,422 Chúng ta có thể có những thuật toán có khả năng dự đoán 263 00:12:17,422 --> 00:12:19,055 những gì chúng ta sẽ làm, 264 00:12:19,055 --> 00:12:20,299 và chúng ta có phải chịu trách nhiệm 265 00:12:20,299 --> 00:12:22,889 trước khi chúng ta thật sự làm những điều đó 266 00:12:22,889 --> 00:12:24,621 Bảo mật là thách thức trọng tâm 267 00:12:24,621 --> 00:12:27,501 trong thời đại dữ liệu nhỏ. 268 00:12:27,501 --> 00:12:29,650 Trong thời đại dữ liệu lớn, 269 00:12:29,650 --> 00:12:34,173 thách thức sẽ là bảo vệ tự do, 270 00:12:34,173 --> 00:12:37,952 lựa chọn đạo đức, ý chí con người, 271 00:12:37,952 --> 00:12:41,020 tính chủ thể. 272 00:12:42,540 --> 00:12:44,765 Còn có một vấn đề nữa: 273 00:12:44,765 --> 00:12:48,321 Dữ liệu lớn sẽ cướp đi việc làm của chúng ta. 274 00:12:48,321 --> 00:12:51,833 Dữ liệu lớn và các thuật toán sẽ thách thức 275 00:12:51,833 --> 00:12:54,894 công việc văn phòng, công việc chuyên môn 276 00:12:54,894 --> 00:12:56,547 trong thế kỷ 21 277 00:12:56,547 --> 00:12:58,981 trong cùng một cách mà máy móc tự động 278 00:12:58,981 --> 00:13:01,170 và dây chuyền lắp ráp 279 00:13:01,170 --> 00:13:04,196 thách thức công nhân ở thế kỉ 20 280 00:13:04,196 --> 00:13:06,288 Hãy nghĩ về kỹ thuật viên phòng thí nghiệm 281 00:13:06,288 --> 00:13:07,697 người tìm hiểu vấn đề qua một cái kính hiển vi 282 00:13:07,697 --> 00:13:09,321 ở viện sinh thiết ung thư 283 00:13:09,321 --> 00:13:11,958 và xác định xem sinh thiết này có bị ung thư hay không. 284 00:13:11,958 --> 00:13:13,930 Người này đã học xong đại học 285 00:13:13,930 --> 00:13:15,360 Người này mua nhà. 286 00:13:15,360 --> 00:13:17,162 Anh ấy hoặc cô ấy bỏ phiếu. 287 00:13:18,964 --> 00:13:20,767 Anh ấy hoặc cô ấy là một nhân tố trong xã hội. 288 00:13:20,767 --> 00:13:22,161 Và việc làm của người đó, 289 00:13:22,161 --> 00:13:23,770 cũng như toàn bộ đội ngũ 290 00:13:23,770 --> 00:13:25,739 của những người chuyên môn giống như người đó 291 00:13:25,739 --> 00:13:28,889 sẽ thấy rằng việc làm của họ bị thay đổi một cách triệt để 292 00:13:28,889 --> 00:13:31,246 hoặc bị loại bỏ hoàn toàn. 293 00:13:31,246 --> 00:13:32,530 Chúng ta thích nghĩ rằng 294 00:13:32,530 --> 00:13:35,717 công nghệ sẽ tạo nên việc làm sau một khoảng thời gian 295 00:13:35,717 --> 00:13:39,182 sau khoản thời gian rối loạn tạm thời, 296 00:13:39,182 --> 00:13:41,123 và điều đó là đúng cho các khung tham chiếu 297 00:13:41,123 --> 00:13:43,265 mà chúng ta sống, Cách mạng công nghiệp, 298 00:13:43,265 --> 00:13:45,593 vì đó chính xác là những gì đã xảy ra. 299 00:13:45,593 --> 00:13:47,926 Nhưng chúng ta quên điều gì đó trong bài phân tích đấy: 300 00:13:47,926 --> 00:13:49,756 Có một số loại công việc 301 00:13:49,756 --> 00:13:53,176 đơn giản là bị loại bỏ hoàn toàn và không bao giờ quay lại. 302 00:13:53,176 --> 00:13:55,180 Cách mạng công nghiệp không hề tốt 303 00:13:55,180 --> 00:13:59,182 nếu bạn là một con ngựa. 304 00:13:59,182 --> 00:14:01,237 Do đó chúng ta phải thận trọng 305 00:14:01,237 --> 00:14:04,751 trong việc sử dụng dữ liệu lớn và điều chỉnh nó cho nhu cầu của chúng ta 306 00:14:04,751 --> 00:14:07,936 nhu cầu rất con người của chúng ta. 307 00:14:07,936 --> 00:14:09,890 Chúng ta phải là chủ của công nghệ này, 308 00:14:09,890 --> 00:14:11,546 chứ không phải là người hầu của nó. 309 00:14:11,546 --> 00:14:14,504 Chúng ta chỉ khởi đầu một kỷ nguyên của dữ liệu lớn 310 00:14:14,504 --> 00:14:17,654 và thành thật mà nói, chúng ta không hề giỏi 311 00:14:17,654 --> 00:14:21,861 trong việc xử lý tất cả các dữ liệu mà chúng ta có thể thu thập. 312 00:14:21,861 --> 00:14:25,191 Nó không chỉ là vấn đề cho Cục An ninh Quốc gia. 313 00:14:25,191 --> 00:14:28,229 Các doanh nghiệp thu thập rất nhiều dữ liệu và họ cũng lạm dụng nó. 314 00:14:28,229 --> 00:14:31,896 Chúng ta phải làm tốt hơn và điều này sẽ tốn nhiều thời gian. 315 00:14:31,896 --> 00:14:33,718 Nó giống như là thử thách mà 316 00:14:33,718 --> 00:14:36,125 người nguyên thủy gặp phải với lửa 317 00:14:36,125 --> 00:14:38,010 Đây là một công cụ, nhưng là một công cụ mà 318 00:14:38,010 --> 00:14:41,569 nếu chúng ta không cẩn thận, sẽ thiêu cháy chúng ta. 319 00:14:44,008 --> 00:14:47,128 Dữ liệu lớn sẽ thay đổi cách sống của chúng ta 320 00:14:47,128 --> 00:14:49,929 cách chúng ta làm việc và cách chúng ta suy nghĩ. 321 00:14:49,929 --> 00:14:51,818 Nó sẽ giúp chúng ta quản lý sự nghiệp của chúng ta 322 00:14:51,818 --> 00:14:55,452 và dẫn đến cuộc sống của sự hài lòng và hy vọng 323 00:14:55,452 --> 00:14:58,444 và hạnh phúc và sức khỏe. 324 00:14:58,444 --> 00:15:01,750 Nhưng ở trong quá khứ, chúng ta thường nhìn vào công nghệ thông tin 325 00:15:01,750 --> 00:15:03,958 và con mắt chúng ta chỉ nhìn thấy những thứ như, 326 00:15:03,958 --> 00:15:05,644 công nghệ, phần mềm, 327 00:15:05,644 --> 00:15:07,906 những thứ vật chất. 328 00:15:07,906 --> 00:15:10,830 Chúng ta phải đúc kết lại cái nhìn của chúng ta, 329 00:15:10,830 --> 00:15:12,210 nhìn vào thông tin, 330 00:15:12,210 --> 00:15:13,583 dù nó ít rõ ràng hơn 331 00:15:13,583 --> 00:15:17,692 nhưng trong một số khía cạnh quan trọng hơn rất nhiều. 332 00:15:17,692 --> 00:15:21,157 Nhân loại cuối cùng cũng có thể học hỏi từ những thông tin 333 00:15:21,157 --> 00:15:23,575 mà nó có thể thu thập, 334 00:15:23,575 --> 00:15:25,690 như một phần của cuộc thám hiểm vô tận của chúng ta 335 00:15:25,690 --> 00:15:28,849 để hiểu về thế giới và vị trí của chúng ta trong thế giới, 336 00:15:28,849 --> 00:15:34,480 và đó là lý do tại sao dữ liệu lớn là một vấn đề quan trọng. 337 00:15:34,480 --> 00:15:38,048 (vỗ tay)