Loại bánh ưa thích tại Mỹ là ?

Khán giả: Bánh táo.
Kenneth Cukier: Bánh táo. Tất nhiên rồi.

Làm sao ta biết được?

Nhờ có dữ liệu.

Nhìn vào doanh số bán hàng siêu thị.

Nhìn vào doanh số bán của các 
loại bánh đường kính 30cm

được đông lạnh, 
và bánh táo thắng tuyệt đối.

Phần lớn bánh bán ra là bánh táo.

Nhưng đến khi 
các siêu thị bắt đầu bán

loại nhỏ hơn, cỡ 11 cm,

thì đột nhiên, bánh táo tụt 
xuống hạng tư hay năm.

Tại sao? Điều gì đã xảy ra?

Hãy cùng suy nghĩ về điều này.

Khi bạn mua bánh cỡ 30 cm,

cả gia đình bạn phải đồng ý,

thực tế, bánh táo chỉ đứng thứ hai 
trong danh sách yêu thích của mọi người.

(tiếng cười)

Nhưng khi mua một cái 
bánh cỡ 11 cm,

bạn có thể mua cái mà bạn muốn.

Bạn có thể mua loại 
mà mình thích nhất.

Bạn có nhiều dữ liệu hơn.

Bạn có thể thấy được những thứ

không thể thấy 
khi chỉ có một lượng nhỏ dữ liệu.

Điểm mấu chốt ở đây là, 
có nhiều dữ liệu hơn

không những giúp ta thấy nhiều hơn,

nhiều hơn về thứ ta đang nhìn.

Nhiều dữ liệu hơn còn giúp ta 
thấy được những điều mới,

mang đến một góc nhìn tốt hơn,

cho phép ta thấy khác đi.

Trong trường hợp này, 
nó cho phép ta thấy

thứ bánh nào được ưa chuộng ở Mỹ:

không phải bánh táo.

Các bạn chắc hẳn đã từng 
nghe về khái niệm big data (dữ liệu lớn).

Đúng hơn, hẳn các bạn 
đã chán ngấy về nó.

Thật đúng khi cho rằng có nhiều 
sự thổi phồng xung quanh khái niệm trên,

và điều đó thật đáng tiếc,

vì big data là một công cụ
cực kì quan trọng

mà nhờ đó, 
xã hội sẽ trở nên tiến bộ hơn.

Trong quá khứ, chúng ta thường 
nhìn vào những dữ liệu nhỏ,

tìm hiểu ý nghĩa của chúng,

để cố gắng hiểu về thế giới,

và giờ, ta có nhiều dữ liệu hơn,

nhiều hơn bao giờ hết.

Những gì ta biết là khi có

một lượng lớn dữ liệu, 
ta có thể làm những điều

mà trước kia không thể.

Dữ liệu lớn rất quan trọng, 
và mới mẻ,

và đó có thể là

cách duy nhất mà hành tinh này sẽ

đối phó với những thử thách toàn cầu:

đảm bảo thức ăn cho mọi người, 
cung cấp dịch vụ y tế,

cung cấp năng lượng, điện,

và đảm bảo người dân
không bị thiêu rụi

bởi sự nóng lên toàn cầu -

tất cả nhờ vào 
việc sử dụng dữ liệu hiệu quả.

Vậy thì, có gì mới về dữ liệu lớn? 
Có gì mà to tát vậy chứ?

Được, để trả lời câu hỏi đó, hãy nghĩ về

thông tin trông như thế nào,
trước kia.

Vào năm 1908, trên đảo Crete,

các nhà khảo cổ học tìm ra 
một cái đĩa đất sét.

Họ xác định nó từ là 2000 năm trước 
Công nguyên, vậy nó 4000 tuổi.

Có chữ khắc trên tấm đĩa,
nhưng ta không hiểu nó có nghĩa gì.

Hoàn toàn là một bí ẩn, 
nhưng vấn đề là

thông tin đã từng trông như thế
4000 năm trước.

Đây là cách xã hội lưu trữ

và truyền tải thông tin.

Bây giờ, xã hội chưa tân tiến đến mức đó.

Chúng ta vẫn lưu trữ thông tin trên đĩa,

nhưng giờ, có thể lưu trữ 
nhiều thông tin hơn trước kia.

Tìm kiếm nó thì dễ hơn. 
Sao chép nó cũng dễ hơn.

Chia sẻ cũng dễ hơn. 
Xử lý dễ hơn.

Những gì ta có thể làm là 
sử dụng lại thông tin này

vào việc mà thậm chí 
chưa bao giờ tưởng tượng ra

khi mới bắt đầu thu thập dữ liệu.

Về lĩnh vực này, dữ liệu đã đi

từ một kho tích trữ về một dòng chảy ,

từ thứ bất động và cố định

sang linh hoạt và năng động.

Có một thanh khoản thông tin.

Cái đĩa được tìm thấy ở Crete

đã 4000 năm tuổi, rất nặng,

nó không lưu trữ được nhiều thông tin,

và số thông tin đó không thể thay đổi.

Ngược lại, tất cả những hồ sơ

mà Edward Snowden lấy

từ Cục An ninh Quốc gia Hoa Kỳ

chứa vừa trong một thẻ nhớ

bằng kích thước của móng tay,

và có thể được chia sẻ 
với tốc độ ánh sáng.

Nhiều dữ liệu hơn, hơn rất nhiều.

Một lý do tại sao có quá nhiều 
dữ liệu trên thế giới hiện nay

là vì chúng ta đang 
thu thập những thứ

ta vẫn luôn thu thập,

một lý do khác để giải thích
việc chúng ta lấy những thứ

đã luôn cung cấp thông tin

nhưng chưa bao giờ được làm thành dạng dữ liệu

và do đó,
chúng ta bỏ những thứ đấy vào dữ liệu

Lấy ví dụ, câu hỏi về địa điểm

Lấy ví dụ, Martin Luther

Nếu chúng ta muốn biết vào năm 1500

Martin Luther ở đâu,

chúng ta sẽ phải theo dõi ông ấy
mọi lúc,

kèm theo một cây bút lông 
và một lọ mực

để ghi chép lại.

Nhưng bây giờ hãy nghĩ nó
sẽ như thế nào ngày nay.

Bạn biết rằng ở một nơi nào đó,

khả năng là trong cơ sở dữ liệu
của một hãng viễn thông

có một bảng tính hoặc ít nhất 
một mục cơ sở dữ liệu

lưu trữ lại thông tin của bạn

những nơi bạn đã đến 
tại mọi thời điểm

Nếu bạn có điện thoại di động,

và chiếc điện thoại đó có GPS,
nhưng ngay cả khi nó không có GPS,

nó vẫn có thể lưu trữ thông tin của bạn

Trong lĩnh vực này, việc định vị
đã được dữ liệu hóa

Bây giờ, lấy ví dụ
vấn đề về tư thế

tư thế mà các bạn đang ngồi bây giờ

tư thế mà bạn ngồi,

tư thế mà bạn ngồi, tư thế mà bạn ngồi

Nó đều khác nhau, và đó là một chức năng
giữa chiều dài chân bạn

lưng bạn và những đường nét của lưng bạn

và nếu bây giờ tôi đặt thiết bị cảm biến

vào tất cả các ghế

Tôi có thể tạo ra một chỉ số 
tương đối độc nhất về bạn,

ví dụ như dấu vân tây, 
nhưng không phải là ngón tay của bạn

Vậy chúng ta có thể làm gì với nó?

Các nhà nghiên cứu ở Tokyo đang dùng
dấu vân tay

để tạo ra một thiết bị có tiềm năng
chống trộm xe hơi.

Ý tưởng là nếu tên trộm ngồi đằng sau
tay lái

và cố lái đi, nhưng nếu chiếc xe nhận ra

rằng đằng sau bánh lái là một
tài xế không được xác duyệt,

thì động cơ sẽ tự động dừng, trừ khi

bạn nhập mật khẩu vào bảng điều khiển

để báo rằng "Tôi có sự cho phép". Tuyệt.

Nếu như mọi chiếc xe ở Châu Âu

đều có công nghệ này thì sao?

Chúng ta có thể làm gì lúc đó?

Nếu chúng ta có thể tập hợp dữ liệu

có thể chúng ta sẽ khám phá ra 
các dấu hiệu

dự đoán tốt nhất rằng 
một tai nạn xe hơi

sẽ xảy ra trong 5 giây tiếp theo.

Và rồi những gì chúng ta sẽ
dữ liệu hóa

sẽ là sự mệt mỏi của tài xế,

và dịch vụ lúc đó sẽ là 
khi chiếc xe cảm nhận được

rằng người tài xế đang rơi
vào tình trạng mệt mỏi

nó sẽ tự động biết và rồi
cài một báo động bên trong

để làm rung bánh lái, và 
bóp kèn ở trong xe

báo rằng, "Này! dậy đi,

chú ý đường đi kìa"

Đây là những thứ mà chúng ta có thể làm

khi chúng ta dữ liệu hóa các khía cạnh
trong cuộc sống của chúng ta nhiều hơn

Vậy thì giá trị của dữ liệu lớn là gì?

Nào, hãy nghĩ xem.

Bạn có nhiều thông tin hơn.

Bạn có thể làm những việc mà
bạn không thể làm trước đó

Một trong những lĩnh vực ấn tượng nhất

mà khái niệm này đang diễn ra

là trong lĩnh vực máy học.

Máy học là một nhánh của 
trí tuệ nhân tạo

mà bản thân nó là một nhánh của
khoa học máy tính.

Ý tưởng chung là thay vì

phải hướng dẫn máy tính những gì phải làm

chúng ta sẽ chỉ ném dữ liệu 
liên quan đến vấn đề

và bảo máy tính tự tính toán.

Và để giúp bạn hiểu vấn đề này

hãy cùng nhìn lại nguồn gốc của nó.

Vào những năm 1950,

Một nhà khoa học máy tính của IBM
tên Arthur Samuel thích chơi cờ,

nên ông ấy viết một chương trình máy tính

để ông ấy có thể chơi cờ với máy tính

Ông ấy chơi. Ông ấy thắng.

Ông ấy chơi. Ông ấy thắng,

Ông ấy chơi. Ông ấy thắng,

vì máy tính chỉ biết

nước đi đúng luật là thế nào.

Arthur Samuel biết một số thứ khác.

Arthur Samuel biết chiến lược.

Và như thế, bên cạnh đó, ông ấy
viết một chương trình con.

hoạt động trên nền của 
chương trình chính, và những gì nó làm

chỉ là ghi xác suất

của bàn cờ cho sẵn có khả năng dẫn đến

một ván thắng hoặc một vấn thua

sau mỗi nước đi.

Ông ấy chơi với máy tính. Ông ấy thắng

Ông ấy chơi với máy tính. Ông ấy thắng

Ông ấy chơi với máy tính. Ông ấy thắng

Và rồi Arthur Samuel để máy tính

tự chơi cờ với chính nó.

Nó tự chơi cờ. 
Nó thu thập nhiều dữ liệu hơn.

Nó thu thập nhiều dữ liệu hơn. 
Nó tăng độ chính xác về khả năng dự đoạn

Và rồi Arthur Samuel quay lại máy tính

và ông ấy chơi cờ với nó, và ông ấy thua

và ông ấy chơi, ông ấy thua

và ông ấy chơi, ông ấy thua

và Arthur Samuel đã tạo ra một cỗ máy

vượt qua khả năng của ông ấy
trong một việc mà chính ông ấy dạy nó.

Và ý tưởng này trong lĩnh vực máy học

đang được ứng dụng ở mọi nơi.

Bạn nghĩ làm sao chúng ta có
xe hơi lái tự động?

Xã hội chúng ta có khá hơn không

khi chúng ta nhập tất cả các
luật giao thông vào phần mềm?

Không. Bộ nhớ rẻ hơn? Không

Các thuật toán xử lý nhanh hơn? Không
Bộ vi xử lý tốt hơn? Không

Tất cả những điều này đều quan trọng,
nhưng đó không phải là lý do.

Mà là vì chúng ta đã thay đổi bản chất
của vấn đề.

Từ một vấn đề mà chúng ta 
tìm cách để giải thích

rõ ràng và dứt khoát

cho máy tính hiểu rằng
làm thế nào để lái xe

đến một vấn đề mà chúng ta nói rằng,

"Đây là tập dữ liệu xung quanh chiếc xe.

Hãy tự xử lý dữ liệu này.

Hãy tự luận ra rằng đó là đèn giao thông,

rằng đèn giao thông đó đang là đèn đỏ
không phải đèn xanh

rằng điều đó có nghĩa là bạn phải dừng lại

và không đi về phía trước."

Máy học là nền tảng cơ bản

của rất nhiều thứ chúng ta làm trên mạng:

các công cụ tìm kiếm,

Thuật toán cá nhân hóa của Amazon,

máy tính dịch thuật,

hệ thống xác nhận giọng nói.

Gần đây, các nhà nghiên cứu đã tìm hiểu

về các vấn đề sinh thiết

sinh thiết ung thư,

và họ đã nhờ máy tính xác định,

bằng cách nhìn vào dữ liệu và
chỉ số sống sót

để xác nhận rằng những tế bào này

có thật sự bị ung thư hay không,

và chắc chắn rằng, khi bạn nhập dữ liệu 
vào máy tính,

qua một thuật toán máy học

cỗ máy có thể xác định

những dấu hiệu dự đoán tốt nhất

rằng sinh thiết của các 
tế bào ung thư vú này

thật sự bị ung thư.

Vấn đề: Tài liệu y học

chỉ biết được 9 dấu hiệu.

Trong đó, có 3 dấu hiệu

mà mọi người không cần phải tìm kiếm

nhưng cỗ máy phát hiện ra.

Dữ liệu lớn cũng có mặt tối của nó.

Nó sẽ cải thiện cuộc sống của chúng ta,
nhưng có những vấn đề

mà chúng ta nên cảnh giác,

và điều đầu tiên đó là quan niệm

rằng chúng ta có thể bị trừng phạt
do các dự đoán,

rằng cảnh sát có thể sử dụng dữ liệu lớn
cho mục đích của họ,

tựa như phim "Minority Report"

Nó là một thuật ngữ gọi là giám sát dự báo

hoặc thuật toán tội phạm học,

và khái niệm đó là: nếu chúng ta lấy 
nhiều dữ liệu,

ví dụ dữ liệu về các địa điểm 
xảy ra tội phạm

chúng ta sẽ biết nơi cần gửi
đội tuần tra.

Điều đó là hợp lý, nhưng vấn đề, dĩ nhiên

không phải chỉ dừng về ở dữ liệu định vị,

nó sẽ xuống cấp độ thu thập dữ liệu
của từng cá nhân

Tại sao chúng ta không dùng dữ liệu
để biết về

bảng điểm cấp 3 của một người nào đó?

Có thể chúng ta nên dùng sự thật như

họ thất nghiệp hay không, điểm tín dụng,

cách họ lướt web

hay họ có thức khuya hay không.

Chí số Fitbit, khi nó có khả năng
xác định các hóa sinh,

sẽ chỉ ra rằng họ có suy nghĩ hiếu chiến.

Chúng ta có thể có những thuật toán
có khả năng dự đoán

những gì chúng ta sẽ làm,

và chúng ta có phải chịu trách nhiệm

trước khi chúng ta
thật sự làm những điều đó

Bảo mật là thách thức trọng tâm

trong thời đại dữ liệu nhỏ.

Trong thời đại dữ liệu lớn,

thách thức sẽ là bảo vệ tự do,

lựa chọn đạo đức, ý chí con người,

tính chủ thể.

Còn có một vấn đề nữa:

Dữ liệu lớn sẽ cướp đi 
việc làm của chúng ta.

Dữ liệu lớn và các thuật toán
sẽ thách thức

công việc văn phòng,
công việc chuyên môn

trong thế kỷ 21

trong cùng một cách mà máy móc tự động

và dây chuyền lắp ráp

thách thức công nhân ở thế kỉ 20

Hãy nghĩ về kỹ thuật viên phòng thí nghiệm

người tìm hiểu vấn đề qua
một cái kính hiển vi

ở viện sinh thiết ung thư

và xác định xem sinh thiết này
có bị ung thư hay không.

Người này đã học xong đại học

Người này mua nhà.

Anh ấy hoặc cô ấy bỏ phiếu.

Anh ấy hoặc cô ấy là một nhân tố 
trong xã hội.

Và việc làm của người đó,

cũng như toàn bộ đội ngũ

của những người chuyên môn 
giống như người đó

sẽ thấy rằng việc làm của họ 
bị thay đổi một cách triệt để

hoặc bị loại bỏ hoàn toàn.

Chúng ta thích nghĩ rằng

công nghệ sẽ tạo nên việc làm 
sau một khoảng thời gian

sau khoản thời gian rối loạn tạm thời,

và điều đó là đúng 
cho các khung tham chiếu

mà chúng ta sống, Cách mạng công nghiệp,

vì đó chính xác là những gì đã xảy ra.

Nhưng chúng ta quên điều gì đó
trong bài phân tích đấy:

Có một số loại công việc

đơn giản là bị loại bỏ hoàn toàn và
không bao giờ quay lại.

Cách mạng công nghiệp không hề tốt

nếu bạn là một con ngựa.

Do đó chúng ta phải thận trọng

trong việc sử dụng dữ liệu lớn và
điều chỉnh nó cho nhu cầu của chúng ta

nhu cầu rất con người của chúng ta.

Chúng ta phải là chủ của công nghệ này,

chứ không phải là người hầu của nó.

Chúng ta chỉ khởi đầu một kỷ nguyên
của dữ liệu lớn

và thành thật mà nói, 
chúng ta không hề giỏi

trong việc xử lý tất cả các dữ liệu
mà chúng ta có thể thu thập.

Nó không chỉ là vấn đề cho
Cục An ninh Quốc gia.

Các doanh nghiệp thu thập rất nhiều
dữ liệu và họ cũng lạm dụng nó.

Chúng ta phải làm tốt hơn và điều này
sẽ tốn nhiều thời gian.

Nó giống như là thử thách mà

người nguyên thủy gặp phải với lửa

Đây là một công cụ, 
nhưng là một công cụ mà

nếu chúng ta không cẩn thận,
sẽ thiêu cháy chúng ta.

Dữ liệu lớn sẽ thay đổi 
cách sống của chúng ta

cách chúng ta làm việc và 
cách chúng ta suy nghĩ.

Nó sẽ giúp chúng ta quản lý
sự nghiệp của chúng ta

và dẫn đến cuộc sống của
sự hài lòng và hy vọng

và hạnh phúc và sức khỏe.

Nhưng ở trong quá khứ, chúng ta 
thường nhìn vào công nghệ thông tin

và con mắt chúng ta chỉ nhìn thấy 
những thứ như,

công nghệ, phần mềm,

những thứ vật chất.

Chúng ta phải đúc kết lại 
cái nhìn của chúng ta,

nhìn vào thông tin,

dù nó ít rõ ràng hơn

nhưng trong một số khía cạnh
quan trọng hơn rất nhiều.

Nhân loại cuối cùng cũng có thể
học hỏi từ những thông tin

mà nó có thể thu thập,

như một phần của cuộc thám hiểm
vô tận của chúng ta

để hiểu về thế giới và vị trí của chúng ta
trong thế giới,

và đó là lý do tại sao dữ liệu lớn
là một vấn đề quan trọng.

(vỗ tay)