Tôi là trưởng nhóm nghiên cứu Trí tuệ nhân tạo tại Google; nói cách khác, đó là những quy tắc công nghệ để máy tính và thiết bị làm được những gì mà não người làm được. Và việc này làm chúng tôi thấy hứng thú với não người thật cũng như khoa học thần kinh, và đặc biệt là với những gì mà não của chúng ta có thể thực hiện tốt hơn nhiều so với máy tính. Về lịch sử, một trong số đó chính là khả năng tri nhận, là quá trình biến đổi những gì ở thế giới bên ngoài như âm thanh và hình ảnh thành dạng khái niệm trong tư duy. Khái niệm rất quan trọng với não, cũng khá hữu ích trên máy tính. Ví dụ, những thuật toán tri giác cho máy mà nhóm tôi viết ra, chính là thứ giúp bạn tìm được hình ảnh trên Google Photo, căn cứ vào trong hình có gì. Đối lập với tri nhận là sáng tạo: là biến khái niệm đã biết thành sản phẩm của thế giới. Trong năm qua, khả năng tri nhận nhân tạo mà nhóm tôi nghiên cứu đã bất ngờ kết nối được với khả năng sáng tạo nhân tạo và nghệ thuật nhân tạo. Tôi nghĩ Michlangelo có một hiểu biết sâu sắc về mối quan hệ song đôi giữa tri nhận và sáng tạo. Đây là câu trích dẫn ưa thích của ông: "Tảng đá nào cũng có linh hồn là bức tượng, và một thợ điêu khắc có nhiệm vụ khám phá ra nó." Nên tôi nghĩ điều Michelangelo muốn nói đến chính là chúng ta sáng tạo được nhờ tri nhận, và bản thân sự tri nhận đó là hành động tưởng tượng và là nguyên liệu cho sáng tạo. Cơ quan thực hiện mọi quá trình tri nhận và sáng tạo diễn ra, tất nhiên, là bộ não. Tôi sẽ bắt đầu bằng một chút lịch sử nói về hiểu biết của chúng ta về não. Nói thế này, khác hẳn trái tim hay nội tạng, bạn thật sự không nói được gì nhiều chỉ bằng việc quan sát bộ não, nhất là khi nhìn bằng mắt thường. Những bác sĩ phẫu thuật đầu tiên quan sát bộ não đã đặt tên cho cấu trúc bề mặt của nó mọi cái tên thú vị, chẳng hạn như thuỳ hải mã, nghĩa là "con tôm nhỏ". Nhưng tất nhiên cái tên đó cũng không nói được gì nhiều về những gì đang thực sự diễn ra bên trong. Tôi nghĩ người đầu tiên phát triển hiểu biết thật sự về những gì đang diễn ra trong não bộ là nhà giải phẫu thần kinh vĩ đại người Tây Ban Nha, Santiago Ramón y Cajal, vào thế kỷ 19, ông là người dùng kính hiển vi và chất nhuộm màu đặc biệt có thể điền vào hay minh hoạ kĩ lưỡng từng tế bào trong não với độ tương phản cao, để bắt đầu hiểu được hình thái của chúng. Và đây là kiểu bản vẽ mà ông diễn tả các nơ-ron thần kinh vào thế kỷ 19. Đây là ảnh minh hoạ cho não chim. Như bạn thấy, có cực kỳ nhiều loại tế bào khác nhau, mà ngay cả thuyết tế bào cũng còn khá lạ lẫm với chúng. Và những cấu trúc này, những tế bào này có nhiều nhánh, các nhánh có thể truyền đi rất rất xa lúc bấy giờ, điều này nghe thật khó tin. Tất nhiên khi đó nhìn chúng như những sợi dây điện. Những người ở thế kỷ 19 sẽ thấy chúng y như vậy; cuộc cách mạng về lưới điện và điện khi ấy đang diễn ra. Nhưng bằng nhiều cách, những bản vẽ giải phẫu kích thước µm của Ramón y Cajal's, như ảnh này, vẫn còn vài điểm chưa vượt trội. Hơn một thế kỷ sau, giờ đây chúng ta vẫn đang nỗ lực hoàn thành điều mà Ramón y Cajal đã bắt đầu. Đây là những dữ liệu thô từ các cộng tác viên làm việc tại Viện nghiên cứu khoa học thần kinh Max Planck. Cộng tác viên của chúng tôi đã vẽ từng mẩu nhỏ của mô não. Toàn bộ hình mẫu ở đây có kích thước thật chỉ 1 mm khối, và ở đây, các bạn đang xem một mẩu rất rất nhỏ của nó. Đường kẻ bên trái khoảng 1 micrômét (µm). Những cấu trúc bạn đang thấy là ti tể có kích thước cấp độ vi khuẩn. Và đây là những lát cắt liên tiếp của khối mô vô cùng nhỏ này. Chỉ với mục đích đối chiếu, thì đường kính trung bình của 1 sợi tóc khoảng 100 µm. Do đó, ta đang nhìn thấy một thứ nhỏ hơn rất rất nhiều so với một sợi tóc. Và từ hàng loạt những lát cắt có kích thước hiển vi của hạt electron, ta có thể tạo ra bản vẽ 3D để dựng lại cấu trúc nơron như thế này. Vậy nên những bản vẽ này cũng giống với bản của Ramón y Cajal. Chỉ có vài nơron sáng lên thôi, vì nếu không, chúng ta sẽ không thấy được gì hết. Quá nhiều nơron chen chúc, cấu tạo vô cùng phức tạp, tất cả các sợi nơron đều nối với nhau, tạo ra mạng lưới chằng chịt. Do đó, Ramón y Cajal có hơi cấp tiến so với thời của mình, và những hiểu biết về bộ não dần phát triển trong những thập kỷ tiếp theo. Nhưng chúng ta vốn biết nơron sử dụng điện để hoạt động, và cho đến Thế chiến II, công nghệ mới đủ tiên tiến để tiến hành các thí nghiệm điện thật sự trên nơron thật để hiểu rõ hơn cách chúng vận hành. Đây cũng là thời điểm máy vi tính được phát minh, chủ yếu dựa trên ý tưởng mô phỏng lại bộ não nó là một "cái máy thông minh", như cách mà Alan Turing gọi, một trong những người tiên phong cho khoa học máy tính. Warren McCulloch và Walter Pitts quan sát bản vẽ của Ramón y Cajal mô tả vỏ não thị giác, như bạn đang thấy. Đây là phần vỏ não phụ trách xử lý hình ảnh được mắt ghi nhận. Với McCulloch và Pitts, trông nó như một sơ đồ mạch điện. Nên có rất nhiều chi tiết trong bản vẽ của hai người không chính xác cho lắm. Nhưng về ý tưởng cốt lõi xem vỏ não thị giác như vi mạch điện tử truyền thông tin từ mạch này qua mạch khác theo tầng, lại hoàn toàn chính xác. Chúng ta hãy bàn một chút sẽ cần những gì để quá trình xử lý thông tin hình ảnh diễn ra. Bước căn bản chính trong quá trình tri nhận là nhìn vào ảnh, như hình này, và nói: "Đó là một con chim" là chuyện vô cùng đơn giản mà não ta thực hiện. Nhưng bạn nên hiểu rằng để máy tính hiểu được hình ảnh, vài năm trước vẫn còn là chuyện bất khả thi. Với hệ thống máy tính thế hệ đầu thì việc này không dễ thực hiện. Vậy những gì diễn ra giữa các điểm ảnh, giữa hình vẽ một con chim, và từ "con chim", về bản chất là một tập hợp nơron với các nơron nối với nhau thành mạng lưới nơron, như sơ đồ tôi vẽ đây. Mạng lưới này có thể mang tính sinh học, nằm trong hai vỏ não thị giác, hay ngày nay, chúng ta có thể mô phỏng những mạng lưới như vậy trên máy tính. Và tôi sẽ cho bạn xem nó trông thế nào. Bạn có thể xem các điểm ảnh là lớp nơron thứ nhất, và thật ra, đó là cách mà mắt hoạt động đó là các nơron trong võng mạc. Tiếp theo chúng chạy thẳng ra trước đi lần lượt vào trong các lớp nơron sau, từng lớp một, tất cả nối lại bằng các sợi xi-náp có khối lượng khác nhau. Trạng thái của mạng lưới này đặc trưng bởi độ bền của những sợi xi-náp. Chúng khắc hoạ đặc tính giống hệ mạch điện tử của mạng lưới này. Và cuối cùng, bạn có một sợi nơron hay một bó nhỏ gồm các sợi nơron bật sáng và hô lên "con chim". Giờ tôi sẽ biểu diễn ba thành phần: điểm ảnh ở đầu vào, sợi tiếp hợp xi-náp trong mạng lưới nơron, và con chim ở đầu ra là ba biến số: X, W và Y. Biến X có thể có hàng triệu giá trị. nghĩa là hàng triệu điểm ảnh trong hình. Biến W có hàng tỉ hay cả ngàn tỉ giá trị, tương ứng với khối lượng khác nhau của toàn bộ xi-náp trong mạng nơron. Và với biến Y, chỉ có 4 giá trị, là số giá trị mà mạng nơron xuất ra. "B-i-r-d" có 4 kí tự đúng không? Giờ thì hãy giả sử ta có biểu thức đơn giản này: X "x" W =Y. Tôi đặt dấu nhân trong ngoặc kép vì đó mới là những gì đang thực sự diễn ra, tất nhiên rất phức tạp, gồm hàng loạt các bài toán được giải. Đây là một biểu thức. Gồm có 3 biến số. Và ta đều biết nếu như ta có 1 đẳng thức, bạn sẽ tìm được 1 biến khi biết 2 biến còn lại. Nên vấn đề mắc phải để nhận ra đó là hình vẽ một con chim chính là đây: đây là nơi Y là biến chưa biết, và W, X là 2 biến đã biết. Bạn biết được mạng nơron, bạn biết số điểm ảnh. Như bạn thấy, chuyện này khá dễ giải quyết. Chỉ cần lấy tích của 2 x 3 là xong. Tôi sẽ cho bạn xem một mạng lưới neuron nhân tạo mà nhóm tôi dựng mới đây, dựng lại hệt như vậy. Mạng lưới này đang chạy trên một chiếc điện thoại di động, và tất nhiên, khả năng tuyệt vời vốn có của chiếc điện thoại chính là nó có thể thực hiện hàng tỉ, hàng ngàn tỉ thao tác mỗi giây. Bạn đang nhìn thấy một chiếc điện thoại đang nhìn lần lượt những bức ảnh có hình chim, và nó không hô lên "Đúng rồi, đây là chim," mà lại xác định mỗi loài chim với một mạng lưới tương tự như bộ não. Nên trong bức tranh đó, X và W là hai đại lượng đã có, và Y là ẩn. Tôi đang chú thích cho một phần rất hóc búa, dĩ nhiên rồi, để hiểu làm cách nào mà ta tìm được biến W. não chúng ta thật sự làm được chuyện này sao? Nhưng chúng ta chưa học về những mô hình thế này bao giờ mà? Nên bước này chúng ta học cách giải ra W, nếu ta làm giả bài này với cách giải của đơn thức bằng cách xem chúng là các con số, chúng ta biết cách giải đúng: 6 = 2 x W, thì lấy 6 chia 2 là tiêu đời. Vấn đề chính là phép chia này đây. Vậy, phép chia này... Chúng ta sử dụng phép chia vì nó nó nghịch đảo với phép nhân, nhưng tôi đã nói vừa nãy, Phép nhân này thật ra không chỉ là một phép nhân. Đây là một phép tính cực kỳ phức tạp, vô cùng lắt léo; và không có phép tính nghịch đảo. Nên chúng ta phải tìm cách khác để giải biểu thức này mà không được dùng phép chia. Trong khi cách giải lại không rối rắm. Đừng sợ, hãy dùng một mẹo nhỏ trong môn đại số, hãy chuyển 6 qua vế bên phải. Giờ thì chúng ta vẫn đang dùng phép nhân. Và số 0 đó, hãy coi nó là lỗi đi. Có nghĩa là, nếu ta giải đúng được W, thì lỗi sẽ bằng 0. Và nếu ta chưa giải đúng được, thì lỗi đó sẽ lớn hơn 0 nhiều. Nên giờ ta chỉ có thể đoán sao để lỗi có giá trị nhỏ nhất, và đó là chuyện mà máy vi tính rất thành thạo. Vậy bạn vừa mới đoán: giả sử W = 0 ? Vậy thì số lỗi = 6. W = 4 thì sao? Vậy lỗi = 4. Rồi sau đó máy tính sẽ như chơi trò bịt mắt bắt dê, và đuổi theo lỗi cho đến khi nó gần chạm tới 0. Nó sẽ tiến dần về giá trị đúng của W. Thật ra sẽ không có giá trị hoàn toàn chính xác, nhưng sau mười mấy lần, chúng ta có được W = 2.999, là giá trị gần đúng nhất. Và đây chính là quá trình học tập. Hãy nhớ điều đang diễn ra từ nãy đến giờ là cách thức chúng ta sử dụng rất nhiều giá trị đã biết của X và Y để tìm ra mối quan tâm của ta là W, thông qua quá trình lặp đi lặp lại. Đó cũng chính là phương pháp học tập của chúng ta. Khi còn nhỏ người lớn cho ta xem rất nhiều hình ảnh và nói "đây là con chim", "còn đây không phải". Qua thời gian, và qua việc học đi học lại, chúng ta giải được W, là giải được các kết nối nơron. Nên giờ đây chúng ta đem X và W đã cố định để tìm Y; đó là sự tri nhận nhanh hằng ngày. Chúng ta hiểu rằng mình có thể giải W, đó là học tập, khó hơn nhiều, vì chúng ta phải giảm thiểu lỗi sai, bằng cách sử dụng phương pháp luyện tập. Khoảng 1 năm trước,thành viên Alex Mordvinstev của nhóm tôi, quyết định làm thí nghiệm xem chuyện gì xảy ra nếu ta cố tìm X, khi đã biết 1 giá trị W và 1 giá trị Y. Nói cách khác, bạn biết đó là con chim, và bạn cũng biết là hệ thần kinh của mình được dạy, đó là chim vậy thì bức hình một con chim là gì? Hoá ra khi sử dụng 1 quá trình giống như quá trình giảm thiểu lỗi, có thể giảm thiểu sai sót của mạng lưới được dạy để nhận ra chim, và kết quả... là một bức hình gồm nhiều loài chim. Đây là bức hình có nhiều loài chim được tạo ra hoàn toàn từ 1 hệ thần kinh đã được dạy để nhận ra các loài chim, chỉ bằng việc tìm X thay vì tìm Y, và làm đi làm lại quá trình đó. Đây là một ví dụ khác. Đây là tác phẩm của thành viên Mike Tyka của nhóm tôi, cậu ấy gọi nó là "Đoàn thú tuần hành". Nó làm tôi nhớ tới các tác phẩm của William Kentridge, khi ông cứ phác ra các hình vẽ, rồi bôi, rồi vẽ phác lại, rồi lại bôi, và tạo ra một kiểu phim theo cách này. Trong tranh này, Mike đã đa dạng hoá biến Y thành nhiều loài thú khác nhau, trong một mạng lưới được thiết kế để nhận biết và phân biệt mỗi loài có nhiều loài khác nữa. Và giờ bạn có được một bức như tranh biến hình động vật của hoạ sĩ Escher. Ở đây cậu ấy và Alex cùng thử giảm không gian của biến Y còn 2 chiều, để tạo ra một bản đồ có mặt mọi thứ khác nhau mà mạng lưới này nhận ra. Khi thực hiện tổng hợp như vậy hay tạo ra hình ảnh trên toàn bộ bề mặt, đa dạng giá trị Y trên mặt phẳng, bạn có thể tạo ra một loại bản đồ có tất cả những thứ mà mạng lưới nhận biết được. Tất cả các loài thú đều ở ngay đây; "armadillo" ngay vị trí trung tâm. Bạn có thể tạo bản đồ cho những mạng lưới khác nữa. Đây là mạng lưới được thiết kế để nhận diện các khuôn mặt, để phân biệt mặt người này, người kia. Còn đây, chúng ta đang chọn Y có giá trị là "tôi", là thông số giúp nhận ra gương mặt tôi. Và khi dùng Y để tìm X, nó cho ra một thứ rất điên, đại loại như tranh lập thể, siêu thực vẽ tôi đang phê thuốc từ nhiều góc nhìn khác nhau cùng lúc. Sở dĩ nó như nhiều góc nhìn khác nhau cùng một lúc là vì mạng lưới được thiết kế để tránh sự mơ hồ khi nhận diện một gương mặt khi nhìn ở góc này so với khi nhìn ở góc khác, hay trong điều kiện chiếu sáng khác nhau. Nên khi bạn thực hiện việc tái cấu tạo, nếu không sử dụng kiểu hình ảnh hướng dẫn hay thông số hướng dẫn để làm mẫu, thì bạn sản phẩm nhận được là một bức hình rối mắt ở mọi góc nhìn, vì mọi thứ trông rất mờ ảo. Đây là kết quả khi Ales sử dụng mặt mình làm hình ảnh mẫu trong quá trình tối ưu hoá mạng lưới để tái hiện gương mặt tôi. Nên có thể bạn thấy nó không hoàn hảo. Vẫn còn khá nhiều chuyện để làm để cải thiện tối đa quá trình tái cấu trúc. Nhưng giờ thì có được bức tranh một gương mặt liền mạch sử dụng mặt tôi làm hình hướng dẫn. Bạn không cần phải bắt đầu vẽ với tờ giấy trắng hay tiếng ồn trắng. Khi tìm X, bạn có thể bắt đầu với X, bản thân nó đã là một hình. Đó là điều mà tôi minh hoạ hôm nay. Hệ thần kinh nhân tạo này được thiết kế để phân loại tất cả vật thể khác nhau, như công trình nhân tạo, động vật... Ở đây, đầu tiên ta có bức tranh với những đám mây, và khi ta tối ưu hoá hình này, về căn bản, hệ thần kinh nhân tạo đang xác định mấy đám mây có hình gì. Và khi nhìn bức hình này càng lâu, bạn càng thấy được nhiều thứ tạo ra từ những đám mây đó. Bạn cũng có thể dùng hệ nhận diện khuôn mặt để tạo ảo giác cho nền này, và sẽ có được một sản phẩm điên khùng. (Cười) Hay như vầy, Mike có vài thí nghiệm nữa cậu ấy lấy hình đám mây, tạo hiệu ứng ảo, phóng đại, rồi chỉnh ảo, phóng, rồi chỉnh, rồi lại phóng. Và bằng cách này, tôi nghĩ bạn sẽ nhận được một hệ thần kinh đang thấy lâng lâng, hay là sự kết hợp tự do, trong đó bạn sẽ thấy mạng lưới ấy đang ăn cái đuôi của mình. Nên mỗi hình đều là ảnh nền cho hình "tôi sẽ thấy gì kế tiếp? tôi sẽ nhìn thấy gì kế tiếp? tôi sẽ nhìn thấy gì kế tiếp?" Tôi đã đem trưng bày bức tranh cho nhóm dự thính bài giảng "Giáo dục Cấp cao" ở Seattle xem ngay sau khi ma tuý được hợp thức hoá. (Cười) Tôi sẽ kết thúc nhanh thôi bằng việc nhấn mạnh rằng công nghệ không có giới hạn. Tôi chỉ mới cho bạn xem những ví dụ thị giác vì chúng nhìn vui mắt. Chứ công nghệ không chỉ thuần về thị giác. Cộng tác viên của chúng tôi, hoạ sĩ Ross Goodwin, đã có nhiều thí nghiệm có cả một camera chụp hình, và sau đó 1 cái máy tính trong balô của cậu ấy viết 1 bài thơ bằng mạng nơron, dựa vào nội dung của hình ảnh ghi nhận. Hệ thần kinh nhân tạo viết ra bài thơ đó đã được học một kho ngữ liệu lớn về thơ ca thế kỷ 20. Và bài thơ đó, bạn biết không, thật ra cũng không dở lắm đâu. (Cười) Tóm lại, Tôi nghĩ người tên Michelangelo đó, Ông ấy đã đúng; Sự tri nhận và sáng tạo có liên quan mật thiết với nhau. Những hệ thần kinh nhân tạo mà ta vừa thấy vốn chỉ được thiết kế để tiếp nhận, phân biệt, để nhận biết những sự vật khác nhau của thế giới, giờ có thể làm ngược lại, tạo ra cái mới. Một trong những điều tôi cảm giác được không chỉ là Michelangelo thật sự nhìn ra bức điêu khắc bên trong tảng đá, mà ông thấy bất kì sinh vật nào, thực thể nào, trong hay ngoài hành tinh chỉ cần biết tri nhận, sẽ có thể sáng tạo vì có cơ chế chung dùng cho cả hai quá trình ấy. Tôi cũng nghĩ rằng sự tri nhận và sáng tạo không thể nào chỉ con người mới có. Chúng ta bắt đầu có những mẫu máy tính làm được những thứ này. Và điều đó không có gì lạ; bộ não chính là bộ máy. Và sau cùng, máy tính bắt đầu trở thành công cụ thiết kế trí tuệ nhân tạo. Điện tử đã trở thành bằng chứng chứng minh rằng ta có thể làm ra trì tuệ nhân tạo. Và cuối cùng chúng ta đã có thể hoàn thành những hoài bão mà các tiền nhân để lại, chính là Turing, Von Neumann McCulloch và Pitts. Và tôi nghĩ điện toán không chỉ tập trung cho việc tính toán, để chơi Candy Crush hoặc những trò khác. Từ đầu, máy tính được tạo ra theo hình mẫu là não người. Và nhờ máy tính, chúng ta hiểu về bộ não mình rõ hơn để có thể cải tiến chúng. Cám ơn rất nhiều. (Vỗ tay)