0:00:00.800,0:00:03.924 我在 Google 帶領[br]一個團隊做機械智慧; 0:00:03.948,0:00:08.598 換句話說,就是制定一些訓練方法, 0:00:08.622,0:00:11.041 讓電腦和裝置能做些大腦做的事。 0:00:11.439,0:00:14.538 而這也讓我們對真實的大腦 0:00:14.562,0:00:15.851 以及神經科學產生了興趣, 0:00:15.875,0:00:20.047 特別是一些我們大腦能做 0:00:20.071,0:00:24.113 但電腦仍無法呈現出來的事。 0:00:25.209,0:00:28.818 長期以來,機械智慧的[br]其中一個領域談的就是機械感知, 0:00:28.842,0:00:31.881 它是一種轉化的過程—— 0:00:31.905,0:00:33.489 像是把聲音和影像—— 0:00:33.513,0:00:35.691 轉化成心智上的概念。 0:00:36.235,0:00:38.752 這是我們大腦必備的能力, 0:00:38.776,0:00:41.240 這個能力對電腦來說也很有用。 0:00:41.636,0:00:44.986 所謂的機械感知演算法,[br]像是我們團隊做的, 0:00:45.010,0:00:48.884 能讓你 Google 相簿裡的照片 0:00:48.908,0:00:51.295 根據照片裡的東西[br]把它們變成可以被搜尋的資料。 0:00:51.594,0:00:55.087 感知的另一面是創意: 0:00:55.111,0:00:58.149 把概念轉化成另一種東西。 0:00:58.173,0:01:01.728 所以過去幾年,[br]我們團隊在機器感知上的努力, 0:01:01.752,0:01:05.005 已經可以把創意與 0:01:05.005,0:01:07.795 機器藝術結合在一起。 0:01:08.556,0:01:11.840 我覺得米開朗基羅對「感知」[br]與「創意」這兩者之間的關係 0:01:11.864,0:01:15.520 有一種很透析的看法。 0:01:16.023,0:01:18.029 他有一句名言: 0:01:18.053,0:01:21.376 「每一塊石頭裡都藏著一座雕像, 0:01:22.036,0:01:25.038 等待雕刻家將它雕塑出來。」 0:01:26.029,0:01:29.245 所以我覺得米開朗基羅[br]當時的體悟是: 0:01:29.269,0:01:32.449 我們的「創意」來自「感知」, 0:01:32.473,0:01:35.590 而感知本身就是一個想像行為 0:01:35.590,0:01:38.261 及創意的來源。 0:01:38.691,0:01:42.616 人體中有一個器官[br]能做出思考、感受和想像, 0:01:42.640,0:01:44.228 當然,那就是我們的大腦。 0:01:45.089,0:01:47.634 我想先簡單地來談一談 0:01:47.658,0:01:49.960 我們對大腦認知的歷史。 0:01:50.496,0:01:52.942 因為大腦不像我們的心臟或腸道, 0:01:52.966,0:01:56.110 你不能光用看的來瞭解大腦, 0:01:56.134,0:01:57.546 光靠肉眼根本看不出個所以然來。 0:01:57.983,0:02:00.399 早期研究大腦的解剖學家, 0:02:00.423,0:02:04.230 在大腦表皮結構上[br]取了許多稀奇古怪的名字, 0:02:04.254,0:02:06.687 例如海馬體,意思是「小蝦子」。 0:02:06.711,0:02:08.119 當然,這樣的命名方式 0:02:08.119,0:02:12.627 並沒有讓我們對[br]大腦的認識有太多的幫助。 0:02:12.780,0:02:16.393 我認為,第一個有真正深入了解 0:02:16.417,0:02:18.347 大腦如何運作的, 0:02:18.371,0:02:22.291 是偉大的西班牙神經解剖學家[br]桑地牙哥·拉蒙卡哈, 0:02:22.315,0:02:23.859 他在十九世紀, 0:02:23.883,0:02:27.638 就已經開始用顯微鏡和特殊染劑 0:02:27.662,0:02:31.832 把大腦裡的特定細胞篩選出來染色, 0:02:31.856,0:02:33.864 或以強烈的對比色來觀察細胞, 0:02:33.888,0:02:37.442 這樣做,是為了瞭解[br]它們的形態結構。 0:02:37.972,0:02:40.863 這些是他在十九世紀時 0:02:40.887,0:02:42.096 畫的神經細胞圖, 0:02:42.120,0:02:44.004 這一張是鳥的大腦。 0:02:44.028,0:02:47.085 但當時已經可以看到[br]各式各樣不同的細胞圖片, 0:02:47.109,0:02:50.544 即使細胞的原理[br]在當時是個相當新穎的概念。 0:02:50.568,0:02:51.846 這些結構, 0:02:51.870,0:02:54.129 這些樹枝狀的細胞結構, 0:02:54.153,0:02:56.761 可以延伸到相當相當長── 0:02:56.785,0:02:58.631 在當時來講,[br]這樣的發現算是相當神奇了。 0:02:58.779,0:03:01.682 當然,它們也會讓人聯想到電線, 0:03:01.706,0:03:05.163 這對 19 世紀的人來說,[br]這樣的比喻可能比較恰當, 0:03:05.187,0:03:09.501 因為當時電線和電力的變革[br]正如火如荼的進行。 0:03:09.964,0:03:11.142 但就很多方面來說, 0:03:11.166,0:03:14.479 像拉蒙卡哈這樣的顯微鏡解剖圖 0:03:14.503,0:03:16.835 現在看來還是很厲害。 0:03:16.859,0:03:18.713 但我們卻在一個世紀後, 0:03:18.737,0:03:21.562 才想試著去完成[br]當年拉蒙卡哈的研究。 0:03:21.586,0:03:24.720 這些原始資料,來自我們 0:03:24.744,0:03:27.625 馬克斯·普朗克[br]神經科學機構的合作夥伴。 0:03:27.649,0:03:29.439 而我們的合作夥伴的工作就是 0:03:29.463,0:03:34.464 把大腦組織切成[br]一小片一小片的圖像。 0:03:34.488,0:03:37.814 整個樣本的大小[br]大約只有 1 立方毫米, 0:03:37.838,0:03:40.459 我展示給各位看的只有小小的一片。 0:03:40.483,0:03:42.829 你可以看到,[br]左邊的長度標誌僅有一微米。 0:03:42.853,0:03:45.262 各位現在看到的結構是粒線體, 0:03:45.286,0:03:47.330 大小跟細菌一樣。 0:03:47.354,0:03:48.905 這些連續切片圖, 0:03:48.929,0:03:52.077 是由一塊很小的組織中[br]一片片切出來的。 0:03:52.101,0:03:54.504 舉個例子做比較, 0:03:54.528,0:03:58.320 一根頭髮的直徑[br]大約有 100 微米。 0:03:58.344,0:03:59.542 我們在研究的 0:03:59.542,0:04:02.040 是比一根頭髮還更細更小的東西。 0:04:02.064,0:04:06.095 而這一系列的電子顯微鏡切片圖像, 0:04:06.119,0:04:11.127 可以組成像這樣的[br]神經元 3D 立體成像。 0:04:11.151,0:04:14.308 這些和拉蒙卡哈[br]當年的研究相去不遠。 0:04:14.332,0:04:15.824 但只有幾個神經元可以打光, 0:04:15.848,0:04:18.629 否則我們會看不到東西。 0:04:18.653,0:04:19.965 因為空間太壅擠、 0:04:19.989,0:04:21.319 結構太複雜了, 0:04:21.343,0:04:24.067 神經元蜿蜒地一個接著一個。 0:04:25.293,0:04:28.097 所以,拉蒙卡哈在當時[br]也算是走在時代的尖端, 0:04:28.121,0:04:30.676 但在那之後的幾十年, 0:04:30.700,0:04:32.971 人類對大腦的認識卻相當緩慢。 0:04:33.455,0:04:36.308 但我們已經知道[br]神經元是利用電子傳遞訊號, 0:04:36.332,0:04:39.268 到第二次世界大戰前,[br]我們的科技已經進步到 0:04:39.292,0:04:42.098 可以在活體神經元上做電子實驗, 0:04:42.122,0:04:44.228 用來更好地理解它們是如何運作的。 0:04:44.631,0:04:48.987 這也是電腦被發明出來的時間, 0:04:49.011,0:04:52.111 當初有一個模擬人腦的基礎想法—— 0:04:52.135,0:04:55.220 是由艾倫·圖靈所提出,[br]他稱之為「智能機械」, 0:04:55.244,0:04:57.235 他是計算機科學之父之一。 0:04:57.923,0:05:02.555 當時沃倫麥卡洛克和華特彼特斯[br](人工神經科學家) 0:05:02.579,0:05:03.896 看到的視覺皮質圖, 0:05:03.920,0:05:05.482 就是上面這張拉蒙卡哈的圖片。 0:05:05.506,0:05:09.948 這個皮質層是負責把[br]眼睛傳來的訊號轉換成圖像。 0:05:10.424,0:05:13.932 他們當時發現,[br]它看起來像是一張電路圖。 0:05:14.353,0:05:17.362 雖然麥卡洛克和彼特斯 0:05:17.362,0:05:19.564 在電路圖上有很多細節不太正確, 0:05:19.588,0:05:20.823 但這樣的基礎概念, 0:05:20.847,0:05:24.839 視覺皮層的工作原理 0:05:24.863,0:05:27.609 像一系列的計算子[br]在串聯的電路圖上傳遞著資訊, 0:05:27.633,0:05:29.235 這樣的概念卻是相當正確的。 0:05:29.259,0:05:31.609 我們稍微聊一下, 0:05:31.633,0:05:35.665 產生視覺資訊的模型,[br]需要做哪些事情。 0:05:36.228,0:05:38.969 覺察力的基本任務就是 0:05:38.993,0:05:42.761 比如說,看到這一張圖片, 0:05:42.761,0:05:44.387 就要會判斷出,「這是一隻鳥」, 0:05:44.411,0:05:47.285 這對我們大腦來說是很簡單的任務。 0:05:47.309,0:05:50.730 但各位要知道,這對電腦來說 0:05:50.754,0:05:53.841 在幾年前根本是不可能的事。 0:05:53.865,0:05:55.781 傳統的計算模式 0:05:55.805,0:05:58.312 根本不太容易跑出來這樣的任務。 0:05:59.366,0:06:01.918 所以,像素、 0:06:01.942,0:06:05.970 鳥圖與文字之間, 0:06:05.994,0:06:08.362 一定要有一組彼此連結的神經元 0:06:08.362,0:06:09.987 在神經網路內相互作用著, 0:06:10.011,0:06:11.234 就像我這張示意圖。 0:06:11.258,0:06:14.530 這張神經網路圖[br]就像我們的視覺皮質運作原理。 0:06:14.554,0:06:16.716 如今,我們已經有能力 0:06:16.740,0:06:19.194 用電腦來模擬這樣的神經網路。 0:06:19.834,0:06:22.187 接下來我向各位展示一下,[br]實際的操作大概是怎樣。 0:06:22.211,0:06:25.627 圖片的像素你可以把它想像成是[br]第一層的神經元, 0:06:25.651,0:06:27.890 實際上,就是眼睛裡面[br]像素的呈現方式, 0:06:27.914,0:06:29.577 像素是透過[br]視網膜上的神經元做傳遞。 0:06:29.601,0:06:31.101 而這些前饋資訊 0:06:31.125,0:06:34.528 會一層一層地傳遞到下一層神經元, 0:06:34.552,0:06:37.585 全部由不同的「突觸權重」所連結。 0:06:37.609,0:06:38.944 神經網路的行為 0:06:38.968,0:06:42.252 全都由這些突觸的強度所控制。 0:06:42.276,0:06:45.564 它們決定了神經網路的計算模式。 0:06:45.588,0:06:47.058 最後, 0:06:47.082,0:06:49.529 會有一個或一小群的[br]神經元發出訊號, 0:06:49.553,0:06:51.650 辨識出該圖片就是,「鳥」。 0:06:51.824,0:06:54.956 我現在要來解釋一下這三個元素—— 0:06:54.980,0:06:59.676 輸入的「像素」、[br]神經網路裡的「突觸」、 0:06:59.700,0:07:01.285 還有「鳥」這個輸出的字元——[br]它們是如何運作的。 0:07:01.309,0:07:04.366 它們是由三種變數所組成,[br]x、w 和 y。 0:07:04.853,0:07:06.664 圖片中可能有一百多萬個 x —— 0:07:06.688,0:07:08.641 100 多萬個像素。 0:07:08.665,0:07:11.111 而 w 可能有數十億或好幾兆個, 0:07:11.135,0:07:14.556 它們代表著神經網路中[br]各個突觸的權重。 0:07:14.580,0:07:16.455 而這個網路能輸出的 y 0:07:16.479,0:07:18.337 只有少數幾個。 0:07:18.361,0:07:20.110 「bird」只有四個字母,對吧? 0:07:21.088,0:07:24.514 我們假設它的原理是[br]一個簡單的公式, 0:07:24.538,0:07:26.701 x 「乘以」 w = y 0:07:26.725,0:07:28.761 我把乘法符號用引號標示起來 0:07:28.785,0:07:31.065 因為它其實是一個 0:07:31.089,0:07:34.135 非常複雜的數學運算概念。 0:07:35.172,0:07:36.393 這個方程式 0:07:36.417,0:07:38.089 有三個變數, 0:07:38.113,0:07:40.839 我們都知道,如果你想要[br]解開這個方程式, 0:07:40.863,0:07:44.505 可以從兩個已知數[br]交叉算出未知的數。 0:07:45.158,0:07:48.538 所以要推斷出 0:07:48.562,0:07:51.435 圖片中的影像是一隻鳥, 0:07:51.459,0:07:52.733 可以用這種方式得知: 0:07:52.757,0:07:56.216 y 是未知數,而 w 和 x 是已知數。 0:07:56.240,0:07:58.699 已知神經網路和圖片像素, 0:07:58.723,0:08:02.050 其實可以很直接的就得到答案, 0:08:02.074,0:08:04.260 2x3=6,就做完了。 0:08:04.862,0:08:06.985 我向各位展示一個 0:08:07.009,0:08:09.305 我們最近做的人工神經網路, 0:08:09.634,0:08:12.494 它可以在手機上做及時的操作, 0:08:12.518,0:08:15.831 當然,手機的運算能力相當驚人, 0:08:15.855,0:08:17.647 手機每秒 0:08:17.647,0:08:20.595 可以做出數十億至上兆次的運算。 0:08:20.619,0:08:22.514 你現在看到的是一隻手機 0:08:22.514,0:08:25.805 正對著一張張的鳥圖拍照, 0:08:25.829,0:08:28.544 手機不但可以正確的說出,[br]「是的,這是一隻鳥。」 0:08:28.568,0:08:31.979 還能透過神經網路分類[br]分辨出這是哪一種鳥。 0:08:32.890,0:08:34.716 所以,在這些圖片上, 0:08:34.740,0:08:38.542 x 和 w 是已知,而 y 是未知。 0:08:38.566,0:08:41.074 我現在來解釋一下這個[br]最困難的 「w」, 0:08:41.098,0:08:44.959 我們到底是如何算出來的? 0:08:44.983,0:08:47.170 為什麼大腦可以做出這樣的判斷? 0:08:47.194,0:08:49.238 我們到底是如何學到[br]這樣的認知模式的? 0:08:49.418,0:08:52.651 這個學習的過程,[br]是一個求解 w 的過程, 0:08:52.675,0:08:55.322 如果我們要解這個一次方程式, 0:08:55.346,0:08:57.346 當它們都是數字時, 0:08:57.370,0:09:00.057 我們都知道如何解 6=2 x w, 0:09:00.081,0:09:03.393 我們只要把 6 除以 2 [br]就可以得到答案。 0:09:04.001,0:09:06.221 問題在於這個運算符號, 0:09:06.823,0:09:07.974 除法這個符號—— 0:09:07.998,0:09:11.119 我們會用除法的方式求解,[br]是因為它跟乘法相反, 0:09:11.143,0:09:12.583 但就如同我剛剛提到的, 0:09:12.607,0:09:15.056 乘法在這裡有點像是個幌子。 0:09:15.080,0:09:18.406 這是非常非常複雜的概念,[br]它們是「非線性運算」的概念; 0:09:18.430,0:09:20.134 無法直接用除的求解。 0:09:20.158,0:09:23.308 所以,我們要另外[br]找個方法來解方程式, 0:09:23.332,0:09:25.356 而不能直接用除的。 0:09:25.380,0:09:27.723 方法相當簡單, 0:09:27.747,0:09:30.418 可以說,我們只用了點[br]代數的小技巧, 0:09:30.442,0:09:33.348 將 6 移動到等號的右邊。 0:09:33.372,0:09:35.198 如此我們就可以繼續用乘法來運算。 0:09:35.675,0:09:39.255 而等號左邊的零——[br]我們把它想像成是誤差。 0:09:39.279,0:09:41.794 換言之,如果要解出 w, 0:09:41.818,0:09:43.474 誤差就要變成 0。 0:09:43.498,0:09:45.436 如果我們沒找到答案 0:09:45.460,0:09:47.209 誤差會永遠大於 0。 0:09:47.233,0:09:50.599 所以,我們現在[br]只能用猜的來縮小誤差, 0:09:50.623,0:09:53.310 而這就是電腦非常擅長的地方。 0:09:53.334,0:09:54.927 所以,你會從頭開始猜: 0:09:54.951,0:09:56.107 假設 w=0 0:09:56.131,0:09:57.371 那誤差會等於6 0:09:57.395,0:09:58.841 但假如 w=1 呢?誤差等於 4。 0:09:58.865,0:10:01.232 接下來電腦有點像是在玩[br]馬可波羅探索遊戲, 0:10:01.256,0:10:03.623 探索到誤差接近零為止。 0:10:03.647,0:10:07.021 當它一直探索到零,[br]那麼 w 就解出來了。 0:10:07.045,0:10:10.701 原則上,它會不停探索直到接近零,[br]但大約經過多次步驟後, 0:10:10.725,0:10:15.349 我們就能得出 w=2.999,[br]相當接近了。 0:10:16.302,0:10:18.116 這就是電腦學習的過程。 0:10:18.140,0:10:20.870 回想一下剛剛發生了什麼事情, 0:10:20.894,0:10:25.272 我們有很多已知的 x 和 y, 0:10:25.296,0:10:28.750 透過重複迭代的過程解出了 w。 0:10:28.774,0:10:32.330 而這就是我們人類學習的過程, 0:10:32.354,0:10:34.584 我們從小看了很多圖片 0:10:34.608,0:10:37.241 被告知「這是鳥」,「這不是鳥」; 0:10:37.714,0:10:39.812 經過了一段時間,不停地重複, 0:10:39.836,0:10:43.294 我們解出了 w,[br]產生了神經元的連結關係。 0:10:43.460,0:10:47.546 所以現在,我們的 x 和 w [br]是固定數,可以解出 y; 0:10:47.570,0:10:49.417 這就是我們人類每天[br]經常性的快速直覺判斷。 0:10:49.441,0:10:51.204 我們搞懂了如何解出 w, 0:10:51.228,0:10:53.131 而學習本身是一條相當艱辛的路程, 0:10:53.155,0:10:55.140 因為為了讓誤差最小化, 0:10:55.164,0:10:56.851 我們必須使用很多的訓練樣本。 0:10:56.875,0:11:00.062 約一年前,我們團隊的[br]艾力克斯摩文斯夫 0:11:00.086,0:11:02.360 決定做個實驗, 0:11:02.360,0:11:05.697 看看如果我們試著給出了 w 和 y,[br]解出來的 x 會變什麼樣。 0:11:06.124,0:11:07.275 換句話說, 0:11:07.299,0:11:08.651 電腦知道它是一隻鳥, 0:11:08.675,0:11:11.978 電腦有你給它訓練出來[br]辨識鳥圖片的神經網路, 0:11:12.002,0:11:14.346 但對電腦而言,鳥是怎樣的圖像? 0:11:15.034,0:11:20.058 原來,使用一模一樣的[br]「誤差最小化」程序 0:11:20.082,0:11:23.512 以及訓練出來[br]用來辨識鳥的神經網路, 0:11:23.536,0:11:26.924 你就能辨識出…… 0:11:30.400,0:11:32.485 這是一張鳥圖, 0:11:32.814,0:11:35.755 所以,這是一張完全由 0:11:35.755,0:11:38.401 訓練辨認鳥的神經網路[br]自行創造出來的鳥圖, 0:11:38.425,0:11:41.477 只要透過不斷地重複解出 x, 0:11:41.477,0:11:43.575 而不是解 y 就可以了。 0:11:43.732,0:11:45.579 這裡有另一個有趣的範例。 0:11:45.603,0:11:49.040 我們團隊裡的[br]另外一位組員麥克泰卡, 0:11:49.064,0:11:51.372 他稱這些畫為《動物大遊行》。 0:11:51.396,0:11:54.272 這讓我有點回想起了[br]威廉肯特基的作品, 0:11:54.296,0:11:56.785 他畫好素描後,擦掉它, 0:11:56.809,0:11:58.269 然後反覆地畫、反覆地擦 0:11:58.293,0:11:59.691 透過這樣的方式,[br]創造出了一部影片。 0:11:59.715,0:12:00.866 在這個展示裡, 0:12:00.890,0:12:04.167 麥可做的就是把不同動物的 y , 0:12:04.191,0:12:06.573 透過設計好的神經網路, 0:12:06.597,0:12:08.407 彼此辨認並分別出不一樣的動物。 0:12:08.431,0:12:12.182 如此,你就能得到一張像艾雪一樣的[br]不同動物的變體圖像。 0:12:14.221,0:12:18.835 這一張是他和艾力克斯一起完成的, 0:12:18.859,0:12:21.618 他們試著減少 y 的數量,[br]將這些圖案丟到一個 2D 平面上, 0:12:21.642,0:12:25.080 透過這個網路的辨識, 0:12:25.104,0:12:26.823 創造出了這一張有各種動物的地圖。 0:12:26.847,0:12:28.870 要做出這樣的綜合體, 0:12:28.894,0:12:31.276 或透過整張圖面產出圖像, 0:12:31.300,0:12:34.146 你只要在圖面上給出各式各樣的 y ,[br]你就能做出一張地圖來—— 0:12:34.170,0:12:37.311 一張由神經網路辨識出的視覺地圖。 0:12:37.335,0:12:40.200 所有動物都會在這上面,[br]犰狳就在圖上這個點。 0:12:40.919,0:12:43.398 你也可以透過不同的神經網路,[br]做出類似這樣的作品, 0:12:43.422,0:12:46.296 這一張由辨識臉的神經網路 0:12:46.320,0:12:48.320 所做出來的作品, 0:12:48.344,0:12:51.593 這一張是用「我」當作 y ,[br]所做出來的圖畫, 0:12:51.617,0:12:53.192 用我的臉當參數。 0:12:53.216,0:12:54.922 當電腦解出 x 後, 0:12:54.946,0:12:57.564 它就畫出了這一張相當瘋狂、 0:12:57.588,0:13:02.016 有點像立體派藝術、[br]超現實、迷幻效果的我, 0:13:02.040,0:13:03.846 同一張圖卻有不同的視角。 0:13:03.870,0:13:06.604 而會有這種「同一張圖[br]不同視角」的感覺, 0:13:06.628,0:13:10.315 是因為這個神經網路的設計, 0:13:10.339,0:13:13.285 可以將不同姿勢臉之間的[br]模糊地帶移除掉, 0:13:13.285,0:13:16.215 透過觀察不同的光源就可以做到。 0:13:16.239,0:13:18.324 所以,當你重新製作圖像時, 0:13:18.348,0:13:20.652 如果你沒有使用指導圖, 0:13:20.676,0:13:21.887 或特定的統計資料, 0:13:21.911,0:13:25.676 那你就能得到來自[br]不同角度的混合體圖像, 0:13:25.700,0:13:27.548 因為它是模糊的。 0:13:27.786,0:13:32.009 所以如果艾力克斯[br]用他自己的臉當作指導圖 0:13:32.033,0:13:35.354 在優化過程中重新建造我的臉,[br]就會產生這樣的圖像。 0:13:36.284,0:13:38.612 各位可以看到,[br]這作品還不是很完美, 0:13:38.636,0:13:40.510 在圖像優化的過程方面, 0:13:40.534,0:13:42.987 還有很多工作要做。 0:13:43.011,0:13:45.838 但如果用我的臉當指導圖, 0:13:45.862,0:13:48.736 就能漸漸地顯現出比較[br]條理分明的臉。 0:13:48.892,0:13:51.393 你不需要從一張空白的畫布 0:13:51.417,0:13:52.573 或用白雜訊畫起。 0:13:52.597,0:13:53.901 當你解出 x 後, 0:13:53.925,0:13:57.814 你就可以從 x 開始畫起,[br]因為它本身就有一些圖像。 0:13:57.838,0:14:00.394 這個小小的展示[br]說明了它的運作原理。 0:14:00.418,0:14:04.540 這個網路是設計用來[br]分辨各種不同的物體, 0:14:04.564,0:14:07.683 像是人造結構、動物……等。 0:14:07.707,0:14:10.300 這一張畫我們是從[br]雲朵的圖像開始畫起的, 0:14:10.324,0:14:11.995 當我們把它優化後, 0:14:12.019,0:14:16.505 基本上,這個神經網路[br]正在搞懂它在雲朵中看見了什麼。 0:14:16.931,0:14:19.251 當你看得越久, 0:14:19.275,0:14:22.028 你就能在雲層中看得越多。 0:14:23.004,0:14:26.379 你也可以運用人臉網路[br]讓它產生幻覺, 0:14:26.403,0:14:28.215 然後就會跑出相當瘋狂的畫作。 0:14:28.239,0:14:29.389 (笑聲) 0:14:30.401,0:14:33.145 或者,麥可已經有作出[br]一些其它的實驗, 0:14:33.169,0:14:37.074 他用那張雲朵的圖像, 0:14:37.098,0:14:40.605 使電腦產生幻覺、然後放大、[br]產生幻覺、再放大。 0:14:40.629,0:14:41.780 用這樣的方式, 0:14:41.804,0:14:45.479 我在想,你就能得到一種[br]像是在神遊狀態的網路, 0:14:45.503,0:14:49.183 或者像是一種無拘束的聯想, 0:14:49.207,0:14:51.434 彷彿神經網路正在吃著自己的尾巴。 0:14:51.458,0:14:54.879 所以每一張圖像基本上像是正在想: 0:14:54.903,0:14:56.324 「我接下來會看到什麼? 0:14:56.348,0:14:59.151 接下來會看到什麼?[br]接下來會看到什麼?」 0:14:59.487,0:15:02.423 我第一次在一個[br]公眾場合上展示這個影片, 0:15:02.447,0:15:07.884 是在西雅圖的「高等教育」[br]機構做演說時展示的, 0:15:07.908,0:15:10.345 當時剛好是大麻剛合法化的時候。 0:15:10.369,0:15:12.784 (笑聲) 0:15:14.627,0:15:16.731 所以,我快速總結一下, 0:15:16.755,0:15:21.010 這項技術並不會受到約束。 0:15:21.034,0:15:24.699 我剛剛展示的是純粹的視覺範例,[br]因為觀察它的變化,真的很好玩。 0:15:24.723,0:15:27.174 它不單只有視覺科技。 0:15:27.198,0:15:29.191 我們的藝術合作者,羅斯谷穎[br]已經做了一些實驗, 0:15:29.215,0:15:32.886 他用相機拍了一張照片, 0:15:32.910,0:15:37.144 然後他背包裡的電腦[br]會根據圖片上的內容, 0:15:37.168,0:15:39.112 透過神經網路,創作出一首詩。 0:15:39.136,0:15:42.083 這個會作詩的神經網路 0:15:42.107,0:15:44.341 是透過大量 20 世紀的詩集[br]所訓練出來的, 0:15:44.365,0:15:45.864 而做出來的詩, 0:15:45.888,0:15:47.802 實際上,我覺得還得不錯。 0:15:47.826,0:15:49.210 (笑聲) 0:15:49.234,0:15:50.393 整體而言, 0:15:50.417,0:15:52.549 我在想,米開朗基羅, 0:15:52.573,0:15:53.807 他是對的; 0:15:53.831,0:15:57.267 感知和創意的關係是相當緊密的。 0:15:57.611,0:16:00.245 我們剛剛看的神經網路, 0:16:00.269,0:16:02.572 它們是被訓練出來分辯 0:16:02.596,0:16:04.838 或辨認世界上不同的東西, 0:16:04.862,0:16:08.023 也可以反過來,自行創作出東西來。 0:16:08.047,0:16:09.830 而我從中所得到的 0:16:09.854,0:16:12.252 不僅有米開朗基羅的啟發: 0:16:12.276,0:16:14.728 「看見石頭裡的雕像」, 0:16:14.752,0:16:18.390 還有任何能做出感知活動的[br]生物、生命、外來物種 0:16:18.414,0:16:22.071 都能透過這樣的方式 0:16:22.095,0:16:23.470 被呈現並創造出來, 0:16:23.494,0:16:26.718 因為這兩者與剛才舉的例子[br]都有著相同的機制。 0:16:26.742,0:16:30.668 我也認為,感知及創意 0:16:30.668,0:16:32.508 不是只有我們人類獨有。 0:16:32.532,0:16:36.240 我們已經有電腦模式[br]可以做出相當類似的事。 0:16:36.264,0:16:39.592 所以不需要感到驚訝;[br]因為大腦是會運算的。 0:16:39.616,0:16:41.273 最後,我要說的是, 0:16:41.297,0:16:45.965 設計智能機器已經開始成為[br]電腦界的活動。 0:16:45.989,0:16:48.451 在如何讓機器更智能的領域方面, 0:16:48.475,0:16:51.488 已經有很多的模式產生。 0:16:51.512,0:16:53.674 我們終於開始 0:16:53.698,0:16:56.104 完成一些早期前輩們 0:16:56.128,0:16:57.841 像是圖靈、馮諾伊曼、 0:16:57.865,0:17:00.130 馬庫洛奇和皮斯的期望。 0:17:00.154,0:17:04.252 而我也認為電腦不是只有拿來計算 0:17:04.276,0:17:06.423 或玩玩 Candy Crush 而已, 0:17:06.447,0:17:09.025 回到初衷,我們想要的[br]是讓電腦能仿效人腦。 0:17:09.049,0:17:11.842 它不僅讓我們更了解了人類的心智, 0:17:11.842,0:17:14.581 並讓我們獲得延伸發展心智的能力。 0:17:14.627,0:17:15.794 非常感謝大家。 0:17:15.818,0:17:21.757 (掌聲)