Return to Video

How we're teaching computers to understand pictures

  • 0:04 - 0:06
    Để tôi cho bạn xem cái này.
  • 0:06 - 0:10
    (Video) Bé gái:
    Okay, đó là một con mèo ngồi trên giường
  • 0:10 - 0:14
    Đứa trẻ đang vuốt ve con voi
  • 0:14 - 0:19
    Những người này đang chuẩn bị lên máy bay.
  • 0:19 - 0:21
    Đó là một cái máy bay lớn.
  • 0:21 - 0:24
    Fei Fei Li: Đây là một bé gái ba tuổi
  • 0:24 - 0:27
    đang miêu tả những gì
    mà em nhìn thấy trong loạt hình.
  • 0:27 - 0:30
    Em vẫn còn nhiều điều
    để khám phá về thế giới này,
  • 0:30 - 0:35
    nhưng em hoàn toàn đã trở thành chuyên gia
    trong một nhiệm vụ rất quan trọng:
  • 0:35 - 0:38
    hiểu được những thứ mà em thấy.
  • 0:38 - 0:42
    Xã hội của chúng ta đã trở nên tiến bộ
    về mặt công nghệ hơn bao giờ hết.
  • 0:42 - 0:46
    Chúng ta gửi con người lên mặt trăng,
    chúng ta chế tạo ra điện thoại
  • 0:46 - 0:51
    hoăc điều chỉnh những đài phát thanh
    chỉ chơi loại nhạc chúng ta yêu thích.
  • 0:51 - 0:55
    Nhưng mà, những thiết bị
    và máy vi tính tối tân nhất
  • 0:55 - 0:58
    vẫn còn đang xoay xở trong nhiệm vụ này
  • 0:58 - 1:01
    Vì thế mà tôi ở đây
    để báo cáo với bạn về quá trình
  • 1:01 - 1:05
    của cải tiến mới nhất trong thí nghiệm
    đối với thị giác máy tính
  • 1:05 - 1:10
    một trong những công nghệ dẫn đầu
    và có tiềm năng cách mạng
  • 1:10 - 1:13
    trong khoa học máy tính.
  • 1:13 - 1:17
    Vâng, chúng ta đã có nguyên mẫu
    những chiếc xe lái tự động,
  • 1:17 - 1:21
    nhưng lại thiếu đi thị giác thông minh,
    chúng không phân biệt được sự khác nhau
  • 1:21 - 1:25
    giữa một cái túi giấy rách trên đường,
    cái có thể cán qua,
  • 1:25 - 1:29
    và một tảng đá với cùng kích thước,
    mà nên tránh sang một bên.
  • 1:29 - 1:33
    Chúng ta đã tạo nên những máy ảnh đắt đỏ
    hàng triệu điểm ảnh
  • 1:33 - 1:36
    nhưng chúng ta chưa đưa ánh sáng
    đến cho người mù.
  • 1:36 - 1:40
    máy bay không người lái
    có thể bay qua vùng đất rộng lớn,
  • 1:40 - 1:42
    nhưng không có đủ thị giác công nghệ
  • 1:42 - 1:45
    để giúp chúng ta theo dõi
    sự thay đổi của những rừng mưa nhiệt đới.
  • 1:45 - 1:48
    Máy quay an ninh ở khắp mọi nơi,
  • 1:48 - 1:54
    nhưng không thể báo động cho chúng ta
    khi một đứa trẻ đang bị chìm trong hồ bơi.
  • 1:54 - 2:00
    Hình ảnh và những thước phim trở thành
    một phần thiết yếu của đời sống toàn cầu.
  • 2:00 - 2:04
    Chúng đang được điều khiển với tốc độ
    vượt lên trên bất kỳ con người nào,
  • 2:04 - 2:07
    hay nhóm người, có thể hy vọng thấy được,
  • 2:07 - 2:11
    và bạn và tôi đang cống hiến
    cho điều đó ở TED này.
  • 2:11 - 2:16
    Nhưng phần mềm tân tiến vẫn đang
    phải khó khăn xoay trở trong việc hiểu
  • 2:16 - 2:20
    và quản lý nội dung khổng lồ này.
  • 2:20 - 2:25
    Vì vậy nói cách khác,
    tụ chung lại như là một xã hội,
  • 2:25 - 2:27
    chúng ta giống như bị mù,
  • 2:27 - 2:30
    bởi vì chiếc máy thông minh nhất
    của chúng ta vẫn bị mù
  • 2:32 - 2:34
    "Tại sao lại khó đến vậy" bạn sẽ hỏi.
  • 2:34 - 2:37
    Máy ảnh có thể chụp được những bức thế này
  • 2:37 - 2:41
    bằng cách chuyển đổi ánh sáng
    thành dãy 2 chiều những con số,
  • 2:41 - 2:43
    được biết đến như điểm ảnh,
  • 2:43 - 2:45
    nhưng chúng giống như những con số chết.
  • 2:45 - 2:48
    Chúng không mang bất kỳ ý nghĩa nào cả.
  • 2:48 - 2:52
    Giống như nghe
    thì không phải là thưởng thức,
  • 2:52 - 2:57
    chụp ảnh không giống như nhìn thấy
  • 2:57 - 3:00
    và với việc nhìn thấy,
    chúng tôi thực sự muốn nói là hiểu được.
  • 3:01 - 3:07
    Trong thực tế, mẹ thiên nhiên
    phải mất 540 triệu năm cật lực
  • 3:07 - 3:09
    mới làm được điều này,
  • 3:09 - 3:11
    và hầu hết nỗ lực đó
  • 3:11 - 3:17
    để đi đến việc phát triển
    quá trình của não bộ chúng ta,
  • 3:17 - 3:19
    không chỉ mỗi đôi mắt.
  • 3:19 - 3:22
    Vì thế mà cái nhìn bắt đầu với đôi mắt,
  • 3:22 - 3:26
    nhưng thật sự diễn ra trong não bộ.
  • 3:27 - 3:31
    Vì thế mà 15 năm qua, bắt đầu
    với luận án tiến sĩ của tôi tại Caltech
  • 3:31 - 3:34
    và sau đó là hướng dẫn
    phòng thí nghiệm Thị giác ở Stanford,
  • 3:34 - 3:39
    tôi đã làm việc với cố vấn,
    đối tác và sinh viên
  • 3:39 - 3:42
    để dạy cho máy tính cách nhìn.
  • 3:42 - 3:46
    Lĩnh vực nghiên cứu của chúng tôi gọi là
    thị giác máy tính và máy móc học hỏi.
  • 3:46 - 3:50
    Nó là một phần của lĩnh vực chung
    - trí thông minh nhân tạo.
  • 3:51 - 3:56
    Nên một cách tối ưu nhất, chúng tôi muốn
    dạy cho máy móc thấy được như chúng ta:
  • 3:56 - 4:02
    kể tên đồ vật, nhận diện con người,
    những đồ vật 3D tương tự,
  • 4:02 - 4:08
    hiểu được những mối quan hệ,
    tình cảm, hành động và cả dự định.
  • 4:08 - 4:14
    Bạn và tôi cùng nhau dệt nên toàn bộ
    câu chuyện về con người -nơi chốn -đồ vật.
  • 4:14 - 4:16
    giây phút mà chúng ta nhìn thấy chúng.
  • 4:18 - 4:23
    Bước đầu tiên đạt được mục tiêu này
    là dạy cho máy tính nhìn những đồ vật,
  • 4:23 - 4:26
    những block nhà của thế giới thị giác.
  • 4:26 - 4:30
    Nói một cách đơn giản nhất,
    tưởng tượng quá trình dạy học này
  • 4:30 - 4:33
    bằng cách chỉ cho máy tính
    một vài bức ảnh rèn luyện
  • 4:33 - 4:37
    của những vậy cụ thể, ở đây là con mèo.
  • 4:37 - 4:41
    và thiết kế một hình mẫu học được
    từ những bức ảnh rèn luyện này.
  • 4:41 - 4:43
    Khó như thế nào nhỉ?
  • 4:43 - 4:47
    Nói cho cùng, một con mèo là
    tổ hợp của hình dạng và màu sắc,
  • 4:47 - 4:52
    và đây là cái mà chúng tôi đã làm
    ở thời kỳ đầu của việc tạo lập vật thể.
  • 4:52 - 4:55
    Chúng tôi nói cho máy vi tính thuật toán
    dưới dạng ngôn ngữ toán học
  • 4:55 - 4:59
    rằng con mèo có mặt tròn,
    một thân hình mũm mĩm,
  • 4:59 - 5:01
    2 tai nhọn, và một cái đuôi dài,
  • 5:01 - 5:02
    và cái đó nhìn có vẻ ổn.
  • 5:03 - 5:05
    Nhưng với con mèo này thì sao?
  • 5:05 - 5:06
    (Tiếng cười)
  • 5:06 - 5:08
    toàn là những đường cong lên.
  • 5:08 - 5:12
    Bây giờ bạn lại có một hình dạng
    và góc nhìn khác đến vật thể khác.
  • 5:12 - 5:15
    Nhưng nếu như con mèo bị ẩn đi thì sao?
  • 5:15 - 5:17
    Thế còn những con mèo ngố này ?
  • 5:19 - 5:22
    Bây giờ bạn đã hiểu ý của tôi rồi đó.
  • 5:22 - 5:25
    Thậm chí thứ đơn giản
    như một vật nuôi trong nhà
  • 5:25 - 5:29
    cũng có thể mang một con số vô tận
    những thay đổi đối với một vật thể mẫu,
  • 5:29 - 5:32
    và nó mới chỉ là một vật thể mà thôi.
  • 5:33 - 5:35
    Vì vậy mà khoảng 8 năm trước,
  • 5:35 - 5:40
    một sự quan sát đơn giản và sâu sắc
    đã thay đổi suy nghĩ của tôi.
  • 5:41 - 5:44
    Không ai nói cho một đứa trẻ biết
    chúng phải nhìn như thế nào,
  • 5:44 - 5:46
    đặc biệt là trong những năm đầu đời.
  • 5:46 - 5:51
    Chúng học hỏi qua những trãi nghiệm
    thế giới thực và qua những ví dụ.
  • 5:51 - 5:54
    Nếu như bạn xem xét
    đôi mắt của một đứa trẻ
  • 5:54 - 5:56
    như một cặp máy quay phim sinh học
  • 5:56 - 6:01
    chúng chụp một ảnh trong mỗi 200 mili giây
  • 6:01 - 6:04
    khoảng thời gian trung bình
    một cử động mắt được thực hiện.
  • 6:04 - 6:09
    Vì vậy mà đến ba tuổi, một đứa trẻ
    có thể đã nhìn hàng triệu những bức ảnh
  • 6:09 - 6:11
    của thế giới thực.
  • 6:11 - 6:14
    Đó là rất nhiều những ví dụ rèn luyện.
  • 6:14 - 6:20
    Nên thay vì chú trọng vào mỗi việc
    làm cho thuật toán ngày một tốt hơn
  • 6:20 - 6:25
    ý định của tôi là cho những thuật toán
    một dạng rèn luyện dữ liệu
  • 6:25 - 6:29
    mà một đứa trẻ có được nhờ kinh nghiệm
  • 6:29 - 6:32
    về cả lượng cả chất.
  • 6:33 - 6:34
    Một khi chúng tôi nhận ra điều này,
  • 6:34 - 6:38
    chúng tôi biết mình
    cần phải thu thập một cơ sở dữ liệu
  • 6:38 - 6:41
    có nhiều hình ảnh hơn những gì
    mà chúng tôi đã từng có trước đây,
  • 6:41 - 6:45
    thậm chí là gấp hàng ngàn lần nữa,
  • 6:45 - 6:49
    và cùng với giáo sư Kai Li
    ở đại học Princeton,
  • 6:49 - 6:54
    chúng tôi triển khai
    dự án ImageNet vào năm 2007.
  • 6:54 - 6:57
    May mắn thay, chúng tôi
    không cần phải gắn camera trên đâu
  • 6:57 - 6:59
    và đợi chờ nhiều năm nữa.
  • 6:59 - 7:01
    Chúng tôi lên mạng,
  • 7:01 - 7:05
    nguồn tài nguyên ảnh lớn nhất
    mà con người đã từng tạo ra.
  • 7:05 - 7:08
    Chúng tôi tải xuống gần một triệu bức
  • 7:08 - 7:13
    và sử dụng công nghệ nguồn đám đông
    như nền tảng Amazon Mechanical Tuck
  • 7:13 - 7:16
    để giúp chúng tôi phân loại
    những hình ảnh này.
  • 7:16 - 7:21
    Vào đỉnh điểm, ImageNet
    là một trong số những ông chủ lớn nhất
  • 7:21 - 7:24
    của những nhân viên Amazon Mechanical Turk
  • 7:24 - 7:28
    cùng nhau, gần 50000 nhân viên
  • 7:28 - 7:32
    từ 167 quốc gia trên thế giới
  • 7:32 - 7:36
    giúp chúng tôi dọn dẹp,
    sắp xếp và phân loại
  • 7:36 - 7:39
    gần một triệu tấm ảnh ứng viên.
  • 7:40 - 7:43
    Đó mới thấy phải mất rất nhiều nổ lực
  • 7:43 - 7:47
    để nắm bắt được
    thậm chí chỉ là một mảnh hình ảnh
  • 7:47 - 7:51
    của trí óc trẻ con
    trong những năm tháng phát triển đầu đời
  • 7:52 - 7:56
    Trong nhận thức muộn màng,
    ý tưởng sử dụng dữ liệu lớn
  • 7:56 - 8:00
    để hướng dẫn một thuật toán vi tính
    có thể hiển nhiên vào lúc này,
  • 8:00 - 8:04
    nhưng trở lại năm 2007,
    nó không hiển nhiên như vậy.
  • 8:04 - 8:08
    Chúng tôi gần như là đơn độc trên
    hành trình này trong một thời gian dài.
  • 8:08 - 8:13
    Một vài đồng nghiệp thân thiện khuyên tôi
    làm cái gì khác có lợi hơn cho chức vụ,
  • 8:13 - 8:17
    và chúng tôi liên tục phải xoay xở
    tìm nguồn tài trợ cho dự án.
  • 8:17 - 8:20
    Một lần, tôi đùa
    với những học viên cao học của mình
  • 8:20 - 8:24
    tôi sẽ mở lại shop giặt là
    để tài trợ cho ImageNet
  • 8:24 - 8:29
    Dù gì, thì đó là cách mà tôi trang trải
    cho những năm tháng đại học của mình.
  • 8:29 - 8:31
    Vì thế mà chúng tôi tiếp tục.
  • 8:31 - 8:35
    Năm 2009, dự án ImageNet chuyển tải
  • 8:35 - 8:39
    một cơ sở dữ liệu của 15 triệu tấm ảnh
  • 8:39 - 8:44
    trong 22000 lớp đối tượng và đồ vật
  • 8:44 - 8:47
    được tổ chức
    theo từng từ tiếng Anh thông dụng.
  • 8:47 - 8:50
    Về cả số lượng và chất lượng,
  • 8:50 - 8:53
    đây là một quy mô chưa từng có
  • 8:54 - 8:56
    Lấy ví dụ, trong trường hợp của mèo,
  • 8:56 - 8:59
    chúng tôi có hơn 62000 con mèo
  • 8:59 - 9:03
    đủ mọi loại hình dạng và kiểu dáng
  • 9:03 - 9:08
    và trong tất cả những loài mèo nhà
    hay mèo hoang.
  • 9:08 - 9:12
    Chúng tôi hứng khởi
    để cùng nhau xây dựng nên ImageNet,
  • 9:12 - 9:15
    và chúng tôi muốn cả thế giới
    nghiên cứu được hưởng lợi từ nó,
  • 9:15 - 9:20
    vì vậy mà ở TED,
    chúng tôi mở toàn bộ hệ thống dữ liệu
  • 9:20 - 9:22
    cho cộng đồng nghiên cứu quốc tế
  • 9:22 - 9:24
    miễn phí
  • 9:24 - 9:29
    (vỗ tay)
  • 9:29 - 9:34
    Bây giờ chúng ta đã có dữ liệu
    để nuôi sống não bộ máy tính của chúng ta,
  • 9:34 - 9:38
    chúng ta đã sẵn sàng quay trở lại
    với những thuật toán .
  • 9:38 - 9:43
    Vì hóa ra là, sự dồi dào
    của những nguồn thông tin bởi ImageNet
  • 9:43 - 9:47
    là một sự kết hợp hoàn hảo
    cho việc học những thuật toán của máy tính
  • 9:47 - 9:50
    gọi là mạng lưới nơ ron đan chéo,
  • 9:50 - 9:55
    tiên phong bởi Kunihiko Fukushima,
    Geoff Hinton, và Yann LeCun
  • 9:55 - 9:59
    từ những năm 1970 và 1980
  • 9:59 - 10:05
    Giống như não bộ, nó bao gồm hàng triệu
    những nơ ron kết nối chặt chẽ với nhau,
  • 10:05 - 10:08
    một đơn vị cơ bản trong mạng lưới neron
  • 10:08 - 10:11
    là những nút giống như neron
  • 10:11 - 10:13
    Cần phải có dữ liệu đầu vào từ nút này
  • 10:13 - 10:16
    và gửi dữ liệu đầu ra cho nút khác.
  • 10:16 - 10:21
    Hơn nữa, hàng trăm ngàn
    hoặc thậm chí hàng triệu nút
  • 10:21 - 10:24
    được sắp xếp trong những lớp trật tự,
  • 10:24 - 10:27
    cũng gần giống như não bộ.
  • 10:27 - 10:31
    Trong mạng lưới điển hình chúng tôi dùng
    để huấn luyện những mẫu nhận diện vật thể
  • 10:31 - 10:35
    có 24 triệu nút,
  • 10:35 - 10:38
    140 triệu thông số,
  • 10:38 - 10:41
    và 15 tỉ liên kết.
  • 10:41 - 10:43
    Đó là một mẫu cực kỳ lớn.
  • 10:43 - 10:47
    Hỗ trợ bởi dữ liệu khổng lồ từ ImageNet
  • 10:47 - 10:52
    và những CPUs và GPUs hiện đại
    để huấn luyện cho một mẫu cực lớn.
  • 10:52 - 10:54
    mạng lưới những nơ ron đan chéo
  • 10:54 - 10:58
    phát triển đến mức
    không ai có thể dự đoán được.
  • 10:58 - 11:01
    Nó trở thành kiến trúc được dùng để
  • 11:01 - 11:06
    điều hành những kết quả mới xuất hiện
    trong nhận diện vật thể.
  • 11:06 - 11:09
    Đây là một chiếc máy tính
    nói với chúng ta rằng
  • 11:09 - 11:11
    bức hình này bao gồm một con mèo
  • 11:11 - 11:13
    và nơi mà con mèo đang ở.
  • 11:13 - 11:15
    Dĩ nhiên là còn nhiều thứ hơn là con mèo,
  • 11:15 - 11:18
    nên đây là một thuật toán
    nói với chúng ta rằng
  • 11:18 - 11:21
    bức hình này bao gồm
    một đứa trẻ và một con gấu teddy;
  • 11:21 - 11:25
    một con chó, một người,
    và một con diều nhỏ ở phía sau;
  • 11:25 - 11:28
    hay một bức tranh của những thứ lộn xộn
  • 11:28 - 11:33
    như một người, một tấm ván trượt,
    tay vịn, một cái đèn đường, vân vân.
  • 11:33 - 11:40
    Đôi lúc, khi chiếc máy vi tính không chắc
    về những gì mà nó thấy,
  • 11:40 - 11:42
    chúng tôi đã dạy nó trở nên thông minh đủ
  • 11:42 - 11:45
    để cho chúng ta một câu trả lời an toàn
    thay vì phụ thuộc quá nhiều,
  • 11:45 - 11:48
    giống như cách mà chúng ta sẽ làm,
  • 11:48 - 11:53
    nhưng những lần khác những thuật toán
    thật sự ấn tượng với chúng tôi khi nói ra
  • 11:53 - 11:55
    chính xác những đặc tính của đối tượng,
  • 11:55 - 11:59
    như là xuất xứ, hiệu, năm sản xuất
    của những chiếc xe.
  • 11:59 - 12:04
    Chúng tôi ứng dụng thuật toán này cho
    hàng triệu ảnh chụp đường phố trên Google
  • 12:04 - 12:07
    qua hàng trăm thành phố của Mỹ,
  • 12:07 - 12:10
    và chúng tôi đã nhận ra
    nhiều thứ rất thú vị:
  • 12:10 - 12:14
    đầu tiên, nó xác nhận
    sự hiểu biết chung của chúng ta
  • 12:14 - 12:17
    giá cả của những chiếc xe rất liên quan
  • 12:17 - 12:19
    với thu nhập của hộ gia đình.
  • 12:19 - 12:24
    Nhưng bất ngờ là,
    giá của xe cũng tương ứng với
  • 12:24 - 12:27
    mức độ tội phạm trong những thành phố ,
  • 12:27 - 12:31
    hoặc tỉ lệ bầu phiếu theo mã vùng.
  • 12:32 - 12:34
    Đợi một chút, có phải là vậy không?
  • 12:34 - 12:39
    Phải chăng máy vi tính thực sự đã đạt được
    hay thậm chí vượt qua khả năng con người?
  • 12:39 - 12:42
    Không nhanh vậy đâu.
  • 12:42 - 12:46
    Cho tới nay, chúng ta mới chỉ dạy
    cho máy vi tính nhìn thấy những vật thể.
  • 12:46 - 12:51
    Cái này giống như một đứa trẻ học cách
    bật ra một vài danh từ.
  • 12:51 - 12:54
    Đó là một thành tựu đáng kinh ngạc,
  • 12:54 - 12:56
    nhưng nó mới chỉ là bước đầu tiên.
  • 12:56 - 13:00
    Nhanh thôi,
    những cột mốc phát triển khác sẽ đạt được,
  • 13:00 - 13:03
    và trẻ em bắt đầu giao tiếp bằng những câu.
  • 13:03 - 13:08
    Vì vậy thay vì nói
    đây là một con mèo trong bức tranh,
  • 13:08 - 13:13
    bạn thật sự đã nghe đứa trẻ nhỏ nói rằng
    đây là một con mèo nằm trên một cái giường
  • 13:13 - 13:19
    Vì thế mà dạy một chiếc máy tính
    nhìn một ảnh và cấu thành những câu nói,
  • 13:19 - 13:22
    sự liên kết giữa những dữ liệu lớn
    và thuật toán
  • 13:22 - 13:25
    phải tiếp tục những bước tiếp theo.
  • 13:25 - 13:30
    Bây giờ, chiếc máy tính phải học
    cả những hình ảnh
  • 13:30 - 13:32
    lẫn ngôn ngữ câu tự nhiên
  • 13:32 - 13:35
    được tạo lập bởi con người.
  • 13:35 - 13:39
    Giống như não bộ
    kết hợp giữa cái nhìn và ngôn ngữ,
  • 13:39 - 13:44
    chúng tôi phát triển một hình mẫu
    liên kết những phần của những vật thể
  • 13:44 - 13:46
    giống như những mẩu thông tin
    có thể trông thấy được
  • 13:46 - 13:50
    với những từ ngữ và cụm từ trong câu.
  • 13:51 - 13:53
    Khoảng 4 tháng trước,
  • 13:53 - 13:56
    chúng tôi cuối cùng cũng liên kết chúng
    lại với nhau
  • 13:56 - 13:59
    và tạo ra một trong những hình mẫu
    máy tính có thị giác đầu tiên
  • 13:59 - 14:03
    có khả năng tạo ra một câu
    giống như con người
  • 14:03 - 14:07
    khi nó thấy một bức ảnh lần đầu tiên.
  • 14:07 - 14:12
    Bây giờ, tôi sẵn sàng cho bạn thấy
    điều mà máy vi tính nói
  • 14:12 - 14:14
    khi nó trông thấy bức ảnh
  • 14:14 - 14:19
    mà cô gái nhỏ đã thấy
    ở phần mở đầu của bài nói này.
  • 14:19 - 14:24
    (Video) Máy vi tính: Một người đàn ông
    đang đứng cạnh một con voi.
  • 14:24 - 14:29
    Một máy bay lớn đậu phía trên một
    đường băng sân bay.
  • 14:29 - 14:33
    FFL: Dĩ nhiên, chúng tôi vẫn đang làm việc
    chăm chỉ để phát triển những thuật toán,
  • 14:33 - 14:36
    và vẫn còn rất nhiều thứ để học
  • 14:36 - 14:40
    (vỗ tay)
  • 14:40 - 14:43
    Và máy tính vẫn còn mắc nhiều lỗi.
  • 14:43 - 14:46
    (Video) Máy tinh: một con mèo đang nằm
    trong chăn trên một cái giường
  • 14:46 - 14:49
    FFL: Nên đương nhiên, khi nó nhìn thấy
    quá nhiều mèo
  • 14:49 - 14:53
    nó sẽ nghĩ mọi thứ
    có thể nhìn giống như một con mèo.
  • 14:53 - 14:56
    Máy tính: Một chàng trai trẻ
    đang cầm một cái vợt bóng chày
  • 14:56 - 14:58
    (cười lớn)
  • 14:58 - 15:03
    FFL: Nếu nó chưa bao giờ thấy bàn chải,
    nó sẽ nhầm lẫn với một cái vợt bóng chày
  • 15:03 - 15:07
    Máy tính: Người đàn ông đang cưỡi ngựa
    xuống một con đường gần một tòa nhà.
  • 15:07 - 15:09
    (cười lớn)
  • 15:09 - 15:14
    FFL: Chúng tôi chưa dạy
    môn nghệ thuật cơ bản cho máy tính
  • 15:14 - 15:17
    Máy tính: Một con ngựa vằn đang đứng
    trên một bãi cỏ.
  • 15:17 - 15:20
    FFL: Và nó chưa được học để trân trọng
    vẻ đẹp tuyệt mỹ của thiên nhiên
  • 15:20 - 15:22
    như tôi và bạn.
  • 15:22 - 15:25
    Vì thế nó là một hành trình dài.
  • 15:25 - 15:30
    Để đi từ 0 tuổi đến 3 tuổi là đã khó.
  • 15:30 - 15:35
    Thử thách thực sự là đi
    từ 3 đến 13 tuổi và còn xa hơn nữa.
  • 15:35 - 15:39
    Để tôi nhắc cho bạn bức ảnh này
    về một bé trai và chiếc bánh một lần nữa.
  • 15:39 - 15:44
    Trước đó, chúng ta đã dạy
    máy tính nhìn thấy những vật thể
  • 15:44 - 15:48
    hoặc kể một câu chuyện đơn giản
    khi nhìn thấy một bức ảnh.
  • 15:48 - 15:52
    Máy tính: Một người ngồi
    trên một cái bàn với một cái bánh.
  • 15:52 - 15:54
    FFL: Nhưng còn rất nhiều thứ
    về bức ảnh này
  • 15:54 - 15:56
    hơn là chỉ một người và một cái bánh.
  • 15:56 - 16:01
    Điều mà máy tính không thấy được
    đây là một chiếc bánh kiếu Ý rất đặc biệt
  • 16:01 - 16:04
    chỉ ăn vào dịp Phục Sinh.
  • 16:04 - 16:07
    Thằng bé đang mặc
    chiếc áo thun yêu thích của nó
  • 16:07 - 16:11
    trao cho cậu như một món quà của bố cậu
    sau một chuyến đi đến Sydney.
  • 16:11 - 16:15
    và bạn và tôi có thể thấy được
    cậu bé trông vui đến thế nào
  • 16:15 - 16:19
    và điều thực sự trong tâm trí của nó
    vào lúc đó.
  • 16:19 - 16:22
    Đây là con trai tôi Leo.
  • 16:22 - 16:25
    Trong khi nghiên cứu về
    trí thông minh hình ảnh,
  • 16:25 - 16:27
    tôi không ngừng nghĩ về Leo
  • 16:27 - 16:30
    và tương lai mà nó sẽ sống.
  • 16:30 - 16:32
    Khi những chiếc máy có thể nhìn,
  • 16:32 - 16:37
    bác sĩ và y tá sẽ có thêm
    những đôi mắt không mệt mỏi
  • 16:37 - 16:41
    để giúp họ chẩn đoán
    và chăm sóc bệnh nhân.
  • 16:41 - 16:45
    Những chiếc xe sẽ chạy nhanh hơn
    và an toàn hơn trên đường.
  • 16:45 - 16:48
    Robots, không chỉ con người,
  • 16:48 - 16:54
    giúp chúng ta đến với khu vực bị thiên tai
    để cứu những người mắc kẹt và thương vong.
  • 16:54 - 16:58
    Và chúng ta sẽ khám phá ra những loài mới,
    vật liệu tốt hơn,
  • 16:58 - 17:03
    và khám phá những biên giới chưa tưng thấy
    với sự giúp đỡ của máy móc.
  • 17:03 - 17:07
    Từng chút từng chút một,
    chúng ta cho máy móc thị giác.
  • 17:07 - 17:10
    Đầu tiên, chúng ta dạy chúng cách nhìn.
  • 17:10 - 17:13
    Sau đó, chúng sẽ giúp
    chúng ta nhìn rõ hơn.
  • 17:13 - 17:17
    Lần đầu tiên, đôi mắt của con người
    không còn là thứ duy nhất
  • 17:17 - 17:20
    nghĩ ngợi và khám phá thế giới này.
  • 17:20 - 17:23
    Chúng ta sẽ không chỉ sử dụng máy móc
    nhờ sự thông minh của chúng,
  • 17:23 - 17:30
    chúng ta còn có thể hợp tác với chúng
    theo những cách không thể tưởng tượng nỗi.
  • 17:30 - 17:32
    Đây là mong muốn của tôi:
  • 17:32 - 17:35
    cho máy tính sự thông minh thị giác
  • 17:35 - 17:40
    và tạo ra một tương lai tốt hơn
    cho Leo và cho thế giới.
  • 17:40 - 17:42
    Cám ơn.
  • 17:42 - 17:44
    (vỗ tay)
Title:
How we're teaching computers to understand pictures
Speaker:
Cách mà chúng tôi đang dạy máy tính hiểu những bức ảnh
Description:

Khi một đứa trẻ nhìn vào một bức tranh, cô bé có thể phân biệt được những yếu tố: "mèo","sách","ghế". Ngày nay, máy tính cũng đang trở nên đủ thông minh để làm điều đó. Điều gì tiếp theo? Trong một bài nói lôi cuốn, nhà chuyên gia về thị giác máy tính Fei Fei Li miêu tả công nghệ mới nhất- bao gồm cơ sở dữ liệu của 15 triệu bức ảnh mà đội của cô đã xây dựng để dạy một chiếc máy tính hiểu những bức tranh- và những hiểu biết quan trọng cho đến nay

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
17:58

Vietnamese subtitles

Revisions