Google - công ty hàng đầu về machine learning

Bùi Lê Duy

14/09/2016 14:31

Nếu muốn đưa trí tuệ nhân tạo vào sản phẩm bạn đang ấp ủ, tốt nhất là bạn nên đào tạo lại đội ngũ các nhà lập trình của mình.

Google - công ty hàng đầu về machine learning

Rèn luyện trở thành một ninja

Nhưng câu chuyện ở đây không đề cập đến võ thuật. Holgate, nữ, 26 tuổi, đai đen Taekwondo nhưng cô đang nói đến thuật toán máy tính. Holgate vừa mất vài tuần để học một chương trình còn mạnh hơn cả môn võ thuật mà cô theo đuổi, đó là “máy học” (machine learning – ML). Holgate là kỹ sư máy tính đang làm việc tại Google, trong bộ phận Android, là một trong số 18 nhà lập trình năm nay thuộc Machine Learning Ninja Program - chương trình quy tụ những tài năng lập trình để đưa ML vào nhằm làm sản phẩm trở nên thông minh hơn. Để làm vậy, cách lập trình, viết mã nguồn cũng sẽ khó hiểu hơn.

Theo Christine Robson, giám sốc sản phẩm ML tại Google, cũng là người tổ chức chương trình, câu khẩu hiệu của chương trình là “Bạn có muốn trở thành ninja về machine learning?”. Chương trình này mời những người đang làm việc tại Google dành ra sáu tháng cộng tác với đội ngũ làm ML, để hướng dẫn, cùng làm việc liên quan đến ML trong vài dự án.

Đối với Holgate, cô đã làm việc tại Google gần 4 năm với bằng tốt nghiệp ngành khoa học máy tính và toán học. Đây là cơ hội để cô nắm được xu thế mới nhất, nóng nhất của thế giới phần mềm: sử dụng các thuật toán về learning và vô vàn dữ liệu để “dạy” cho phần mềm hoàn thành nhiệm vụ của chúng.

Nhiều năm qua, ML được xem là một thứ gì đó đặc biệt, chỉ có ít người tiếp cận được. Nhưng giai đoạn đó đã qua rồi. Những kết quả gần đây cho thấy ML, được trang bị “mạng thần kinh” vận hành dựa trên mô hình não bộ con người, sẽ thực sự là con đường hòa quyện giữa máy tính với con người, do những. Google đã đi trước mở rộng lĩnh vực này trong những bức tường kín kẽ của họ, với hy vọng biến ML thành thứ gì đó gần gũi hơn với đời sống.

Đối với những kỹ sư máy tính như Holgate, chương trình ninja là cơ hội cho cô tiến xa hơn trong sự nghiệp, học hỏi được thứ tốt nhất từ những người giỏi nhất.

Định hướng vào machine learning

Lực lượng nhân viên hùng hậu của Google sẽ làm bạn sẽ choán ngợp. Phân nửa số nhân sự của Google là kỹ sư, vào khoảng 60.000 người. ML ninja chỉ là dự án nhỏ. Tuy nhiên, đây lại là chương trình ghi dấu một bước tiến về nhận thức trong tập đoàn này.

Mặc dù ML từ lâu đã là một phần công nghệ của Google và hãng đã tiên phong trong việc tuyển dụng những chuyên gia hàng đầu trong lĩnh vực này, nhưng đến năm nay, 2016, Google mới cho thấy họ thực sự định hướng lại cho ML.

Trong đợt báo cáo tài chính cuối cùng của năm ngoái, CEO Google, Sundar Pichai, vẽ ra tầm nhìn cho hãng: “Machine learning là cách cốt yếu, mang tính bước ngoặt làm thay đổi cách nghĩ và cách chúng ta thực hiện mọi thứ. Chúng ta đang cẩn thận áp dụng nó vào mọi sản phẩm, trong tìm kiếm, quảng cáo, YouTube hay Play. Và chúng ta đang ở bước khởi đầu, nhưng bạn sẽ thấy chúng tôi làm theo một cách có hệ thống, áp dụng machine learning trong mọi lĩnh vực”.

Rõ ràng, nếu Google muốn đưa ML vào mọi sản phẩm thì họ cần những kỹ sư thành thục về nhiều kỹ thuật liên quan, và những kỹ năng như vậy khác rất nhiều so với cách viết mã truyền thống. Như Pedro Domingos, tác giả cuốn “gối đầu giường” của dân kỹ thuật The Master Algorithm, viết rằng: “Machine learning là thứ gì đó rất mới: một công nghệ tự xây dựng”. Những hệ thống như vậy liên quan đến nhận diện đúng dữ liệu, chọn đúng cách tiếp cận thuật toán, và đảm bảo bạn tạo được đúng những điều kiện để đạt được hiệu quả. Và sau đó là phải đặt niềm tin vào hệ thống mình tạo ra (điều này rất khó đối với nhà lập trình).

Carson Holgate, kỹ sư Google, hiện đang tham dự chương trình đào tạo ninja lập trình về machine learning của Google.

Còn Jeff Dean, chuyên gia về ML hiện đang làm việc tại Google, cho rằng trong 25.000 kỹ sư của Google hiện chỉ có khoảng “vài ngàn” người đủ khả năng viết ML, có thể chỉ 10%.

Jeff Dean, nhà khoa học máy tính nổi bật, người tạo các công cụ ML và trưởng mảng ML của Google.

Trong nhiều năm qua, John Giannandrea là người thúc đẩy chính cho các dự án ML của Google. Giannandrea đến Google năm 2010 trong thương vụ mua lại của công ty Metaweb của Google.

Ví dụ mà Giannandrea trích dẫn để chứng minh sức mạnh của ML là Google Photos, là sản phẩm có một tính năng đặc biệt - xác định đúng hình ảnh mà người dùng mong muốn tìm kiếm. Nếu bạn muốn tìm “chó Phú Quốc”, chương trình sẽ hiển thị đúng giống chó Phú Quốc trong hàng ngàn giống chó khác nhau trên thế giới.

Dĩ nhiên, mắt thường của chúng ta có thể phân biệt được đâu là chó Phú Quốc, đâu là chihuahua. Nhưng với máy tính, nó cần phải “học” thì mới có thể phân biệt được. Nếu máy tính học nhận diện được một giống chó, thì thuật toán có thể dựa trên đó để phân biệt được 9999 giống khác.

Các nhà sáng lập Google luôn tin tưởng mạnh mẽ vào trí tuệ nhân tạo. ML đã có trong nhiều sản phẩm của Google, nhưng không phải luôn xoay quanh các mạng thần kinh. ML các phiên bản trước thường dựa trên cách tiếp cận thống kê đơn giản hơn.

Thực chất, cách nay khoảng một thập kỷ, Google có những khoá đào tạo nội bộ để dạy các kỹ sư của họ về ML. Đầu năm 2005, Peter Norvig (sau này phụ trách mảng tìm kiếm) đề nghị nhà khoa học David Pablo Cohn giảng dạy một khoá học vơí chủ đề ML tại đại học Carnegie Mellon.

Cohn lúc ấy kết luận rằng Google nên đào tạo nội bộ trước, bởi vì Google ứng dụng ML ở tầm rất khác so với bất kỳ doanh nghiệp nào khác (có lẽ chỉ trừ Bộ Quốc phòng Mỹ). Vì vậy, Peter đã tổ chức một lớp đào tạo kéo dài 2 giờ mỗi tuần. Thậm chí Jeff Dean cũng tham gia vài buổi. Cohn cho rằng: “Đây là lớp học tốt nhất thế giới. Họ là những kỹ sư tài năng nhất”.

Khoá học này phổ biến đến nỗi nó không còn bó hẹp ở một nơi nữa. Nhân viên Google tại Bangalore cũng thức đêm tham gia khoá học trực tuyến. Sau đó Google đã tạo ra những đoạn video đào tạo ngắn về ML để có thể dùng làm tài liệu chính thức cho các lớp học trực tuyến số đông MOOC (Massive Open Online Course).

Greg Corrado, đồng sáng lập Google Brain, làm việc với các nhóm sản phẩm để đưa AI vào trong phần mềm, dịch vụ của Google.

“Tôi không học nói từ một nhà ngôn ngữ học. Tôi học nói bằng cách nghe người khác nói.”

Greg Corrado.

ML chưa thực sự bùng nổ tại Google mãi cho đến năm 2012, khi Giannandrea có ý tưởng gom lại một nhóm người để chuyên làm ML và tập trung họ vào một toà nhà duy nhất. Dự án Google Brain “tốt nghiệp” từ bộ phận X, cũng nằm trong nhóm này.

Đưa machine learning vào thực tế

Và càng ngày, ML xuất hiện nhiều hơn trong các sản phẩm phổ biến của hãng. Kể từ đó, những lĩnh vực chính liên quan đến ML là hình ảnh, giọng nói, nhận diện giọng nói và dịch thuật. Đến nay, ML là yếu tố cốt lõi trong Voice Search, Translate và Photos.

Và mục tiêu rõ nhất của Google là đưa ML vào mọi thứ. Jeff Dean cho rằng khi ông và cộng sự bắt đầu hiểu rõ về ML hơn, họ hình thành trong đầu những tham vọng lớn hơn.

ML cũng có trong những sản phẩm mà trước nay mọi người không nghĩ tới. Một ví dụ là tính năng Smart Reply trong Gmail, xuất hiện hồi tháng 11/2015. Smart Reply bắt nguồn từ cuộc nói chuyện giữa đồng sáng lập Google Brain, Greg Corrado, và kỹ sư Gmail Bálint Miklós. Corrado trước đây làm việc với nhóm Gmail để ứng dụng thuật toán ML cho nhận diện thư rác và phân loại email.

Nhưng Miklós đề nghị một thứ táo bạo hơn: điều gì xảy ra nếu sử dụng ML để tự động phản hồi email, tiết kiệm công sức cho người dùng di động với bàn phím ảo nhỏ xíu, khó chịu?

Corrado cho rằng ML vừa là nghệ thuật, vừa là khoa học. ML như nghệ thuật nấu ăn, với mọi loại gia vị, thịt cá rất tuyệt vời nhưng bạn phải học cách kết hợp các thành phần ra sao để có được một món ăn tuyệt hảo, đó mới là vấn đề.

Các phương pháp AI truyền thống về hiểu ngôn ngữ dựa vào nguyên tắc ngôn ngữ được nhúng trong hệ thống. Nhưng dự án ngôn ngữ của Google hoạt động bằng cách nhồi dữ liệu để cho hệ thống tự học, giống như một đứa trẻ. Nhưng điều giúp Smart Reply thành công là nó có thể phản hồi rất dí dỏm, hữu ích khi nhận được email. Hệ thống này được huấn luyện bằng cách ghi chú lại khi người dùng chọn hoặc không những phản hồi mà nó tự soạn.

Bản Smart Reply xuất hiện hồi tháng 11/2015 thực sự ấn tượng. Người dùng Gmail có thể chọn một trong ba tùy chọn để trả lời email trên điện thoại mà không cần phải soạn thảo. Kết quả là đến nay, cứ một trong mười email trả lời được tạo bởi ML.

Smart Reply chỉ là một điểm trong biểu đồ dày đặc các thành phần mà ML chứng tỏ hiệu quả. Nhưng có lẽ điểm đột phá thực sự sẽ đến khi ML trở thành một phần tích hợp trong công cụ tìm kiếm, là sản phẩm “đinh” và sẽ là nguồn doanh thu chính của Google. Xét trên vài phương diện, Search luôn dựa trên trí tuệ nhân tạo. Nhưng nhiều năm qua, Google chỉ dựa trên bảng “mười đường link màu xanh” khi hiển thị các tab kết quả tìm kiếm. Do đó, ML tỏ ra là yếu tố rất quan trọng đối với tìm kiếm vì xếp hạng tìm kiếm là điều cực kỳ quan trọng đối với chất lượng tìm kiếm.

Đến đầu năm 2014, các chuyên gia ML tại Google mới tin rằng nên đưa ML can thiệp sâu vào cách xếp hạng kết quả tìm kiếm. Từ đó RankBrain ra đời, xuất hiện trên mạng vào tháng 4/2015. Google vẫn chưa rõ ràng RankBrain cải thiện kết quả tìm kiếm như thế nào nhưng Dean cho rằng RankBrain “can thiệp đến mỗi một kết quả” và ảnh hưởng thực sự đến thứ hạng trang web. Hiện RankBrain được cho là công cụ hiệu quả đứng thứ ba trong những công cụ hiện có của Google.

Machine learning cần cách tiếp cận mới

Từ đây, các kỹ sư Google có những thách thức mới - phải làm quen dần với ML. Đó cũng là mục tiêu của nhiều công ty công nghệ khác, nhất là Facebook. Việc tuyển sinh viên vừa tốt nghiệp chuyên về ML hiện đang rất “nóng” và Google cố gắng duy trì vị thế dẫn đầu trong lĩnh vực này.

Nhiều năm qua, trong giới học thuật luôn cho rằng Google sẵn lòng tuyển những nhân viên xuất sắc ngay cả khi công ty không cần đến họ, chỉ là cách Google không muốn cạnh tranh từ những công ty khác. Nhưng thực sự là Google luôn cần đến những nhân sự như vậy, và lúc này, hãng lại cần những sinh viên xuất sắc hơn bao giờ hết. Mới đây, Google đã khai trương một phòng nghiên cứu ML tại Zurich, Đức.

Nhưng vì các chương trình thiên về học thuật hiện tại vẫn chưa tạo ra đủ chuyên gia ML nên cần có thêm chương trình bổ sung. Điều này lại không dễ dàng, nhất là tại một công ty như Google với nhiều kỹ sư hàng đầu thế giới, là những người dành trọn thời gian chỉ để nghiền ngẫm những đoạn mã nguồn ngày này qua ngày nọ.

ML cần một cách nhìn mới. Nhà lập trình giỏi hiện nay thường muốn làm theo cách có thể hoàn toàn điều khiển được cách chương trình vận hành, quản lý được một hệ thống nào đó. Nhưng ML lại cần đến những kiến thức nhất định về toán và thống kê mà nhiều nhà lập trình và hacker hiện nay chưa thực sự quan tâm.

ML cũng cần tính kiên nhẫn. Mô hình ML không chỉ là một đoạn mã lệnh tĩnh, mà bạn phải liên tục cấp dữ liệu cho nó. Nhà lập trình liên tục cập nhật mô hình ML để giúp nó học, thêm nhiều dữ liệu và tinh chỉnh để nó dự đoán chính xác hơn. Nó giống như một vật sống động, có hơi thở.

Giannandrea cho rằng: “ML giống như chúng ta thí nghiệm các thuật toán khác nhau, xem tập dữ liệu nào, thuật toán nào sử dụng phù hợp nhất với trường hợp mà chúng ta cần áp dụng. ML cũng cần đến kiến thức của ngành khoa học máy tính nói chung. Nhưng ML tập trung nhiều hơn về toán học và số liệu, ít chú trọng đến một chương trình hàng triệu dòng lệnh như trước đây”.

Để tạo thuận lợi hơn cho các chuyên gia ML, Google tạo ra một tập công cụ mạnh mẽ để giúp các kỹ sư chọn đúng mô hình mà họ sử dụng để huấn luyện thuật toán và tinh chỉnh quy trình. Một trong những công cụ mạnh nhất là TensorFlow, là hệ thống triển khai quy trình xây dựng mạng thần kinh.

Được phát triển từ dự án Google Brain, do Dean và đồng nghiệp Rajat Monga dựng lên, TensorFlow giúp “dân chủ hoá” ML bằng cách chuẩn hoá những chi tiết dài dòng và khó hiểu liên quan đến xây dựng một hệ thống, nhất là khi Google tung công cụ này ra ngoài vào tháng 11/2015.

Nhưng một vài nhà quan sát công nghiệp cho rằng có thể Google công bố TensorFlow là chỉ để cạnh tranh với Facebook vì trước đó Facebook đưa ra một hệ thống ML hồi tháng 1/2015, có tên là Torch. Dù vậy, với những tính năng của TensorFlow cùng với nhiều công cụ khác của Google, ngay trong khoá đào tạo trực tuyến đầu tiên, đã có 75.000 người đăng ký tham gia.

Bo mạch TPU được sử dụng trong các hệ thống ML

Google vẫn dành nhiều ưu ái cho lập trình viên của riêng họ. Trong nội bộ, hãng có cả một kho ứng dụng mạnh mẽ chuyên về ML, và mới đây Google còn công bố thêm một bộ xử lý mới hoàn toàn tên làTensor Processing Unit (TPU).

Chip xử lý này được tối ưu để chạy các chương trình ML, tương tự như bộ xử lý đồ hoạ GPU chuyên tính toán điểm ảnh trên màn hình. Google cũng đã ứng dụng TPU này vào các máy chủ trong các trung tâm dữ liệu của họ. Như Dean nói: “Nếu không có TPU, chúng tôi không thể chạy RankBrain được”.

Nhưng vì nhu cầu lớn nhất của Google hiện nay là nhân sự thiết kế và tinh chỉnh những hệ thống ML, cũng như hãng đang tinh chỉnh các công cụ phần mềm đào tạo cho hệ thống, nên hãng tăng cường huấn luyện nhân sự về ML, như các khoá học “vỡ lòng” về ML có tên là “Machine Learning Crash Course with TensorFlow”.

Ngoài ra, Google cũng đưa ra chương trình Brain Residency nhằm kêu gọi những nhà lập trình tiềm năng bên ngoài tham gia nhóm Google Brain.

Vì vậy, theo góc nhìn nào đó thì việc Carson Holgate tham gia khoá học ninja cũng là bước đi quan trọng của Google trong việc thống trị lĩnh vực trí tuệ nhân tạo trên thế giới, mà trong đó ML đóng vai trò trung tâm. Hiện tại, Holgate đang dùng các công cụ ML để tạo ra một tính năng giao tiếp trong Android, giúp nhân viên Google có thể trao đổi với nhau. Machine learning và trí tuệ nhân tạo nói chung là hiện tại và là tương lai của Google, cũng như của nền công nghệ nói chung, mà cũng có thể là của tất cả.

Theo PC World VN