Kiên trì xử lý những dữ liệu nhỏ

Việt Nam là một thị trường rất tiềm năng để ứng dụng và phát triển ngành dữ liệu lớn trong thương mại điện tử, tài chính ngân hàng, y tế giáo dục, giao thông và quản lý đô thị thông minh… Tuy nhiên, để có được ứng dụng dữ liệu lớn, trước hết cần thay đổi cách triển khai và kiên trì xử lý cho thật “tử tế” những dữ liệu nhỏ
Nhiều người đã dùng ứng dụng Grab để đặt dịch vụ xe máy, ô tô.
Nhiều người đã dùng ứng dụng Grab để đặt dịch vụ xe máy, ô tô.

Thu thập được dữ liệu nhỏ

Dữ liệu lớn chỉ mang lại giá trị khi nó có số lượng đủ lớn, thường là hàng trăm triệu đến hàng tỉ bản ghi. Lượng dữ liệu này chỉ có thể sinh ra nhanh chóng khi có lượng người dùng lớn và hay có thiết bị thu thập các thông tin đó. Tuy nhiên để có một lượng người dùng lớn thì các ứng dụng, thiết bị phải đủ hấp dẫn, khiến người dùng cảm thấy cần thiết phải sử dụng hàng ngày, hàng giờ. Ví dụ một hệ thống tìm kiếm của Google cần có thuật toán thu thập (crawl), đánh chỉ số (index) và xếp hạng (ranking) các trang Web hiệu quả để thu hút hàng tỉ người dùng như hiện nay và lại sử dụng các truy vấn (query), hành vi của người dùng để cải tiến và phát triển tính năng mới của hệ thống.

Việt Nam khó có thể ứng dụng công nghệ Big Data, ví dụ  trong y học, nếu không có một một cơ sở hạ tầng tin học đồng nhất  thu thập dữ liệu bệnh nhân từ các bệnh viện lớn. Mỗi người bệnh cần có một định danh số (identity) duy nhất trong hệ thống để lưu lại được toàn bộ lịch sử khám chữa bệnh, các loại thuốc điều trị, các kết quả xét nghiệm dù khám ở bất kỳ bệnh viện nào, phòng khám nào. Mỗi bác sĩ, y tá phải có trách nhiệm thu thập thông tin cho hệ thống. Hệ thống dữ liệu này này phải có thể truy cập từ các bệnh viện khác nhau. Hạ tầng dữ liệu này nếu chưa phục vụ được ngay cho công nghệ Big Data thì cũng vẫn mang lại giá trị to lớn trong việc chia sẻ thông tin điều trị bệnh trong ngành y và đảm bảo mỗi người dân có một sổ y bạ điện tử đầy đủ phục vụ cho công tác khám chữa bệnh hiệu quả hơn.

Việc để các công ty nước ngoài dần chiếm lĩnh các các ứng dụng được hàng chục triệu người Việt Nam sử dụng, ví dụ Google cho tìm kiếm, Uber cho gọi taxi, Facebook cho mạng xã hội, tương lai có thể là AirBnB cho thuê chỗ ở, Amazon cho mua sắm v.v…. một mặt mang lại cho người dân trong nước được sử dụng các dịch vụ công nghệ hiệu quả, nhưng một mặt làm mất đi một lượng Big Data vô cùng quý giá vào tay các tập đoàn công nghệ nước ngoài, làm mất khả năng có nguồn dữ liệu để phát triển ứng dụng công nghệ này trong nước. Vì thế chính phủ phải chú trọng đầu tư phát triển, khuyến khích nâng đỡ các ứng dụng phát triển trong nước có thể tiềm năng thu hút hàng chục triệu người sử dụng, tạo ra các sản phẩm hấp dẫn người dùng trong nước để ngăn chặn mất nguồn Big Data sinh ra từ người sử dụng Việt Nam cho doanh nghiệp nước ngoài.

Xử lý dữ liệu lớn

Dữ liệu lớn nếu có thu thập được cũng chỉ như nhiên liệu để làm một một ăn. Để thực hiện nó cần có công cụ nấu (Cơ sở hạ tầng công nghệ), công thức nấu (Kỹ thuật xử lý dữ liệu) và người nấu (Chuyên gia, kỹ sư dữ liệu). Khi cơ sở hạ tầng xử lý dữ liệu lớn có thể mua được bằng tiền, được triển khai rộng rãi trên thế giới qua các dịch vụ tính toán và lưu trữ đám mây (cloud storage and computing) thì kỹ thuật và nhân lực xử lý dữ liệu lớn cần có sự đào tạo bài bản và cần những con người tin cậy.

Một kỹ sư về ngành dữ liệu lớn cần có kiến thức về cấu trúc dữ liệu về giải thuật tốt (để có thể tối ưu xử lý hệ thống dữ liệu lớn), có nền tảng về toán cơ bản,  toán xác xuất, thống kê tốt (để phân tích được lượng dữ liệu lớn), có hiểu biết tốt về các hệ thống phân tán (để triển khai hệ thống xử lý dữ liệu lớn trên hàng chục, hàng trăm servers). Vì thế sẽ không thể phát triển được ngành công nghệ Big Data nếu nền giáo dục còn đào tạo ra những kỹ sư tin học chỉ dùng mà không hiểu cấu trúc dữ liệu một chương trình, không biết phân tích, tính toán một lượng dữ liệu nhỏ hay không biết triển khai một ứng dụng chạy trên một server cho ổn định.

Những dự án nghiên cứu phát triển Big Data sẽ là vô nghĩa nếu không có sự chung tay từ ba phía: Doanh nghiệp ra đề bài hỗ trợ công nghệ; Viện, trường nghiên cứu, đào tạo nhân lực; Nhà nước hỗ trợ kinh phí. Đây là hình thức cơ bản mà các nước phát triển vẫn đang áp dụng rộng rãi và thành công.

Muốn có một lực lượng nhân lực đủ sức tham gia phát triển ứng dụng công nghệ Big Data, ngành giáo dục bậc đại học cần mạnh dạn thay đổi chương trình,  nâng cao chất lượng kỹ sư ngành công nghệ thông tin, rút ngắn thời gian đào tạo nhưng tập trung chuyên sâu hơn vào một vài hướng, thì trong vòng 2 đến 3 năm, chúng ta đã có thể đào tạo được những học sinh có nền tảng tư duy tốt thành những Kỹ sư dữ liệu (Data Engineer) thay vì một kỹ sư Tin học chung chung. Chúng ta sẵn sàng đào tạo ra những “gà nòi” là học sinh phổ thông thi quốc tế để đạt được những kết quả ngang ngửa thế giới, nhưng lại không dám có những chương trình đào tạo tập trung những kỹ sư chuyên ngành để đáp ứng tốt một số hướng công nghệ cốt lõi cho thị trường, để có những sinh viên tốt nghiệp Tin học một trường Đại học sau 4, 5 năm được đào tạo đủ từ toán, lý, hóa, kinh tế, chính trị v.v.. nhưng có thể không đáp ứng được yêu cầu tối thiểu của một công ty tin học trong nước.  

Bảo vệ dữ liệu nhỏ

Nguồn dữ liệu lớn chỉ có thể phát triển nếu người khai thác có khả năng bảo vệ an toàn nguồn dữ liệu đó. Người sử dụng sẽ không cung cấp dữ liệu, không sử dụng một dịch vụ nếu dữ liệu của họ có thể bị đánh cắp, bị vi phạm tính riêng tư, bị lạm dụng gây thiệt hại cho họ. Khi nguồn dữ liệu lớn là chìa khoá thành công cho các ứng dụng thì việc bảo vệ nó khỏi sự nhòm ngó bởi các đối thủ càng đặc biệt quan trọng với các doanh nghiệp.

Vì thế ngoài việc áp dụng các công nghệ bảo mật cho các hệ thống Big Data (sử dụng các giao thức bảo mật khi gửi dữ liệu, có hình thức backup khi mất dữ liệu do phá hoại hay tai nạn, dữ liệu phải lưu trữ dưới dạng mã hoá, nếu có thể thông tin của người dùng phải là không định danh...), thì cần có các hành lang pháp lý bảo vệ quyền riêng tư, xử lý các trường hợp đánh mất, đánh cắp, gây lộ dữ liệu ảnh hưởng đến người sử dụng hay doanh nghiệp. Mọi hành động thu thập dữ liệu của người dùng phải có điều khoản (Terms and conditions) và chấp thuận của cả hai bên.

Thay đổi cách triển khai

Trong quá khứ có khá nhiều đề án của chính phủ và của ban ngành thất bại gây lãng phí tiền của nhân dân, đất nước mà không mang lại thành công vì cách triển khai quan liêu, mang tính phong trào. Ví dụ như Dự án phổ cập tin học Nối mạng tri thức thanh niên Việt Nam với máy tính giá rẻ và công thông tin Thánh Gióng hay đề án 122 Tin học hóa hành chính nhà nước. Vì thế các đề án lớn liên quan đến công nghệ Big Data hay cách mạng công nghiệp lần thứ 4 hoàn toàn có thể đi theo vết xe đổ nếu không thay đổi cách thực hiện.

Những dự án nghiên cứu phát triển Big Data sẽ là vô nghĩa nếu không có sự chung tay từ ba phía: Doanh nghiệp ra đề bài hỗ trợ công nghệ; Viện, trường nghiên cứu, đào tạo nhân lực; Nhà nước hỗ trợ kinh phí. Đây là hình thức cơ bản mà các nước phát triển vẫn đang áp dụng rộng rãi và thành công.

Kinh phí đào tạo nhân lực cho Big Data sẽ vô nghĩa nếu mỗi cán bộ được cử đi nước ngoài học tập không được tham gia một đề tài cụ thể, không có các xuất bản, bài báo hay báo cáo rõ ràng, công khai để nhận được phản biện từ các chuyên gia, rơi vào trình trạng cưỡi ngựa xem hoa, đi đào tạo nước ngoài mà như đi du lịch.

Hãy coi mỗi doanh nghiệp, mỗi viện nghiên cứu, mỗi startup, mỗi cá nhân có giá trị đầu tư ngang nhau cho việc ứng dụng phát triển công nghệ Big Data nếu có tiềm năng. Mỗi dự án triển vọng đều đáng được xem xét, cân nhắc nếu mang lại giá trị thực tiễn. Việc cấp kinh phí đầu tư phát triển chỉ diễn ra sau mỗi thử nghiệm, báo cáo, phản biện, đánh giá giá trị thực tiễn của mỗi đề tài. Nên coi Big Data là mục tiêu dài hạn, ngắn hạn vẫn là hiện đại hoá, chuẩn hoá nhanh chóng việc ứng dụng Tin học vào trong các lĩnh vực đời sống. Các lĩnh vực như y tế, giao thông vận tải, giáo dục, xây dựng phát triển đô thị chỉ cần có một cơ sở hạ tầng quản lý dữ liệu ổn định, đầy đủ, thông suốt là đã mang lại hiệu quả lớn cho xã hội, chưa nói đến việc áp dụng công nghệ Big Data trên nền tảng đó. 

Có một bài học về sự sáng tạo của Amazon khiến tôi vẫn nhớ: Innovation không phải dựa trên dự đoán cái gì sẽ thay đổi trong tương lai mà dựa trên những gì sẽ không thay đổi cho tương lai. Chính vì dự đoán mỗi con người sẽ không thay đổi mong muốn mua được mặt hàng rẻ, có chất lượng, giao hàng nhanh trong vài thập kỷ mà Amazon liên tục có những sáng tạo và trở thành một đế chế bán hàng và công nghệ như hiện nay. Nên khi muốn ứng chạy theo trào lưu công nghệ dữ liệu lớn, liệu chúng ta đã kiên trì xử lý cho thật tử tế những dữ liệu nhỏ?

Theo Tia Sáng
http://tiasang.com.vn/-khoa-hoc-cong-nghe/Kien-tri-xu-ly-nhung-du-lieu-nho-10942