Khoa học phân tích dữ liệu - Phần 3: Làm thế nào để trở thành nhà khoa học phân tích dữ liệu?  


Trong kỳ này, VJS xin gửi tới các bạn độc giả đôi nét về những chia sẻ về khoa học phân tích dữ liệu từ góc nhìn ở Việt Nam và thế giới. Hy vọng rằng điều này sẽ giúp cho các bạn có cái nhìn sâu sát hơn và cùng chung tay phát triển cộng đồng khoa học dữ liệu ở Việt Nam.

Khoa học dữ liệu (Data Science) không phải là một ngành quá mới mẻ...

Theo lời TS. Lê Chí Ngọc, giảng viên Viện Toán ứng dụng và Tin học, ĐHBK-ĐHGQHN, các nghiên cứu đã được bắt đầu từ cách đây 12-13 năm ở Việt Nam. Hiện nay, nhà trường cũng đang giảng dạy các môn như khai phá dữ liệu (data mining), kho dữ liệu (data warehouse), kinh doanh thông minh (business intelligence). Ngoài ra, còn phải kể đến một số trường như ĐH Công Nghệ, ĐH KHTN, ĐH Sư phạm (Hà Nội) tuy muộn hơn nhưng cũng đã từng bước đưa vào chương trình giảng dạy, hướng dẫn và đào tạo sinh viên, đồng thời cũng nghiên cứu và công bố các công trình liên quan tới lĩnh vực này. Và để kể đến, tiêu biểu như nhóm nghiên cứu của TS. Lê Hoàng Sơn (ĐH KHTN - ĐHQG HN) đang làm về phân cụm, phân nhóm, hay ở Viện toán ứng dụng và tin học, Viện thông tin và truyền thông (ĐHBK HN) cũng đang nghiên cứu về dữ liệu lớn (big data). Về các đơn vị bên ngoài, đặc biệt là các ngành như viễn thông, y tế, giáo dục, cũng có các nhóm nghiên cứu riêng như trung tâm truyền hình VTV cab, tập đoàn giáo dục Topica, tập đoàn Equest Academy hay là trung tâm CNTT của bộ Y tế.

Cũng vừa qua trong tháng 6/2016, viện John Von Neumann lần đầu tiên tổ chức một cuộc thi về khoa học dữ liệu có tên gọi là Entropy gồm hai bảng tranh tài trong ba vòng. Sơ loại cuộc thi bao gồm phần trắc nghiệm trực tuyến với các kiến thức cơ bản về toán và thống kê, khoa học máy tính và lập trình. Vòng bán kết thi bao gồm phần thi trên máy và trên giấy. Vòng chung kết các thí sinh thuyết trình trước hội đồng ban giám khảo gồm các giáo sư và chuyên gia ở Việt Nam và nước ngoài. Ngoài ra, cuộc thi còn được sự cố vấn của các giáo sư có tên tuổi như GS. Ngô Bảo Châu (ĐH Chicago), GS. Vũ Hà Văn (ĐH Yale). Đây sẽ là cuộc thi hằng năm đầu tiên về khoa học dữ liệu ở Việt Nam với mong muốn tạo ra một sân chơi cho cộng đồng Khoa học dữ liệu, nhằm thúc đẩy và nâng cao nhận thức về lĩnh vực này hơn ở Việt Nam. Một trong những kỳ vọng sắp tới từ Ban Tổ Chức là sẽ nâng tầm cuộc thi lên khu vực Đông Nam Á để cuộc thi được biết đến nhiều hơn và nâng cao chất lượng thí sinh tham gia.

Việt Nam và những khó khăn ...

Thật sự còn rất nhiều khó khăn để các nghiên cứu và phát triển ngành khoa học dữ liệu nói riêng và rộng ra cho nhiều ngành khác nữa ở nước ta. Để nhìn ra, vẫn thấy thiếu sự liên kết theo chiều rộng giữa các nhóm nghiên cứu. Đa phần chỉ mới dừng chân ở những sự quen biết giữa những cá nhân, nên vẫn chưa tạo được một cộng đồng nghiên cứu mạnh. Mặt khác,  phía doanh nghiệp vẫn chưa thật sự chú trọng vào đầu tư vào R&D, thay vào đó lại tiếp tục sử dụng những thứ có sẵn hoặc sao chép lại những sản phẩm khác. Còn đó một khoảng cách giữa những người làm nghiên cứu và thực hành, việc này đòi hỏi xây dựng một đội ngũ trẻ, giỏi công nghệ và có tiếng nói, nên việc triển khai cần thêm nhiều thời gian.

Bên cạnh đó, còn nhiều hạn chế ở nhận thức và tầm nhìn xứng đáng cho khoa học dữ liệu, dẫn tới sự đầu tư không tương xứng với tiềm năng phát triển. Điều này thể hiện qua việc thiếu chú trọng cho phát triển nhân lực trình độ cao, đầu tư cho các hạng mục cơ sở vật chất còn nghèo nàn như thiếu tài nguyên tính toán, chỉ có một cộng đồng nhỏ khoa học dữ liệu tại Việt Nam. Để phục vụ cho sự phát triển của khoa học dữ liệu, cần có một tầm nhìn với sự đâu tư lâu dài. Thường thì luôn có một nhóm và nhận được sự hỗ trợ lớn từ các công ty.

Chia sẻ với độc giả VJS, TS. Ân Mai từ trung tâm xuất sắc John Von Neumann - ĐHQG-HCM nhấn mạnh về tiềm năng của phân tích khoa học dữ liệu trong thời gian tới. Cách đây 10-20 năm, khi CNTT bùng nổ, nước ta đã bỏ lỡ mất thời cơ, trong khi đó, một vài nước như Ấn Độ và Singapore lại tận dụng tốt cơ hội này và đạt được sự phát triển thần kỳ. Ở Hoa Kỳ, uớc tính đến năm 2018 sẽ cần đến hơn một triệu nhân sự trình độ cao cho các ngành công nghiệp. Dù vậy, khả năng đáp ứng của thị trường lại hạn chế, nên các nhà khoa học dữ liệu nhận được rất nhiều lời mời gọi. Vô tình điều này dẫn tới một sự cạnh tranh khá gay gắt giữa các công ty và start-up để giữ lại nhân tài dù đã đưa ra mức lương cùng chế độ khá hậu hĩnh. Xu hướng outsource các dự án lại quay trở về châu Á nơi có nguồn nhân công dồi dào và chất lượng không thua kém gì thị trường ở bản địa. Chính vì vậy, đây là một thời vận rất tốt để nước ta nâng tầm mình lên. Anh cũng bày tỏ thêm về sự tin tưởng rằng Việt Nam có đầy đủ khả năng đi đầu trong Đông Nam Á trong khoa học dữ liệu. Tuy nhiên, để đạt được điều đó chúng ta cần có sự chuẩn bị kỹ càng và chu đáo để phát huy hết tiềm lực. 

Những tín hiệu mới...

Gần đây đã có một vài tín hiệu đáng mừng khi một vài startup ở Mỹ có trụ sở ở Việt Nam như Misfit-Fossil, Arimo đã thu hút được một nguồn nhân lực chất lượng tốt từ nước ngoài quay trở về. Bên cạnh đó, những tập đoàn như Viettel, VNG, FPT cũng đã có nhiều đầu tư hơn cho ngành khoa học dữ liệu.

Ngày càng có nhiều doanh nghiệp quan tâm hơn tới ngành khoa học dữ liệu và họ sẵn sàng đổ tiền cho việc nghiên cứu và phát triển. Bên cạnh đó, cũng phải nhắc tới trào lưu các nhà khoa học và khởi nghiệp gia người Việt công tác và làm việc ở nước ngoài đang quay lại Việt Nam để cùng hợp tác phát triển như GS. Hồ Tú Bảo, Viện khoa học và công nghệ tiên tiến Nhật Bản (JAIST) hay TS. Trần Việt Hùng với start-up Gotit!

Hiện tại anh Ân Mai, đang nghiên cứu và giảng dạy tại trung tâm xuất sắc John Von Neumann thuộc ĐHQG-HCM với các môn thống kê và xác suất cũng như hướng dẫn thực hành các dự án ứng dụng của khoa học dữ liệu. Đồng thời, anh còn là một nhà khoa học dữ liệu, đang làm việc trực tiếp tại một start-up ở mảng kinh doanh thông minh, với các đối tác đến từ Hoa Kỳ tại thành phố Seattle (Bang Washington), một trong những thủ phủ công nghệ hàng đầu với những tập đoàn lừng danh trên thế giới như Microsoft hay Amazon.

Anh Ân và các cộng sự cũng đang ấp ủ một dự án cộng đồng nhằm hỗ trợ cho cộng đồng khoa học dữ liệu địa phương. Trong đó, sẽ nhấn mạnh đến kỹ năng thực hành và tính đặc thù của môi trường Việt Nam. Dự kiến chương trình sẽ kéo dài trong vòng 3 tháng và đối tượng chính được nhắm tới là những người muốn chuyển tiếp vào ngành khoa học dữ liệu, chẳng hạn như kỹ sư phần mềm. Hiện tại, dự án đang trong quá trình thu thập ý kiến từ phía doanh nghiệp và học viên tiềm năng để phát triển nội dung chương trình sao cho phù hợp với nhu cầu thực tế từ thị trường. Chương trình này nhận được sự hỗ trợ và cố vấn từ viện JVN thuộc ĐHQG-HCM.

Hy vọng sự phát triển của các start-up công nghệ sẽ mang lại một làn gió mới cho cộng đồng chung hiện nay. Thường thì các giám đốc công nghệ (CTO) đa số là những người được đào tạo rất bài bản từ các nước phát triển, có thời gian học tập và làm việc tại nước ngoài nên sẽ chú trọng hơn tới phần nghiên cứu và phát triển. Tuy nhiên, chúng ta sẽ phải chờ đến 2-3 năm mới thấy được nhiều sự thay đổi.

Để điều đó xảy ra sớm sẽ cần thêm nhiều nỗ lực từ cả các trường đại học lẫn doanh nghiệp. Phía nghiên cứu cần có người đứng ra tổ chức, chủ trì các buổi chuyên đề, hội thảo liên ngành để chia sẻ kinh nghiệm và hiểu biết về các chủ đề đang làm. Bên cạnh đó, cũng nên tạo điều kiện thuận lợi cho các nhà nghiên cứu trẻ. Mối quan hệ giữa nhà trường và doanh nghiệp cũng cần phải có thêm sự xúc tiến để hai bên hiểu rõ nhau hơn về những nhu cầu và khả năng, nhằm định hướng tốt cho đào tạo nguồn nhân lực có đủ trình độ và năng lực.

Dành cho các bạn trẻ quan tâm tới Data Science

Lời khuyên dành cho các bạn trẻ có ý muốn quan tâm lĩnh vực này là hãy tự mở rộng cơ hội. Chủ động nộp đơn vào những công ty đang tuyển những người trong lĩnh vực này. Cần có vốn tiếng Anh tốt vì phải đọc hiểu nhiều tài liệu và việc giao tiếp với các chuyên gia đều bằng tiếng Anh. Bổ túc thêm kỹ năng mềm như kỹ năng làm việc nhóm để thích ứng nhanh với môi trường doanh nghiệp. Hãy nỗ lực và cố gắng học tập thông qua tất cả các kênh tri thức hiện nay như các buổi nói chuyện chuyên đề, các buổi giới thiệu ở các trường đại học và chung tay cùng xây dựng một cộng đồng khoa học dữ liệu vững mạnh.

Chị Nguyễn Kim Quy, hiện đang là nhà khoa học dữ liệu tại Singapore có chia sẻ riêng với trang VJS về việc tự học và tìm hiểu về khoa học dữ liệu. Phải tìm hiểu trong ngành này mang giá trị gì. Nếu trong trường không dạy, hãy tự  tìm sách, khóa học, forum, diễn đàn trên mạng internet. Liên tục tìm tòi, cập nhật thông tin, đọc hiểu để giữ nhịp với cộng đồng thế giới.  Thực hành bắt tay vào làm để lấy kinh nghiệm thực dùng. Có thể tìm cơ hội trong các công ty có các bộ phận nghiên cứu hay ứng dụng liên quan tới Data Science. Ngoài ra, bạn có thể tìm hiểu tham gia các cuộc thi online với những dữ liệu đã được định dạng sẵn và kích thước lớn nhỏ khác nhau. Một phần,chúng ta có thể trau dồi thêm kinh nghiệm từ cộng đồng, một phần khác, chúng ta lấy thêm động lực để học hỏi thêm trong lĩnh vực này.

Riêng đối với các bạn sinh viên đang ngồi trên giảng đường đại học. Trước khi học thực hành hãy nắm vững lý thuyết và trau dồi thêm những khóa học tiêu biểu như về toán, xác suất thống kê (Đại học MIT), Machine Learning của giáo sư Andrew Ng. đến từ trường đại học Stanford. Ở đó, bạn có thể học được về các định nghĩa cơ bản, các bài tập đơn giản, biết thêm về học máy (machine learning), các thuật toán và cơ sở dữ liệu vốn là những nền tảng căn bản của khoa học dữ liệu qua các trang như Coursera, Quora chẳng hạn. Ngoài ra, hãy luôn tranh thủ luyện tập kỹ năng lập trình. Bạn có thể tìm đến như www.hackerrank.com để nâng cao kỹ năng và trau dồi hiểu biết về thuật toán chẳng hạn.

Để khắc phục những khó khăn trong thời gian đọc hiểu tài liệu tiếng Anh,  nên học tranh thủ học thêm để trau dồi thêm vốn từ vựng và nâng cao khả năng Anh Ngữ. Cân bằng giữa khả năng thực hành và lý thuyết. Thực hành chủ yếu dựa trên kinh nghiệm, trong khi đó lý thuyết lại cần nhiều khả năng phân tích. Đôi khi bạn quá chú trọng thực hành phần này dễ dẫn tới việc quên đi mất những lý thuyết của phần khác.

KẾT

Tiềm năng của Khoa học dữ liệu là rất to lớn và cơ hội rất rộng mở cho các bạn trẻ theo đuổi. Tuy nhiên, với sự phát triển của CNTT hiện nay thì việc thu thập một lượng dữ liệu lớn không còn là khó nữa. Vấn đề được đặt ra  là ta nên làm gì với lượng thông tin  được trích xuất từ dữ liệu để phát triển ra nhiều thứ có ích hơn thế nữa. Trên khía cạnh nào đó, cho dù bạn hoàn toàn không phải là người nghiên cứu trong lĩnh vực Khoa học dữ liệu, như kinh doanh chẳng hạn, cũng nên quan tâm đến lĩnh vực này, tìm hiểu về thế mạnh của nó để mang lại nhiều lợi ích hơn phục vụ cho công việc bạn đang làm.

Như TS. Ân Mai có chia sẻ "khoa học dữ liệu là một ngành rất hấp dẫn, nhưng cũng rất thực dụng. Ngành này đang phát triển rất nhanh nên không quá dễ nếu muốn đi chuyên sâu, cần có sự chuẩn bị về kiến thức, thái độ cùng với sự đam mê để bắt kịp với công nghệ. Hãy học hỏi từ mọi nơi, mọi người để phát triển kỹ năng và ý tưởng." 

Chúc các bạn thành công!

 

Thành phố Hồ Chí Minh, tháng 6/2016

Tác giả: Phượng Nguyễn

Biên tập viên Vietnam Journal of Science

 Thạc sĩ ngành toán- tin học tại trường Đại học Bắc Paris, CH Pháp, hiện đang công tác và nghiên cứu về trí tuệ nhân tạo tại Việt Nam.

Email: phuongng@vjsonline.org