Khoa học phân tích dữ liệu - Phần 1: Tổng quan về khoa học dữ liệu  


Năm 2012, kể từ khi tạp chí Harvard Business Review danh giá cho đăng bài viết "Nhà khoa học dữ liệu: nghề hấp dẫn nhất thế kỷ 21" [1] , truyền thông và công chúng ngày càng biết nhiều hơn tới cụm từ Data Science.

Theo một dự báo của McKinsey, một trong tứ đại trong làng quản lý và tham vấn, nhu cầu tuyển dụng đang tăng nhanh một cách chóng mặt. Ước tính ở Mỹ có thể tới gần con số 1.8 triệu vị trí đang cần tìm người trong ngành này [2]. Ở Đông Nam Á, nhiều quốc gia cũng đang ráo riết phát triển nhiều chương trình thu hút nguồn nhân lực trình độ cao cùng với nhiều hoạt động xoay quanh khoa học dữ liệu. Điển hình như chính phủ Singapore đang thực hiện một chương trình nhằm kết nối những cộng đồng khoa học với một đề án nhằm xây dựng một thành phố thông minh hiện đại [3]. Ở Indonesia nhiều hoạt động sôi nổi cũng đang diễn ra xung quanh nhằm truyền lửa và giáo dục cộng đồng đưa khoa học dữ liệu phát huy trong đời sống [4]

 Hình 1. Chương trình học bổng quốc gia thông minh của chính phủ Singapore.

Tại Việt Nam, trên các website về tìm kiếm việc làm đã có những từ khoá như "data science" và "machine learning", đa phần đến từ các tập đoàn và start-up về công nghệ, kinh doanh bán lẻ, và nghiên cứu thị trường. Ngoài ra, còn phải kể đến những làn sóng mới của một lớp người Việt trẻ học tập, làm việc tại nước ngoài quay trở về Việt Nam cùng với những nhà đầu tư, doanh nhân chọn Việt Nam làm điểm đến khởi nghiệp. Tiêu biểu trong số đó phải kể đến một vài start-up như Misfit/ Fossil, Arimo, Gotit! hay Tenpoint7 chẳng hạn.

Thế khoa học dữ liệu là gì? Trong kỳ đầu tiên của chuỗi bài viết dài ba kỳ, Vietnam Journal of Science xin giới thiệu tới quý độc giả đôi nét về bức tranh toàn cảnh về lĩnh vực khoa học dữ liệu ở Việt Nam và thế giới.

Hiểu sao cho đúng về khoa học dữ liệu

Hiện nay, vẫn còn nhiều tranh cãi về định nghĩa chính thức của ngành khoa học dữ liệu.

 

Hình 2. Minh họa về khoa học dữ liệu từ blog của  Brenden Tierey. Nguồn

Nhìn vào ở một khía cạnh nào đó, ta có thể xem đây như một thể mới của một tập hợp gồm các ngành khác nhau trong sự vận động phát triển không ngừng của khoa học máy tính, mô phỏng, thống kê, phân tích và toán học. Trọng tâm của nó nằm ở việc áp dụng các phương pháp tự động hóa cho việc phân tích một lượng lớn dữ liệu và từ đó rút ra các kiến thức.

Điều này ta có thể quan sát ở hầu khắp nơi từ di truyền học đến vật lý cao năng lượng, khoa học dữ liệu giúp ta tìm ra những nhánh mới của khoa học, tạo ra sự ảnh hưởng sâu rộng đến toàn bộ nền khoa học tự nhiên, công nghệ kỹ thuật , cũng như khoa học xã hội và nhân văn.

Hầu như tất cả các ngành kinh tế hiện nay đều có thể truy cập vào trung tâm dữ liệu. Điều này hơn hẳn những gì bạn có thể tưởng tượng cách đây chỉ mười năm. Các doanh nghiệp hiện nay đang tích lũy những khối thông tin mới với một tốc độ vượt quá năng lực mà họ có thể rút chiết ra được giá trị. Vậy nên câu hỏi chính mà tất các các tổ chức đang đặt ra thu hút được sự quan tâm toàn bộ cộng đồng là làm thế nào để sử dụng được dữ liệu một cách hiệu quả, không chỉ là của riêng họ mà bao gồm mọi nguồn có liên quan. [5]

Trong những năm tới, xu hướng này dự kiến sẽ tăng mạnh với sự đang lên của những thiết bị thông minh và thế giới mạng thông tin. Còn với nghiên cứu khoa học, chúng ta sẽ thấy một số lượng lớn các ngành mới được sinh ra đi kèm với từ "tính toán"(computational) hoặc "định lượng" (quantitative) ở phía trước. Trong công nghiệp, khoa học dữ liệu sẽ thay đổi tất cả các lĩnh vực từ y tế đến phương tiện truyền thông. [6]

Mạng xã hội và dữ liệu người dùng

Hình 3. CEO của Facebook, Mark Zuckerberg thuyết trình tại hội nghị phát triển F8

Facebook, mạng xã hội lớn nhất hành tinh, một trong những cái tên được nhắc tới nhiều nhất trong giới trẻ hiện nay, là một trong những ứng dụng nổi tiếng của khoa học dữ liệu.

Tại hội nghị các nhà phát triển F8 đầu năm 2016, CEO Mark Zurkerberg cũng đã thông báo về một lộ trình mười năm tới. Trong đó, sẽ tạo ra một hệ sinh thái với những sản phẩm và công nghệ tiên tiến như trí tuệ nhân tạo (Artificial Intelligence). Tất cả đều dựa trên toàn bộ nguồn dữ liệu từ người dùng và các thuật toán máy học (Machine Learning Algorithms).

"Mỗi cú nhích chuột, mỗi cái like, mỗi bình luận và tất cả các kết nối đều được sử dụng để xây dựng một hồ sơ hoàn chỉnh cho mỗi người dùng."[7]

Đằng sau những trải nghiệm kết nối và tương tác giữa bạn bè và người thân, đó là sự vận hành của các thuật toán đánh giá người dùng được xây dựng bởi những kỹ sư hàng đầu thế giới.

Tính tới tháng 8 năm 2016, tổng số lượng người dùng trên trang này cán đến mốc 1,750,000 người,  gấp 5 lần dân số nước Mỹ, tương đương với 1/3 dân số thế giới và lớn hơn tổng số dân của châu Âu, châu Úc và Nam Mỹ cộng lại.

Và những nhà khoa học phân tích dữ liệu …

Theo thống kê của Glassdoor, một trong những trang web việc làm lớn nhất thế giới, ngành khoa học dữ liệu đứng đầu trong số 25 nghề nghiệp tốt nhất, đứng thứ 16 về mức lương với trung bình hơn $116,000 và có nhiều vị trí được tìm kiếm tuyển dụng nhất trong năm 2015 ở Hoa Kỳ [8]

Trong một nghiên cứu của O'Reilly, một trong những nhà phát hành chuyên về mảng công nghệ và khoa học máy tính, có 4 dạng nhà khoa học dữ liệu tiêu biểu. [9]

1. Doanh nhân  (Data Businesspeople)

Quan tâm vào sản phẩm và phát triển lợi nhuận, họ là các nhà lãnh đạo, nhà quản lý và doanh nhân có sự am hiểu về mặt kỹ thuật. Đa phần đều có nền tảng giáo dục xuất phát  bằng kỹ sư kết hợp với một MBA.

2. Nhà sáng tạo (Data Creatives)

Có nhiều biệt tài và kinh nghiệm với nhiều dạng dữ liệu và công cụ, những nhà sáng tạo thường ví von mình như là một nghệ sĩ hoặc tin tặc. Điểm nhấn thường thấy là sự xuất sắc sử dụng các công nghệ minh họa (Visualization Techonology) và mã nguồn mở.

3. Nhà phát triển (Data Developers)

Nhà phát triển dữ liệu thường tập trung vào việc viết phần mềm để làm phân tích, thống kê, và nhiệm vụ học máy, thường xuyên trong môi trường sản xuất. Họ thường có trình độ khoa học máy tính, và thường xuyên làm việc với cái gọi là "dữ liệu lớn" (Big Data).

4. Nhà nghiên cứu (Data Researchers)

Đó là những người áp dụng những kỹ năng được đào tạo trong khoa học cùng với các công cụ và kỹ thuật, số liệu. Một số có bằng tiến sĩ, và các ứng dụng sáng tạo các công cụ toán học mang lại những hiểu biết và sản phẩm có giá trị.

Hình 4. Minh họa về các dạng nhà khoa học dữ liệu theo O'Reilly. Qua đây bạn sẽ thấy được sự khác biệt giữa những dạng nhà khoa học dữ liệu một cách trực quan. Nguồn

Để trở thành một nhà khoa học dữ liệu, đòi hỏi ở bạn nhiều kỹ năng trên nhiều lĩnh vực khác nhau như toán và thống kê, lập trình với R, Python, Julia với các thuật toán máy học, và đặc biệt là khả năng truyền đạt thông tin và giao tiếp với những người không chuyên như kinh doanh, marketing chẳng hạn.

HÌnh 5. Tìm một nhà khoa học dữ liệu đã khó. Tìm một người hiểu về khoa học dữ liệu lại càng khó hơn. Trên đây là miêu tả đôi nét về một vài kỹ năng quan trọng của một nhà khoa học phân tích dữ liệu đích thực. Nguồn: Marketing Distillery

Bên cạnh đó, để thực sự tỏa sáng trong nghề nghiệp này bạn sẽ cần trang bị thêm một lượng kiến thức chuyên môn ở một lĩnh vực ứng dụng của khoa học dữ liệu như là kinh doanh, marketing, trải nghiệm người dùng.

Dù vậy, điều quan trọng nhất đổi với nhà khoa học phân tích dữ liệu là khả năng suy luận và trí tò mò như một nhà khoa học thực thụ. Điều này thể hiện qua khả năng phát hiện ra những điều thú vị có khả năng đưa lại được giá trị sử dụng và kinh tế cùng với việc ứng dụng những mô hình máy học vào trong tập dữ liệu.

Ngoài ra, những nhà khoa học dữ liệu cũng có thể coi những nghệ sĩ với khả năng giao tiếp và thuyết trình xuất sắc. Ví dụ như truyền đạt được những vấn đề kỹ thuật phức tạp thành đơn giản, dễ hiểu tới những người làm ở những bộ phận khác như truyền thông và kinh doanh hay việc kết nối ý tưởng để tạo ra những minh họa tuyệt đẹp.

Để phát triển và theo kịp với thế giới, các nhà khoa học dữ liệu luôn phải tự tìm trau dồi và bổ sung kiến thức thường xuyên, đặc biệt trong xu thế phát triển hiện nay. Quả thật, có khá nhiều thách thức cho những ai muốn tham gia chinh phục con đường đầy gian nan này.

Thành phố Hồ Chí Minh, 11/2016

Tác giả: Phượng Nguyễn, hiện đang công tác và nghiên cứu về trí tuệ nhân tạo tại Việt Nam.

Thạc sĩ ngành toán- tin học tại trường Đại học Bắc Paris, CH Pháp,

Biên tập viên Vietnam Journal of Science.

Email: phuongng@vjsonline.org

Nguồn tham khảo

1.Thomas H Davenport, D J Patil. Harvard data scientist the sexiest job of the 21st century 2012, (2012). https://www.tias.edu/docs/default-source/Kennisartikelen/harvard_data-scientist-the-sexiest-job-of-the-21st-century_2012.pdf?sfvrsn=0. Accessed November 3, 2016.

2.McKinsey. Game changers: Five opportunities for US growth and renewal. http://www.mckinsey.com/global-themes/americas/us-game-changers. Accessed November 3, 2016.

3.Smart nation fellowship. https://fellowships.data.gov.sg/. Accessed November 3, 2016.

4.Data science Indonesia. http://datascience.or.id/. Accessed November 3, 2016.

5.What is data science - data science at NYU. http://datascience.nyu.edu/what-is-data-science/. Accessed November 3, 2016.

6.Berkeley U. What is data science? https://datascience.berkeley.edu/about/what-is-data-science/. Accessed November 3, 2016.

7.Solon O. How Facebook plans to take over the world. The Guardian. April 27, 2016. https://www.theguardian.com/technology/2016/apr/23/facebook-global-takeover-f8-conference-messenger-chatbots. Accessed November 3, 2016.

8.Strata O. There’s more than One kind of data scientist. http://radar.oreilly.com/2013/06/theres-more-than-one-kind-of-data-scientist.html. Accessed November 3, 2016.

9.Bengio Y. Deep learning of representations: Looking forward. In: Statistical Language and Speech Processing. Springer Nature; 2013:1–37. https://arxiv.org/pdf/1305.0445v2.pdf. Accessed November 7, 2016.