|
|||||||
Khoa học dữ liệu: Nghề quyến rũ nhất thế kỷ 21Đăng lúc: Thứ ba - 12/01/2021 20:01 - Người đăng bài viết: admin
Đã gần 10 năm kể từ khi bài báo “Nhà khoa học dữ liệu, nghề quyến rũ nhất thế kỷ” trên tạp chí Harvard Business Review* ra đời, dự báo này vẫn đúng. Vị trí “data scientist” vẫn là một vị trí mà nhiều doanh nghiệp tìm kiếm và là kỳ vọng của nhiều người ứng tuyển, trên cả thế giới và Việt Nam.
Xu hướng thứ nhất: tập trung vào dữ liệu thay vì thuật toán
Nhiệm vụ chính của một nhà khoa học dữ liệu là khai thác ra giá trị từ dữ liệu và một sản phẩm AI thường được mô tả nổi bật bởi những tính năng thông minh ví dụ như nhận dạng giọng nói và trả lời từ động. Thực tế ngày nay các công cụ mô hình hóa đã được hỗ trợ rất nhiều bởi các nền tảng, việc có được dữ liệu trở nên khó gấp 10 lần việc khai thác dữ liệu. Như vậy các nhà khoa học dữ liệu chỉ tham gia vào một phân đoạn nhỏ (số 4) trong cả một quá trình dài từ xây dựng mô hình kinh doanh, marketing, thiết kế phần mềm, chuẩn bị dữ liệu, khai thác dữ liệu, và triển khai và chỉ chiếm chưa quá 5% tổng số nhân sự của dự án.
Xu hướng thứ hai: bình dân hóa Khoa học dữ liệu
Sau một thời gian nổi lên như những mô hình kỳ diệu và phức tạp thì các mô hình khoa học dữ liệu đã được tìm hiểu nhiều hơn, đơn giản hóa và đặc biệt là được hỗ trở bởi các công cụ kéo thả đặc biệt dễ dàng từ các hãng lớn. Ngày nay hầu như ai sau một vài giờ đào tạo cũng có thể kéo dữ liệu từ hệ thống Dữ liệu thông minh (Business Intelligence)/ kho dữ liệu (Datawarehouse)/ cơ sở dữ liệu (Database) hay các file dữ liệu trên máy hoặc trên đám mây vào công cụ Machine Learning (là các mô hình khoa học dữ liệu) với giao diện thân thiện. Như vậy một chuyên viên marketing cũng có thể dự báo xác suất mua hàng của từng khách hàng với mô hình cây quyết định, mạng nơron, hay một chuyên viên tín dụng dễ dàng chấm điểm tín dụng cho mỗi khách hàng với mô hình XGB (“Extreme Gradient Boosting”) hay SVM (“Support Vector Machine”). Và như thế là rất nhiều công việc có thể do các chuyên viên hay kỹ sư khác mà không cần nhà khoa học dữ liệu như trước nữa, nhu cầu tuyển dụng nhà khoa học dữ liệu có thể giảm đi nhưng nhu cầu đào tạo khoa học dữ liệu thì không giảm đi thậm chí còn tăng mạnh (đào tạo cho mọi ngành). Xu hướng thứ ba: Chuyển dịch sang các mô hình không giám sát
Các mô hình giám sát bao gồm các bản ghi dữ liệu gắn kèm với một nhãn (“label”) mô tả tính chất. Ví dụ như với bộ dữ liệu gồm một triệu bức ảnh khuôn mặt, mỗi bức ảnh được đánh dấu/ghi lại trạng thái (vui, buồn, giận dữ, lo lắng, …) của khuôn mặt trên đó thì ta có thể dễ dàng tạo ra được một mô hình nhận dạng trạng thái khuôn mặt. Việc khó khăn nhất sẽ là có được một triệu bức ảnh và dán nhãn cho chúng, khó hơn nhiều so với việc xây dựng mô hình nhận dạng. Do vậy vai trò của kỹ sư phần mềm quan trọng hơn nhà khoa học dữ liệu. Các mô hình không giám sát ngược lại có thể áp dụng cho dữ liệu không dán nhãn, tức là không được phân loại hay chấm điểm sẵn. Ở đây doanh nghiệp có sẵn các bộ dữ liệu thô chưa có sự đánh giá và phân loại, thì các nhà khoa học dữ liệu có thể vận dụng được sự sáng tạo của mình để đưa ra các đặc tính chưa được hình dung trước, thậm chí tạo ra một mô hình kinh doanh mới. Các nhà khoa học dữ liệu sẽ cần nhiều kiến thức về toán và thống kê (cả mô tả và suy diễn), cụ thể là các phân phối xác suất, xác suất Bayes, ước lượng và kiểm định, đại số tuyến tính, phương pháp phân tích thành phần chính (“Principle Components Analysis” – PCA) hay phân tích giá trị đặc biệt (“Singular Value Decomposition” – SVD), các mô hình “Gaussian Mixture Model” hay “k-mean clustering”,…
Xu hướng thứ tư: sử dụng ™hộp đen∫ Deep Learning cho tất cả mọi thứ
Cũng là chuyển dịch mô hình, các nhà khoa học dữ liệu cũng đang đối diện với một xu hướng khác ở hướng ngược lại, đó là sử dụng “Deep Learning” (học sâu) cho mọi bài toán. Nguyên nhân là chúng hiệu quả, độ chính xác cao và dễ dàng triển khai hơn nhiều các mô hình Machine Learning (học máy) cổ điển. Đặc biệt học sâu phù hợp cho các dữ liệu phi cấu trúc là hình ảnh, âm thanh, giọng nói, và khối lượng dữ liệu lớn. Nhưng cũng chính xu hướng học sâu hóa này đang tạo ra một số vấn đề khá lớn trong AI hiện nay, đó là chúng hoạt động giống như một “hộp đen”.
Xu hướng thứ năm: chuyên sâu về một dạng dữ liệu
Các nhà khoa học dữ liệu sẽ có một lợi thế lớn nếu hiểu rõ dữ liệu đặc thù ngành, ví dụ như tài chính, xã hội học, địa chất, thương mại hoặc đặc thù nguồn như dữ liệu vệ tinh, dữ liệu ảnh y tế/nông sản, dữ liệu âm thanh thoại, tiếng Việt,… Khi đó bạn có thể khá yên tâm với công việc mang nhiều tính khoa học này. Xu hướng này cũng có nghĩa là nghề khoa học dữ liệu sẽ rộng mở với nhiều ngành nghề khác nhau. Học tốt và hiểu rõ một ngành sau đó học thêm về khoa học dữ liệu và học sâu là một lựa chọn không tồi. Và một lưu ý cuối cùng là “hãy học tốt môn Toán” và sẵn sàng cho việc (học) lập trình rất nhiều. ----- Tham khảo: * https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century 2 https://www.mckinsey.com/business-functions/mckinsey-analytics/our-insights/the-age-of-analytics-competing-in-a-data-driven-world 3 https://moit.gov.vn/web/guest/tin-chi-tiet/-/chi-tiet/topdev-nam-2019-viet-nam-thieu-hut-toi-90-000-nhan-luc-cntt-16444-402.html Xu hướng số 2 và một phần của số 3 được tham khảo chủ yếu trong thảo luận sau: https://www.quora.com/What-is-the-brutal-truth-about-data-scientists
Tác giả bài viết: Nguyễn Quang
Từ khóa:
Những tin mới hơn
Những tin cũ hơn
|
Thống kê truy cập Website
|
||||||
Ý kiến bạn đọc