Đưa hội nghị hạng A tới Việt Nam
- Thứ sáu - 12/06/2015 16:47
- |In ra
- |Đóng cửa sổ này
BTC hội nghị trao giải bài báo xuất sắc nhất
PAKDD 2015 cho nhóm tác giả trường đại học
Deakin, Australia.
Sự phát triển của lĩnh vực Khai phá dữ liệu
Phát hiện tri thức và Khai phá dữ liệu (viết tắt là KDD trong tiếng Anh, có gốc là từ Knowkedge Discovery in Databases) là một lĩnh vực của công nghệ thông tin (CNTT), còn được gọi ngắn gọn là Khai phá dữ liệu (data mining). Khai phá dữ liệu phân tích các tập dữ liệu lớn và phức tạp để phát hiện và tìm ra các tri thức mới và quý ẩn chứa trong dữ liệu, dưới dạng các mẫu dạng (pattern) hay mô hình (model). Do quanh ta ngày càng nhiều dữ liệu và nhu cầu phân tích để hiểu và dùng chúng ngày càng tăng, Khai phá dữ liệu đã phát triển rất nhanh và sôi động trong giới nghiên cứu và công nghiệp suốt hai mươi năm qua. Khi Dữ liệu Lớn (big data) được nhận ra trong những năm gần đây như một thách thức công nghệ và một động lực của sự phát triển1, các kỹ thuật Khai phá dữ liệu càng được quan tâm vì chúng đóng vai trò trung tâm trong phân tích dữ liệu lớn.
Đánh dấu sự ra đời của ngành Khai phá dữ liệu là hội nghị quốc tế KDD lần đầu tiên được tổ chức vào tháng Tám năm 1995 tại Montreal, Canada. KDD 1995 được tổ chức bởi Hiệp hội Máy tính ACM (Association for Computing Machinary), là tổ chức nghề nghiệp về khoa học và công nghệ máy tính có hơn 100 nghìn hội viên trên toàn thế giớivớitrụ sở chính tại thành phố New York. Trong 15 năm đầu, KDD chỉ tổ chứcở Bắc Mỹ (vào tháng 8, ba lần ở Mỹ tiếp theo một lần ở Canada), và gần đây thỉnh thoảng ra ngoài khu vực này (KDD 2009 tại Paris, KDD 2012 tại Bắc Kinh, KDD 2015 tại Sydney). Hai năm sau, KDD 1995, hai hội nghị quốc tế khác về Khai phá dữ liệu đã ra đời: PKDD do cộng đồng nghiên cứu tại châu Âu (tổ chức vào tháng 9 hằng năm) và PAKDD do cộng đồng nghiên cứu tại châu Á và châu Úc (tổ chức vào tháng 5 hằng năm). Năm 2000, IEEE (Hiệp hội quốc tế về Kỹ nghệ Điện và Điện tử) tổ chức hội nghị ICDM (International Conference on Data Mining) về Khai phá dữ liệu (vào tháng 12 hằng năm). Năm 2001, SIAM (Hội toán học ứng dụng và toán cho công nghiệp) tổ chức hằng năm vào đầu tháng 4 hội nghị SDM (SIAM International Conference on Data Mining) về Khai phá dữ liệu. Từ đó có thêm một số hội nghị quốc tế khác về ngành này, nhưng có thể nói hiện nay KDD, PKDD, PAKDD, ICDM và SDM là năm hội nghị quốc tế có uy tín trên thế giới về Khai phá dữ liệu.
Đánh giá phân loại các hội nghị trong một ngành khoa học là việc có phần khó so với đánh giá các tạp chí của ngành. Hiệp hội nghiên cứu và giáo dục về khoa học máy tính của Úc (http://www.core.edu.au/index.php/conference-rankings) đánh giá xếp hạng 1703 hội nghị quốc tế ngành CNTT theo 5 nhóm: A* (ngoại lệ, exceptional, chiếm 3.7%), A (xuất sắc, excellent, 19.1%), B (tốt, good, 26.1%), C (thoả mãn các chuẩn tối thiểu, chiếm 50.7%), và chưa xếp hạng (unrank, 0.5%). Rất nhiều hội nghị về CNTT không có trong danh sách xếp hạng của CORE, chủ yếu là các hội nghị quốc tế luôn tổ chức ở một nước, người tổ chức và tham gia hội nghị hầu hết ở nước này. Theo xếp hạng của CORE năm 2014, KDD và ICDM có hạng A*, và PKDD, PAKDD, SDM có hạng A.
Khai phá dữ liệu rất gần với hai lĩnh vực Học máy (machine learning) và Thống kê toán học (Statistics) ở mục tiêu cùng phân tích các tập dữ liệu, tuy điểm xuất phát, bài toán, và phương pháp ít nhiều khác nhau. Các phương pháp Khai phá dữ liệu và Học máy đều ngày càng dựa nhiều hơn vào Thống kê toán học, ngành khoa học phát triển lâu năm với nền tảng vững chắc. Cũng vì vậy, từ 2001 hai hội nghị PKDD và ECML (Hội nghị châu Âu về Học máy, vốn có từ 1989) đã hợp nhất với nhau thành ECML - PKDD.
Để giữ chất lượng cao, PAKDD lâu nay đã quy ước các bài báo nộp không đề tên tác giả, mỗi bài được ba thành viên Ban chương trình đọc và đánh giá độc lập, và một thành viên chủ chốt chịu trách nhiệm cùng ba thành viên đánh giá thảo luận để đưa ra quyết định chọn hay không chọn. PAKDD cũng quy định các trưởng Ban Chương trình không được nộp bài cho hội nghị. |
Hội nghị PAKDD được tổ chức lần đầu tại Singapore vào năm 1997 và tiếp theo đượctổ chức hằng năm tại các nước khác nhau (Singapore, Melbourne, Bắc Kinh, Kyoto, Hong Kong, Taipei, Seoul...). Ban Điều hành của PAKDD gồm các nhà nghiên cứu uy tín từ nhiều nước về khai phá dữ liệu đã cùng bàn bạc, đưa ra các chính sách và quy định để vận hành hoạt động này. Nước nào muốn tổ chức một PAKDD, cần đăng ký và có đại diện đến trình bày đề nghị và kế hoạch chuẩn bị trong cuộc họp của Ban Điều hành từ hai năm trước. Một trong các tiêu chuẩn để xét duyệt đề nghị là sự tham gia tổ chức của những người có kinh nghiệm hoạt động từ nhiều nước khác nhau. Sau khi được xét chọn, nhóm đăng ký cần đến trình bày kết quả chuẩn bị ở hội nghị một năm trước khi mình tổ chức.
Dấu ấn PAKDD 2015
So với nhiều ngành khoa học khác, CNTT có "văn hoá ngành" riêng về các hội nghị khoa học: Bài gửi hội nghị được đánh giá kỹ và tuyển chọn, in trong tuyển tập trước hội nghị2. Với PAKDD 2015, các bài báo nộp để tuyển chọn từ đầu tháng 12 năm 2014. Để giữ chất lượng cao, PAKDD lâu nay đã quy ước các bài báo nộp không đề tên tác giả, mỗi bài được ba thành viên Ban chương trình đọc và đánh giá độc lập, và một thành viên chủ chốt chịu trách nhiệm cùng ba thành viên đánh giá thảo luận để đưa ra quyết định chọn hay không chọn. PAKDD cũng quy định các trưởng Ban Chương trình không được nộp bài cho hội nghị.
Năm nay, PAKDD 2015 có 405 bài gửi tham gia và chọn 117 bài, với tỷ lệ 28.9%. Các bài này được xuất bản bởi Springer trong hai tập sách hơn 1.000 trang. Cùng với các bài được chọn trình bày ở hội nghị chính, PAKDD 2015 còn tổ chức sáu hội thảo (workshop) trong đó có hội thảo VLSP về Xử lý tiếng nói và văn bản tiếng Việt, ba bài giảng chuyên đề (tutorial) về các vấn đề mới của Khai phá dữ liệu, và một cuộc thi quốc tế (Contest) về phân tích dự đoán từ một tập dữ liệu phức tạp do công ty FPT cung cấp. Đặc biệt, PAKDD 2015 đã mời được ba nhà khoa học xuất sắc trình bày các báo ở phiên toàn thể (keynote): giáo sư Thorsten Joachim (Đại học Cornell), giáo sư Masashi Sugiyama (Đại học Tokyo) và giáo sư Nguyễn Xuân Long (Đại học Michigan).
PAKDD 2015 không thể tiến hành nếu không có sự chuẩn bị công phu nhiều tháng trời của nhiều thầy cô giáo và sinh viên của Viện John von Neumann (JVN), Đại học Bách khoa và Đại học Khoa học tự nhiên thuộc Đại học Quốc gia thành phố Hồ Chí Minh. PAKDD 2015 còn có sự góp sức quý báu của nhiều nhà khoa học người Việt ở nước ngoài: Giáo sư Nguyễn Hùng Sơn ở Đại học Warsaw (Poland) lo việc tổ chức thi phân tích dữ liệu (với 320 người dự thi và 2800 lượt gửi bài); giáo sư Phùng Quốc Định ở Đại học Deakin (Australia) lo việc mời chuyên gia và tổ chức các bài giảng chuyên đề; giáo sư Nguyễn Xuân Long ở đại học Michigan trình bày rất hấp dẫn một kết quả nghiên cứu xuất sắc (bài báo nhận giải nhất “best paper award” tại hội nghị hàng đầu ICML - A* theo CORE - ngành Học máy).
Do có được thỏa thuận với Ban điều hành và nỗ lực tìm kiếm tài trợ, Ban tổ chức đã lo được các mức hội nghị phí thấp cho đại biểu trong nước, cao nhất cũng chỉ quãng 1/3 mức của đại biểu nước ngoài. Đặc biệt, sinh viên và nghiên cứu sinh được mời tham gia và miễn phí hoàn toàn. Đây là động lực chủ yếu của những người tổ chức: Mang những hội nghị chất lượng tốt đến Việt Nam để nhiều người có thể tham dự. Thông thường, mỗi chuyến ra nước ngoài dự một hội nghị quốc tế đòi hỏi một chi phí tối thiểu chừng 2.000 USD (mà không phải hội nghị nào cũng có chất lượng tốt).
PAKDD 2015 có 246 đại biểu từ 27 nước tham gia, trong đó có 31 từ Úc, 49 từ Trung Quốc, 18 từ Mỹ, 17 từ Nhật, 24 từ châu Âu, 27 từ các nước khác và 67 từ Việt Nam.
PAKDD 2105 được Ban điều hành nhận định là một trong những PAKDD rất thành công. Quan trọng hơn, PAKDD 2015 đã góp thêm một hoạt động khoa học có chất lượng vào các hoạt động của giới CNTT nước ta.
Hội nghị châu Á-Thái Bình Dương PAKDD 2015 về Phát hiện Tri thức và Khai phá Dữ liệu (Pacific-Asia Conference on Knowledge Discovery and Data Mining, PAKDD) được tổ chức trong các ngày từ 19 đến 22/5/2015 tại thành phố Hồ Chí Minh. Đây là lần tổ chức thứ 19 của PAKDD và lần thứ hai PAKDD đến Việt Nam (PAKDD lần đầu vào năm 2005 tại Hà Nội). |
Tài liệu tham khảo:
1. Hồ Tú Bảo, “Dữ liệu lớn: Cơ hội và thách thức lớn”, Tia Sáng 2013, http://tiasang.com.vn/Default.aspx?tabid=62&CategoryID=2&News=6103
2. Ngô Quang Hưng, “Văn hóa ngành” trong tiêu chí đánh giá, Tia Sáng 2007, http://tiasang.com.vn/Default.aspx?tabid=82&CategoryID=17&News=1766