Chuyện xung quanh các công ty dữ liệu mở

Chuyện xung quanh các công ty dữ liệu mở
Gần đây, có thông tin cho biết Facebook cung cấp dữ liệu người dùng cho các nhà khoa học xã hội1. Hội đồng nghiên cứu khoa học xã hội Mỹ và Social Science One – một sáng kiến hợp tác giữa các nhà khoa học và các doanh nghiệp sẽ lựa chọn nhà khoa học nào được phép truy cập vào các dữ liệu này như các thông tin nhân khẩu học của người dùng Facebook như giới tính, độ tuổi xấp xỉ và các liên kết website mà họ đã chia sẻ.

 


 Facebook sẽ cấp dữ liệu người dùng cho một số nhà khoa học nghiên cứu.

Đây quả là một dịp thú vị để chúng ta hiểu thêm về các công ty dữ liệu mở. Đó là một khái niệm rất lạ tai, ít nhất là cho tới lúc này ở Việt Nam. Bởi vì, khi nghĩ đến một công ty vì lợi nhuận chúng ta chỉ quen nghe công ty đó sử dụng và/hoặc tận dụng dữ liệu mở do những người khác tạo ra thường nghe có vẻ xuôi tai hơn mà ít khi nghe đến việc nó sản xuất hoặc đầu tư vào dữ liệu mở và/hoặc mở dữ liệu của nó ra cho những người khác sử dụng.

Động thái của Facebook cùng với xu hướng nở rộ của các công ty dữ liệu mở trên thế giới đang diễn ra mạnh mẽ khiến ta đặt ra ba câu hỏi:

1. Dữ liệu Facebook cho phép các nhà khoa học truy cập tới có phải là dữ liệu mở hay không?

2. Facebook, như một công ty, có phải là công ty dữ liệu mở hay không?

3. Ví dụ về công ty dữ liệu mở trên thế giới, và giải thích vì sao nó được gọi như vậy?

 

Dữ liệu của Facebook là dữ liệu mở?

 

Rất tiếc, những dữ liệu mà Facebook cho phép các nhà khoa học truy cập không phải là dữ liệu mở. Dữ liệu chỉ được coi là mở khi nó thỏa mãn định nghĩa trong Sổ tay Dữ liệu mở của Quỹ tri thức mở như sau: “Dữ liệu mở là dữ liệu bất kỳ ai cũng có thể tự do sử dụng, sử dụng lại và chia sẻ cho người khác mà chỉ cần trích dẫn nguồn và sau khi sử dụng lại để chế độ mở tương tự”.

Trong trường hợp của Facebook, công ty này không mở dữ liệu của mình cho bất kì ai mà chỉ lựa chọn một số nhà khoa học nhất định.

Nhưng không chỉ vậy, Viện Dữ liệu mở của Tim Berners - Lee, nhà phát minh ra Web và Web của Dữ liệu (Web of Data), người vào năm 2006 đã đề xuất cho thế giới Quy tắc 4 điểm và lược đồ tiêu chuẩn 5 sao cho Dữ liệu Mở Liên kết - LOD (Linked Open Data) còn đưa ra một định nghĩa khác về dữ liệu mở, đó là dữ liệu mở không chỉ phải thỏa mãn yêu cầu cho “bất kì ai” sử dụng mà còn phải “được xuất bản ở định dạng truy cập được” và có “giấy phép mở”. Và dữ liệu của Facebook, không giấy phép mở và không hề được xuất bản, một lần nữa không vượt qua được “cửa ải” định nghĩa dữ liệu mở.   

 

Facebook có phải là công ty dữ liệu mở hay không?

 

Mặc dù Facebook hết sức “chọn lọc” người tiếp cận dữ liệu của mình và dữ liệu của Facebook cũng không hề được xuất bản cũng không hề có giấy phép nhưng không có nghĩa đây không phải là một công ty dữ liệu mở.

Cũng Viện Dữ liệu Mở của Tim Berners – Lee, đã định nghĩa công ty dữ liệu mở trong tài liệu Viện xuất bản vào năm 2016 với tiêu đề ‘Doanh nghiệp mở: 3 doanh nghiệp lớn tạo giá trị với cách tân mở như thế nào’2 như sau:

Một công ty dữ liệu mở là công ty sử dụng, sản xuất, hoặc đầu tư vào dữ liệu mở như là hoạt động kinh doanh chính của nó.

1. Nó có thể là nhà xuất bản dữ liệu, làm cho dữ liệu mở để những người khác sử dụng.

2. Nó có thể là một tổ chức sử dụng, tạo ra các dịch vụ với dữ liệu sẵn sàng bằng các nền tảng khác.

3. Hoặc nó có thể là một tổ chức xúc tác, huấn luyện hoặc tư vấn cho những người khác cách làm việc với dữ liệu mở.

Sự việc được nêu ở trên đối với Facebook có thể không nằm trong lựa chọn 1, nhưng hoàn toàn có khả năng Facebook, như một công ty, có các hoạt động tích cực ở lựa chọn 2 và/hoặc 3. Điều này phụ thuộc vào chính sách và mô hình kinh doanh của chính Facebook và không nằm trong phạm vi đi sâu để chứng minh của bài viết này.


Ví dụ về các công ty dữ liệu mở trên thế giới

 

Theo định nghĩa công ty dữ liệu mở với ba lựa chọn ở trên, tại Vương quốc Anh vào năm 2016 đã có tới 270 công ty dữ liệu mở. Trong đó, có một công ty tiếng tăm ít ai ngờ tới là Thompson Reuters



270 công ty dữ liệu mở tại Anh.


Có lẽ trong 3 lựa chọn trong định nghĩa thế nào là một công ty dữ liệu mở được nêu ở trên, lựa chọn số 1 là ‘nghịch nhĩ’ hơn cả, khi một công ty vì lợi nhuận lại là nhà xuất bản dữ liệu và làm cho dữ liệu vốn là đóng và thuộc sở hữu của công ty trở thành mở cho những người khác sử dụng một cách hoàn toàn tự nguyện. Nhưng đó lại là câu chuyện của Thomson Reuters, một công ty có doanh thu năm 2015 là 12,2 tỷ USD (khoảng 285.000 tỷ VNĐ), khi công ty này đã chọn tiếp cận Dữ liệu Mở Liên kết3 bằng việc xuất bản một tập hợp con các dữ liệu của nó theo giấy phép Creative Commons (CC BY 4.0).

Thompson Reuters được hình thành từ sự sáp nhập của tập đoàn Thompson và Reuters vào năm 2008 và kể từ đó tiếp tục phát triển, một phần là thông qua việc mua bán, sáp nhập vào các công ty khác. Các công ty phát triển như vậy thường chịu chung một thách thức đó là liên kết các dữ liệu cũ trước khi sáp nhập với nhau. Thompson Reuters đã có một cách tiếp cận khá sáng tạo trong trường hợp này, cho phép các dữ liệu chuyên ngành khác nhau có thể kết hợp với nhau mà không cần phải hợp nhất trong một bảng hoặc một kho dữ liệu chung. Nó bắt đầu bằng cách thành lập các trung tâm dữ liệu “chủ” và mỗi trung tâm này được cấp một mã định danh vĩnh viễn gọi là Permanent Indetifier (PermID – tạm hiểu là một đường dẫn không đổi kể cả khi nội dung trong trung tâm đó thay đổi), những khối dữ liệu cũ từ trước khi sáp nhập sẽ được xác định lại bằng việc cấp một PermID mới. Các PermID này giống như các thẻ gắn trên các khối dữ liệu, cho phép truy vấn, liên kết giữa chúng có thể diễn ra một cách đơn giản, tiện lợi mà không cần mất công định dạng lại.

Khi Thompson Reuters thấy được thách thức của mình cũng là thách thức của nhiều khách hàng, họ đã cung cấp cho khách hàng hệ thống này. Cụ thể là, họ cho phép khách hàng truy cập vào hệ thống PermID của họ, nhờ vậy mà khách hàng có thể dễ dàng tích hợp dữ liệu của họ vào dữ liệu của Thompson Reuters một cách dễ dàng. Hệ thống PermID này hiệu quả nhất khi nó cho phép tất cả mọi người có thể truy cập, sử dụng và chia sẻ dữ liệu. Chính vì vậy, Thompson Reuters phải đi đến quyết định mở dữ liệu của mình. Dan Bennet, giám đốc Dịch vụ thông tin của Thompson Reuters giải thích rằng: “Chúng tôi không tồn tại để kiếm tiền từ việc tạo ra các mã định danh đó. Chúng tôi tạo ra chúng vì nó quan trọng với mô hình dữ liệu nội bộ của mình. Thực tế là chúng tôi đã có những dữ liệu này và đang quản lý chúng theo cách mới rồi nên chi phí tăng thêm để mở nó ra ngoài cũng không quá lớn so với những hoạt động chiến lược lớn khác của Thomson Reuters”.

Và như thế: “Thomson Reuters đã quyết định xuất bản một tập hợp con các dữ liệu của nó, bao gồm các PermID có liên quan, theo giấy phép mở Creative Commons (CC-BY 4.0)... Họ đã khởi xướng dịch vụ này như là Open PermID vào năm 2015, có được chứng chỉ Dữ liệu Mở của ODI (ODI Open Data Certificate) về quy trình phát hành.”

“Bằng việc kết hợp dữ liệu mở với các mã nhận diện ổn định, nó trao cho các khách hàng sự tự do để thử nghiệm, liên kết các dữ liệu mở hoặc dữ liệu sở hữu độc quyền của riêng họ và cung cấp các phản hồi về hệ thống mã nhận diện đó, tất cả những điều đó làm cho PermID là một dịch vụ hấp dẫn hơn - cả trong nội bộ và ở bên ngoài. Thomson Reuters cũng được định vị tốt để tạo ra nền tảng dựa vào dữ liệu và mô hình thông tin của nó, trở thành thành phần trung tâm trong hệ sinh thái trong tương lai. Bằng việc đón nhận dữ liệu mở liên kết, Thomson Reuters đang tạo ra ưu thế cạnh tranh trong việc mở  đường để xây dựng các sản phẩm mới và tạo ra các mô hình kinh doanh mới - cả cho bây giờ và trong tương lai.”



Facebook cũng là công ty sáng tạo mở.

 

Thay cho lời kết - công ty dữ liệu mở hay công ty đổi mới sáng tạo mở

 

Ngày nay, khi các mô hình kinh doanh và các nền tảng dựa vào dữ liệu đang trở thành chuẩn mực mới, đặc biệt cho các công nghệ thời thượng như trí tuệ nhân tạo (AI), Internet của vạn vật (IoT), dữ liệu lớn, .v.v. thì các sản phẩm - dịch vụ các công ty cung cấp ngày càng có xu hướng sử dụng ngày một nhiều hơn dữ liệu mở, dữ liệu mở liên kết (đặc biệt khi các dữ liệu đó là kết quả của các nghiên cứu được nhà nước cấp vốn) và thông qua đổi mới sáng tạo mở/cách tân mở để có thể đa dạng hóa các nguồn thu và tối đa hóa các khả năng của công ty.

Facebook, trong trường hợp cụ thể của bài viết này, có thể không/chưa biến một phần dữ liệu nó sở hữu thành dữ liệu mở, nhưng Facebook được thừa nhận là công ty đổi mới sáng tạo mở4/cách tân mở ở, cho phép người ở bên trong và cả bên ngoài doanh nghiệp này tham gia và hợp tác trong việc phát triển sản phẩm và quy trình mới, ở một vài khía cạnh như (1) cùng nghiên cứu và phát triển với các công ty đối tác (IntraCompany R&D) và (2) phát triển những nhân tài ở ngoài công ty thông qua các cuộc thi hackathon (Talent for Professionals).

Với Việt Nam, hy vọng một ngày không xa, cũng sẽ có các doanh nghiệp khởi nghiệp đi theo xu hướng để trở thành các công ty dữ liệu mở, kể cả ở lựa chọn nghịch nhĩ nhất, khi (các) công ty đó, vì lợi ích của chính mình, biến một phần dữ liệu do mình sở hữu thành dữ liệu mở với một giấy phép tư liệu mở thích hợp gắn vào nó để cho phép bất kỳ ai cũng có khả năng truy cập, sử dụng và chia sẻ nó, kể cả vì các mục đích thương mại, giống như những gì được Thomson Reuters làm, và cũng giống như những gì được nêu về đổi mới sáng tạo mở/cách tân mở, theo chiều đưa tri thức mới từ bên trong công ty ra bên ngoài, chứ không chỉ theo chiều tận dụng tri thức từ bên ngoài đưa vào trong công ty. 

-------

Chú thích

1 Ngô Hà lược dịch, 2019: Facebook cung cấp dữ liệu người dùng cho các nhà khoa học xã hội. Tia Sáng Online: http://tiasang.com.vn/-tin-tuc/Facebook-cung-cap-du-lieu-nguoi-dung-cho-cac-nha-khoa-hoc-xa-hoi--16373

2 Lê Trung Nghĩa biên dịch, 2018: Doanh nghiệp mở: 3 doanh nghiệp lớn tạo giá trị với cách tân mở như thế nào. Viện Dữ liệu Mở - ODI (Open Data Institute) xuất bản năm 2016: https://www.dropbox.com/s/r7snvketalyr747/ODI_Open_Enterprise_Vi-31012018.pdf?dl=0

Lê Trung Nghĩa, 2017: Rất cần Khoa học Mở cho CMCN4.0: Tạp chí Tia Sáng trên trực tuyến, 26/08/2017: http://tiasang.com.vn/-doi-moi-sang-tao/Rat-can-khoa-hoc-mo-cho-CMCN-40–10878, phần C3: Dữ liệu mở và dữ liệu mở liên kết.

4 Lê Trung Nghĩa, 2019: Đổi mới sáng tạo mở và vài gợi ý. Bài đăng trên tạp chí Tia Sáng số 07 năm 2019, ra ngày 05/04, trang 19-22: https://vnfoss.blogspot.com/2019/04/oi-moi-sang-tao-mo-va-vai-goi-y.html

 

Giấy phép nội dung: CC BY 4.0 Quốc tế

Tác giả bài viết: Lê Trung Nghĩa