|
|||||||
Số hóa tư liệu Việt: “Khuôn mặt khác” của một nền khoa họcĐăng lúc: Thứ tư - 29/04/2015 17:47 - Người đăng bài viết: admin
Theo TS Trần Trọng Dương (Viện Nghiên cứu Hán Nôm), không chỉ về mặt học thuật mà cả về phương diện số hóa tư liệu, Việt Nam như một ốc đảo trong lòng thế giới
Đại Việt sử ký toàn thư là tác phẩm duy nhất ở Việt Nam được số hóa theo chuẩn quốc tế (hiển thị song song văn bản gốc được scan và văn bản được dịch, hiệu điểm, chú giải) Với nhiều nước trên thế giới, việc xây dựng cơ sở dư liệu toàn văn (full-text database) và minh bạch hóa các nguồn tư liệu lịch sử, nhất là các kho lưu trữ mật quốc gia, không có gì mới. Đạo luật Tự do thông tin của Mỹ, Ireland, Israel, Úc, Anh đã yêu cầu chính phủ các nước này phải công khai các tài liệu nội các sau 20-30 năm. Ngay cả Nga, một nước từ chối tham gia vào tổ chức OGP (Open Government Partnership – Hiệp hội chính phủ mở, nhằm thúc đẩy minh bạch hóa thông tin và xã hội dân sự của các quốc gia), thì đến năm 2013, nước này cũng công bố một trang web công khai nhiều tư liệu thời Xô - viết. Đó là kho tư liệu quý giá với những tài liệu về chiến tranh vệ quốc, về thời kỳ xã hội chủ nghĩa của Liên Xô dưới sự lãnh đạo của Stalin, cuộc chiến tranh chống tả khuynh, chống nhóm Bạch Vệ, những cải cách hợp tác xã... Nhật Bản là một trong những quốc gia đầu tiên ở Đông Á tiến hành công nghệ số hóa sử liệu. Công việc này đã khởi động từ năm 1984 tại Trung tâm Biên soạn Sử liệu của Đại học Tokyo (Shiryohensanjo) với các cơ sở dữ liệu toàn văn của Văn thư thời Nara, Văn thư thời Heian, Văn thư thời Kamakura, Cổ ký lục, Cổ văn thư1. Từ năm 1990 đến 1998, Trung tâm Nghiên cứu Di sản Văn hóa Nara (Nabunken) được sự tài trợ của Chính phủ Nhật Bản đã xây dựng cơ sở dữ liệu mộc giản2 và liên tục cập nhật từ đó đến nay về nghiên cứu văn bản học và khảo cổ học. Đại học Meiji (Tokyo) đã và đang xây dựng cơ sở dữ liệu về “mặc thư thổ khí” (chữ viết bằng mực trên đồ gốm). Như vậy, Nhật Bản không chỉ số hóa và minh bạch hóa các nguồn sử liệu chữ viết bằng giấy, mộc bản, mà còn hướng đến các kho dữ liệu về các hiện vật khảo cổ học lịch sử (có chữ viết hay minh văn). Phong khí số hóa không chỉ trở thành phong trào trong các cơ quan nghiên cứu chuyên nghiệp mà còn lan rộng đến cả các tầng lớp bình dân, các cá nhân3. Số hóa không chỉ dừng lại ở việc scan các tài liệu và đưa lên mạng. Trang Persee do Bộ Giáo dục, Cao học và Nghiên cứu của Pháp hiện nay có 500.000 nhóm tài liệu về khoa học xã hội và nhân văn (bao gồm 180.000 bài báo khoa học) và cho phép truy cập miễn phí. Mỗi năm, họ số hóa khoảng một triệu trang tài liệu. Những nhà nghiên cứu có thể tìm kiếm văn bản gốc được scan bằng các từ khóa tìm kiếm một cách dễ dàng nhờ phần mềm nhận diện văn tự. Với nguyên tắc khai thác về mặt sử liệu phải sử dụng những thông tin gốc bằng tiếng nguyên bản, những thư viện số như trên giúp cho những học giả tiếp cận với những thông tin chuẩn nhất, nguyên khối nhất trong thời gian ngắn nhất.
Một ví dụ khác là dự án “Tứ khố toàn thư điện tử bản” (“Tứ khố toàn thư” là một bộ Tùng thư được biên soạn thời vua Càn Long với hơn 36.000 quyển với khoảng 800 triệu lượt chữ Hán về lịch sử, chính trị, văn hóa, nghệ thuật, tư tưởng, triết học, y học của Trung Quốc). Dự án này được đầu tư 6,5 triệu USD và triển khai bởi một công ty trách nhiệm hữu hạn của Trung Quốc – Digital Heritage Publishing. Đầu tiên, với sự hợp tác của các trường đại học, thư viện, viện nghiên cứu và trung tâm công nghệ, họ tiến hành chấm câu, hiệu điểm, chú thích… và phát triển phần mềm nhận diện văn tự, chuẩn hóa mã chữ Unicode, để đánh lại tác phẩm vào máy tính một cách nhanh nhất (trên thực tế, con người chỉ phải đánh lại 1-2% nội dung của bộ tác phẩm này). Giao diện của “Tứ khố toàn thư điện tử bản” hiển thị song song văn bản được hiệu điểm với văn bản gốc (giống y hệt nhau về cách dàn trang và vị trí các từ) để các học giả có thể đối chiếu, so sánh và góp ý sửa chữa, đồng thời vẫn đảm bảo đúng nguyên tắc trích dẫn từ tài liệu nguyên gốc. Dự án này được thực hiện với sự hợp tác của gần 400 giáo sư và 4.000 kỹ sư sao chép văn bản trong thời gian 18 năm. Việc số hóa toàn bộ kho thư tịch này với gần năm triệu trang sách tiết kiệm cho mỗi nhà nghiên cứu về lịch sử Trung Quốc hàng nghìn năm đọc sách. Với mỗi từ khóa tìm kiếm, kết quả được trả về sẽ cho biết: từ này xuất hiện ở quyển nào, trang bao nhiêu, dòng thứ mấy, bản nào, do ai dịch, hiệu điểm và chú thích. Dựa theo đó, người nghiên cứu sẽ lần giở đọc lại được toàn bộ quyển sách hoặc chỉ một đoạn văn có chứa chi tiết này4. Việt Nam đang trở thành ốc đảo Ở Việt Nam, công đoạn số hóa chủ yếu ở mức độ scan các thư tịch cổ và công khai trên mạng. Đây mới chỉ là mức độ thứ nhất trong công tác số hóa để lưu giữ ở các thư viện, kho lưu trữ có ý nghĩa chủ yếu là bảo tồn hiện vật, bảo tồn, nhân bản văn bản. Tuy nhiên, văn bản scan này chưa phải là bản phổ dụng vì bản khắc có thể khắc sai chữ, sai địa danh, nhân danh và những lỗi khác của người viết sử. Chúng ta vẫn chưa làm được công tác số hóa ở mức thứ hai. Đó là tổ chức các chuyên gia chấm câu (các văn bản Hán Nôm thường không có chấm câu), chú giải, hiệu điểm và dịch thuật và sau khi in thành sách thì chuyển sang giai đoạn số hóa, tích hợp với các công cụ tìm kiếm và nhận diện văn tự giống như “Tứ khố toàn thư điện tử bản” đã nói ở trên, hoặc sử dụng công nghệ nhận diện ký tự (OCR). Cơ sở dữ liệu số hóa kho cổ tịch Hán Nôm của Thư viện Quốc gia là kho số hóa công khai đầu tiên ở nước ta. Tuy nhiên, kho này mới chỉ công bố các ảnh nguyên bản, chưa cho phép tra cứu toàn văn, chưa số hóa thành văn bản số. Trong khi, một số ít nhà nghiên cứu quan tâm chỉ có thể đọc lật từng trang trên mạng (do hạn chế về bản quyền), thì các hacker Trung Quốc và Việt Nam đã bẻ khóa và phát tán trên toàn cầu. Đây là một thực trạng khác của việc quản lý, sử dụng các cơ sở dữ liệu ở Việt Nam. Ngoài ra, Viện nghiên cứu Hán Nôm với kho sách Hán Nôm chứa khoảng hai - ba triệu trang sách cũng đang thực hiện công tác số hóa hằng năm nhưng chưa có cơ chế nào để đưa vào sử dụng. Không chỉ các học giả nghiên cứu Hán Nôm, mà ngay các cán bộ viện cũng chưa được tiếp cận và sử dụng kho tư liệu đã được scan.Công tác số hóa thư tịch cổ của Việt Nam là một quá trình gian nan vì hai lí do: Thứ nhất, nước ta chưa có chủ trương minh bạch hóa các tài liệu cổ về địa lý, lịch sử. Thứ hai, công tác làm tư liệu vẫn bị coi nhẹ. Đa số vẫn làm tư liệu theo cách tập hợp các kỷ yếu hội thảo của các nhà khoa học về một vấn đề nào đó dựa trên một vài tài liệu gốc sưu tập được. Tập kỷ yếu có thể dài hàng trăm trang nhưng thực chất chỉ là “xào xáo” từ số tài liệu ít ỏi kia. Như vậy, chúng ta không coi việc làm cơ sở dữ liệu là làm khoa học mà chỉ đề cao việc viết bình tán, cảm thán văn chương và cảm hứng lịch sử. Trong khi đó, xây dựng cơ sở dữ liệu với hàng ngàn tư liệu (cả văn bản gốc và văn bản được dịch, hiệu điểm, chú thích) được số hóa kết hợp các công cụ tìm kiếm để phục vụ nghiên cứu có giá trị hơn rất nhiều so với việc tổ chức những hội thảo kiểu như trên. Chính vì thế mà trong bối cảnh số hóa tư liệu trên thế giới, Việt Nam trở thành một ốc đảo không những về mặt tư liệu mà cả về mặt học thuật. Trong khi các nước khác đã xử lý xong phần lớn kho tư liệu, áp dụng những phương pháp luận hiện đại trong nghiên cứu thì Việt Nam vẫn loay hoay chưa xong việc làm tư liệu và người nghiên cứu như những con ong thợ tự lọ mọ đến từng thư viện, nhặt nhạnh từng tư liệu. Các nhà khoa học cứ như “thầy bói xem voi” đi trong khu rừng nguyên sinh đã qua nhiều lần tàn phá; họ nhặt được một vài cái lá liền đi mô tả cái rừng, không mấy ai thử thống kê xem toàn bộ khu rừng có những cái gì. Mặc dù không ít người đã và đang động viên/ vận động cho số hóa nhưng nhiều cơ quan học thuật không coi công việc này là một thao tác quan trọng trước nhất của một nền học thuật. Hảo Linh ghi
Hảo Linh ghi Chú thích: 1. Địa chỉ: http://www.hi.u-tokyo.ac.jp/index-j.html 2. Địa chỉ: http://www.nabunken.go.jp/Open/mokkan/ mokkan.html 3. Phạm Lê Huy. Hướng đến xây dựng cơ sở dữ liệu toàn văn tư liệu chữ viết Việt Nam. Trong “Sử học Việt Nam trong bối cảnh hội nhập và toàn cầu hóa”. NXB Thế giới. 2012. 4. Xem thêm: Ngô Thế Long, Bộ tứ khố toàn thư của Trung Quốc xuất bản trên đĩa quang (CD-ROM). Tạp chí Hán Nôm, số 2, 1999. Bản online: http://hannom.org.vn/web/tchn/data/9902.htm; Nguyễn Nam.Khai thác tư liệu về Việt Nam qua Văn Uyên các Tứ khố toàn thư điện tử bản, Tạp chí Hán Nôm, số 2, 2001. Bản online: http://hannom.org.vn/web/tchn/data/0102.htm Nguồn tin: Tia Sáng
Từ khóa:
Những tin mới hơn
Những tin cũ hơn
|
Thống kê truy cập Website
|
||||||
Ý kiến bạn đọc