Công nghệ AI: Giúp tìm kiếm và lựa chọn tài liệu về Covid-19

Công nghệ AI: Giúp tìm kiếm và lựa chọn tài liệu về Covid-19
Các nhà phát triển đang hy vọng những công nghệ xử lý ngôn ngữ tự nhiên sẽ giúp các nhà nghiên cứu y sinh và lâm sàng tìm kiếm tài liệu nghiên cứu Covid-19 dễ dàng hơn.

Công nghệ AI đang giúp các nhà khoa học sàng lọc các bài báo nghiên cứu Covid-19 phù hợp để đẩy nhanh quá trình nghiên cứu của riêng mình. Chỉ trong một thời gian ngắn số lượng các bài nghiên cứu về Covid-19 đã tăng lên theo hàm mũ. Theo ứng dụng “Covid-19 Portfolio” của NIH, trang web đang lưu trữ các nghiên cứu về virus SARS-CoV-2 và các bệnh lý liên quan thì đã có hơn 28.000 bài báo được xuất bản trong thời gian gần đây, một con số không dễ dàng để mỗi nhà nghiên cứu tìm thấy bài báo phù hợp cho mình, do đó một loạt các công cụ AI đã ra đời nhanh chóng để hỗ trợ giúp các nhà nghiên cứu và lâm sàng.


Các công cụ AI thường được xây dựng trên nhiều yếu tố, bao gồm khối lượng bài báo lớn và sẵn có, các tiến bộ trong công nghệ xử lý ngôn ngữ tự nhiên (natural-language processing NLP), và nhu cầu tìm kiếm các giải pháp phòng dịch hiện nay. Các công này sẽ tìm kiếm ra những nghiên cứu phù hợp cho mỗi cá nhân nhà nghiên cứu, thậm chí một số có thể trích dẫn ra các kết quả nghiên cứu cụ thể trong đó. Theo bà Amalie Trewartha, trưởng nhóm phụ trách tìm kiếm nghiên cứu bằng công cụ CovidScholar (Phòng thí nghiệm quốc gia Lawrence Berkeley tại Berkeley, California), các công cụ này không chỉ giúp ích cho nhu cầu ngăn ngừa dịch bệnh hiện tại mà còn giúp xác định đúng một giải pháp cho nhiều bài toán thuộc các hướng khác nhau, từ đó hỗ trợ cho những nghiên cứu đa ngành. 

Tuy nhiên các công cụ AI hiện tại vẫn còn ở giai đoạn phát triển và hiệu quả của chúng chưa được chứng minh một cách rộng rãi. Chúng cũng chưa được dùng để ra các quyết định lâm sàng hay nghiên cứu. Theo Oren Etzioni, giám đốc điều hành của Viện AI Allen  (AI2) tại Seattle, Mỹ, “AI chưa giúp tìm ra ngay vaccine” nhưng hy vọng công nghệ mới có thể giúp các nhà nghiên cứu tập trung vào đúng nơi cần tìm, qua đó hỗ trợ và mở rộng khả năng phát triển tri thức. 

Rút ngắn thời gian nhờ AI

Động lực cho những nỗ lực phát triển này là lời kêu gọi của văn phòng chính sách KH&CN của Nhà Trắng, mời gọi cộng đồng AI tìm kiếm và phát triển các công cụ khai thác dữ liệu khoa học Covid-19 vào ngày 16/3/2020. Để khởi động việc này, Nhà Trắng đã làm việc với một số tổ chức để cho ra Bộ dữ liệu nghiên cứu mở Covid-19 (Covid-19), bao gồm 13.000 bài báo nghiên cứu về virus SARS-CoV-2 và các virus corona khác. Viện AI2 đã định dạng lại các tệp này để giúp cho các thuật toán truy vấn dễ dàng hơn, cập nhật các bài báo mới thường xuyên và đến nay số lượng đã lên đến 68.000 bài báo và 67.000 bản tóm tắt. Theo đó cũng đã có hơn 10 công cụ ra đời. Anthony Goldbloom, giám đốc điều hành của trang Kaggle, một chi nhánh của Google tại San Francisco, California chuyên tổ chức các cuộc thi máy học, nhận định: “Bộ dữ liệu CORD-19 thật không ngờ đã rất hữu ích cho những bài thi thực tế.”


Sự gia tăng đột biến của các bài báo nghiên cứu về Covid-19. 

Ngoài ra để định hướng cho các nhà nghiên cứu AI, Nhà trắng cũng đưa ra các câu hỏi ví dụ như: “Chúng ta đã hiểu gì về tính thích nghi (đột biến) của virus này”? Kaggle đã đưa hàng chục các câu hỏi này ra cho người dùng của họ và dành giải thưởng 1. 000 USD cho nhóm có câu trả lời tốt nhất. Sau đó các sinh viên Y khoa tình nguyện sẽ xếp loại kết quả và xác định câu trả lời tốt nhất và một bảng trong trang chính được cập nhật liên tục. Hiện đã có trên 1.000 tài khoản gửi thuật toán lên. 

José Morey, trưởng bộ phận đổi mới sáng tạo của hãng nghiên cứu y khoa Liberty Biosecurity tại Arlington, Virginia đã dùng danh sách các tài liệu tham khảo mà công cụ đưa ra để chuẩn bị cho một bài báo tóm tắt những nhân tố rủi ro của Covid-19. “Bình thường chúng tôi cần vài tuần để tìm và tổng hợp lại, nay công cụ giúp chúng tôi làm trong vài ngày”, José cho biết. 

Goldbloom cũng tổng hợp lại rằng các thành viên của Kaggle sử dụng hai phương pháp AI. Thứ nhất là phương pháp truy xuất thông tin truyền thống bằng cách tìm các từ khóa chính và phân tích các đoạn văn gần chúng. Phương pháp thứ hai là dùng trực tiếp các mạng nơ-ron học sâu (deep neural networks), một phương pháp học máy, để học trên một tập dữ liệu rất lớn và tìm ra các đoạn văn bản liên quan đến câu hỏi hay chủ đề nghiên cứu. 

Trong giai đoạn hai của cuộc thi (kết thúc ngày 16 tháng 6), các thành viên sẽ tập trung vào việc tự động hóa công cụ và tổng hợp bảng kết quả các nghiên cứu về những vấn đề khác nhau của Covid-19 như nhân tố rủi ro hay phương pháp trị liệu. 

Công cụ tìm kiếm

Cũng có rất nhiều công cụ khác ngoài Kaggle như Covid-19 Research Explorer của Google cho phép người dùng hỏi những câu hỏi như “Chẩn đoán phân tử nhanh của Covid-19 là gì?” Công cụ sẽ cho ra một danh sách các bài báo kèm với các đoạn văn liên quan. Theo Keith Hall, một nhà khoa học máy tính trưởng dự án của thành phố New York thì “Covid-19 Research Explorer” đã được sử dụng như một công cụ nghiên cứu y sinh ngay cả trước khi dịch bệnh lan truyền. Khi tình hình trở nên nghiêm trọng thì chúng ta có thể  hiểu và khẳng định rõ hơn sự hữu ích của các công cụ đó mà thôi. Tuy nhiên thì công cụ này chưa tích hợp hoàn toàn với các ứng dụng của Google khác. 

CovidScholar là một công cụ khác phát triển từ Phòng thí nghiệm Lawrence Berkeley với một ô tìm kiếm đơn giản. Kết quả từ các nghiên cứu Covid-19 sẽ được các ứng dụng AI gán nhãn của các bài báo nghiên cứu liên quan, cùng với từ khóa và chủ đề. Ngoài ra còn có thêm chức năng lọc theo thuộc tính như chủ đề nghiên cứ, năm công bố, tình trạng duyệt bài và nguồn. Có nhiều bài báo nghiên cứu đã có trong bộ dữ liệu Covid-19 nhưng công cụ luôn tự dò và thu thập thêm tài liệu từ nhiều trang web khác nhau, Trewartha cho hay. Oscar Whitney, một nghiên cứu sinh sinh học tại University of California, Berkeley, sử dụng CovidScholar để viết bài nghiên cứu về thử nghiệm axit-nucleic cho Covid-19. Công cụ giúp anh tóm lược các tìm kiếm tốt hơn là Google Scholar hay PubMed, đôi khi chỉ ra được những bài báo mà anh chưa hề nghe nói đến. “Đây rõ ràng là công cụ tìm kiếm tài liệu nghiên cứu tốt nhất tôi từng dùng”, Oscar cho hay. 

Một công cụ tìm kiếm khác từ AI2 là SPIKE-CORD không chỉ tìm kiếm bài báo nghiên cứu mà còn trích xuất thông tin trong đó. Công cụ này sử dụng ngôn ngữ truy vấn thông dụng, ví dụ như “thời gian ủ bệnh … từ ngày … đến ngày …” sẽ cho ra câu trả lời như “thời gian ủ bệnh kéo dài từ 3 đến 28 ngày”. Công cụ cũng cho phép tải về bảng số với những giá trị được tách cột riêng. Yoav Goldberg, giám đốc nghiên cứu tại AI2 Israel, cho biết  những câu truy vấn như vậy không đơn giản. Thông thường cần có chuyên gia ngồi viết code, nhưng với SPIKE-CORD thì mọi việc đã dễ dàng cho những người không thạo code nhờ công nghệ xử lý ngôn ngữ tự nhiên NLP. 

Các công cụ khác

Nhưng công cụ khác có chức năng đa dạng hơn, ví dụ SciSight do AI2 hợp tác cùng Đại học Washington ở Seattle phát triển tích hợp đến 4 chức năng. Chức năng ‘tìm kiếm chủ đề’ cho ra một danh sách các bài báo theo 8 nhóm chủ đề như Can thiệp (ví dụ: vaccine), Kết quả (ví dụ phản ứng kháng thể), Tác giả và tạp chí. Chức năng ‘Mạng lưới khoa học’ lại tìm ra các nhóm nghiên cứu (hay đang cộng tác) về chủ đề tìm kiếm. Các chức năng khác lại cho ra mối quan hệ giữa bệnh lý và thuốc điều trị, giữa gene và các protein. Tất cả các chứng năng đều có giao diện hình ảnh và tương tác cao, có đường dẫn ẩn trong những từ khóa,... “Công cụ thực sự hiểu người dùng và cải tiến theo tương tác, rất hữu ích khi mà bạn chưa biết rõ bạn cần làm gì”, Tom Hope, trưởng dự án SciSight ở Seattle, cho biết.

Sravanthi Parasa, một nhà nghiên cứu lâm sàng và tiêu hóa tại Trung tâm Y khoa Thụy Điển tại Seattle, cho rằng chức năng ‘Mạng lưới bệnh lý – thuốc điều trị’ của SciSight thực sự là một “ý tưởng đột phá”. Bà cho rằng nó không chỉ phục vụ cho đợt dịch này mà với mỗi loại bệnh, công cụ có thể tìm ra những tương tác với thuốc bất thường mà bác sỹ không dễ nhận biết. Bà Parasa thường tìm kiếm điều này trên PubMed nhưng mất đến 10 đến 15 phút, giờ đây kết quả hiện ra trong nháy mắt. 

KnetMiner for Covid-19 là một công cụ khác từ Rothamsted Research, một tổ chức phi lợi nhuận ở Harpenden, Anh. Công cụ này duyệt qua văn bản trong các bài báo cũng như dữ liệu về kết nối gene, tương tác protein-protein hay biểu diễn gene để xây dựng một mạng lưới kiến thức giữa các bài báo, gene, thuốc, các loại bệnh và protein. Joseph Hearnshaw, một nhà khoa học y sinh của Rothamsted, sử dụng công cụ này để hiểu rõ hơn vì sao Covid-19 lại nguy hiểm với đàn ông hơn là với phụ nữ. Bà cho rằng công cụ đã tìm ra các mối quan hệ giữa các bệnh lý, hóc-môn và gene theo một cách khám phá thông minh. “Và chỉ cần vài phút tôi đã có thể đưa ra các giả thuyết và chia sẻ chúng với các nhà lâm sàng khác”, bà cho biết.

Công cụ Covid-19 Primer phát triển bởi Primer, một công ty phát triển công nghệ AI có trụ sở tại San Francisco, thì lại bổ sung thêm vào dữ liệu Covid-19 các nguồn dữ liệu khác bao gồm cả các trang tin và Twitter. Trang này cũng theo dõi các bài báo được thảo luận nhiều nhất, các chủ đề mới nổi và các trích dẫn xu hướng từ các nguồn tin tức, bao gồm Đài phát thanh công cộng quốc gia và FOXnews.com. Chúng sử dụng mô hình mạng neuron kết hợp với các mô hình truy xuất thông tin truyền thống. Nó cũng cho ra những danh sách nên đọc theo tổng thể hoặc theo 11 hướng nghiên cứu khác nhau.

John Bohannon, giám đốc khoa học tại Primer, nói rằng: “Người dùng hướng đến sẽ là những người trong giới nghiên cứu khoa học, tức là biết khá rõ tình trạng hiện thời của hướng nghiên cứu”. Khá bất ngờ, trang web đã thu hút những nhà nghiên cứu hàng đầu bao gồm Madeline Grade, một bác sĩ và nhà nghiên cứu y học khẩn cấp tại Đại học California, San Francisco. Bà Grade thấy Covid-19 Primer đặc biệt hữu ích ngay từ đầu cơn dịch khi mà mọi thông tin liên quan đến việc chăm sóc thay đổi hàng ngày. Vì có quá nhiều thông tin, bà cần có công cụ hỗ trợ cập nhật thông tin một cách có hệ thống mỗi ngày cho bệnh viện của Đại học. Trong bối cảnh “hỗn loạn” đó, ứng dụng Primer thực sự là một cứu cánh tuyệt vời để tìm ra thông tin thực sự cần thiết, bà cho biết.

Tiếp tục chiến đấu

Hiện giờ thì những công cụ/trang web này vẫn chỉ thu hút lượng truy cập không lớn lắm. Ví dụ như vào cuối tháng 5, Covid-19 Primer có 14,000 lượt view duy nhất hàng tháng, SciSight thì có 11,000 lượt view kể từ khi xuất hiện. CovidScholar có 500 lượt view mỗi ngày còn Covid-19 KnetMiner thì có tổng cộng con số tương đương. Cuộc thi của Kaggle là nơi có nhiều view nhất với 1.7 triệu lượt kể từ khi khởi động vào giữa tháng 3 2020. Trong số các nhà nghiên cứu Covid-19 chúng tôi đã liên hệ hầu hết đều không nghe nói về phần lớn các công cụ này. Và vẫn còn nhiều công cụ như vậy đang được phát triển trên khắp thế giới, bao gồm Vilokana ở Ấn Độ và CovidAsk ở Hàn Quốc.

Thật sự mà nói thì mọi thứ vẫn còn đang trong quá trình phát triển. “Mọi người cho rằng đây chính là xu hướng, bởi khoảng 5 năm nữa thì nhu cầu mới  thực sự bùng nổ”, Etzioni, một nhà phát triển công cụ cho biết. “Tôi không nói ngay đây là thị trường mà là một thử nghiệm. Chúng tôi chưa hoàn toàn sẵn sàng cho sự bùng nổ nhưng chúng tôi đã có mặt và ‘chiến đấu’ để làm tốt nhất có thể”.□

Nguyễn Quang dịch
Nguồn: https://www.nature.com/articles/d41586-020-01733-7