Margaret Dayhoff: Người phụ nữ góp phần đưa sinh học bước vào kỷ nguyên máy tính

Margaret Dayhoff: Người phụ nữ góp phần đưa sinh học bước vào kỷ nguyên máy tính
Ngành tin sinh học với dữ liệu khổng lồ ngày nay đã được khai sinh bởi bởi Margaret Dayhoff, tác giả của một atlas chỉ chứa thông tin về 65 trình tự protein.

 


Margaret Dayhoff đi tiên phong trong việc sử dụng máy tính để giải quyết một số câu hỏi khoa học lớn nhất hiện nay. Minh họa của Smithsonian.com; dựa trên chân dung ở Thư viện Y khoa Quốc gia NIH/ Ruth Dayhoff.

Năm 1984, Quỹ Nghiên cứu Y sinh Quốc gia công bố cơ sở dữ liệu mở trực tuyến PIR (https://proteininformationresource.org/) chứa hơn 283,000 trình tự protein. Ngày nay trang này cho phép các nhà khoa  học trên khắp thế giới so sánh một protein với hàng ngàn các protein đã biết trong cơ sở dữ liệu, tìm sự giống và khác nhau giữa chúng. Từ đó, họ có thể suy luận ra lịch sử tiến hóa của protein này và mối liên hệ của nó với các dạng sống khác nhau. 

Cơ sở dữ liệu trực tuyến khổng lồ hiện nay có sự khởi đầu khiêm tốn từ khá lâu trước khi internet xuất hiện. Tiền đề của nó là Atlas of Protein Sequence and Structure [Atlas về chuỗi và cấu trúc Protein], một cuốn sách xuất bản năm 1965 chỉ chứa thông tin 65 trình tự protein đã biết tại thời điểm đó, do Margaret Dayhoff biên soạn. Để hoàn thành cuốn atlas, Dayhoff đã áp dụng những kỹ thuật máy tính tân tiên nhất bấy giờ để tìm ra giải pháp cho các vấn đề về sinh học, từ đó khai sinh ra một lĩnh vực mới mà ngày nay chúng ta gọi là tin sinh học. Tuy xuất phát từ nghiên cứu hóa học, nhưng Dayhoff biết cách khai thác các công nghệ mới và tiến bộ của kỷ nguyên máy tính sau chiến tranh Thế giới thứ II để giúp các nhà hóa học, sinh học và thiên văn học sử dụng trong các nghiên cứu đa ngành về nguồn gốc sự sống trên trái đất. 

Dayhoff (trước khi kết hôn, bà mang họ Oakley) sinh ra tại Philadelphia ngày 11/3/1925, có mẹ là Ruth Clark, một giáo viên toán cấp ba, còn bố là Kenneth Oakley, một chủ kinh doanh nhỏ. Khi bà lên 10 tuổi, gia đình chuyển về thành phố New York. Ở đó, bà theo học các trường công lập, trở thành thủ khoa của trường phổ thông Bayside High năm 1942. Sau đó bà nhận học bổng của trường Washington Square thuộc Đại học New York, và tốt nghiệp cử nhân hạng danh dự ngành toán học cuối năm 1945, tức là chỉ trong vòng 3 năm.
Năm đó, bà đến Đại học Columbia học tiến sĩ ngành hóa lượng tử, dưới sự hướng dẫn của George Kimball, một nhà hóa học danh tiếng và là người áp dụng vận trù học vào Thế chiến II. Đây là điều thực sự rất hiếm hoi vào thời điểm đó. Sau chiến tranh, rất nhiều thanh niên giải ngũ bước chân vào con đường khoa học, riêng ngành hóa học thì ưu thế của nam giới còn rõ rệt hơn nữa. Thậm chí khi đó, tỷ lệ nữ nghiên cứu sinh trong lĩnh vực hóa học đã giảm xuống chỉ còn 5% so với giai đoạn trước đó là 8%.

Máy thẻ đục lỗ IBM 029. Nguồn: Columbia University Computing History.

Những chiếc máy tính đục lỗ đầu tiên

Trong thời gian Dayhoff học tiến sĩ, Đại học Columbia đang là tâm điểm trong nghiên cứu công nghệ máy tính và rất hãnh diện về thành tựu của mình vì những phòng thí nghiệm máy tính  đầu tiên của Hoa Kỳ đã ra đời tại đây, và đến năm 1945 trường trở thành nơi đặt trụ sở của Phòng thí nghiệm Khoa học IBM Watson, dưới sự lãnh đạo của nhà thiên văn học W. J. Eckert. Phòng thí nghiệm Watson ban đầu đóng vai trò trung tâm điện toán cho phe Đồng minh trong những tháng cuối cùng của Thế chiến II. Sau chiến tranh, đây là nơi phát triển các siêu máy tính đầu tiên, bao gồm chiếc SSEC (Selective Sequence Electronic Calculator) mà Eckert sử dụng để tính toán quỹ đạo mặt trăng cho sứ mệnh Apollo nổi tiếng. 

Công nghệ sẵn có trong tay, Dayhoff kết hợp chuyên môn hóa học của mình với các máy thẻ đục lỗ — tiền thân của những máy tính số hóa về sau. Chiếc máy cho phép bà tự động hóa các tính toán, lưu trữ thuật toán trên một bộ thẻ và dữ liệu trên một bộ thẻ khác. Nhờ vậy, bà xử lý các phép tính nhanh và chính xác hơn nhiều so với tính tay.

Dayhoff quan tâm đặc biệt đối với các hợp chất hữu cơ đa vòng, là các phân tử gồm 3 hoặc nhiều nguyên tử liên kết dạng vòng kín. Bà sử dụng các máy thẻ đục lỗ để thực hiện một lượng lớn các phép tính năng lượng cộng hưởng của các phân tử (phân biệt năng lượng tiềm năng của phân tử ở trạng thái đặc trưng so với trạng thái trung bình) để xác định khả năng xảy ra cũng như khoảng cách của các liên kết hóa học.

Dayhoff tốt nghiệp tiến sĩ ngành hóa lượng tử chỉ trong vòng 3 năm. Công trình nghiên cứu của bà trong thời gian này, với Killball là đồng tác giả, được xuất bản năm 1949 trên tạp chí Journal of Chemical Physics, dưới một tiêu đề đơn giản “Tính toán các năng lượng công hưởng trên máy thẻ đục lỗ”.

Cũng trong năm 1948, Dayhoff kết hôn với Edward Dayhoff, một sinh viên ngành vật lý thực nghiệm mà bà gặp ở Columbia. Năm 1952, họ chuyển về thủ đô Washington DC, Edward làm việc tại Cục Tiêu chuẩn Quốc gia và Dayhoff hạ sinh con gái đầu lòng tên là Ruth. Dayhoff phải tạm dừng nghiên cứu, rời bỏ vị trí nghiên cứu sinh hậu tiến sĩ tại Đại học Maryland để chăm sóc Ruth và cô con gái thứ hai Judith.

Khi bà quay trở lại công việc và xin tiền tài trợ cho nghiên cứu năm 1962, bà đã bị sốc. Viện Sức Khỏe Quốc gia NIH từ chối đơn trên đó ghi Dayhoff là nghiên cứu viên chính, với lời giải thích rằng “bà đã rời xa môi trường nghiên cứu một thời gian và không thể bắt kịp được những tiến bộ nhanh chóng và phức tạp của lĩnh vực này”. Nhà sử học Bruno Strasser viết như vậy trong cuốn sách vừa xuất bản có tựa đề Collecting Experiments: Making Big Data Biology. Kiểu hành xử quanh co như thế với một bà mẹ phải dành thời gian chăm sóc con nhỏ chỉ là chiêu trò quen thuộc của các cơ quan khoa học dùng để cản trở sự tiến bộ của phụ nữ.

Mặc dù thiếu sự trợ giúp của NIH, Dayhoff vẫn ung dung dấn bước vào thập niên tỏa sáng nhất trong sự nghiệp. Năm 1960, bà nhận được lời mời định mệnh từ Robert Ledley, nhà lý sinh học tiên phong mà bà quen biết qua chồng bà, đến làm việc với ông tại Quỹ Nghiên cứu Y sinh Quốc gia tại Silver Spring, Maryland. Ledley biết các kỹ năng máy tính của Dayhoff rất cần thiết đối với mục tiêu hoạt động của Quỹ - đó là kết hợp các ngành điện toán, sinh học, y học với nhau. Bà đã đảm nhiệm chức vụ phó giám đốc tại đây trong 21 năm. 

Sẵn sàng khai thác sức mạnh công nghệ mới

Ở Maryland, Dayhoff được tự do sử dụng chiếc máy tính khổng lồ IBM 7090 hoàn toàn mới của Đại học Georgetown. Hệ thống này được IBM thiết kế để xử lý các tác vụ phức tạp, với tốc độ nhanh gấp 6 lần thế hệ trước. Điều này đạt được là nhờ thay thế công nghệ ống chân không chậm và cồng kềnh bằng các bóng bán dẫn nhanh và hiệu quả hơn (bộ phận tạo ra hệ nhị phân 0 và 1 trong máy tính). Trên hệ thống mới, Dayhoff và Ledley dùng ngôn ngữ FORTRAN để viết một chương trình máy tính tìm và so sánh các trình tự peptide, cố gắng lắp ráp các trình tự từng phần thành protein hoàn chỉnh.

Việc Dayhoff và Ledley sử dụng máy tính để phân tích các vấn đề sinh học và hóa học là một điều bất thường tại thời điểm ấy. “Thói quen áp dụng phân tích thống kê, chứ chưa nói chi đến điện toán kỹ thuật số, hoàn toàn xa lạ đối với phần đông các nhà hóa sinh”, Strasser giải thích trong bài phỏng vấn của Smithsonian. “Một số người còn lấy đó làm tự hào [khi không dùng máy tính để phân tích] vì bản thân không phải ‘nhà lý thuyết suông’, người mà theo họ hiểu là chỉ biết phân tích dữ liệu bằng các mô hình toán học.” 

Tuy nhiên, trong một môn khoa học, sự am hiểu về máy tính của Dayhoff được coi trọng hơn, đó là thiên văn học. Người ta chú ý đến máy tính một phần nhờ vào danh tiếng của W. J. Eckert, người đã dùng máy thẻ đục lỗ IBM để dự đoán quỹ đạo các hành tinh vào năm 1940. Và đến thập niên 1960s, tham vọng khám phá không gian của người Mỹ được đẩy lên cao, cùng với việc gia tăng ngân sách cho NASA. Tại Đại học Maryland, thông qua nhà quang phổ học Ellis Lippincott, bà làm quen Carl Sagan ở Harvard năm 1961, sau đó họ đã cộng tác với nhau 6 năm. Ba người cùng nhau phát triển mô hình nhiệt động học của các thành phần hóa học của vật chất, và Dayhoff nghĩ ra một chương trình máy tính giúp tính toán nồng độ cân bằng các khí trong khí quyển các hành tinh.

Bằng chương trình của Dayhoff, bà cùng Lippincott và Sagan có thể chọn một nguyên tố để phân tích, cho phép họ nghiên cứu nhiều thành phần khác nhau của khí quyển. Cuối cùng, họ đã phát triển được mô hình khí quyển của sao Kim, sao Mộc, sao Hỏa và thậm chí là khí quyển nguyên thủy của Trái đất.

Trong khi khám phá bầu trời, Dayhoff cũng đặt câu hỏi mà các nhà nghiên cứu, ít nhất từ những năm 1950s, cũng đang tìm hiểu: Chức năng của protein là gì? Giải trình tự protein là một cách để có được câu trả lời, nhưng thực hiện trên từng protein riêng lẻ thì rất kém hiệu quả. Dayhoff và Ledley đã có một cách tiếp cận khác biệt. Thay vì phân tích các protein một cách cô lập, họ so sánh các protein từ các loài thực vật và động vật khác nhau. “Bằng cách so sánh trình tự của cùng một loại protein ở các loài khác nhau, chúng ta có thể nhận ra những phần trình tự nào giống hệt trong tất cả các loài, đây là gợi ý tốt cho thấy phần đó đóng vai trò quan trọng đối với lợi ích của protein,” Strasser nói.

Dayhoff còn đi xa hơn, tìm hiểu xem các protein liên quan thế nào với nhau về mặt lịch sử. Bà không chỉ phân tích sự giống nhau giữa protein của các loài, mà còn so sánh các biến thể của chúng. “Họ dùng những khác biệt này làm thước đo khoảng cách tiến hóa giữa các loài, từ đó vẽ được [sơ đồ] cây tiến hóa,” Strasser giải thích.

Bảng điều khiển của cỗ máy IBM 7090 đặt tại Trung tâm Nghiên cứu Ames NASA năm 1961, với hai dãy chạy băng từ IBM 729. Ảnh: NASA.

Dayhoff luôn sẵn sàng khai thác sức mạnh của công nghệ mới, phát triển các phương pháp điện toán hóa để xác định trình tự các protein. Bà chạy chương trình phân tích protein của nhiều loài khác nhau, từ nấm candida đến cá voi. Sau đó, bà sử dụng các khác biệt giữa chúng để xác định mối quan hệ tổ tiên. Năm 1966, nhờ sự trợ giúp của Richard Eck, Dayhoff lần đầu tiên tái tạo nên một phiên bản của cây tiến hóa.

Năm 1969, với bài báo mang tựa đề “Phân tích máy tính về sự tiến hóa của protein,” đăng trên Scientific American, Dayhoff công bố một trong những cây tiến hóa này cùng với nghiên cứu sử dụng máy tính để giải trình tự protein của mình. “Mỗi trình tự protein được thiết lập, mỗi cơ chế tiến hóa được sáng tỏ, mỗi bước tiến quan trọng trong lịch sử phát sinh loài được tiết lộ sẽ cải thiện sự hiểu biết của chúng ta về lịch sử của sự sống,” bà viết. Bà đang cố gắng thuyết phục cộng đồng nghiên cứu khoa học sự sống nhận thấy tiềm năng của các mô hình điện toán.

Mục tiêu tiếp theo của bà là thu thập tất cả các protein đã biết về một chỗ để các nhà nghiên cứu có thể tìm các trình tự và so sánh chúng với các trình tự khác. Không giống như ngày nay khi thật dễ dàng tiếp cận cơ sở dữ liệu điện tử chỉ bằng cách nhập một từ khóa, bấy giờ Dayhoff phải lùng sục các tạp chí bản giấy để tìm protein mình muốn. Trong nhiều trường hợp, điều này đồng nghĩa với việc tra soát lỗi trong các nghiên cứu của đồng nghiệp. Ngay cả với sự trợ giúp của máy tính, công việc thu thập và lập danh mục các trình tự protein vẫn tốn rất nhiều thời gian và cần nhãn quan khoa học sáng suốt.

Khởi đầu một cuộc cách mạng khoa học với tư cách “người ngoài”

Không phải ai cũng nhận ra giá trị của công việc bà làm khi ấy. Đối với các nhà nghiên cứu khác, Dayhoff giống như đang sưu tập và liệt kê các công trình nghiên cứu lịch sử tự nhiên của thế kỷ 19 hơn là nghiên cứu thực nghiệm như một nhà khoa học thế kỷ 20 nên làm. Thu thập, so sánh, phân loại những thứ khác nhau trong tự nhiên dường như là phong cách lỗi thời đối với nhiều nhà sinh học thực nghiệm ở nửa sau của thế kỷ 20,” Stasser nói. Ông đánh giá Dayhoff với tư cách một “người ngoài.” “Bà đóng góp cho một lĩnh vực chưa từng tồn tại trước đây và do đó không được sự thừa nhận về chuyên môn,” ông nói thêm.

Năn 1965, Dayhoff lần đầu tiên xuất bản một tập hợp gồm 65 protein đã biết trong cuốn Atlas of Protein Sequence and Structure, một phiên bản giấy của cơ sở dữ liệu của bà. Cuối cùng, dữ liệu được chuyển sang dạng băng từ, và hiện nay nó vẫn “sống”, các nhà nghiên cứu tiếp tục dùng dữ liệu trực tuyến của bà để tiếp tục tìm thêm hàng ngàn protein. Các cơ sở dữ liệu y sinh khác cũng tham gia vào cuộc đua, trong đó có Protein Data Bank, một tập hợp các protein và nucleic acid được công bố năm 1971, và GenBank, cơ sở dữ liệu trình tự gene được công bố năm 1982. Dayhoff đã khởi đầu một cuộc cách mạng khoa học như thế đó.

“Ngày nay, mỗi công bố đơn lẻ về sinh học thực nghiệm đều mang trong mình sự kết hợp giữa dữ liệu thực nghiệm mới và những suy luận được rút ra từ sự so sánh với dữ liệu khác sẵn có trên các cơ sở dữ liệu mở, một cách tiếp cận do Dayhoff mở đầu cách đây nửa thế kỷ,” Strasser nói.

Khi ngành tin sinh học ngày càng phát triển, công việc thu thập và tính toán đa phần nhờ công phụ nữ. Các cộng tác viên của Dayhoff trong quá trình biên soạn atlas đều thuộc “phái yếu”, trừ Ledley. Giống như những phụ nữ siêu việt ở NASA và những phụ nữ giải mật mã trong Thế chiến II, họ đã sớm bị lãng quên. Nhắc đến “ENIAC girls”, những cô gái đã lập trình cho chiếc máy tính đa năng, số hóa đầu tiên, nhà sử học về điện toán Jenifer Light viết “ngay bên trong cái tư tưởng giam hãm cho rằng phụ nữ chỉ được làm những công việc thấp kém, họ được tuyển dụng vào những công việc mới chưa từng xuất hiện trước đây.”

Khi phác thảo tiểu sử của Dayhoff, Lois T. Hunt, người đã cùng biên soạn atlas với bà, viết rằng Dayhoff tin nghiên cứu của mình về bầu khí quyển nguyên thủy của trái đất có thể giúp bà tìm ra những hợp chất cần thiết để hình thành sự sống. Điều này, có lẽ vượt xa cả điện toán, là thứ gắn kết các mảng nghiên cứu riêng lẻ của Dayhoff với nhau. Từ một protein tí hon đến bầu khí quyển bao la, Dayhoff luôn tìm kiếm bí mật của sự phát sinh sự sống trên hành tinh này. Mặc dù không tự mình mở khóa mọi bí mật, nhưng bà đã trao cho khoa học hiện đại các công cụ và phương pháp để tiếp tục cuộc hành trình vĩ đại.

Cao Hồng Chiến dịch
Nguồn: https://www.smithsonianmag.com/science-nature/how-margaret-dayhoff-helped-bring-computing-scientific-research-180971904/

Nguồn tin: Tia Sáng