Số điện thoại: 024 6683 9670
[Vietnamese]
[English]

Tiến bộ khoa học dữ liệu lớn

16/04/2016

Hỏi: Bà làm thế nào để xác định dữ liệu lớn?

Đáp: Trong vài thập kỷ qua, đã có rất nhiều dữ liệu được tạo ra sử dụng các loại phép đo và công nghệ khác nhau, chẳng hạn như dữ liệu về gen, dữ liệu giải trình tự ADN, dữ liệu biểu hiện gen và còn nhiều hơn nữa. Trong khoa học y sinh, dữ liệu lớn thực sự là một bộ sưu tập rất nhiều loại thông tin khác nhau thu thập được bằng cách đo lường các loại thực thể phân tử phong phú. Một nguồn dữ liệu lớn chính là hồ sơ y tế điện tử. Rất nhiều thông tin y tế và hồ sơ hiện đang được cung cấp thông qua hệ thống máy tính và đã mang lại một cái nhìn khác về dữ liệu lớn. Dữ liệu lớn bao gồm rất nhiều thông tin cá nhân thu thập được từ các thiết bị di động, trong đó có cả những thứ như hệ thống định vị toàn cầu (GPS). Dữ liệu lớn thực sự là giao điểm của tất cả các loại dữ liệu khác nhau, đồng thời được dùng để hỏi và trả lời đủ loại câu hỏi thú vị. Điều này cung cấp cho chúng ta một cơ hội để áp dụng và phát triển các kỹ thuật tính toán cho dữ liệu, và tôi đặc biệt quan tâm đến việc sử dụng những công cụ này để đặt các câu hỏi mới về các căn bệnh. Tôi muốn biết chúng ta có thể sử dụng những phương pháp tính toán các loại dữ liệu khác nhau như thế nào cho việc hiểu rõ hơn các căn bệnh và phát triển các chiến lược chẩn đoán cũng như điều trị tốt hơn.

Hỏi: Bà làm thế nào để đặt những câu hỏi chính xác từ đó nhận được nhiều thông tin hơn từ các dữ liệu có sẵn?

Đáp: Về việc đặt câu hỏi chính xác, trước tiên bạn phải tìm ra các vấn đề trong lĩnh vực này là gì. Sau đó, bạn phải tìm ra cách sử dụng các dữ liệu cũng như các nguồn dữ liệu mà bạn có để giải quyết những vấn đề này. Trong khoa học y sinh, nó có thể bao gồm việc đọc các tài liệu để tìm ra những câu hỏi chưa được trả lời cũng như các bước tiếp theo là gì. Tại các lĩnh vực khác, nó có thể liên quan đến việc sử dụng các dữ liệu có sẵn để loại bỏ một nút thắt nhất định trong một quy trình hoặc trong phân tích. Phương pháp chạy dữ liệu có thể rất hữu ích và được áp dụng để giải quyết bất kỳ loại câu hỏi nào.

Hỏi: Bà đang sử dụng dữ liệu lớn như thế nào để trả lời các câu hỏi của mình?

Đáp: Tôi có thể cung cấp một ví dụ về một dự án mà hiện tại tôi đang thực hiện có liên quan đến việc nghiên cứu vấn đề sinh non. Ý tưởng là sử dụng tất cả các loại dữ liệu khác nhau để xác định các yếu tố nguy hiểm đối với cá nhân có thể có nguy cơ sinh non. Ở đây chúng tôi đang sử dụng phương pháp di truyền học quần thể để xác định sự khác nhau giữa những người sinh non và những người khỏe mạnh, từ đó cố gắng xác định các biến thể di truyền cụ thể có thể liên quan tới sinh non.

Ngoài ra, chúng tôi cũng đang tìm kiếm các yếu tố môi trường có thể cũng góp phần gây ra hiện tượng sinh non. Chúng tôi đang cố gắng liên kết dữ liệu về di truyền và môi trường với nhau để xem làm thế nào những yếu tố này có thể tương tác với nhau. Bên cạnh đó, chúng tôi cũng đang tìm kiếm các loại dữ liệu, chẳng hạn như từ microbiome người và các phép đo lường hệ thống miễn dịch. Ý tưởng là đặt tất cả các loại dữ liệu khác nhau vào với nhau để xem liệu có bất kỳ sự tương tác nào giữa các yếu tố nguy cơ hay không và liệu chúng ta có thể sử dụng chúng để xác định các quần thể có nhiều nguy cơ sinh non hay không.

Hỏi: Bà phải đối mặt với những thách thức nào khi phân tích dữ liệu lớn và bà đang hy vọng vào những cải tiến nào?

Đáp: Có một số những thách thức khi liên kết các loại dữ liệu khác nhau, cả khi thực hiện các phân tích riêng biệt cho mỗi phương thức và sau đó liên kết các kết quả, lẫn khi liên kết tất cả các dữ liệu với nhau trước rồi sau đó mới thực hiện một phân tích toàn diện. Đối với dự án của chúng tôi, các dữ liệu được thu thập trên các quần thể khác nhau, sau đó chúng tôi cố gắng sử dụng các kiểu gen mẫu để liên kết tất cả và có những thách thức liên quan đến công việc này. Chúng tôi cũng thực hiện xác định giá trị khi chúng tôi tìm ra các thông số nhất định. Việc xác nhận này lại là một thách thức khác, nhưng đây là việc nhất định phải thực hiện. Phân tích tính toán là một công cụ tuyệt vời để lập nên các giả thuyết, nhưng chúng ta phải quay trở lại với sinh học để hiểu những gì đang xảy ra và thực nghiệm cần phải được thực hiện.

Hỏi: Những thử thách này có thể được giải quyết hoàn toàn không hay chúng chính là bản chất khi làm việc với dữ liệu lớn?

Đáp: Đối với chúng tôi, có những thách thức khi liên kết các loại dữ liệu khác nhau và khi đưa ra các giả định, bởi vì không phải tất cả chúng đều được thu thập từ cùng một vùng dân cư. Nếu chúng tôi có thể lấy dữ liệu từ các đối tượng mang triệu chứng bệnh rõ rệt, những người có tất cả các dữ liệu di truyền chúng tôi cần, hồ sơ y tế điện tử và thông tin nền tảng trên điện thoại di động của từng cá nhân, chúng tôi có thể giảm một số những thách thức liên quan đến phân tích dữ liệu và cập nhật. Tuy nhiên, có lẽ nhiều thách thức sẽ phát sinh hơn khi chúng tôi phát triển công nghệ mới. Việc hiểu được giả định khi tạo ra từng loại dữ liệu luôn luôn quan trọng, bất kể những thách thức đang tồn tại.

Hỏi: Tìm và đào tạo những người làm phân tích có phải là một thách thức đối với bà?

Đáp: Có ba cách để bước vào lĩnh vực sinh học. Bạn có thể bắt đầu như một nhà sinh vật học, sau đó lựa chọn khoa học máy tính và lập trình. Bạn có thể bắt đầu như một nhà khoa học máy tính và học sinh học sau này, hoặc bạn có thể bắt đầu làm cả hai cùng một lúc. Sẽ dễ dàng hơn nếu bạn có thể làm cả hai cùng một lúc. Không phải là quá phổ biến hoặc dễ dàng để tiếp thu các kỹ thuật tính toán sau này. Nếu tôi được tư vấn cho những người đang tìm cách để bước vào lĩnh vực tin sinh học, tôi sẽ khuyên họ làm cả hai: sinh học và khoa học máy tính với nhau hoặc có được đào tạo tính toán trước tiên. Bởi vì chúng ta đã tạo ra nhiều dữ liệu nhất trong tất cả các lĩnh vực khác nhau, việc có một nền tảng về thống kê hoặc tính toán sẽ rất hữu ích.

Hỏi: Bà có nhận thấy bất kỳ xu hướng nào trong các công cụ có sẵn để phân tích hoặc diễn họa dữ liệu?

Đáp: Chúng tôi thực hiện rất nhiều phân tích bằng cách sử dụng phần mềm thống kê R. Tìm hiểu nó không quá khó khăn và đã có rất nhiều phương pháp thực hiện. Xét về mặt kỹ thuật “machine learning”, có một khu vực được gọi là “deep learning” đang dần được phổ biến. Nó đã được áp dụng rộng rãi trong các lĩnh vực hình ảnh, để nhận dạng đối tượng thông qua phân tích hình ảnh và đã rất thành công. Các ứng dụng của “deep learning” trong các lĩnh vực khác mới chỉ là bước đầu và đó chính là điều mà tôi sẽ phải tìm ra. Chúng ta cần phải hiểu các loại dữ liệu nào có thể được áp dụng. “Deep learning” cũng có thể hữu ích đối với hình ảnh y tế cũng như cho việc phân tích gen và các loại dữ liệu.

Hỏi: Có vấn đề nào cần tìm hiểu trong lĩnh vực bảo mật dữ liệu hay lưu trữ dữ liệu không?

Đáp: Chúng tôi đang chuyển rất nhiều phân tích của chúng tôi vào trong nền tảng đám mây (the cloud) và đó là một xu hướng mà nhiều khả năng sẽ còn tiếp tục. Chắc chắn sẽ có những lo ngại xung quanh việc bảo mật dữ liệu khi nói đến dữ liệu di truyền và y học, nhưng cũng đã có những nhóm làm việc cụ thể về vấn đề này. Do việc dễ dàng truy cập nên nhiều phân tích và dữ liệu lưu trữ hơn sẽ có khả năng được chuyển đến nền tảng đám mây. Với càng nhiều nỗ lực hợp tác theo cách này, càng nhiều người sẽ muốn có một nền tảng dựa vào đám mây để chia sẻ dữ liệu cũng như các phân tích của mình.

Hỏi: Bà có khuyến nghị nào về việc sử dụng các phần mềm có mã nguồn mở không?

Đáp: Chúng tôi có xu hướng sử dụng nhiều phần mềm mã nguồn mở và các phần mềm cũng như phương pháp chúng tôi phát triển cũng được chia sẻ, sẵn sàng cho các cộng đồng nghiên cứu. Trong cộng đồng khoa học, con đường phía trước là để chia sẻ dữ liệu và phương pháp luận. Chúng tôi cũng thực hiện rất nhiều phân tích dựa trên các số liệu được công bố công khai. Ví dụ, chúng tôi thường xuyên sử dụng Biểu hiện gen Omnibus (GEO), một cơ sở dữ liệu có chứa dữ liệu từ hơn 1,6 triệu thí nghiệm “microarray”. Bất cứ khi nào một thí nghiệm “microarray” mới được công bố, các dữ liệu phải được công bố công khai thông qua cơ sở dữ liệu này. Có rất nhiều cơ sở dữ liệu công khai như vậy và khai thác tất cả các dữ liệu là vô cùng quan trọng. Tôi vô cùng tin tưởng vào phần mềm mã nguồn mở, cả về phương pháp phân tích và dữ liệu. Khi chúng tôi làm các phân tích, chúng tôi sử dụng và kết hợp một vài phương pháp tiếp cận khác nhau dựa trên các số liệu tương tự. Một số bao gồm các phương pháp đã được phát triển tốt và một số khác do chúng tôi tự phát triển, sau đó chúng tôi tìm ra cái phù hợp. Xác định giá trị và hiểu biết sau cùng về sinh học cũng rất quan trọng với công việc mà chúng tôi đang thực hiện.

Hỏi: Bà có lời khuyên nào cho các nhà quản lý phòng thử nghiệm đang tìm kiếm đánh giá và sử dụng các công cụ tin sinh học cho công việc của mình không?

Đáp: Tôi muốn nhấn mạnh tầm quan trọng của việc cân nhắc về phương pháp tính toán và tìm hiểu những câu hỏi nào có thể được hỏi cũng như trả lời bằng cách sử dụng dữ liệu có sẵn cho họ. Có hai cách để quan sát nó. Một là xem xét dữ liệu và tìm những loại câu hỏi có thể được giải quyết bằng cách sử dụng dữ liệu. Hoặc, bạn có thể nhìn vào các vấn đề nội tại đang tồn tại và tìm những cái có thể được giải quyết bằng cách sử dụng dữ liệu bên ngoài. Bắt đầu tìm kiếm những tác động của khoa học dữ liệu trong các lĩnh vực khác và xem liệu bạn có thể làm tương tự cho lĩnh vực của mình không. Hãy thử nghĩ về đột phá công nghệ trong các lĩnh vực khác và cách thức mà ngành công nghiệp của bạn có thể được thay đổi theo cách tương tự.

Theo www.labmanager.com