Hãy nhớ rằng một dự án dữ liệu lớn không giống như một dự án thông tin cho kinh doanh. Có lẽ chúng ta nên bắt đầu bằng việc phân tích định nghĩa của thuật ngữ "dữ liệu lớn". Nếu đặt câu hỏi cho nhân viên ở các tổ chức khác nhau về định nghĩa dữ liệu lớn, khả năng cao là chúng ta sẽ nhận được những câu trả lời hoàn toàn khác nhau. Điều này chỉ ra rằng không có sự đồng thuận thực sự về nghĩa của thuật ngữ dữ liệu lớn.
Một phần nguyên nhân cho tình trạng này là do dữ liệu lớn như một thuật ngữ rộng, bao gồm các dự án với những mục tiêu rất khác nhau. Bài viết này sẽ áp dụng các đặc điểm sau đối với 1 dự án dữ liệu lớn:
• Dữ liệu nhìn chung là phức tạp và không có cấu trúc.
• Dữ liệu thường xuyên cần được làm sạch.
• Khó xử lý dữ liệu với các công cụ hiện có.
Trong khi tìm kiếm những lợi ích có thể có của dữ liệu lớn, hãy nhớ rằng một giải pháp dữ liệu lớn là một công nghệ trong khi một kho dữ liệu là kiến trúc. Nhìn chung, mục đích của một kho dữ liệu là để đảm bảo rằng tất cả mọi người trong công ty đang sử dụng cùng một dữ liệu.
Có rất nhiều cách để triển khai một dự án dữ liệu lớn. Tuy nhiên, đa số bài viết đều mở đầu với cùng một lời khuyên ngay từ ban đầu: bắt đầu ở quy mô nhỏ. Bằng cách bắt đầu với một tập hợp con nhỏ hơn của dữ liệu, hoặc thậm chí với các bộ dữ liệu thử nghiệm bên ngoài có sẵn, đội ngũ dữ liệu lớn của bạn có cơ hội để quen thuộc với các công cụ khác nhau sẵn có, giảm căng thẳng và giảm thiểu các nguy cơ sai sót. Khi lựa chọn nhân viên và người đứng đầu các dự án thực tế, nên bắt đầu tìm kiếm từ trong số nhân viên hiện có của bạn. Bên cạnh đó, người lý tưởng để lãnh đạo đội ngũ này nên là người thành thạo về máy tính và hiểu biết về thống kê.
Tùy thuộc vào quy mô tổ chức, bạn có thể có một nhóm Công nghệ thông tin nội bộ (IT). Và nếu bạn có một nhóm như thế, chuyên môn của họ có thể là vô giá. Trên thực tế, tôi đã quan sát thấy xu hướng các nhóm IT cố gắng để chiếm quyền lãnh đạo các dự án thông tin nội bộ khác nhau chỉ bởi vì chúng liên quan đến máy tính. Dù các nhóm này cũng có thể rất nổi trội về chuyên môn trong kết nối mạng, tạo lập cơ sở dữ liệu, hoặc hỗ trợ máy chủ, họ thường không có chuyên môn trong các lĩnh vực then chốt như hóa học, dược phẩm hay bất kỳ kinh nghiệm lâm sàng nào. Chuyên môn trong lĩnh vực này lại đóng vai trò then chốt để có thể lấy các thông tin hữu ích ra khỏi một lượng lớn dữ liệu thô có thể có. Trong trường hợp tốt nhất, tất cả các nhóm này sẽ cùng phối hợp với mục tiêu làm cho dự án thành công. Trường hợp tệ hơn, đôi khi người quản lý phòng thí nghiệm phải giữ vai trò dập tắt mọi đấu đá nội bộ mà có thể là một thách thức lớn. Điều quan trọng là các trưởng nhóm được chỉ định phải duy trì mức trao đổi tốt với quản lý phòng thí nghiệm, không phải để họ có thể giải quyết được tất cả các vấn đề chắc chắn sẽ phát sinh, nhưng để người quản lý phòng thí nghiệm có thể nhận ra và hành động về bất kỳ vấn đề cấp cao hơn mà các trưởng nhóm có thể chưa nhận thức được.
Có nhiều cách khác nhau để thực hiên một dự án dữ liệu lớn, trong đó ba phương pháp tiếp cận phổ biến nhất là:
• Thực hiện dự án với hợp đồng thuê ngoài hoàn toàn.
• Thuê một nhà tư vấn để thực hiện dự án với các nhân viên nội bộ.
• Thực hiện toàn bộ dự án trong nội bộ.
Dù chuyển giao dự án cho một công ty khác có thể ít gây gián đoạn cho hoạt động thông thường của phòng thử nghiệm nhưng nó chứa đầy các nguy cơ tiềm ẩn. Nguy cơ lớn nhất tương tự như khi cho phép đội ngũ IT của công ty nhận dự án: khả năng công ty bên ngoài có đủ chuyên môn để hoàn thành dự án thành công là khá nhỏ.
Hiển nhiên, giải pháp thuê một nhà tư vấn để hỗ trợ thiết kế và lắp đặt hệ thống sẽ mang lại các lợi ích của riêng nó, đặc biệt khi các nguồn nhân lực của bạn tương đối nhỏ. Giải pháp này có một rủi ro tiềm ẩn là bạn trở nên phụ thuộc vào các nhà tư vấn, và khi họ rời đi, nhân viên của bạn vẫn chưa có đủ chuyên môn cần thiết . Vì lý do này, bạn nên tối đa hóa giá trị tư vấn bằng cách cho nhân viên dự án làm việc chặt chẽ với họ để tìm hiểu về quá trình càng nhiều càng tốt
Tiếp đến sẽ là thời điểm để thiết lập một chính sách quản trị dữ liệu/thông tin để quản lý dữ liệu lớn của bạn. Quản trị dữ liệu có thể được định nghĩa là "... hoạch định chính sách và giám sát dữ liệu theo định hướng kinh doanh. Quản trị dữ liệu áp dụng cho cả sáu giai đoạn trước khi dữ liệu lớn được phân phối (Thu thập; Xử lý; Quản lý; Đo lường; Tiêu thụ và Lưu trữ). Thông qua thiết lập các quá trình và các nguyên tắc hướng dẫn, quản trị dữ liệu sẽ quy định các hành vi dựa trên dữ liệu và dữ liệu lớn cần phải được điều chỉnh theo mục đích sử dụng".
Kế hoạch này mô tả cách thức thu thập, xử lý, quản lý và lưu trữ dữ liệu. Thêm vào đó, tài liệu này xác định người có quyền truy cập vào dữ liệu. Trong khi công ty thường có các quan ngại về sở hữu trí tuệ đối với các dữ liệu, vẫn tồn tại nhiều lo ngại khác về mặt đạo đức và quản lý. Hiên đang có hơn 80 quốc gia có luật riêng tư dữ liệu.
Cùng với chính sách quản trị dữ liệu, bạn cũng nên cho nhóm của mình xem xét trạng thái của dữ liệu hiện tại để tối đa hóa sự hữu ích của nó. Không nên xóa/tẩy dữ liệu. Dữ liệu lớn thường không có cấu trúc hoặc ít nhất là bán cấu trúc, cách duy nhất để tiến hành dự án một cách tin cậy là đảm bảo rằng bạn xây dựng được siêu dữ liệu liên quan đến dữ liệu của bạn (hay nói cách khác, dữ liệu về dữ liệu). Điều này thậm chí còn quan trọng hơn nếu bạn đang lấy dữ liệu từ nhiều nguồn khác nhau, chẳng hạn như các phòng thí nghiệm vệ tinh.
Cuối cùng, phải lựa chọn các công cụ cần thiết và đào tạo cách sử dụng cho đội ngũ . May mắn là điều này có phần dễ dàng vì có nhiều khóa học trực tuyến về phân tích dữ liệu và các công cụ dữ liệu lớn đa dạng có sẵn. Đa phần các khóa học này được miễn phí hoặc không đắt đỏ, mặc dù một số khóa có thể lên tới hàng ngàn đô la. Dù chỉ tập trung vào sử dụng phần mềm Hadoop của Apache trong một môi trường phát triển tích hợp Linux/Unix, cuốn sách Agile Data Science của Russell Jurney là một bài giảng tốt về phương pháp tiếp cận để xử lý dữ liệu lớn và thiết lập môi trường phần mềm cần thiết.
Nhiều nhà cung ứng có phiên bản dùng thử sản phẩm của họ sẵn có để đánh giá, do vậy đội ngũ của bạn có thể chọn lựa những sản phẩm đáp ứng tốt nhất nhu cầu. Trong một số trường hợp, đấy có thể là máy ảo được cấu hình và tích hợp sẵn mà bạn chỉ có thể cài đặt và chạy. Ở các trường hợp khác, họ có thể cung cấp hướng dẫn trực tuyến về cách tải về, cấu hình, và chạy các ứng dụng. Hầu hết các nhà cung cấp điện toán đám mây cũng đưa ra quyền truy cập trực tuyến miễn phí tới các hệ thống của họ để đánh giá. Trong hầu hết các trường hợp, sẽ có các webcast (bài phát thanh trên web) liên quan có sẵn để hỗ trợ trong việc đánh giá và sử dụng các gói này. Đa số những “gói” phần mềm này dựa trên khung Hadoop, nhưng ngày càng có thêm các lựa chọn khác cho bạn.
Sẽ mất thời gian đáng kể để đánh giá cả các công cụ và dữ liệu của bạn. Bạn nên dành khoảng 18 tháng trước khi tuyên bố một dự án dữ liệu lớn để đảm bảo thành công.
Hoài Anh dịch (Theo www.labmanager.com)
Tin bài khác