Thuật ngữ "Dữ liệu lớn", còn gọi là Big Data, là một trong những thuật ngữ trong lĩnh vực công nghệ được nhắc đến thường xuyên nhất hiện nay. Thế nhưng, liệu người sử dụng Internet hiện nay có thực sự hiểu rõ thuật ngữ này? Chúng ta hãy cùng tìm hiểu qua bài viết dưới đây nhé!

Dữ liệu lớn (Big data) là gì?

Dữ liệu lớn (big data) có thể được định nghĩa một cách đơn giản là những luồng dữ liệu (data) cực kỳ lớn (cho nên gọi là big data) và có cấu tạo cực kỳ hỗn loạn, đến mức các hệ thống công nghệ xử lý dữ liệu thông thường không thể xử lý nổi.

Thường thì big data có cấu trúc vượt xa những luồng dữ liệu thông thường trong 3 chiều hướng (được gọi là 3V's trong tiếng Anh): dung lượng (volume), tốc độ (velocity) và chủng loại (variety). Chính điều này đã khiến cho việc xử lý big data trở nên vô cùng khó khăn, và cần thiết. Lý do là vì nhiều chuyên gia trong lĩnh vực tin rằng số lượng các big data sẽ tiếp tục tăng lên theo thời gian.

Nguồn: carrier.huawei.com

Tại sao nghiên cứu về Dữ liệu lớn (Big data) là điều quan trọng?

Được biết, từ khi các hệ thống xử lý dữ liệu vi tính bắt đầu ghi nhận lại những luồng dữ liệu đầu tiên cho đến hết năm 2003, trên thế giới đã có khoảng 5 tỷ gigabytes dữ liệu.

Vào năm 2011, người ta ghi nhận rằng cùng một lượng dữ liệu đó đã được tạo ra chỉ trong vòng 2 ngày. Vào năm 2013, cùng một lượng dữ liệu đó đã được tạo ra chỉ trong vòng 10 phút.

Theo ghi nhận của các hệ thống xử lý dữ liệu, khoảng 90% kho dữ liệu kể từ khi bắt đầu ghi nhận cho đến nay đều là những dữ liệu được tao ra chỉ trong vài năm gần đây. Những dữ liệu này nếu có thể được khai thác sẽ trở nên rất hữu ích, thông qua những hệ thống xử lý dữ liệu lớn hiện nay như Impala, Cassandra, Hadoop, Spark và Scala.

Các nền tảng xử lý & phân tích big data. Nguồn: RoseIndia

Một vài ví dụ về Dữ liệu lớn (Big data)

Trên thế giới có rất nhiều dẫn chứng và ví dụ về big data và các thiết bị, công nghệ đang được sử dụng để khai thái và xử lý những nguồn thông tin khổng lồ này.

Cỗ máy Gia tốc Hạt (Large Hardon Collider - viết tắt LHC), được chế tạo để giúp các nhà khoa học nghiên cứu sâu hơn về vụ nổ Big Bang - được cho là tác nhân đã tạo nên sự hình thành của vũ trụ - cùng các chiều không gian khác mà giác quan của con người vẫn chưa cảm nhận được, là một ví dụ điển hình của các thiết bị xử lý big data. Cỗ máy LHC được đặt ở sâu dưới lòng đất, trong khu vực biên giới Pháp-Thụy Sĩ.

Kích thước khổng lồ của cỗ máy LHC tại Pháp-Thụy Sĩ. Nguồn: sixthtone.com

Nhiệm vụ của cỗ máy này là ghi nhận lại tất cả những vụ va chạm giữa các hạt sơ cấp (các hạt siêu nhỏ cấu thành nên vũ trụ - như neutrino, photon, quark, lepton...) để giúp cho quá trình nghiên cứu của các nhà khoa học. Được biết, trong mỗi giây, có đến khoảng 600 triệu vụ va chạm xảy ra, tạo ra 500 exabyte dữ liệu mỗi ngày (cao gấp 200 lần các nguồn dữ liệu khác trên thế giới gộp lại), và được LHC xử lý và lọc ra chỉ 100 vụ để nghiên cứu. Việc xử lý này đòi hỏi LHC phải có khả năng xử lý một nguồn dữ liệu khổng lồ và với tốc độ cao.

Trạm quan sát thiên văn SDSS tại New Mexico, Mỹ. Nguồn: releases.jhu.com

Một ví dụ khác là những trạm quan sát thiên văn khổng lồ như Sloan Digital Sky Survey (SDSS) ở New Mexico, Mỹ và Tianyan (tạm dịch: Thiên Nhãn, tên tiếng Anh là FAST) ở Trung Quốc. Được biết, trạm quan sát SDSS tại New Mexico thu nhận được khoảng 200GB dữ liệu thiên văn mỗi đêm - lớn hơn tổng dữ liệu mà toàn ngành thiên văn đã ghi nhận được trong quá khứ. Trong khi đó, Tianyan/FAST sử dụng hệ thống lưu trữ dữ liệu NGAS phát triển bởi Trung tâm Nghiên cứu Thiên văn qua Radio (ICRAR) và Trung tâm Quan sát Thiên văn Nam Âu (European Southern Observatory) với khả năng xử lý 3 petabyte dữ liệu mỗi năm. Đây đều là những con số khổng lồ và đòi hỏi khả năng xử lý dữ liệu lớn ở những trạm thiên văn này.

Đài thiên văn Thiên Nhãn/FAST tại Quý Châu, Trung Quốc. Nguồn: Wired

Một số những ví dụ mà chúng ta có thể quan sát trong đời sống thường ngày là những thiết bị bán hàng tự động trong các cửa hàng bán thức ăn nhanh (ví dụ: McDonald's, Burger King...) hoặc trong các quán bia, hoặc các chuỗi siêu thị lớn. Dữ liệu được ghi nhận về những giao dịch từ mỗi một khách hàng đơn lẻ là một lượng thông tin khổng lồ, và chỉ có thể được xử lý một cách hiệu quả thông qua các hệ thống xử lý big data.

Máy bán hàng tự động tại McDonald's. Nguồn: fool.com

Dữ liệu lớn (Big data) và những thử thách trong tương lai

Tuy big data có thể được ứng dụng trong nhiều lĩnh vực quan trọng trên thế giới, nhiều chuyên gia cho biết, việc khai thác và xử lý những nguồn dữ liệu khổng lồ này cũng là một vấn đề nan giải.

Lý do đầu tiên là bởi vì những nguồn dữ liệu này quá lớn và đang trên đà gia tăng về số lượng theo cấp số nhân - cụ thể là cứ mỗi 2 năm, số lượng big data tăng lên gấp đôi. Như vậy, cho dù các hệ thống và loại hình công nghệ xử lý dữ liệu mới vẫn liên tục được sản xuất, giới chuyên gia cho rằng việc bắt kịp với mức độ tăng trưởng của big data là rất khó khăn.

Nguồn: berliner-zeitung.de

Bên cạnh đó, việc xử lý và phân tích big data sau khi dự trữ được chúng thường là cả một quá trình phức tạp và mất nhiều thời gian. Được biết, những nhà phân tích dữ liệu (data scientists) thường phải dành ra từ 50-80% thời gian làm việc của họ cho việc đọc hiểu và phân tích big data.

Cuối cùng là, việc bản thân các loại hình công nghệ và các nền tảng xử lý và phân tích big data cũng liên tục được thay đổi và phát triển. Do đó, các nhà phân tích sẽ cần phải liên tục cập nhật cho mình những nền tảng và hình thức xử lý dữ liệu mới.

0 nhận xét:

Đăng nhận xét

 
Gia Đại Ka © 2017. All Rights Reserved. Powered by GiaDaiKa