Dữ liệu lớn (big data) dường như đã thành một từ quen thuộc với nhiều người. Song dữ liệu lớn từ đâu mà có, ưu và nhược điểm của nó là gì thì không phải ai cũng biết. Bài viết này thiết kế website Quảng Ngãi PVonline chia sẻ lại từ báo Tuổi Trẻ để người dùng hiểu sâu hơn về Big Data.

Trong cuốn sách “Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really” (tạm dịch: Mọi người đều nói dối: dữ liệu lớn, dữ liệu mới và những gì Internet có thể nói với chúng ta rằng chúng ta thực sự là như thế nào) của tác giả Seth Stephens-Davidowitz đã bàn về rất nhiều vấn đề khác nhau liên quan tới dữ liệu lớn.

Qua đó tiết lộ những thông tin thú vị về tâm lý, hành vi và cả những tính khí kỳ quặc của con người. Và từ đó có thể thấy, con người nói chung thường không mấy khi sẵn lòng chia sẻ về những hi vọng cũng như khao khát của cá nhân họ với người khác.

big-data

Seth Stephens-Davidowitz là một chuyên gia trong lĩnh vực dữ liệu Internet nói chung và dữ liệu lớn nói riêng. Ông đã tốt nghiệp 2 trường đại học Stanford và Harvard, đồng thời trước đây đã từng là chuyên gia khoa học về dữ liệu tại Google.

Trong khuôn khổ của Tuổi Trẻ Online, chúng tôi tóm lược những nội dung chính trong cuốn sách của chuyên gia này để bạn đọc có cái nhìn tổng quát, song cũng hết sức thú vị về dữ liệu lớn (big data).

Vén “bức màn” dữ liệu lớn

Thành thực mà nói, bất kể việc chúng ta trung thực tới mức nào với những người xung quanh, ở một chừng mực nhất định chúng ta vẫn sẽ có lúc nói dối.

Cho dù đó là khi ta nói quá lên về những tính cách nhân hậu của mình trong một cuộc điều tra về lối sống, hay không thực lòng khi kể về những hành xử kỳ quặc ta vẫn thường làm khi không có ai khác ở bên.

Nhìn chung mọi người vẫn thường có những hành xử không trung thực ở mức độ nào đó trong cuộc sống hàng ngày.

Tuy nhiên với những khối lượng dữ liệu được thu thập đang ngày càng tăng lên rất nhanh, chẳng hạn như các cú pháp tìm kiếm trên Google (như cách mà Google vẫn thường tổng kết vào mỗi dịp cuối năm), chúng ta đã có thể “quan sát” thật sâu vào phía dưới bề mặt của thực tế đời sống để nhìn ra sự thật.

Với một sự tích tụ dữ liệu lớn tới mức gần như không tưởng về vô số các khía cạnh hành xử của con người, một khối lượng lớn thông tin được thu thập được gọi là dữ liệu lớn sẽ giúp các nhà chuyên môn phân tích, làm rõ các khía cạnh trong hành xử của mỗi người và chỉ ra những sự thật chúng ta chưa từng biết trước đây.

Dữ liệu lớn cảm tính hơn bạn nghĩ

Nhiều người đã nghe nói về dữ liệu lớn nhưng thực chất dữ liệu lớn là gì?

Đúng như tên gọi của nó, dữ liệu lớn là khái niệm dùng để chỉ một khối lượng dữ liệu khổng lồ. Mức độ khổng lồ của dữ liệu lớn tới mức bộ não con người hầu như không thể hiểu được.

Nói cách khác, dữ liệu lớn là một loại dữ liệu mà để xử lý, phân tích và nhận diện các khía cạnh thông tin rút ra từ nó sẽ cần phải dùng tới năng lực xử lý của các hệ thống máy tính/siêu máy tính.

Nhưng có một điều nghịch lý là, bất kể mức độ rất khủng của khối lượng dữ liệu, khoa học dữ liệu lại có một phương diễn rất cảm tính. Thực vậy, nếu bạn nghĩ về khía cạnh này, dường như tất cả chúng ta đều là các nhà khoa học dữ liệu theo một cách nào đó.

Mặc dù khoa học dữ liệu là một quá trình mang tính chất cảm tính, nhưng bản thân sự cảm tính lại không thực sự là khoa học. Đó là vì sao mà việc sử dụng các dữ liệu thu thập một cách chính xác là điều rất cần thiết trong việc giúp định hình thế giới quan của con người.

Nó giúp con người nhìn nhận sự việc có cơ sở và chính xác hơn, thay vì chỉ dựa vào cảm tính mà rất nhiều khi bị chi phối bởi những thiên vị vô hình không thể kiểm soát.

Dữ liệu cung cấp cho chúng ta cơ sở để có thể khẳng định hay phủ định những nhận định mang tính trực giác bắt đầu. Nó cũng giúp chúng ta có được những dự đoán và quan điểm chính xác hơn thay vì chỉ căn cứ vào những trải nghiệm cá nhân.

Ghi chú: Google là ví dụ tiêu biểu cho thế dữ liệu lớn có thể thường xuyên cung cấp những thông tin mới cho chúng ta. Ở phần sau của loạt bài, chúng ta sẽ tìm hiểu lý do vì sao như vậy.

Nguồn: TTO