
Mục Lục
Big Data là gì? Với một thị trường lấy khách hàng làm trung tâm như hiện nay thì việc phân tích được khách hàng là điều vô cùng cần thiết đối với mỗi doanh nghiệp. Big data được ra đời như một sự tất nhiên của thị trường khi mà Internet và công nghệ 4.0 đang cực kỳ phát triển và giúp ích rất nhiều cho các Marketer. Vậy bạn đã hiểu rõ Big data là gì? Nó có cho mình những năng lực nào giúp các thương hiệu có thể thu hút được khách hàng về doanh nghiệp của mình. Cùng Vidcogroup tìm hiểu qua bài viết dưới đây nhé.
Big Data là gì?
Big Data hay được gọi là Dữ liệu lớn đây chính là thuật ngữ mô tả được khối lượng dữ liệu lớn – cả cấu trúc và không có cấu trúc – dữ liệu này cung cấp thông tin cho một doanh nghiệp trên cơ sở hàng ngày. Đó chính là những gì mà các tổ chức làm với dữ liệu quan trọng. Big data có thể được phân tích để có được cho mình thông tin chi tiết dẫn đến các quyết định tốt hơn và các động thái kinh doanh chiến lược. Những bộ dữ liệu này quá lớn đến nỗi các phần mềm xử lý dữ liệu truyền thống không thể quản lý hết được chúng. Nhưng những khối lượng dữ liệu khổng lồ này có thể được sử dụng để giải quyết các vấn đề kinh doanh mà bạn không thể giải quyết được trước đây.

Nguồn gốc và sự phát triển của Big Data
Đối với nhiều người hiện nay thì thuyết trình về Big Data là một thuật ngữ còn khá mới mẻ những thực ra, nguồn gốc của Big Data đã được hình thành và bắt đầu từ những năm 1960 và 1970. Đó là thời điểm mà thế giới dữ liệu chỉ mới bắt đầu với các trung tâm dữ liệu đầu tiên cùng với đó là sự phát triển của cơ sở dữ liệu SQL.
Năm 1984, Tập đoàn Teradata đã cho ra thị trường hệ thống xử lý dữ liệu song song DBC 1012. Đây cũng chính là những hệ thống đầu tiên chuyên về phân tích và lưu trữ tới 1 terabyte dữ liệu. Cho đến năm 2017, có hàng chục cơ sở dữ liệu dựa trên hệ thống của Teradata với dung lượng lên đến hàng petabyte. Trong đó dữ liệu lớn nhất đã vượt qua ngưỡng 50 pentabytes.
Năm 2000, Seisint Inc. (nay là Tập đoàn LexisNexis) đã phát triển thành công khung chia sẻ dữ liệu dựa theo cấu trúc C ++ để truy vấn và lưu trữ dữ liệu. Năm 2004, Gooogle cho ra bài báo về quá trình có tên gọi MapReduce sử dụng một kiến trúc tương tự. MapReduce cung cấp mô hình xử lý song song, cho ra những ứng dụng liên quan để có thể xử lý nhanh lượng dữ liệu khổng lồ. Google triển khai mẫu MapReduce thông qua mã nguồn mở Apache Hadoop.
Năm 2005, con người bắt đầu nhận ra rằng số lượng người dùng được tạo ra thông qua Youtube, Facebook và các dịch vụ trực tuyến khác là cực kỳ lớn. Cùng năm đó, Hadoop (một framework open source được tạo riêng với nhiệm vụ lưu trữ và phân tích BigData) đã được phát triển. Cũng trong khoảng thời gian này, NoSQL cũng bắt đầu trở nên phổ biến. Sự phát triển của các framework ví dụ như Hadoop (hoặc gần đây là Spark) là cần thiết cho sự phát triển của Big Data. Lý do là vì chúng khiến cho Big Data hoạt động dễ dàng hơn và lưu trữ rẻ hơn.
Hiện nay thì khối lượng Big Data đã tăng một cách nhanh chóng, những người sử dụng vẫn đang hàng ngày tạo ra một lượng dữ liệu vô cùng lớn. Tuy nhiên, có một điều thú vị là lượng dữ liệu đó không chỉ của con người mà còn do máy móc tạo ra, thậm chí còn là chủ yếu. Sự ra đời của IoT (Internet of Things), nhiều thiết bị và đối tượng được kết nối với internet, từ đó thu thập dữ liệu về mô hình sử dụng của người dùng và hiệu suất của sản phẩm. Chính sự có mặt của IoT đã tạo ra nhiều dữ liệu hơn.
Đặc trưng của Big Data là gì?
Sau khi hiểu được tổng quan về big data, những đặc trưng của dữ liệu lớn được đặc trưng bởi 3V, trong đó bao gồm:
- Volume (Khối lượng dữ liệu): Với big data, bạn sẽ phải xử lý khối lượng lớn dữ liệu có mật độ thấp, không có cấu trúc. Đây có thể là dữ liệu của giá trị không xác định, chẳng hạn như nguồn cấp dữ liệu Twitter, nhấp chuột trên trang web hoặc ứng dụng dành cho thiết bị di động hoặc thiết bị hỗ trợ cảm biến. Đối với một số tổ chức, điều này có thể là hàng chục terabyte dữ liệu. Đối với những người khác, nó có thể chỉ là hàng trăm petabyte.
- Velocity (Vận tốc mà dữ liệu cần xử lý được và phân tích): Tốc độ là tốc độ nhanh tại đó dữ liệu có thể được nhận và (có thể) đã hành động. Thông thường, tốc độ cao nhất của luồng dữ liệu trực tiếp vào bộ nhớ so với được ghi vào đĩa. Một số sản phẩm thông minh hỗ trợ internet hoạt động trong thời gian thực hoặc gần thời gian thực và sẽ yêu cầu đánh giá và hành động theo thời gian thực.
- Variety (Nhiều loại dữ liệu đa dạng): Nhiều loại đề cập đến nhiều loại dữ liệu có sẵn. Các kiểu dữ liệu truyền thống được cấu trúc và phù hợp gọn gàng trong một cơ sở dữ liệu quan hệ. Các kiểu dữ liệu phi cấu trúc và bán cấu trúc, chẳng hạn như văn bản, âm thanh và video yêu cầu tiền xử lý bổ sung để lấy được ý nghĩa và siêu dữ liệu hỗ trợ.

Các kho dữ liệu lớn được tạo thành từ những dữ liệu. Dữ liệu có thể đến từ các nguồn như ứng dụng trên thiết bị di động, ứng dụng dành cho máy tính để bàn, mạng xã hội, trang web, thí nghiệm khoa học, thiết bị cảm biến và các thiết bị khác trong internet (IoT).
Big Data khi đi kèm cùng với các thành phần có liên quan cho phép các tổ chức đưa dữ liệu vào sử dụng thực tế và giải quyết một số các vấn đề trong kinh doanh. Các vấn đề đó gồm có:
- Các phân tích áp dụng với các dữ liệu
- Cơ sở hạ tầng IT cần thiết để có thể hỗ trợ cho Big Data
- Các công nghệ cần thiết cho những dự án Big Data các bộ kĩ năng có liên quan
- Những trường hợp thực tế có ý nghĩa đối với Big Data.
Phân tích dữ liệu mới chính là giá trị thực sự được mang lại từ các tổ chức dữ liệu lớn. Nếu không có cho mình sự phân tích thì đây chỉ là những dữ liệu được sử dụng vô cùng hạn chế trong việc kinh doanh. Với việc phân tích những dữ liệu lớn, các công ty có thể thu về được cho mình những lợi ích vô cùng to lớn như dịch vụ khách hàng được cải thiện, từ đó mang lại hiệu quả cao hơn, tăng doanh thu và tăng khả năng cạnh tranh.

Việc phân tích dữ liệu có liên quan đến việc kiểm tra được những bộ dữ liệu để có thể thu thập được các thông tin chi tiết hoặc rút ra được các kết luận về những nội dung chúng chứa, ví dụ như các xu hướng và dự đoán về các hoạt động trong tương lai. Bằng việc phân tích được dữ liệu, các tổ chức có thể đưa ra được những quyết định kinh doanh hoàn hảo hơn. Ví dụ các tổ chức có thể quyết định được xem khi nào và ở đâu thì nên chạy cho mình những chiến dịch tiếp thị hoặc giới thiệu sản phẩm, dịch vụ mới. Sự phân tích có thể được tham khảo các ứng dụng kinh doanh tiên tiến, thông minh hơn. Các tổ chức khoa học sử dụng phép phân tích dự đoán như một ứng dụng.
Data mining là loại phân tích dữ liệu cao cấp nhất, là nơi mà các nhà phân tích đánh giá các bộ dữ liệu lớn để xác định được những mối quan hệ, mô hình và xu hướng. Phân tích dữ liệu có thể bao gồm cả việc phân tích dữ liệu thăm dò và phân tích dữ liệu xác nhận. Có một mảng khác chính là phân tích những dữ liệu định lượng (hoặc phân tích dữ liệu số có các biến có thể so sánh theo thống kê) so với phân tích dữ liệu định tính (tập trung vào các dữ liệu không phải dữ liệu cá nhân như văn bản, hình ảnh, video).
Cơ sở hạ tầng IT cần thiết để hỗ trợ Big Data

Đối với khái niệm Big Data để có thể làm việc, các tổ chức cần phải xây dựng được cơ sở hạ tầng để thu thập và chứa dữ liệu, cung cấp quyền truy cập và đảm bảo thông tin trong khi chuyển tiếp và lưu trữ. Cấp độ cao hơn, bao gồm hệ thống lưu trữ và máy chủ được thiết kế cho Big Data, tích hợp dữ liệu và phần mềm quản lý, phần mềm phân tích dữ liệu, thông tin kinh doanh và các ứng dụng Big Data.

Phần lớn các cơ sở hạ tầng này sẽ đều tập trung tại một chỗ vì các công ty muốn tiếp tục tận dụng được những khoản đầu tư vào trung tâm dữ liệu của chính mình. Tuy nhiên, ngày càng có nhiều những tổ chức dựa vào các dịch vụ điện toán đám mây để có thể xử lý được nhiều yêu cầu Big Data của họ.
Thu thập dữ liệu đòi hỏi bạn bắt buộc là phải có cho mình nguồn. Một số ứng dụng như các ứng dụng web, ứng dụng di động, các kênh truyền thông xã hội và lưu trữ email đã được cài đặt sẵn. Tuy nhiên, khi mà IoT trở nên vô cùng phổ biến, các công ty có thể cần phải triển khai được cảm biến trên tất cả các loại thiết bị, sản phẩm và phương tiện của mình để có thể thu thập được dữ liệu, cũng như những ứng dụng mới được tạo ra dữ liệu người dùng. Tất nhiên, phân tích dữ liệu theo định hướng IoT có những kỹ thuật và công cụ chuyên biệt của riêng nó. Để lưu giữ được tất cả những dữ liệu trên, các tổ chức bắt buộc phải có đủ dung lượng lưu trữ tại chỗ. Những tùy chọn lưu trữ bao gồm kho dữ liệu truyền thống, lưu giữ trên đám mây và data lakes (một kho lưu trữ tập trung cho phép bạn lưu trữ tất cả dữ liệu có cấu trúc và không cấu trúc của bạn ở bất kỳ quy mô nào).
Những công cụ cơ sở hạ tầng bảo mật bao gồm việc mã hóa dữ liệu, hệ thống giám sát, tường lửa, xác thực người dùng và những điều khiển truy cập khác, quản lý di động của doanh nghiệp và các sản phẩm khác để có thể bảo vệ được hệ thống và dữ liệu.
Các công nghệ dữ liệu đặc biệt dành cho Big data
Dưới đây là một số công nghệ cụ thể được dành cho Big Data mà cơ sở hạ tầng IT của bạn nên hỗ trợ.
Hệ sinh thái Hadoop
Hadoop là một trong những công nghệ được coi là phổ biến và liên quan mật thiết nhất với Big Data. Apache Hadoop là dự án phát triển phần mềm mã nguồn mở cho máy tính, có khả năng mở rộng, phân tán.

Thư viện phần mềm Hadoop là một khuôn mẫu cho phép bạn có thể xử lý và phân tán được những bộ dữ liệu lớn trên các nhóm máy tính mà sử dụng các mô hình lập trình vô cùng đơn giản. Nó được thiết kế để có thể mở rộng được từ một máy chủ duy nhất sang hàng ngàn những máy khác, mỗi máy lưu trữ cục bộ và cung cấp tính toán. Dự án này bao gồm rất nhiều phần:
- Những tiện ích phổ biến hỗ trợ các phần Hadoop khác: Hadoop Common
- Cung cấp các khả năng truy cập những dữ liệu ứng dụng cao: Hadoop Distributed File System
- Là một khuôn mẫu cho việc lên kế hoạch làm việc và quản lý các tài nguyên cụm: Hadoop YARN
- Là một hệ thống dựa trên YARN để xử lý song song các tập dữ liệu lớn: Hadoop MapReduce.
Data lakes
Data lakes được coi là kho lưu trữ, nó chứa cho mình một khối lượng dữ liệu thô vô cùng khổng lồ ở định dạng gốc cho đến khi những người dùng và doanh nghiệp cần phải sử dụng dữ liệu. Các yếu tố giúp Data lakes tăng trưởng là sự phát triển của IoT và phong trào kỹ thuật số. Các Data lakes được thiết kế sao cho người dùng có thể dễ dàng truy cập vào một lượng lớn dữ liệu bất cứ khi nào có nhu cầu.

Apache Spark
Apache Spark là một phần của hệ sinh thái Hadoop, một khuôn mẫu tính toán cụm nguồn mở được sử dụng để có thể làm công cụ xử lý Big Data trong Hadoop. Spark hiện nay đã trở thành một trong những khuôn mẫu xử lý Big Data vô cùng quan trọng, và nó hoàn toàn có thể triển khai theo rất nhiều cách khác nhau. Nó cung cấp những phương thức hỗ trợ đối với Scala, Python (đặc biệt là Anaconda Python distro), Java, ngôn ngữ lập trình R (R đặc biệt phù hợp với Big Data) và hỗ trợ SQL, streaming data, machine learning và xử lý đồ thị.
In-memory databases
IMDB (cơ sở dữ liệu trong bộ nhớ) là một hệ thống quản lý cơ sở dữ liệu chủ yếu dựa vào Ram thay vì HDD để lưu trữ dữ liệu. Các cơ sở dữ liệu được tối ưu hóa trong đĩa không thể nào nhanh bằng cơ sở dữ liệu trong bộ nhớ Đó là một điểm vô cùng quan trọng để sử dụng phân tích Big Data và tạo ra các kho dữ liệu, các siêu dữ liệu.
NoSQL Databases
Những cơ sở dữ liệu SQL thông thường sẽ được thiết kế cho các truy vấn ngẫu nhiên và các transactin đáng tin cậy. Tuy nhiên, chúng vẫn có những hạn chế như giản đồ cứng nhắc, không phù hợp với một số loại ứng dụng. Cơ sỡ dữ liệu NoSQL đã nêu ra được những hạn chế, lưu trữ và quản lý dữ liệu theo những cách cho phép tốc độ hoạt động cao và có được sự linh hoạt tuyệt vời.
Rất nhiều các cơ sở dữ liệu đã được phát triển bởi các doanh nghiệp để tìm ra cách tốt hơn lưu trữ nội dung hoặc xử lý dữ liệu cho các trang web lớn. Khác với cơ sở dữ liệu SQL. Nhiều cơ sở dữ liệu NoSQL có thể được mở tộng theo chiều ngang trên hàng ngàn máy chủ.
Các kĩ năng Big data

Big Data và phân tích Big Data yêu cầu những kĩ năng cụ thể, dù đó là từ bên trong tổ chức hay thông qua các chuyên gia bên ngoài. Rất nhiều những kĩ năng có liên quan đến các thành phần công nghệ dữ liệu vô cùng quan trọng như Hadoop, NoSQL. Spark, phần mềm phân tích và các cơ sở dữ liệu trong bộ nhớ. Ngoài ra trong từng lĩnh vực cụ thể lại yêu cầu các nguyên tắc khác nhau, như phân tích thống kê và định lượng, hình dung dữ liệu,…. Đặc biệt cũng cần có kĩ năng quản lý tổng thể để quản lý tiến độ của các dự án Big Data. Với sự phổ biến của các dự án phân tích dữ liệu và sự thiếu hụt nhân lực có những kĩ năng trên như hiện nay, việc tìm kiếm các chuyên gia có kinh nghiệm đang là một bài toán khó với rất nhiều tổ chức.
Các trường hợp sử dụng Big data
Big Data và phân tích Big Data có thể áp dụng được rất nhiều trong kinh doanh. Dưới đây sẽ là một vài ví dụ:
- Tối ưu hóa giá cả: Các doanh nghiệp có thể sử dụng dữ liệu phân tích từ Big Data để tối ưu hóa giá cả đặt cho dịch vụ và sản phẩm, từ đó tăng doanh thu.
- Phòng chống gian lận: Việc phân tích dữ liệu có thể giúp cho các tổ chức xác định được các hoạt động khả nghi, các hành vi gian lận từ đó giảm thiểu rủi ro.
- Phân tích hoạt động: Phân tích Big Data có thể giúp cho doanh nghiệp nâng cao hiệu quả hoạt động, cải thiện hiệu suất.
- Phân tích khách hàng: Các doanh nghiệp có thể xem dữ liệu khách hàng để từ đó có thể nâng cao trải nghiệm khách hàng, cải thiện tỉ lệ chuyển đổi cũng như giữ chân khách hàng tốt hơn.