Đề Thi Thử Trắc Nghiệm Online - Môn Dữ Liệu Lớn (Bigdata)

Đề Thi Thử Trắc Nghiệm Online – Môn Dữ Liệu Lớn (Bigdata) tổng hợp câu hỏi trắc nghiệm chứa đựng nhiều dạng bài tập, bài thi, cũng như các câu hỏi trắc nghiệm và bài kiểm tra, trong bộ Đại Học. Nội dung trắc nghiệm nhấn mạnh phần kiến thức nền tảng và chuyên môn sâu của học phần này. Mọi bộ đề trắc nghiệm đều cung cấp câu hỏi, đáp án cùng hướng dẫn giải cặn kẽ. Mời bạn thử sức làm bài nhằm ôn luyện và làm vững chắc kiến thức cũng như đánh giá năng lực bản thân!

Đề 01

Đề 02

Đề 03

Đề 04

Đề 05

Đề 06

Đề 07

Đề 08

Đề 09

Đề 10

Đề 11

Đề 12

Đề 13

Đề 14

Đề 15

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!

Trắc nghiệm Dữ liệu lớn (BigData)

Trắc nghiệm Dữ liệu lớn (BigData) - Đề 01

1 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 1: Trong kiến trúc Hadoop HDFS, thành phần nào chịu trách nhiệm quản lý siêu dữ liệu (metadata) của hệ thống tệp, bao gồm thông tin về vị trí các khối dữ liệu và không gian tên (namespace)?

NameNode

DataNode

Secondary NameNode

JobTracker

Câu hỏi kiểm tra kiến thức về thành phần chính trong HDFS chịu trách nhiệm quản lý metadata.

2 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 2: Một công ty thương mại điện tử muốn phân tích hành vi duyệt web và mua sắm của khách hàng để cá nhân hóa trải nghiệm và tăng doanh số. Phương pháp phân tích dữ liệu lớn nào sau đây phù hợp nhất để khám phá các mẫu ẩn và mối quan hệ trong dữ liệu khách hàng?

Thống kê mô tả cơ bản (Descriptive Statistics)

Báo cáo tổng hợp (Summary Reporting)

Khai thác dữ liệu (Data Mining) và Học máy (Machine Learning)

Truy vấn SQL ad-hoc

Câu hỏi tình huống về ứng dụng phân tích dữ liệu lớn trong thương mại điện tử, yêu cầu chọn phương pháp phân tích phù hợp.

3 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 3: Để xử lý và phân tích một lượng lớn dữ liệu nhật ký web (web logs) có định dạng phi cấu trúc (unstructured), công cụ nào trong hệ sinh thái Hadoop sau đây được thiết kế để cung cấp một lớp truy vấn dữ liệu giống SQL, giúp người dùng dễ dàng truy vấn và phân tích dữ liệu mà không cần viết mã MapReduce phức tạp?

Apache Pig

Apache Hive

Apache Spark

Apache HBase

Câu hỏi về công cụ trong Hadoop ecosystem giúp truy vấn dữ liệu phi cấu trúc bằng SQL-like syntax.

4 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 4: Giả sử bạn có một cụm Hadoop gồm nhiều DataNode. Khi một DataNode bị lỗi, điều gì sẽ xảy ra với dữ liệu được lưu trữ trên DataNode đó trong HDFS?

Dữ liệu sẽ bị mất vĩnh viễn vì không có bản sao lưu.

Hệ thống sẽ ngừng hoạt động cho đến khi DataNode bị lỗi được thay thế.

NameNode sẽ tự động khôi phục dữ liệu từ Secondary NameNode.

HDFS sẽ tự động sao chép các khối dữ liệu từ các DataNode khác để duy trì số lượng bản sao như cấu hình.

Câu hỏi kiểm tra kiến thức về cơ chế đảm bảo tính sẵn sàng và chịu lỗi của HDFS khi DataNode gặp sự cố.

5 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 5: Trong mô hình lập trình MapReduce, giai đoạn 'Map' có vai trò chính là gì?

Xử lý song song các khối dữ liệu đầu vào và tạo ra các cặp khóa-giá trị trung gian.

Tổng hợp và giảm dữ liệu trung gian để tạo ra kết quả cuối cùng.

Quản lý tài nguyên và phân phối công việc cho các node trong cụm.

Đảm bảo tính toàn vẹn và nhất quán của dữ liệu trong quá trình xử lý.

Câu hỏi tập trung vào vai trò cốt lõi của giai đoạn Map trong mô hình MapReduce.

6 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 6: Công nghệ NoSQL thường được ưa chuộng hơn so với cơ sở dữ liệu quan hệ truyền thống (RDBMS) trong các ứng dụng dữ liệu lớn vì lý do chính nào?

NoSQL cung cấp tính năng ACID (Atomicity, Consistency, Isolation, Durability) mạnh mẽ hơn.

NoSQL dễ dàng cài đặt và quản lý hơn RDBMS.

NoSQL có khả năng mở rộng theo chiều ngang (horizontally scalable) tốt hơn và xử lý hiệu quả dữ liệu phi cấu trúc hoặc bán cấu trúc.

NoSQL hỗ trợ ngôn ngữ truy vấn SQL tiêu chuẩn, giúp dễ dàng chuyển đổi từ RDBMS.

Câu hỏi so sánh NoSQL và RDBMS trong bối cảnh Big Data, tập trung vào lý do ưu thế của NoSQL.

7 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 7: Để xử lý dữ liệu dòng (streaming data) thời gian thực, ví dụ như dữ liệu từ cảm biến IoT hoặc nhật ký sự kiện trực tuyến, nền tảng xử lý dữ liệu lớn nào sau đây được thiết kế chuyên biệt?

Hadoop MapReduce

Apache Kafka và Apache Flink/Spark Streaming

Apache Hive

Cơ sở dữ liệu quan hệ (RDBMS)

Câu hỏi về nền tảng Big Data phù hợp cho xử lý dữ liệu stream thời gian thực.

8 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 8: Trong kiến trúc YARN (Yet Another Resource Negotiator) của Hadoop 2.x, thành phần nào chịu trách nhiệm quản lý tài nguyên cụm (CPU, bộ nhớ) và phân phối tài nguyên cho các ứng dụng khác nhau?

ResourceManager

NodeManager

ApplicationMaster

JobHistoryServer

Câu hỏi về thành phần quản lý tài nguyên cụm trong kiến trúc YARN.

9 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 9: Bạn cần lưu trữ dữ liệu có cấu trúc linh hoạt, dạng key-value, và yêu cầu truy cập dữ liệu với độ trễ thấp (low latency). Loại cơ sở dữ liệu NoSQL nào sau đây phù hợp nhất cho trường hợp này?

Document Database (ví dụ: MongoDB, Couchbase)

Column-Family Database (ví dụ: Apache Cassandra, HBase)

Key-Value Store (ví dụ: Redis, Memcached, Amazon DynamoDB)

Graph Database (ví dụ: Neo4j, Amazon Neptune)

Câu hỏi tình huống về lựa chọn loại NoSQL database dựa trên yêu cầu về cấu trúc dữ liệu và hiệu suất.

10 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 10: Thuật ngữ 'Schema-on-Read' thường được liên kết với loại cơ sở dữ liệu nào và nó mang lại lợi ích gì trong xử lý dữ liệu lớn?

Cơ sở dữ liệu quan hệ (RDBMS); Đảm bảo tính toàn vẹn và nhất quán dữ liệu.

Cơ sở dữ liệu NoSQL; Linh hoạt trong việc xử lý dữ liệu có cấu trúc không đồng nhất và thay đổi theo thời gian.

Hệ thống tệp phân tán (HDFS); Tối ưu hóa hiệu suất đọc dữ liệu lớn.

Hệ thống quản lý hàng đợi tin nhắn (Message Queue); Đảm bảo truyền tải dữ liệu tin cậy.

Câu hỏi về khái niệm 'Schema-on-Read' liên quan đến NoSQL và lợi ích của nó.

11 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 11: Trong ngữ cảnh Big Data, 'Data Lake' (hồ dữ liệu) là gì và nó khác biệt như thế nào so với 'Data Warehouse' (kho dữ liệu)?

Data Lake và Data Warehouse là các thuật ngữ đồng nghĩa, chỉ các hệ thống lưu trữ dữ liệu lớn.

Data Lake là một tập hợp các Data Warehouse được liên kết với nhau.

Data Warehouse lưu trữ dữ liệu thô, còn Data Lake lưu trữ dữ liệu đã được xử lý và làm sạch.

Data Lake lưu trữ dữ liệu thô ở nhiều định dạng khác nhau, trong khi Data Warehouse lưu trữ dữ liệu đã được cấu trúc và chuyển đổi cho mục đích phân tích cụ thể.

Câu hỏi so sánh Data Lake và Data Warehouse, tập trung vào định nghĩa và sự khác biệt.

12 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 12: Phương pháp 'lấy mẫu dữ liệu' (data sampling) được sử dụng trong phân tích dữ liệu lớn nhằm mục đích chính nào?

Giảm thiểu khối lượng dữ liệu cần xử lý để tăng tốc độ phân tích và giảm chi phí tính toán.

Tăng độ chính xác của kết quả phân tích bằng cách loại bỏ dữ liệu nhiễu.

Đảm bảo tính bảo mật của dữ liệu bằng cách chỉ phân tích một phần dữ liệu.

Tạo ra các bản sao dữ liệu để dự phòng trong trường hợp mất dữ liệu.

Câu hỏi về mục đích sử dụng kỹ thuật lấy mẫu dữ liệu trong Big Data.

13 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 13: 'Khám phá dữ liệu' (Data Discovery) là một giai đoạn quan trọng trong quy trình phân tích dữ liệu lớn. Mục tiêu chính của giai đoạn này là gì?

Xây dựng mô hình học máy để dự đoán các xu hướng trong tương lai.

Hiểu rõ cấu trúc, chất lượng, và nội dung của dữ liệu để xác định các vấn đề kinh doanh có thể giải quyết và các hướng phân tích phù hợp.

Làm sạch và chuẩn hóa dữ liệu để đảm bảo chất lượng dữ liệu.

Trực quan hóa dữ liệu để tạo ra các báo cáo và dashboard.

Câu hỏi về mục tiêu chính của giai đoạn Data Discovery trong phân tích Big Data.

14 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 14: Khi thiết kế một hệ thống Big Data chịu lỗi (fault-tolerant), yếu tố quan trọng nhất cần xem xét là gì?

Hiệu suất xử lý dữ liệu cao nhất có thể.

Chi phí đầu tư phần cứng và phần mềm thấp nhất.

Tính dự phòng (Redundancy) và khả năng tự phục hồi (Self-healing) của hệ thống.

Giao diện người dùng thân thiện và dễ sử dụng.

Câu hỏi về yếu tố then chốt để xây dựng hệ thống Big Data có khả năng chịu lỗi.

15 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 15: 'Data Governance' (quản trị dữ liệu) đóng vai trò quan trọng trong các dự án Big Data. Mục tiêu chính của Data Governance là gì?

Tối ưu hóa hiệu suất truy vấn dữ liệu.

Giảm chi phí lưu trữ dữ liệu.

Tăng tốc độ thu thập dữ liệu.

Đảm bảo chất lượng, bảo mật, tuân thủ quy định, và khả năng sử dụng dữ liệu hiệu quả trong toàn tổ chức.

Câu hỏi về mục tiêu chính của Data Governance trong bối cảnh Big Data.

16 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 16: Trong lĩnh vực bảo mật dữ liệu lớn, kỹ thuật 'mã hóa dữ liệu' (data encryption) được sử dụng để bảo vệ dữ liệu như thế nào?

Ngăn chặn truy cập trái phép vào hệ thống dữ liệu.

Chuyển đổi dữ liệu sang định dạng không thể đọc được nếu không có khóa giải mã, bảo vệ dữ liệu khi lưu trữ và truyền tải.

Phát hiện và ngăn chặn các cuộc tấn công mạng vào hệ thống dữ liệu.

Sao lưu dữ liệu để phục hồi trong trường hợp mất dữ liệu.

Câu hỏi về vai trò của mã hóa dữ liệu trong bảo mật Big Data.

17 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 17: Để xây dựng một ứng dụng phân tích dữ liệu lớn tương tác, thời gian thực, và yêu cầu độ trễ thấp, bạn nên chọn nền tảng xử lý nào sau đây?

Hadoop MapReduce

Apache Hive

Apache Spark

Batch processing scripts

Câu hỏi về lựa chọn nền tảng xử lý Big Data phù hợp cho ứng dụng tương tác, thời gian thực.

18 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 18: 'Trực quan hóa dữ liệu' (Data Visualization) quan trọng như thế nào trong phân tích dữ liệu lớn và nó mang lại lợi ích gì?

Giúp con người dễ dàng hiểu và khám phá các mẫu, xu hướng, và thông tin chi tiết ẩn sâu trong dữ liệu phức tạp.

Tăng tốc độ xử lý dữ liệu và giảm chi phí tính toán.

Đảm bảo tính chính xác và tin cậy của dữ liệu.

Tự động hóa quá trình phân tích dữ liệu mà không cần sự can thiệp của con người.

Câu hỏi về tầm quan trọng và lợi ích của Data Visualization trong Big Data.

19 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 19: Trong ngữ cảnh Big Data, 'Scalability' (khả năng mở rộng) đề cập đến khả năng gì của hệ thống?

Khả năng hệ thống có thể phục hồi sau sự cố phần cứng hoặc phần mềm.

Khả năng hệ thống có thể xử lý lượng dữ liệu và tải công việc tăng lên mà vẫn duy trì hiệu suất chấp nhận được.

Khả năng hệ thống có thể bảo vệ dữ liệu khỏi truy cập trái phép.

Khả năng hệ thống có thể tích hợp với các hệ thống khác.

Câu hỏi định nghĩa khái niệm Scalability trong Big Data.

20 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 20: 'Data Wrangling' (chuẩn bị dữ liệu) chiếm phần lớn thời gian trong các dự án phân tích dữ liệu lớn. Tại sao giai đoạn này lại quan trọng và tốn nhiều công sức như vậy?

Các công cụ phân tích dữ liệu lớn còn quá phức tạp và khó sử dụng.

Quy trình thu thập dữ liệu chưa được tối ưu hóa.

Dữ liệu lớn thường không đồng nhất, chứa lỗi, thiếu giá trị, và cần được làm sạch, chuyển đổi, và tích hợp trước khi phân tích.

Thiếu nhân lực có kỹ năng phân tích dữ liệu lớn.

Câu hỏi về tầm quan trọng và lý do tốn nhiều thời gian của giai đoạn Data Wrangling.

21 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 21: 'Machine Learning' (học máy) được ứng dụng rộng rãi trong Big Data. Một trong những ứng dụng phổ biến nhất của học máy trong Big Data là gì?

Lưu trữ và quản lý dữ liệu lớn hiệu quả.

Truy vấn và truy xuất dữ liệu lớn nhanh chóng.

Trực quan hóa dữ liệu lớn một cách sinh động.

Phân tích dự đoán (Predictive Analytics) để dự báo xu hướng, hành vi khách hàng, hoặc rủi ro.

Câu hỏi về ứng dụng phổ biến của Machine Learning trong Big Data.

22 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 22: 'Cloud Computing' (điện toán đám mây) đóng vai trò như thế nào trong sự phát triển và ứng dụng của Big Data?

Cung cấp cơ sở hạ tầng linh hoạt, khả năng mở rộng, và chi phí hiệu quả cho việc lưu trữ, xử lý, và phân tích dữ liệu lớn.

Thay thế hoàn toàn các hệ thống Big Data truyền thống tại chỗ (on-premise).

Giảm thiểu nhu cầu về bảo mật dữ liệu lớn.

Đơn giản hóa quy trình quản trị dữ liệu lớn.

Câu hỏi về vai trò của Cloud Computing đối với Big Data.

23 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 23: 'Edge Computing' (điện toán biên) có liên quan như thế nào đến Big Data và Internet of Things (IoT)?

Thay thế hoàn toàn Cloud Computing trong các ứng dụng Big Data và IoT.

Cho phép xử lý dữ liệu gần nguồn phát sinh (ví dụ: thiết bị IoT) để giảm độ trễ, băng thông mạng, và tăng cường tính riêng tư, sau đó gửi dữ liệu đã xử lý về trung tâm để phân tích Big Data.

Chỉ tập trung vào việc thu thập dữ liệu từ các thiết bị IoT, không liên quan đến phân tích Big Data.

Làm tăng độ phức tạp và chi phí triển khai hệ thống Big Data và IoT.

Câu hỏi về mối liên hệ giữa Edge Computing, Big Data và IoT.

24 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 24: 'Data Silos' (tổ chức dữ liệu rời rạc) gây ra vấn đề gì trong các tổ chức muốn tận dụng dữ liệu lớn?

Tăng cường bảo mật dữ liệu bằng cách phân chia dữ liệu thành các phần nhỏ.

Giảm chi phí lưu trữ dữ liệu bằng cách loại bỏ dữ liệu trùng lặp.

Hạn chế khả năng tích hợp, chia sẻ, và phân tích dữ liệu toàn diện, dẫn đến việc bỏ lỡ các thông tin chi tiết quan trọng và giảm hiệu quả kinh doanh.

Tăng tốc độ truy cập dữ liệu bằng cách phân tán dữ liệu trên nhiều hệ thống.

Câu hỏi về vấn đề do Data Silos gây ra trong bối cảnh Big Data.

25 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 25: 'Data Mining' (khai thác dữ liệu) khác biệt như thế nào so với 'Business Intelligence' (BI) trong lĩnh vực phân tích dữ liệu?

Data Mining chỉ áp dụng cho dữ liệu có cấu trúc, còn BI áp dụng cho dữ liệu phi cấu trúc.

Data Mining là một phần của BI, bao gồm các công cụ và kỹ thuật để báo cáo dữ liệu.

BI sử dụng các thuật toán học máy phức tạp hơn Data Mining.

Data Mining tập trung vào khám phá các mẫu và tri thức mới từ dữ liệu lớn, trong khi BI tập trung vào việc báo cáo, trực quan hóa, và giám sát hiệu suất kinh doanh dựa trên dữ liệu hiện có.

Câu hỏi so sánh Data Mining và Business Intelligence.

26 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 26: 'Hadoop Distributed File System (HDFS)' được thiết kế tối ưu cho loại khối lượng công việc nào?

Truy cập ngẫu nhiên và cập nhật thường xuyên các tệp nhỏ.

Đọc và ghi tuần tự các tệp lớn (ví dụ: hàng GB hoặc TB) với số lượng nhỏ các thao tác ngẫu nhiên.

Xử lý giao dịch trực tuyến (OLTP) với yêu cầu độ trễ thấp.

Lưu trữ và quản lý cơ sở dữ liệu quan hệ.

Câu hỏi về loại workload mà HDFS được tối ưu hóa.

27 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 27: 'Real-time analytics' (phân tích thời gian thực) mang lại lợi ích gì cho các doanh nghiệp?

Giảm chi phí lưu trữ dữ liệu.

Tăng cường bảo mật dữ liệu.

Cho phép đưa ra quyết định và hành động kịp thời dựa trên dữ liệu mới nhất, cải thiện trải nghiệm khách hàng, tối ưu hóa hoạt động, và phát hiện sớm các vấn đề hoặc cơ hội.

Đơn giản hóa quy trình phân tích dữ liệu.

Câu hỏi về lợi ích của phân tích thời gian thực cho doanh nghiệp.

28 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 28: 'In-memory computing' (tính toán trong bộ nhớ) là gì và nó cải thiện hiệu suất xử lý dữ liệu lớn như thế nào?

Lưu trữ và xử lý dữ liệu chủ yếu trong bộ nhớ RAM thay vì ổ đĩa, giúp giảm đáng kể thời gian truy cập dữ liệu và tăng tốc độ xử lý.

Sử dụng bộ vi xử lý mạnh mẽ hơn để tăng tốc độ tính toán.

Phân tán dữ liệu trên nhiều máy tính để tăng khả năng xử lý song song.

Nén dữ liệu để giảm dung lượng lưu trữ và tăng tốc độ truyền tải.

Câu hỏi về khái niệm In-memory computing và lợi ích về hiệu suất.

29 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 29: Trong ngữ cảnh Big Data, 'Data Quality' (chất lượng dữ liệu) là một yếu tố quan trọng. Điều gì xảy ra nếu phân tích dữ liệu lớn dựa trên dữ liệu chất lượng kém?

Không ảnh hưởng đến kết quả phân tích vì dữ liệu lớn có thể tự sửa lỗi.

Chỉ làm chậm quá trình phân tích dữ liệu, nhưng kết quả vẫn chính xác.

Có thể được khắc phục bằng cách sử dụng các thuật toán phân tích dữ liệu phức tạp hơn.

Dẫn đến kết quả phân tích sai lệch, quyết định kinh doanh không chính xác, và giảm giá trị của dự án Big Data (Garbage In, Garbage Out - GIGO).

Câu hỏi về hậu quả của việc phân tích Big Data dựa trên dữ liệu kém chất lượng.

30 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 01

Câu 30: Để đánh giá hiệu quả của một dự án Big Data, các chỉ số (metrics) nào thường được sử dụng?

Số lượng máy chủ và dung lượng lưu trữ sử dụng.

Số dòng mã code đã viết và số lượng lập trình viên tham gia dự án.

Giá trị kinh doanh tạo ra (ví dụ: tăng doanh thu, giảm chi phí), hiệu suất hệ thống (ví dụ: thời gian xử lý, độ trễ), và mức độ hài lòng của người dùng.

Mức độ phức tạp của công nghệ Big Data được sử dụng.

Xem kết quả

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Nhận kết quả

Xảy ra lỗi

Bước 1: Vào google.com rồi gõ từ khóa:
Copy nhanh thanh-tim-kiem

Bước 2: Trong kết quả tìm kiếm Google, hãy tìm website giống hình bên dưới

Nếu trang 1 không có hãy tìm ở trang 2, 3, 4... nhé trang-google

Bước 3:

Cuộn xuống cuối bài viết rồi bấm vào nút GIỐNG HÌNH DƯỚI và chờ 1 lát để lấy mã:

luot-xem

Nếu tìm không thấy mã bạn có thể Đổi nhiệm vụ để lấy mã khác.

Câu hỏi về các metrics đánh giá hiệu quả dự án Big Data.

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!

Trắc nghiệm Dữ liệu lớn (BigData)

Trắc nghiệm Dữ liệu lớn (BigData) - Đề 02

1 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 1: Trong kiến trúc Hadoop HDFS, thành phần nào chịu trách nhiệm quản lý không gian tên hệ thống tệp và điều phối truy cập của client vào dữ liệu, đồng thời lưu trữ siêu dữ liệu (metadata) của hệ thống?

NameNode

DataNode

Secondary NameNode

ResourceManager

Câu hỏi kiểm tra kiến thức về các thành phần chính của HDFS và vai trò của NameNode trong việc quản lý siêu dữ liệu và không gian tên.

2 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 2: Xét tình huống một cụm Hadoop đang hoạt động và một DataNode bị lỗi. HDFS đảm bảo tính sẵn sàng và độ tin cậy của dữ liệu bằng cách nào?

Tạm dừng toàn bộ cụm để sửa chữa DataNode bị lỗi.

Dữ liệu trên DataNode bị lỗi sẽ mất vĩnh viễn.

Sao chép các khối dữ liệu từ các DataNode khác để bù đắp cho các bản sao bị mất.

Chuyển toàn bộ dữ liệu sang một cụm dự phòng khác.

Câu hỏi tập trung vào khả năng tự phục hồi và đảm bảo tính sẵn sàng dữ liệu của HDFS khi có lỗi DataNode, liên quan đến cơ chế sao chép dữ liệu.

3 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 3: Bạn có một tập dữ liệu lớn chứa thông tin nhật ký web (web logs) và muốn phân tích để tìm ra các mẫu hành vi người dùng. Công cụ xử lý dữ liệu phân tán nào sau đây của Hadoop ecosystem là phù hợp nhất cho tác vụ này?

HBase

MapReduce

Spark Streaming

ZooKeeper

Câu hỏi yêu cầu lựa chọn công cụ phù hợp cho phân tích dữ liệu nhật ký web, hướng đến việc sử dụng MapReduce hoặc các framework tương tự cho xử lý hàng loạt.

4 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 4: YARN (Yet Another Resource Negotiator) đóng vai trò gì trong kiến trúc Hadoop?

Lưu trữ dữ liệu phân tán trên các node trong cụm.

Cung cấp giao diện dòng lệnh để tương tác với HDFS.

Đảm bảo tính toàn vẹn dữ liệu trong quá trình truyền tải.

Quản lý tài nguyên cụm và lập lịch các ứng dụng (jobs).

Câu hỏi kiểm tra hiểu biết về vai trò của YARN trong Hadoop, tập trung vào quản lý tài nguyên cụm và lập lịch công việc.

5 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 5: Trong mô hình lập trình MapReduce, giai đoạn 'Map' có chức năng chính là gì?

Xử lý song song dữ liệu đầu vào thành các cặp key-value.

Tổng hợp và giảm dữ liệu từ giai đoạn Map.

Sắp xếp và phân phối dữ liệu trung gian đến các reducer.

Quản lý lỗi và phục hồi trong quá trình xử lý.

Câu hỏi tập trung vào chức năng chính của giai đoạn 'Map' trong MapReduce, đó là xử lý song song dữ liệu đầu vào và tạo ra các cặp key-value trung gian.

6 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 6: NoSQL (Not Only SQL) database được thiết kế để giải quyết những thách thức nào mà các hệ quản trị CSDL quan hệ (RDBMS) truyền thống gặp phải khi xử lý dữ liệu lớn?

Đảm bảo tính toàn vẹn ACID tuyệt đối cho các giao dịch phức tạp.

Cung cấp khả năng truy vấn SQL mạnh mẽ và linh hoạt.

Khả năng mở rộng linh hoạt (horizontally scalability) và xử lý dữ liệu phi cấu trúc hoặc bán cấu trúc.

Tối ưu hóa cho các truy vấn OLTP (Online Transaction Processing) phức tạp.

Câu hỏi kiểm tra sự hiểu biết về lý do ra đời của NoSQL và những ưu điểm của nó so với RDBMS trong bối cảnh Big Data, đặc biệt về khả năng mở rộng và xử lý dữ liệu phi cấu trúc.

7 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 7: Loại cơ sở dữ liệu NoSQL nào phù hợp nhất để lưu trữ và truy vấn dữ liệu dạng đồ thị, ví dụ như mạng xã hội hoặc bản đồ tri thức?

Key-Value Database

Graph Database

Document Database

Column-Family Database

Câu hỏi yêu cầu xác định loại NoSQL database phù hợp cho dữ liệu đồ thị, tập trung vào Graph Databases và khả năng xử lý mối quan hệ giữa các thực thể.

8 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 8: CAP theorem (Consistency, Availability, Partition Tolerance) phát biểu rằng trong một hệ thống phân tán, không thể đồng thời đảm bảo cả ba thuộc tính. Trong bối cảnh Big Data, hệ thống thường ưu tiên thuộc tính nào?

Consistency và Availability

Consistency và Partition Tolerance

Availability và Partition Tolerance

Chỉ Consistency

Câu hỏi kiểm tra kiến thức về CAP theorem và sự đánh đổi trong thiết kế hệ thống phân tán Big Data, thường ưu tiên Partition Tolerance và Availability hơn Consistency.

9 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 9: Kafka là một nền tảng streaming dữ liệu phổ biến trong Big Data. Chức năng chính của Kafka là gì?

Lưu trữ dữ liệu lớn phân tán.

Xử lý dữ liệu hàng loạt với MapReduce.

Truy vấn dữ liệu phi cấu trúc với SQL.

Thu thập, truyền tải và xử lý dữ liệu streaming thời gian thực.

Câu hỏi tập trung vào chức năng chính của Kafka như một message broker và nền tảng streaming dữ liệu, phục vụ cho việc thu thập và phân phối dữ liệu thời gian thực.

10 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 10: Spark là một framework xử lý dữ liệu lớn in-memory. Ưu điểm chính của Spark so với Hadoop MapReduce truyền thống là gì?

Khả năng mở rộng cụm lớn hơn MapReduce.

Tốc độ xử lý nhanh hơn nhờ khả năng in-memory processing và tối ưu hóa cho các tác vụ lặp.

Hỗ trợ nhiều loại ngôn ngữ lập trình hơn MapReduce.

Đơn giản hóa việc quản lý cụm và triển khai ứng dụng.

Câu hỏi so sánh Spark và MapReduce, tập trung vào ưu điểm của Spark về tốc độ xử lý nhờ khả năng in-memory processing và tối ưu hóa cho các tác vụ lặp đi lặp lại.

11 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 11: Data mining (khai phá dữ liệu) là quá trình?

Thu thập và lưu trữ dữ liệu lớn.

Trực quan hóa dữ liệu để dễ dàng hiểu.

Khám phá các mẫu, tri thức và thông tin hữu ích từ lượng lớn dữ liệu.

Đảm bảo chất lượng và tính toàn vẹn của dữ liệu.

Câu hỏi định nghĩa về Data Mining, nhấn mạnh vào việc khám phá tri thức và mẫu ẩn từ lượng lớn dữ liệu.

12 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 12: Thuật toán clustering (phân cụm) trong data mining được sử dụng để làm gì?

Nhóm các đối tượng dữ liệu tương tự thành các cụm (clusters).

Dự đoán giá trị của một biến mục tiêu dựa trên các biến đầu vào.

Phân loại các đối tượng vào các nhóm đã được xác định trước.

Tìm kiếm các mối quan hệ kết hợp giữa các mục trong một tập dữ liệu.

Câu hỏi về ứng dụng của thuật toán clustering, đó là nhóm các đối tượng tương tự lại với nhau dựa trên các đặc điểm chung.

13 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 13: Trong ngữ cảnh Big Data và Machine Learning, feature engineering (kỹ thuật đặc trưng) là quá trình?

Chọn thuật toán machine learning phù hợp nhất.

Tối ưu hóa hiệu suất của hệ thống lưu trữ dữ liệu.

Trực quan hóa kết quả của mô hình machine learning.

Chọn lọc, biến đổi và tạo ra các đặc trưng (features) phù hợp từ dữ liệu thô để cải thiện hiệu suất mô hình.

Câu hỏi định nghĩa về feature engineering, tập trung vào việc chọn lọc và biến đổi các thuộc tính dữ liệu thô để cải thiện hiệu suất của mô hình học máy.

14 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 14: Phân tích sentiment analysis (phân tích cảm xúc) thường được ứng dụng trong lĩnh vực nào của Big Data?

Phân tích chuỗi thời gian tài chính.

Phân tích ý kiến khách hàng và dữ liệu mạng xã hội.

Dự đoán thời tiết.

Phát hiện gian lận trong giao dịch ngân hàng.

Câu hỏi về ứng dụng của sentiment analysis, đặc biệt trong việc phân tích văn bản và dữ liệu mạng xã hội để hiểu ý kiến và cảm xúc của người dùng.

15 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 15: Data visualization (trực quan hóa dữ liệu) đóng vai trò quan trọng trong Big Data vì?

Tăng tốc độ xử lý dữ liệu.

Giảm dung lượng lưu trữ dữ liệu.

Giúp con người dễ dàng hiểu, khám phá và giao tiếp thông tin từ dữ liệu phức tạp.

Thay thế các phương pháp phân tích dữ liệu truyền thống.

Câu hỏi nhấn mạnh tầm quan trọng của data visualization trong Big Data, giúp con người dễ dàng hiểu và nhận diện các mẫu, xu hướng trong dữ liệu phức tạp.

16 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 16: Chọn loại biểu đồ phù hợp nhất để so sánh giá trị của các danh mục khác nhau (ví dụ: doanh số bán hàng theo khu vực).

Biểu đồ cột (Bar chart) hoặc Biểu đồ thanh (Column chart)

Biểu đồ đường (Line chart)

Biểu đồ tròn (Pie chart)

Biểu đồ phân tán (Scatter plot)

Câu hỏi về lựa chọn biểu đồ thích hợp cho so sánh danh mục, hướng đến biểu đồ cột hoặc biểu đồ thanh.

17 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 17: Cloud computing (điện toán đám mây) mang lại lợi ích gì cho việc triển khai và quản lý các ứng dụng Big Data?

Giảm độ trễ mạng.

Tăng cường bảo mật dữ liệu tuyệt đối.

Đảm bảo tính nhất quán dữ liệu mạnh mẽ hơn.

Tính linh hoạt, khả năng mở rộng dễ dàng và tiết kiệm chi phí đầu tư ban đầu.

Câu hỏi về lợi ích của cloud computing trong Big Data, tập trung vào tính linh hoạt, khả năng mở rộng và tiết kiệm chi phí.

18 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 18: Mô hình dịch vụ đám mây nào cung cấp cơ sở hạ tầng phần cứng, mạng, lưu trữ và cho phép người dùng tự cài đặt và quản lý hệ điều hành, middleware và ứng dụng?

SaaS (Software as a Service)

IaaS (Infrastructure as a Service)

PaaS (Platform as a Service)

FaaS (Function as a Service)

Câu hỏi về mô hình dịch vụ đám mây Infrastructure as a Service (IaaS), nơi người dùng có quyền kiểm soát cao nhất đối với cơ sở hạ tầng.

19 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 19: Khi xử lý dữ liệu Big Data, vấn đề về 'velocity' (tốc độ) đề cập đến?

Sự đa dạng của các loại dữ liệu.

Khối lượng dữ liệu khổng lồ.

Tốc độ dữ liệu được tạo ra và cần được xử lý nhanh chóng.

Độ chính xác và tin cậy của dữ liệu.

Câu hỏi về đặc tính 'velocity' trong 5Vs của Big Data, đó là tốc độ tạo ra và xử lý dữ liệu.

20 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 20: Vấn đề đạo đức nào cần được xem xét khi thu thập và sử dụng dữ liệu Big Data, đặc biệt là dữ liệu cá nhân?

Chi phí lưu trữ dữ liệu.

Tốc độ xử lý dữ liệu.

Tính tương thích giữa các hệ thống Big Data khác nhau.

Quyền riêng tư, bảo mật dữ liệu cá nhân và sự minh bạch trong sử dụng dữ liệu.

Câu hỏi về khía cạnh đạo đức của Big Data, tập trung vào quyền riêng tư, bảo mật dữ liệu cá nhân và sự minh bạch trong sử dụng dữ liệu.

21 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 21: Công nghệ nào sau đây thường được sử dụng để xây dựng data warehouse cho Big Data?

HBase

Hadoop/Cloud Data Warehouse (e.g., AWS Redshift, Google BigQuery)

Kafka

Spark Streaming

Câu hỏi về công nghệ data warehousing trong Big Data, hướng đến các hệ thống như Hadoop hoặc các dịch vụ data warehouse trên cloud.

22 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 22: ETL (Extract, Transform, Load) là quy trình quan trọng trong Big Data và Data Warehousing. Giai đoạn 'Transform' (biến đổi) bao gồm các hoạt động nào?

Thu thập dữ liệu từ các nguồn khác nhau.

Lưu trữ dữ liệu vào data warehouse.

Làm sạch, chuẩn hóa, tích hợp và biến đổi dữ liệu để phù hợp với mục đích phân tích.

Trực quan hóa dữ liệu sau khi đã được xử lý.

Câu hỏi về giai đoạn 'Transform' trong quy trình ETL, tập trung vào các hoạt động làm sạch, chuẩn hóa và tích hợp dữ liệu.

23 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 23: Trong kiến trúc Lambda của Big Data, lớp 'batch layer' (lớp xử lý hàng loạt) được sử dụng để?

Xử lý toàn bộ dữ liệu lịch sử để tạo ra các batch views (lượt xem hàng loạt) chính xác.

Xử lý dữ liệu streaming thời gian thực để cung cấp real-time views (lượt xem thời gian thực).

Phục vụ các truy vấn tương tác của người dùng.

Quản lý metadata của dữ liệu.

Câu hỏi về kiến trúc Lambda và vai trò của 'batch layer', đó là xử lý toàn bộ dữ liệu lịch sử để cung cấp cái nhìn tổng quan và chính xác.

24 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 24: Kiến trúc Kappa đơn giản hóa kiến trúc Lambda bằng cách?

Loại bỏ lớp serving layer.

Loại bỏ lớp batch layer và chỉ sử dụng lớp streaming layer để xử lý mọi dữ liệu.

Kết hợp batch layer và streaming layer thành một lớp duy nhất.

Sử dụng data warehouse thay cho data lake.

Câu hỏi so sánh kiến trúc Kappa với Lambda, tập trung vào việc Kappa loại bỏ lớp batch và chỉ sử dụng lớp streaming để xử lý mọi dữ liệu.

25 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 25: Data lake (hồ dữ liệu) khác biệt với data warehouse (kho dữ liệu) chủ yếu ở điểm nào?

Data lake chỉ lưu trữ dữ liệu streaming; data warehouse chỉ lưu trữ dữ liệu batch.

Data lake sử dụng SQL; data warehouse sử dụng NoSQL.

Data lake lưu trữ dữ liệu thô, phi cấu trúc hoặc bán cấu trúc; data warehouse lưu trữ dữ liệu đã được cấu trúc và làm sạch.

Data lake chỉ dành cho dữ liệu lớn; data warehouse dành cho dữ liệu nhỏ và vừa.

Câu hỏi so sánh Data Lake và Data Warehouse, nhấn mạnh vào sự khác biệt về cấu trúc dữ liệu (Data Lake lưu trữ dữ liệu thô, phi cấu trúc, Data Warehouse lưu trữ dữ liệu đã được cấu trúc và làm sạch).

26 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 26: Công cụ nào sau đây thường được sử dụng để quản lý và điều phối workflow (luồng công việc) trong Big Data, ví dụ như lập lịch các jobs Hadoop hoặc Spark?

Apache Airflow hoặc Apache Oozie

Apache Kafka

Apache HBase

Apache ZooKeeper

Câu hỏi về công cụ workflow management trong Big Data, hướng đến các công cụ như Apache Airflow hoặc Apache Oozie.

27 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 27: Giả sử bạn có một hệ thống thu thập dữ liệu từ hàng triệu cảm biến IoT liên tục. Loại hình xử lý dữ liệu nào phù hợp nhất cho tình huống này?

Batch data processing (xử lý dữ liệu hàng loạt)

Streaming data processing (xử lý dữ liệu streaming)

Interactive query processing (xử lý truy vấn tương tác)

Graph data processing (xử lý dữ liệu đồ thị)

Câu hỏi tình huống về xử lý dữ liệu IoT, yêu cầu lựa chọn loại hình xử lý phù hợp với dữ liệu liên tục và thời gian thực, đó là streaming data processing.

28 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 28: Trong ngữ cảnh bảo mật Big Data, 'data masking' (che giấu dữ liệu) được sử dụng để?

Mã hóa dữ liệu trong quá trình truyền tải.

Kiểm soát truy cập vào dữ liệu dựa trên vai trò người dùng.

Che giấu hoặc thay thế dữ liệu nhạy cảm (ví dụ: thông tin cá nhân) để bảo vệ quyền riêng tư.

Phát hiện và ngăn chặn các cuộc tấn công mạng vào hệ thống Big Data.

Câu hỏi về kỹ thuật bảo mật data masking, đó là che giấu hoặc thay thế dữ liệu nhạy cảm để bảo vệ thông tin cá nhân.

29 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 29: 'Data governance' (quản trị dữ liệu) trong Big Data bao gồm các hoạt động nào?

Chỉ tập trung vào bảo mật dữ liệu.

Chỉ tập trung vào hiệu suất xử lý dữ liệu.

Chỉ tập trung vào lưu trữ dữ liệu hiệu quả.

Các chính sách, quy trình và tiêu chuẩn để quản lý dữ liệu về chất lượng, bảo mật, tuân thủ và khả năng sử dụng.

Câu hỏi về phạm vi của data governance, đó là các chính sách, quy trình và tiêu chuẩn để quản lý dữ liệu một cách hiệu quả, an toàn và tuân thủ.

30 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 02

Câu 30: Bạn muốn phân tích nhật ký truy cập website để phát hiện các hành vi bất thường hoặc tấn công mạng. Phương pháp phân tích nào trong Big Data có thể hữu ích nhất?

Regression analysis (phân tích hồi quy)

Anomaly detection (phát hiện bất thường)

Sentiment analysis (phân tích cảm xúc)

Clustering (phân cụm)

Xem kết quả

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Nhận kết quả

Xảy ra lỗi

Bước 1: Vào google.com rồi gõ từ khóa:
Copy nhanh thanh-tim-kiem

Bước 2: Trong kết quả tìm kiếm Google, hãy tìm website giống hình bên dưới

Nếu trang 1 không có hãy tìm ở trang 2, 3, 4... nhé trang-google

Bước 3:

Cuộn xuống cuối bài viết rồi bấm vào nút GIỐNG HÌNH DƯỚI và chờ 1 lát để lấy mã:

luot-xem

Nếu tìm không thấy mã bạn có thể Đổi nhiệm vụ để lấy mã khác.

Câu hỏi tình huống về phân tích nhật ký website cho mục đích an ninh mạng, hướng đến anomaly detection (phát hiện bất thường) để tìm ra các mẫu hành vi khác biệt.

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!

Trắc nghiệm Dữ liệu lớn (BigData)

Trắc nghiệm Dữ liệu lớn (BigData) - Đề 03

1 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 1: Trong kiến trúc Hadoop HDFS, thành phần nào chịu trách nhiệm quản lý metadata của hệ thống tệp, bao gồm thông tin về vị trí các khối dữ liệu và quyền truy cập?

NameNode

DataNode

Secondary NameNode

ResourceManager

Câu hỏi kiểm tra kiến thức về thành phần cốt lõi của HDFS. NameNode là trung tâm quản lý metadata, điều phối hoạt động của toàn bộ hệ thống tệp phân tán.

2 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 2: Để xử lý dữ liệu lớn phi cấu trúc (unstructured data) như văn bản, hình ảnh, video, cơ sở dữ liệu NoSQL nào sau đây thường được ưu tiên sử dụng nhờ khả năng mở rộng linh hoạt và hiệu suất truy vấn cao?

MySQL

PostgreSQL

MongoDB

Oracle Database

Câu hỏi tập trung vào việc lựa chọn CSDL NoSQL phù hợp với dữ liệu phi cấu trúc. MongoDB, với mô hình dữ liệu dạng document, rất phù hợp cho loại dữ liệu này và khả năng mở rộng tốt.

3 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 3: Trong mô hình lập trình MapReduce, giai đoạn 'Reduce' có vai trò chính là gì?

Chia nhỏ dữ liệu đầu vào thành các phần nhỏ hơn để xử lý song song.

Tổng hợp và xử lý kết quả trung gian từ giai đoạn Map để tạo ra đầu ra cuối cùng.

Đảm bảo dữ liệu được phân phối đều trên các node trong cluster.

Quản lý tài nguyên và điều phối công việc giữa các node.

Câu hỏi kiểm tra hiểu biết về quy trình MapReduce. Giai đoạn Reduce tổng hợp và xử lý kết quả đầu ra từ giai đoạn Map để tạo ra kết quả cuối cùng.

4 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 4: Xét bài toán phân tích nhật ký web để đếm số lượng truy cập trang web theo từng quốc gia. Công cụ nào sau đây trong hệ sinh thái Hadoop phù hợp nhất để thực hiện truy vấn và phân tích dữ liệu tương tác (interactive query) với độ trễ thấp?

MapReduce

Hive

Pig

Impala

Câu hỏi đặt ra tình huống ứng dụng cụ thể và yêu cầu chọn công cụ phù hợp. Hive và Pig thiên về batch processing, MapReduce hiệu suất thấp cho interactive query. Impala được thiết kế cho truy vấn SQL tương tác trên dữ liệu Hadoop.

5 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 5: Để xây dựng một hệ thống xử lý luồng dữ liệu thời gian thực (real-time stream processing) từ các cảm biến IoT, framework nào sau đây cung cấp khả năng xử lý dữ liệu liên tục với độ trễ cực thấp và khả năng mở rộng cao?

Spark Streaming

Hadoop MapReduce

Apache Flink

Apache Hive

Câu hỏi về xử lý luồng dữ liệu real-time. Spark Streaming, Storm, và Flink đều là framework stream processing. Tuy nhiên, Flink nổi bật với hiệu suất và khả năng xử lý sự kiện theo đúng thứ tự thời gian (event-time processing) tốt hơn, phù hợp IoT.

6 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 6: Trong quá trình tiền xử lý dữ liệu (data preprocessing) cho bài toán phân tích cảm xúc văn bản (sentiment analysis), kỹ thuật 'stemming' được sử dụng để làm gì?

Chuẩn hóa văn bản về chữ thường.

Rút gọn các từ về dạng gốc của chúng.

Loại bỏ các từ dừng (stop words) như 'và', 'thì', 'là'.

Phân tách câu văn thành các từ đơn (tokenization).

Câu hỏi về kỹ thuật tiền xử lý dữ liệu văn bản. Stemming giảm các từ về dạng gốc của chúng (ví dụ: 'running', 'ran', 'runs' -> 'run'), giúp giảm chiều dữ liệu và tăng tính tổng quát của mô hình.

7 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 7: Một công ty thương mại điện tử muốn xây dựng hệ thống gợi ý sản phẩm (recommendation system) cho khách hàng. Phương pháp học máy nào sau đây thường được sử dụng để phân tích lịch sử mua hàng và hành vi duyệt web của người dùng nhằm đưa ra gợi ý cá nhân hóa?

Collaborative Filtering (Lọc cộng tác)

Linear Regression (Hồi quy tuyến tính)

Decision Tree (Cây quyết định)

Support Vector Machine (Máy vectơ hỗ trợ)

Câu hỏi về ứng dụng học máy trong gợi ý sản phẩm. Collaborative filtering (lọc cộng tác) là phương pháp phổ biến, dựa trên sự tương đồng về sở thích giữa người dùng hoặc sản phẩm.

8 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 8: Để đảm bảo tính toàn vẹn dữ liệu (data integrity) trong hệ thống Big Data, kỹ thuật nào sau đây thường được sử dụng để phát hiện và sửa lỗi dữ liệu trong quá trình truyền tải hoặc lưu trữ?

Mã hóa dữ liệu (Data encryption)

Kiểm soát truy cập (Access control)

Sao lưu dữ liệu (Data backup)

Checksum (Tổng kiểm tra)

Câu hỏi về đảm bảo tính toàn vẹn dữ liệu. Checksum (tổng kiểm tra) là một kỹ thuật phổ biến để phát hiện lỗi dữ liệu bằng cách tạo ra một giá trị băm đại diện cho dữ liệu và so sánh nó khi dữ liệu được truy xuất.

9 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 9: Trong một dự án Big Data về phân tích mạng xã hội, bạn cần xác định cộng đồng (community detection) người dùng có chung sở thích. Thuật toán đồ thị (graph algorithm) nào sau đây phù hợp nhất để phát hiện các cụm (cluster) người dùng có liên kết chặt chẽ với nhau trong mạng lưới?

PageRank

Louvain Modularity

Dijkstra's algorithm

Breadth-First Search (BFS)

Câu hỏi về thuật toán đồ thị cho community detection. Louvain Modularity là thuật toán phổ biến và hiệu quả để phát hiện cộng đồng trong đồ thị, tối ưu hóa độ modularity của phân vùng cộng đồng.

10 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 10: Một tổ chức tài chính muốn phát hiện giao dịch gian lận (fraud detection) trong thời gian thực. Kỹ thuật khai thác dữ liệu (data mining) nào sau đây thích hợp để xây dựng mô hình dự đoán giao dịch gian lận dựa trên các đặc trưng giao dịch và lịch sử giao dịch?

Phân cụm (Clustering)

Hồi quy (Regression)

Phân lớp (Classification)

Luật kết hợp (Association rule mining)

Câu hỏi về ứng dụng khai thác dữ liệu trong phát hiện gian lận. Phân lớp (classification) là kỹ thuật học máy phù hợp để phân loại giao dịch thành 'gian lận' hoặc 'không gian lận' dựa trên các đặc trưng.

11 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 11: Để trực quan hóa dữ liệu (data visualization) đa chiều (multidimensional data) và khám phá các mối quan hệ phức tạp giữa các thuộc tính, loại biểu đồ nào sau đây thường được sử dụng?

Biểu đồ đường (Line chart)

Biểu đồ cột (Bar chart)

Biểu đồ tròn (Pie chart)

Scatter Plot Matrix (Ma trận biểu đồ phân tán)

Câu hỏi về trực quan hóa dữ liệu đa chiều. Scatter plot matrix (ma trận biểu đồ phân tán) cho phép hiển thị mối quan hệ pairwise giữa nhiều biến, hữu ích cho dữ liệu đa chiều.

12 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 12: Trong quá trình trích xuất, chuyển đổi và tải dữ liệu (ETL) vào kho dữ liệu (data warehouse), giai đoạn 'chuyển đổi' (transformation) bao gồm các hoạt động nào?

Thu thập dữ liệu từ các nguồn khác nhau.

Làm sạch, chuẩn hóa, và tích hợp dữ liệu.

Tải dữ liệu đã chuyển đổi vào kho dữ liệu.

Giám sát và quản lý quy trình ETL.

Câu hỏi về giai đoạn 'transformation' trong ETL. Giai đoạn này bao gồm làm sạch dữ liệu, chuẩn hóa định dạng, tích hợp dữ liệu từ nhiều nguồn, và các xử lý khác để dữ liệu phù hợp với kho dữ liệu.

13 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 13: Để quản lý và điều phối các công việc (workflow orchestration) phức tạp trong hệ thống Big Data, ví dụ như quy trình ETL hoặc pipeline học máy, công cụ nào sau đây thường được sử dụng?

Apache Kafka

Apache Spark

Apache Airflow

Apache Zookeeper

Câu hỏi về workflow orchestration. Apache Airflow là một công cụ phổ biến để lập lịch, giám sát, và quản lý workflow, đặc biệt trong bối cảnh Big Data và Data Engineering.

14 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 14: Khi thiết kế hệ thống Big Data, yếu tố 'khả năng mở rộng' (scalability) đề cập đến khả năng gì của hệ thống?

Xử lý hiệu quả khi lượng dữ liệu và tải công việc tăng lên.

Đảm bảo dữ liệu luôn chính xác và nhất quán.

Bảo vệ dữ liệu khỏi truy cập trái phép.

Dễ dàng sử dụng và quản lý hệ thống.

Câu hỏi về khái niệm scalability. Scalability là khả năng hệ thống xử lý được lượng dữ liệu và tải công việc tăng lên mà vẫn duy trì hiệu suất chấp nhận được, thường bằng cách thêm tài nguyên.

15 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 15: Trong kiến trúc lambda (lambda architecture) cho xử lý dữ liệu lớn, 'batch layer' và 'speed layer' có vai trò khác nhau như thế nào?

Cả hai layer đều xử lý dữ liệu real-time, nhưng batch layer tập trung vào dữ liệu có cấu trúc, speed layer cho dữ liệu phi cấu trúc.

Batch layer xử lý dữ liệu lịch sử định kỳ để đảm bảo độ chính xác, speed layer xử lý dữ liệu mới nhất real-time để giảm độ trễ.

Batch layer chịu trách nhiệm lưu trữ dữ liệu, speed layer chịu trách nhiệm tính toán và truy vấn.

Batch layer sử dụng công nghệ NoSQL, speed layer sử dụng cơ sở dữ liệu quan hệ.

Câu hỏi về kiến trúc lambda. Batch layer xử lý toàn bộ dữ liệu lịch sử định kỳ để đảm bảo độ chính xác, speed layer xử lý dữ liệu mới nhất real-time để giảm độ trễ, chấp nhận đánh đổi độ chính xác.

16 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 16: Để đảm bảo an ninh dữ liệu (data security) trong môi trường Big Data, biện pháp nào sau đây quan trọng nhất để bảo vệ dữ liệu nhạy cảm khi lưu trữ và truyền tải?

Mã hóa dữ liệu (Data encryption)

Kiểm soát truy cập dựa trên vai trò (Role-based access control)

Giám sát an ninh (Security monitoring)

Sao lưu và phục hồi dữ liệu (Data backup and recovery)

Câu hỏi về an ninh dữ liệu. Mã hóa dữ liệu (data encryption) là biện pháp quan trọng nhất để bảo vệ dữ liệu nhạy cảm khỏi truy cập trái phép, cả khi lưu trữ (at rest) và truyền tải (in transit).

17 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 17: Trong quá trình tối ưu hóa hiệu suất truy vấn (query performance optimization) trong cơ sở dữ liệu cột (columnar database), việc sử dụng 'data skipping' mang lại lợi ích gì?

Tăng cường tính nén dữ liệu.

Giảm lượng dữ liệu cần đọc khi truy vấn.

Cải thiện khả năng mở rộng của hệ thống.

Đảm bảo tính nhất quán dữ liệu.

Câu hỏi về tối ưu hóa truy vấn trong CSDL cột. Data skipping cho phép bỏ qua việc đọc các khối dữ liệu không liên quan đến truy vấn, giảm lượng dữ liệu cần quét và tăng tốc độ truy vấn.

18 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 18: Để xây dựng một hồ dữ liệu (data lake) linh hoạt, cho phép lưu trữ dữ liệu ở nhiều định dạng khác nhau (cấu trúc, bán cấu trúc, phi cấu trúc) và truy cập theo nhiều cách, định dạng lưu trữ dữ liệu nào sau đây thường được ưu tiên?

CSV

Parquet

Avro

ORC

Câu hỏi về định dạng lưu trữ cho data lake. Parquet và ORC là định dạng columnar, tối ưu cho truy vấn phân tích. Avro và JSON là row-based, linh hoạt hơn cho nhiều loại dữ liệu và schema evolution. Avro thường được ưu tiên hơn JSON trong data lake vì hiệu suất và schema evolution tốt hơn.

19 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 19: Trong lĩnh vực Big Data, 'data governance' (quản trị dữ liệu) bao gồm các hoạt động nào để đảm bảo chất lượng, an ninh và tuân thủ quy định của dữ liệu?

Chỉ tập trung vào an ninh dữ liệu.

Chỉ tập trung vào chất lượng dữ liệu.

Chỉ tập trung vào tuân thủ quy định.

Quản lý chất lượng, an ninh, tuân thủ, và vòng đời dữ liệu.

Câu hỏi về data governance. Data governance bao gồm quản lý chất lượng, an ninh, tuân thủ, vòng đời dữ liệu, và các chính sách liên quan đến dữ liệu để đảm bảo dữ liệu được quản lý hiệu quả và có trách nhiệm.

20 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 20: Một công ty viễn thông muốn dự đoán churn rate (tỷ lệ khách hàng rời bỏ dịch vụ) dựa trên dữ liệu lịch sử khách hàng. Phương pháp học máy nào sau đây phù hợp để xây dựng mô hình dự đoán khả năng khách hàng rời bỏ dịch vụ trong tương lai?

Hồi quy tuyến tính (Linear Regression)

Phân cụm (Clustering)

Phân lớp (Classification)

Giảm chiều dữ liệu (Dimensionality reduction)

Câu hỏi về ứng dụng học máy trong dự đoán churn rate. Phân lớp (classification) là phương pháp phù hợp để dự đoán khách hàng thuộc nhóm 'churn' hay 'not churn' dựa trên các đặc trưng khách hàng.

21 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 21: Để xử lý dữ liệu dạng đồ thị (graph data) quy mô lớn, ví dụ như mạng xã hội hoặc mạng lưới giao thông, framework nào sau đây được thiết kế đặc biệt để thực hiện các thuật toán đồ thị phân tán?

Apache Kafka

Apache Giraph

Apache Flink

Apache Cassandra

Câu hỏi về framework xử lý đồ thị phân tán. Apache Giraph và GraphX (Spark GraphX) là các framework phổ biến cho xử lý đồ thị phân tán, tối ưu cho các thuật toán đồ thị trên dữ liệu lớn.

22 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 22: Trong quá trình xây dựng data pipeline, 'data lineage' (dòng dõi dữ liệu) cung cấp thông tin quan trọng gì?

Thông tin về hiệu suất của data pipeline.

Thông tin về chi phí vận hành data pipeline.

Lịch sử và đường đi của dữ liệu từ nguồn đến đích.

Thông tin về quyền truy cập dữ liệu trong pipeline.

Câu hỏi về data lineage. Data lineage theo dõi nguồn gốc, biến đổi, và đích đến của dữ liệu, giúp hiểu rõ quy trình dữ liệu, gỡ lỗi, và đảm bảo chất lượng dữ liệu.

23 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 23: Khi lựa chọn kiến trúc lưu trữ cho Big Data, 'schema-on-read' và 'schema-on-write' khác nhau như thế nào?

Schema-on-write nhanh hơn schema-on-read trong truy vấn dữ liệu.

Schema-on-write áp đặt schema khi ghi dữ liệu, schema-on-read áp đặt schema khi đọc dữ liệu.

Schema-on-write phù hợp với dữ liệu phi cấu trúc, schema-on-read phù hợp với dữ liệu có cấu trúc.

Schema-on-write an toàn hơn schema-on-read về mặt bảo mật dữ liệu.

Câu hỏi về schema-on-read vs schema-on-write. Schema-on-write áp đặt schema khi ghi dữ liệu (kho dữ liệu), schema-on-read áp đặt schema khi đọc dữ liệu (hồ dữ liệu), cho phép linh hoạt hơn với dữ liệu đa dạng.

24 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 24: Để giảm thiểu độ trễ (latency) trong hệ thống xử lý dữ liệu lớn, kỹ thuật 'in-memory computing' (tính toán trong bộ nhớ) mang lại lợi ích gì?

Giảm thời gian truy cập dữ liệu bằng cách lưu trữ và xử lý dữ liệu trong RAM.

Tăng cường khả năng chịu lỗi của hệ thống.

Giảm chi phí lưu trữ dữ liệu.

Đơn giản hóa quy trình xử lý dữ liệu.

Câu hỏi về in-memory computing. In-memory computing thực hiện tính toán trên dữ liệu lưu trữ trong RAM thay vì đĩa cứng, giảm đáng kể thời gian truy cập dữ liệu và độ trễ xử lý.

25 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 25: Trong ngữ cảnh Big Data và học máy, 'feature engineering' (kỹ thuật đặc trưng) đóng vai trò quan trọng như thế nào trong việc xây dựng mô hình dự đoán?

Giúp lựa chọn thuật toán học máy phù hợp nhất.

Đảm bảo tính chính xác của dữ liệu đầu vào.

Tăng tốc độ huấn luyện mô hình.

Cải thiện đáng kể hiệu suất và độ chính xác của mô hình dự đoán.

Câu hỏi về feature engineering. Feature engineering là quá trình tạo ra các đặc trưng mới và phù hợp từ dữ liệu thô, ảnh hưởng lớn đến hiệu suất của mô hình học máy, thường quan trọng hơn việc chọn thuật toán.

26 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 26: Để phân tích dữ liệu chuỗi thời gian (time series data) quy mô lớn, ví dụ như dữ liệu cảm biến hoặc dữ liệu giao dịch tài chính, cơ sở dữ liệu nào sau đây được tối ưu hóa cho việc lưu trữ và truy vấn dữ liệu theo thời gian?

MongoDB

InfluxDB

Cassandra

HBase

Câu hỏi về CSDL cho dữ liệu chuỗi thời gian. InfluxDB, TimescaleDB, và Prometheus là các CSDL time-series chuyên dụng, tối ưu cho việc lưu trữ và truy vấn dữ liệu theo thời gian, với các tính năng như nén dữ liệu, downsampling, và truy vấn theo khoảng thời gian.

27 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 27: Trong kiến trúc microservices cho ứng dụng Big Data, 'API gateway' (cổng API) có vai trò gì?

Lưu trữ dữ liệu microservices.

Điều phối giao tiếp giữa các microservices.

Điểm vào duy nhất cho client để truy cập các microservices.

Giám sát hiệu suất của microservices.

Câu hỏi về API gateway trong microservices. API gateway là điểm vào duy nhất cho client, định tuyến request đến microservice phù hợp, thực hiện authentication, authorization, rate limiting, và các chức năng cross-cutting khác.

28 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 28: Để triển khai hệ thống Big Data trên đám mây (cloud), mô hình 'Infrastructure as a Service' (IaaS), 'Platform as a Service' (PaaS), và 'Software as a Service' (SaaS) khác nhau như thế nào về mức độ kiểm soát và quản lý?

IaaS cung cấp mức độ kiểm soát thấp nhất, SaaS cung cấp mức độ kiểm soát cao nhất.

PaaS chỉ phù hợp cho các ứng dụng web, IaaS phù hợp cho mọi loại ứng dụng.

SaaS là mô hình đắt nhất, IaaS là mô hình rẻ nhất.

IaaS cho kiểm soát cao nhất, PaaS trung bình, SaaS thấp nhất về cơ sở hạ tầng.

Câu hỏi về mô hình dịch vụ đám mây. IaaS cho kiểm soát cao nhất (quản lý OS, VM), PaaS giảm bớt (quản lý platform, runtime), SaaS ít nhất (chỉ dùng ứng dụng), đánh đổi giữa kiểm soát và sự tiện lợi.

29 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 29: Trong quá trình xử lý dữ liệu phân tán, 'data partitioning' (phân vùng dữ liệu) và 'data replication' (sao chép dữ liệu) được sử dụng để giải quyết vấn đề gì?

Bảo mật dữ liệu và kiểm soát truy cập.

Tăng hiệu suất xử lý song song và tính sẵn sàng của dữ liệu.

Giảm chi phí lưu trữ dữ liệu.

Đảm bảo tính nhất quán dữ liệu giữa các node.

Câu hỏi về data partitioning và replication. Partitioning chia dữ liệu để xử lý song song, tăng hiệu suất. Replication sao chép dữ liệu để tăng tính sẵn sàng và chịu lỗi.

30 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 03

Câu 30: Để đánh giá hiệu quả của một mô hình học máy trong bài toán phân loại nhị phân (binary classification), ví dụ như dự đoán gian lận (fraud/non-fraud), chỉ số 'AUC-ROC' (Area Under the ROC Curve) đo lường điều gì?

Độ chính xác của mô hình trên tập dữ liệu huấn luyện.

Tỷ lệ dự đoán đúng cho lớp dương tính (Positive class).

Khả năng phân loại đúng của mô hình trên các ngưỡng phân loại khác nhau.

Độ phức tạp của mô hình học máy.

Xem kết quả

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Nhận kết quả

Xảy ra lỗi

Bước 1: Vào google.com rồi gõ từ khóa:
Copy nhanh thanh-tim-kiem

Bước 2: Trong kết quả tìm kiếm Google, hãy tìm website giống hình bên dưới

Nếu trang 1 không có hãy tìm ở trang 2, 3, 4... nhé trang-google

Bước 3:

Cuộn xuống cuối bài viết rồi bấm vào nút GIỐNG HÌNH DƯỚI và chờ 1 lát để lấy mã:

luot-xem

Nếu tìm không thấy mã bạn có thể Đổi nhiệm vụ để lấy mã khác.

Câu hỏi về chỉ số đánh giá mô hình phân loại. AUC-ROC đo lường khả năng phân loại đúng của mô hình trên các ngưỡng phân loại khác nhau, thể hiện trade-off giữa True Positive Rate và False Positive Rate, đánh giá tổng quan hiệu suất mô hình.

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!

Trắc nghiệm Dữ liệu lớn (BigData)

Trắc nghiệm Dữ liệu lớn (BigData) - Đề 04

1 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

NameNode

DataNode

ResourceManager

NodeManager

Câu hỏi kiểm tra kiến thức về thành phần cốt lõi của HDFS, cụ thể là vai trò của NameNode trong việc quản lý metadata.

2 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 2: Một công ty thương mại điện tử muốn phân tích hành vi mua sắm trực tuyến của khách hàng để cá nhân hóa trải nghiệm và tăng doanh số. Phương pháp phân tích dữ liệu lớn nào sau đây phù hợp nhất để khám phá các mẫu ẩn và mối quan hệ trong dữ liệu giao dịch?

Thống kê mô tả (Descriptive statistics)

Báo cáo tổng hợp (Summary reporting)

Khai phá dữ liệu (Data mining) và Học máy (Machine learning)

Trực quan hóa dữ liệu (Data visualization) cơ bản

Câu hỏi tình huống về ứng dụng phân tích dữ liệu lớn trong kinh doanh, tập trung vào việc lựa chọn phương pháp phân tích phù hợp để khám phá mẫu và quan hệ (data mining/machine learning).

3 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 3: Để xử lý một lượng lớn dữ liệu nhật ký (log data) phát sinh liên tục từ hệ thống website và ứng dụng di động trong thời gian thực, công nghệ nào sau đây là phù hợp nhất để thu thập, truyền tải và xử lý dòng dữ liệu này?

Hadoop MapReduce

Apache Kafka

Hệ quản trị cơ sở dữ liệu quan hệ (RDBMS)

Data warehouse truyền thống

Câu hỏi tập trung vào xử lý dữ liệu lớn theo thời gian thực (real-time streaming data), yêu cầu chọn công nghệ phù hợp cho pipeline dữ liệu streaming.

4 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 4: Trong mô hình lập trình MapReduce, giai đoạn 'Map' có vai trò chính là gì?

Tổng hợp kết quả trung gian

Sắp xếp và phân nhóm dữ liệu

Lưu trữ dữ liệu phân tán

Chuyển đổi dữ liệu đầu vào thành các cặp khóa-giá trị

Câu hỏi kiểm tra kiến thức về quy trình MapReduce, cụ thể là chức năng của giai đoạn Map trong việc xử lý dữ liệu đầu vào.

5 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 5: Giả sử bạn có một tập dữ liệu văn bản lớn chứa hàng triệu bài đánh giá sản phẩm trực tuyến. Bạn muốn phân tích tình cảm (sentiment analysis) của khách hàng về các sản phẩm. Kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) nào sau đây phù hợp nhất để xác định xem mỗi đánh giá mang tính tích cực, tiêu cực hay trung lập?

Nhận dạng thực thể có tên (Named Entity Recognition - NER)

Phân tích cú pháp (Syntax analysis)

Phân loại văn bản (Text classification)

Tóm tắt văn bản (Text summarization)

Câu hỏi ứng dụng NLP trong Big Data, yêu cầu chọn kỹ thuật phù hợp cho phân tích tình cảm từ dữ liệu văn bản.

6 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 6: NoSQL (Not Only SQL) là một loại cơ sở dữ liệu được thiết kế để xử lý dữ liệu lớn. Đặc điểm nổi bật nào sau đây *không* phải là ưu điểm chính của cơ sở dữ liệu NoSQL so với cơ sở dữ liệu quan hệ truyền thống?

Khả năng mở rộng linh hoạt (Scalability)

Hiệu suất cao với dữ liệu phi cấu trúc và bán cấu trúc

Tính mềm dẻo của lược đồ (Schema flexibility)

Tính toàn vẹn tham chiếu (Referential integrity) mạnh mẽ

Câu hỏi so sánh NoSQL và RDBMS, tập trung vào việc xác định đặc điểm *không* phải là ưu điểm của NoSQL.

7 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 7: Trong bối cảnh Big Data, 'Data Lake' (Hồ dữ liệu) là gì?

Một loại cơ sở dữ liệu quan hệ phân tán

Kho lưu trữ tập trung, chứa dữ liệu thô ở nhiều định dạng khác nhau

Một hệ thống quản lý luồng dữ liệu thời gian thực

Công cụ trực quan hóa dữ liệu tương tác

Câu hỏi định nghĩa khái niệm Data Lake, một kiến trúc lưu trữ dữ liệu quan trọng trong Big Data.

8 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 8: 'ETL' là viết tắt của quy trình nào trong quản lý dữ liệu?

Extract, Transform, Load - Thu thập, Chuyển đổi, Liên kết

Encrypt, Transfer, Log - Mã hóa, Truyền tải, Ghi nhật ký

Extract, Transform, Load - Trích xuất, Biến đổi, Tải

Evaluate, Test, Launch - Đánh giá, Kiểm thử, Triển khai

Câu hỏi về thuật ngữ ETL, một quy trình quan trọng trong Data Warehousing và Big Data.

9 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 9: Một nhà khoa học dữ liệu muốn xây dựng mô hình dự đoán giá nhà dựa trên các đặc điểm như diện tích, vị trí, số phòng ngủ, v.v. Thuật toán học máy nào sau đây thuộc nhóm 'học có giám sát' (supervised learning) và phù hợp cho bài toán này?

Hồi quy tuyến tính (Linear Regression)

K-Means Clustering

Phân tích thành phần chính (Principal Component Analysis - PCA)

Apriori Algorithm

Câu hỏi về ứng dụng học máy trong Big Data, yêu cầu chọn thuật toán supervised learning phù hợp cho bài toán dự đoán giá trị liên tục (regression).

10 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 10: Trong kiến trúc YARN (Yet Another Resource Negotiator) của Hadoop, thành phần nào chịu trách nhiệm quản lý tài nguyên cụm (CPU, bộ nhớ) và phân phối công việc cho các ứng dụng?

NameNode

ResourceManager

ApplicationMaster

Container

Câu hỏi về thành phần YARN trong Hadoop, cụ thể là vai trò của ResourceManager trong quản lý tài nguyên cụm.

11 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 11: 'Tính sẵn sàng cao' (High Availability - HA) là một yêu cầu quan trọng trong hệ thống Big Data. Trong ngữ cảnh HDFS, HA thường được đảm bảo bằng cách nào?

Sử dụng nhiều DataNode

Sao chép dữ liệu thành nhiều bản

Triển khai NameNode dự phòng (Standby NameNode)

Sử dụng bộ nhớ cache lớn cho NameNode

Câu hỏi về tính sẵn sàng cao (HA) trong HDFS, yêu cầu chọn phương pháp đảm bảo HA cho NameNode.

12 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 12: 'Độ trễ thấp' (Low Latency) là ưu tiên hàng đầu trong các ứng dụng Big Data thời gian thực. Công nghệ nào sau đây thường được sử dụng để truy vấn dữ liệu tương tác với độ trễ thấp trên Hadoop?

Hadoop MapReduce thuần túy

Apache Spark Core

HDFS Command Line Interface (CLI)

Apache Hive với LLAP (Live Long and Process)

Câu hỏi về truy vấn tương tác độ trễ thấp trên Hadoop, yêu cầu chọn công nghệ phù hợp cho mục đích này (thường là các công cụ SQL-on-Hadoop được tối ưu hóa).

13 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 13: Trong quá trình xử lý dữ liệu lớn, 'Data Cleansing' (Làm sạch dữ liệu) bao gồm các hoạt động nào?

Thu thập dữ liệu từ nhiều nguồn khác nhau

Xử lý dữ liệu bị thiếu, dữ liệu nhiễu, và dữ liệu không nhất quán

Chuyển đổi dữ liệu sang định dạng phù hợp

Tải dữ liệu vào hệ thống lưu trữ

Câu hỏi về Data Cleansing, một bước quan trọng trong tiền xử lý dữ liệu, yêu cầu liệt kê các hoạt động liên quan.

14 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 14: 'Sharding' (Phân mảnh) là một kỹ thuật được sử dụng trong cơ sở dữ liệu phân tán để cải thiện hiệu suất và khả năng mở rộng. Sharding hoạt động bằng cách nào?

Sao chép dữ liệu trên nhiều máy chủ

Nén dữ liệu để giảm kích thước lưu trữ

Chia dữ liệu thành các phân vùng nhỏ hơn và phân phối trên nhiều máy chủ

Tối ưu hóa truy vấn SQL

Câu hỏi về kỹ thuật Sharding, một phương pháp phân tán dữ liệu quan trọng trong Big Data.

15 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 15: 'CAP theorem' (Định lý CAP) trong hệ thống phân tán khẳng định rằng một hệ thống chỉ có thể đảm bảo tối đa hai trong ba thuộc tính nào sau đây đồng thời?

Tính nhất quán (Consistency), Tính sẵn sàng (Availability), Khả năng chịu phân vùng (Partition Tolerance)

Tính bảo mật (Confidentiality), Tính toàn vẹn (Integrity), Tính sẵn sàng (Availability)

Tính nhất quán (Consistency), Tính toàn vẹn (Integrity), Khả năng chịu lỗi (Fault Tolerance)

Tính bảo mật (Confidentiality), Tính sẵn sàng (Availability), Hiệu suất (Performance)

Câu hỏi về CAP theorem, một nguyên lý cơ bản trong thiết kế hệ thống phân tán, yêu cầu xác định ba thuộc tính liên quan.

16 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 16: 'Lambda architecture' (Kiến trúc Lambda) là một mẫu kiến trúc Big Data phổ biến. Mục tiêu chính của Lambda architecture là gì?

Đơn giản hóa quy trình ETL

Xử lý đồng thời cả dữ liệu batch (lô) và dữ liệu streaming (dòng) với độ trễ khác nhau

Đảm bảo tính nhất quán mạnh mẽ cho dữ liệu

Tối ưu hóa chi phí lưu trữ dữ liệu

Câu hỏi về Lambda architecture, một kiến trúc Big Data để xử lý cả batch và streaming data.

17 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 17: 'Data Governance' (Quản trị dữ liệu) trong Big Data bao gồm những hoạt động nào?

Phát triển các thuật toán học máy tiên tiến

Xây dựng hạ tầng lưu trữ dữ liệu phân tán

Đảm bảo chất lượng dữ liệu, bảo mật dữ liệu, tuân thủ quy định và quản lý vòng đời dữ liệu

Trực quan hóa dữ liệu để khám phá thông tin chi tiết

Câu hỏi về Data Governance, một khía cạnh quan trọng trong quản lý Big Data, yêu cầu liệt kê các hoạt động liên quan.

18 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 18: 'Data Wrangling' (Chuẩn bị dữ liệu) là một bước quan trọng trong quy trình phân tích dữ liệu. Hoạt động nào sau đây thuộc về Data Wrangling?

Huấn luyện mô hình học máy

Triển khai hệ thống Big Data

Xây dựng dashboard trực quan hóa dữ liệu

Chuyển đổi và cấu trúc lại dữ liệu để phân tích

Câu hỏi về Data Wrangling, một bước tiền xử lý dữ liệu quan trọng, yêu cầu chọn hoạt động liên quan.

19 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 19: 'Spark RDD' (Resilient Distributed Dataset) là một khái niệm cốt lõi trong Apache Spark. RDD là gì?

Hệ thống tệp phân tán trong Spark

Tập dữ liệu phân tán và bất biến, có khả năng chịu lỗi

Công cụ truy vấn SQL trên Spark

Thư viện học máy của Spark

Câu hỏi về Spark RDD, một abstraction dữ liệu quan trọng trong Spark.

20 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 20: 'Kappa architecture' (Kiến trúc Kappa) là một kiến trúc Big Data khác, thường được so sánh với Lambda architecture. Điểm khác biệt chính của Kappa architecture so với Lambda architecture là gì?

Kappa architecture loại bỏ lớp batch processing và chỉ tập trung vào stream processing

Kappa architecture chỉ xử lý dữ liệu batch, không xử lý stream data

Kappa architecture sử dụng cơ sở dữ liệu NoSQL, còn Lambda architecture sử dụng RDBMS

Kappa architecture tập trung vào xử lý dữ liệu đồ thị, còn Lambda architecture xử lý dữ liệu văn bản

Câu hỏi so sánh Kappa và Lambda architectures, tập trung vào điểm khác biệt cốt lõi.

21 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 21: 'Data Virtualization' (Ảo hóa dữ liệu) là một phương pháp tiếp cận hiện đại trong quản lý dữ liệu. Lợi ích chính của Data Virtualization là gì?

Cải thiện hiệu suất xử lý dữ liệu batch

Giảm chi phí lưu trữ dữ liệu

Cho phép truy cập dữ liệu từ nhiều nguồn khác nhau mà không cần di chuyển hoặc sao chép dữ liệu

Tăng cường bảo mật dữ liệu

Câu hỏi về Data Virtualization, một kỹ thuật truy cập dữ liệu hiện đại, yêu cầu xác định lợi ích chính.

22 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 22: 'Containerization' (Công nghệ container) như Docker và Kubernetes ngày càng phổ biến trong triển khai ứng dụng Big Data. Lợi ích chính của việc sử dụng container trong Big Data là gì?

Giảm chi phí phần cứng

Đơn giản hóa việc triển khai, quản lý và mở rộng ứng dụng Big Data

Tăng cường bảo mật dữ liệu trong môi trường Big Data

Cải thiện hiệu suất truy vấn dữ liệu

Câu hỏi về containerization trong Big Data, yêu cầu xác định lợi ích chính.

23 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 23: 'Data Lineage' (Dòng dõi dữ liệu) là một khía cạnh quan trọng của Data Governance. Data Lineage cung cấp thông tin gì?

Kích thước và định dạng của dữ liệu

Mức độ bảo mật của dữ liệu

Tốc độ truy cập dữ liệu

Nguồn gốc, đường đi và các biến đổi của dữ liệu từ khi được tạo ra đến khi sử dụng

Câu hỏi về Data Lineage, một khái niệm quan trọng trong Data Governance, yêu cầu xác định thông tin mà nó cung cấp.

24 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 24: 'Data Mesh' (Lưới dữ liệu) là một mô hình kiến trúc dữ liệu phi tập trung. Nguyên tắc cốt lõi của Data Mesh là gì?

Phân quyền sở hữu dữ liệu cho các miền nghiệp vụ (domain) và xây dựng dữ liệu như một sản phẩm

Tập trung hóa toàn bộ dữ liệu vào một Data Lake trung tâm

Sử dụng Data Warehouse làm nền tảng duy nhất cho phân tích dữ liệu

Áp dụng kiến trúc Lambda cho mọi ứng dụng dữ liệu

Câu hỏi về Data Mesh, một mô hình kiến trúc dữ liệu mới nổi, yêu cầu xác định nguyên tắc cốt lõi.

25 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 25: 'Feature Engineering' (Kỹ thuật đặc trưng) là một bước quan trọng trong xây dựng mô hình học máy. Feature Engineering là gì?

Quá trình thu thập và làm sạch dữ liệu

Quá trình lựa chọn, biến đổi và tạo ra các đặc trưng (features) phù hợp từ dữ liệu thô để cải thiện hiệu suất mô hình học máy

Quá trình đánh giá và lựa chọn mô hình học máy tốt nhất

Quá trình triển khai mô hình học máy vào môi trường sản xuất

Câu hỏi về Feature Engineering, một bước quan trọng trong học máy, yêu cầu định nghĩa khái niệm.

26 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 26: 'Bias' (Độ lệch) trong dữ liệu và mô hình học máy có thể dẫn đến những hậu quả tiêu cực nào?

Cải thiện khả năng diễn giải của mô hình

Giảm chi phí lưu trữ dữ liệu

Quyết định không công bằng, phân biệt đối xử và kém chính xác

Tăng hiệu suất tính toán của mô hình

Câu hỏi về Bias trong dữ liệu và mô hình học máy, yêu cầu xác định hậu quả tiêu cực.

27 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 27: 'Data Security' (Bảo mật dữ liệu) là một mối quan tâm hàng đầu trong Big Data. Biện pháp nào sau đây *không* phải là một biện pháp bảo mật dữ liệu phổ biến trong môi trường Big Data?

Mã hóa dữ liệu (Data encryption) khi lưu trữ và truyền tải

Kiểm soát truy cập dựa trên vai trò (Role-Based Access Control - RBAC)

Theo dõi và kiểm toán hoạt động truy cập dữ liệu

Công khai dữ liệu cho mọi người dùng để tăng tính minh bạch

Câu hỏi về Data Security trong Big Data, yêu cầu xác định biện pháp *không* phải là biện pháp bảo mật phổ biến.

28 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 28: 'Real-time analytics' (Phân tích thời gian thực) mang lại lợi ích gì cho doanh nghiệp?

Cải thiện độ chính xác của mô hình học máy

Ra quyết định nhanh chóng và kịp thời dựa trên dữ liệu mới nhất

Giảm chi phí lưu trữ dữ liệu lịch sử

Đơn giản hóa quy trình ETL

Câu hỏi về lợi ích của Real-time analytics, một ứng dụng quan trọng của Big Data.

29 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 29: 'Scalability' (Khả năng mở rộng) là một trong những đặc điểm quan trọng nhất của hệ thống Big Data. Scalability có nghĩa là gì?

Khả năng hệ thống có thể chạy trên nhiều nền tảng khác nhau

Khả năng hệ thống bảo vệ dữ liệu khỏi truy cập trái phép

Khả năng hệ thống có thể xử lý lượng dữ liệu và tải công việc tăng lên một cách hiệu quả

Khả năng hệ thống phục hồi nhanh chóng sau sự cố

Câu hỏi về Scalability, một đặc tính cốt lõi của hệ thống Big Data, yêu cầu định nghĩa khái niệm.

30 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 04

Câu 30: Trong ngữ cảnh Big Data, 'Data Silos' (Ống khói dữ liệu) là một vấn đề phổ biến. Data Silos là gì và tại sao chúng gây ra vấn đề?

Các hệ thống lưu trữ dữ liệu cũ và lạc hậu

Các biện pháp bảo mật dữ liệu quá nghiêm ngặt

Các công cụ trực quan hóa dữ liệu phức tạp và khó sử dụng

Các bộ phận dữ liệu bị cô lập, khó truy cập và chia sẻ giữa các bộ phận khác nhau trong tổ chức, gây cản trở việc khai thác giá trị tổng thể của dữ liệu

Xem kết quả

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Nhận kết quả

Xảy ra lỗi

Bước 1: Vào google.com rồi gõ từ khóa:
Copy nhanh thanh-tim-kiem

Bước 2: Trong kết quả tìm kiếm Google, hãy tìm website giống hình bên dưới

Nếu trang 1 không có hãy tìm ở trang 2, 3, 4... nhé trang-google

Bước 3:

Cuộn xuống cuối bài viết rồi bấm vào nút GIỐNG HÌNH DƯỚI và chờ 1 lát để lấy mã:

luot-xem

Nếu tìm không thấy mã bạn có thể Đổi nhiệm vụ để lấy mã khác.

Câu hỏi về Data Silos, một vấn đề trong quản lý dữ liệu doanh nghiệp, yêu cầu định nghĩa và giải thích tác hại.

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!

Trắc nghiệm Dữ liệu lớn (BigData)

Trắc nghiệm Dữ liệu lớn (BigData) - Đề 05

1 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 1: Trong kiến trúc Hadoop HDFS, thành phần nào chịu trách nhiệm quản lý siêu dữ liệu (metadata) của hệ thống tệp, bao gồm thông tin về vị trí các khối dữ liệu và quyền truy cập?

NameNode

DataNode

Secondary NameNode

ResourceManager

Câu hỏi kiểm tra kiến thức về thành phần cốt lõi trong HDFS, tập trung vào vai trò quản lý siêu dữ liệu.

2 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 2: Điều gì xảy ra khi một DataNode trong cụm Hadoop bị lỗi hoặc không khả dụng?

Hệ thống ngừng hoạt động cho đến khi DataNode được khôi phục.

Dữ liệu trên DataNode bị mất vĩnh viễn.

NameNode phát hiện lỗi và khởi tạo quá trình sao chép lại các khối dữ liệu bị thiếu từ các DataNode khác.

Quản trị viên hệ thống phải can thiệp thủ công để phục hồi dữ liệu.

Câu hỏi kiểm tra hiểu biết về cơ chế chịu lỗi và tự phục hồi của HDFS.

3 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 3: Để xử lý một lượng lớn dữ liệu phi cấu trúc (unstructured data) như nhật ký web (web logs) hoặc dữ liệu cảm biến (sensor data), Hadoop MapReduce thường được sử dụng để thực hiện công việc gì?

Quản lý giao dịch cơ sở dữ liệu quan hệ phức tạp.

Phân tích song song và thống kê dữ liệu trên quy mô lớn.

Truyền dữ liệu trực tuyến thời gian thực.

Tối ưu hóa truy vấn SQL phức tạp.

Câu hỏi kiểm tra khả năng ứng dụng MapReduce vào xử lý dữ liệu phi cấu trúc.

4 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 4: YARN (Yet Another Resource Negotiator) đóng vai trò gì trong hệ sinh thái Hadoop?

Lưu trữ dữ liệu phân tán.

Xử lý dữ liệu theo mô hình MapReduce.

Quản lý siêu dữ liệu hệ thống tệp.

Quản lý và phân phối tài nguyên tính toán (CPU, bộ nhớ) cho các ứng dụng khác nhau trong cụm.

Câu hỏi tập trung vào vai trò quản lý tài nguyên của YARN trong Hadoop.

5 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 5: Giả sử bạn có một tập dữ liệu lớn chứa thông tin giao dịch khách hàng của một công ty bán lẻ trực tuyến. Bạn muốn phân tích hành vi mua hàng theo thời gian thực để đưa ra các đề xuất sản phẩm cá nhân hóa ngay lập tức. Công nghệ xử lý dữ liệu lớn nào sau đây phù hợp nhất?

Hadoop MapReduce

HDFS

Apache Kafka hoặc Apache Spark Streaming

Apache Hive

Câu hỏi tình huống về lựa chọn công nghệ phù hợp cho xử lý dữ liệu thời gian thực.

6 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 6: Thuật ngữ 'Schema on Read' thường được liên kết với loại hệ thống quản lý dữ liệu lớn nào?

Cơ sở dữ liệu quan hệ (Relational Databases)

Hồ dữ liệu (Data Lakes) và các hệ thống NoSQL

Kho dữ liệu (Data Warehouses)

Hệ thống xử lý giao dịch trực tuyến (OLTP)

Câu hỏi kiểm tra kiến thức về khái niệm 'Schema on Read' và liên hệ với loại CSDL phù hợp.

7 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 7: Điều gì là mục tiêu chính của việc sử dụng kỹ thuật 'partitioning' (phân vùng) trong xử lý dữ liệu lớn?

Cải thiện hiệu suất truy vấn và xử lý dữ liệu bằng cách song song hóa.

Giảm dung lượng lưu trữ dữ liệu tổng thể.

Tăng cường tính bảo mật dữ liệu.

Đơn giản hóa việc sao lưu và phục hồi dữ liệu.

Câu hỏi về mục đích của phân vùng dữ liệu trong ngữ cảnh Big Data.

8 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 8: Trong mô hình lập trình MapReduce, giai đoạn 'Reduce' có chức năng chính là gì?

Đọc dữ liệu đầu vào và chia thành các phần nhỏ hơn.

Áp dụng các phép biến đổi và lọc dữ liệu trên từng phần dữ liệu.

Tổng hợp, kết hợp và rút gọn các kết quả trung gian từ giai đoạn 'Map' để tạo ra kết quả cuối cùng.

Phân phối công việc cho các nút tính toán khác nhau.

Câu hỏi tập trung vào chức năng của giai đoạn Reduce trong MapReduce.

9 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 9: 'Data Lake' (hồ dữ liệu) khác biệt cơ bản so với 'Data Warehouse' (kho dữ liệu) ở điểm nào?

Data Lake chỉ lưu trữ dữ liệu có cấu trúc, trong khi Data Warehouse lưu trữ dữ liệu phi cấu trúc.

Data Lake lưu trữ dữ liệu thô, đa dạng ở định dạng gốc, trong khi Data Warehouse lưu trữ dữ liệu đã được làm sạch, chuyển đổi và cấu trúc hóa cho mục đích phân tích cụ thể.

Data Lake được thiết kế cho truy vấn OLTP, còn Data Warehouse cho OLAP.

Data Lake có khả năng mở rộng kém hơn Data Warehouse.

Câu hỏi so sánh và đối chiếu Data Lake và Data Warehouse.

10 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 10: Giả sử bạn muốn truy vấn dữ liệu trong Hadoop HDFS bằng ngôn ngữ SQL. Công cụ nào sau đây có thể giúp bạn thực hiện điều này?

HBase

ZooKeeper

Flume

Apache Hive hoặc Apache Impala (Cloudera Impala)

Câu hỏi về công cụ cho phép truy vấn SQL trên dữ liệu Hadoop.

11 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 11: Trong ngữ cảnh Big Data, 'tính co giãn' (scalability) đề cập đến khả năng của hệ thống như thế nào?

Khả năng xử lý dữ liệu theo thời gian thực.

Khả năng đảm bảo tính toàn vẹn và chính xác của dữ liệu.

Khả năng mở rộng hoặc thu hẹp tài nguyên (lưu trữ, tính toán) để đáp ứng sự thay đổi về khối lượng và tốc độ dữ liệu.

Khả năng bảo vệ dữ liệu khỏi truy cập trái phép.

Câu hỏi định nghĩa và kiểm tra hiểu biết về tính co giãn trong Big Data.

12 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 12: 'CAP theorem' (Định lý CAP) trong hệ thống phân tán khẳng định rằng, trong trường hợp phân vùng mạng (network partition), một hệ thống chỉ có thể đảm bảo tối đa hai trong ba thuộc tính nào sau đây?

Tính nhất quán (Consistency), Tính khả dụng (Availability), Tính bảo mật (Privacy)

Tính nhất quán (Consistency), Tính khả dụng (Availability), Tính chịu phân vùng (Partition Tolerance)

Tính toàn vẹn (Integrity), Tính khả dụng (Availability), Tính chịu lỗi (Fault Tolerance)

Tính nhất quán (Consistency), Tính toàn vẹn (Integrity), Tính chịu phân vùng (Partition Tolerance)

Câu hỏi kiểm tra kiến thức về CAP theorem, một khái niệm quan trọng trong hệ thống phân tán.

13 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 13: Giả sử bạn đang thiết kế một hệ thống Big Data để thu thập và phân tích dữ liệu nhật ký từ hàng ngàn máy chủ web trong thời gian thực. Công cụ nào sau đây chuyên dụng cho việc thu thập và chuyển dữ liệu nhật ký hiệu quả?

Apache Flume hoặc Apache Kafka

Hadoop MapReduce

Apache Hive

HBase

Câu hỏi tình huống về lựa chọn công cụ thu thập nhật ký trong Big Data.

14 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 14: 'Bộ nhớ trong cột' (columnar storage) mang lại lợi ích gì trong các hệ thống quản lý cơ sở dữ liệu lớn, đặc biệt cho các truy vấn phân tích (OLAP)?

Tăng tốc độ ghi dữ liệu.

Đơn giản hóa việc quản lý giao dịch phức tạp.

Giảm lượng dữ liệu cần đọc từ đĩa khi truy vấn chỉ liên quan đến một số cột nhất định, cải thiện hiệu suất truy vấn phân tích.

Cải thiện khả năng chịu lỗi của hệ thống.

Câu hỏi về lợi ích của columnar storage trong ngữ cảnh phân tích dữ liệu lớn.

15 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 15: Công cụ 'Apache Spark' nổi bật so với Hadoop MapReduce chủ yếu ở điểm nào?

Khả năng lưu trữ dữ liệu lớn hơn.

Khả năng xử lý dữ liệu nhanh hơn đáng kể, đặc biệt cho các tác vụ lặp đi lặp lại và phân tích tương tác, nhờ khả năng tính toán trong bộ nhớ (in-memory processing).

Khả năng quản lý tài nguyên cụm tốt hơn.

Khả năng truy vấn SQL mạnh mẽ hơn.

Câu hỏi so sánh Spark và MapReduce, tập trung vào điểm mạnh của Spark.

16 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 16: 'ETL' là viết tắt của quy trình nào trong lĩnh vực dữ liệu lớn và kho dữ liệu?

Extract, Transform, Load - Quy trình trích xuất, biến đổi, và tải dữ liệu.

Evaluate, Test, Learn - Quy trình đánh giá, kiểm thử, và học hỏi.

Encrypt, Transfer, Log - Quy trình mã hóa, truyền tải, và ghi nhật ký.

Extract, Transform, Load - Quy trình trích xuất, chuyển đổi, và tải dữ liệu.

Câu hỏi kiểm tra kiến thức về thuật ngữ ETL và ý nghĩa của nó.

17 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 17: Trong ngữ cảnh bảo mật dữ liệu lớn, kỹ thuật 'data masking' (che giấu dữ liệu) được sử dụng để làm gì?

Mã hóa toàn bộ cơ sở dữ liệu để ngăn chặn truy cập trái phép.

Thay thế dữ liệu nhạy cảm (ví dụ: thông tin cá nhân) bằng các giá trị giả hoặc đã được xáo trộn, nhưng vẫn giữ được định dạng và tính hữu ích cho mục đích phân tích hoặc thử nghiệm.

Xóa vĩnh viễn dữ liệu không còn cần thiết.

Giám sát và ghi lại hoạt động truy cập dữ liệu.

Câu hỏi về mục đích của data masking trong bảo mật Big Data.

18 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 18: Loại cơ sở dữ liệu NoSQL nào phù hợp nhất để lưu trữ và truy vấn dữ liệu đồ thị (graph data), ví dụ như mạng xã hội hoặc các mối quan hệ giữa các thực thể?

Cơ sở dữ liệu Key-Value (Key-Value Database)

Cơ sở dữ liệu Document (Document Database)

Cơ sở dữ liệu Graph (Graph Database)

Cơ sở dữ liệu Column-Family (Column-Family Database)

Câu hỏi về loại CSDL NoSQL thích hợp cho dữ liệu đồ thị.

19 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 19: 'Lambda architecture' (Kiến trúc Lambda) trong Big Data kết hợp hai lớp xử lý dữ liệu chính nào?

Lớp tốc độ (Speed layer) để xử lý dữ liệu thời gian thực và lớp lô (Batch layer) để xử lý dữ liệu lịch sử.

Lớp lưu trữ (Storage layer) và lớp tính toán (Computation layer).

Lớp bảo mật (Security layer) và lớp ứng dụng (Application layer).

Lớp frontend (Frontend layer) và lớp backend (Backend layer).

Câu hỏi kiểm tra kiến thức về kiến trúc Lambda và các lớp xử lý dữ liệu.

20 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 20: Để quản lý và điều phối các tác vụ phức tạp trong quy trình làm việc dữ liệu lớn (Big Data workflows), công cụ nào sau đây thường được sử dụng?

HDFS

Apache Airflow hoặc Apache Oozie

Apache Hive

Apache Kafka

Câu hỏi về công cụ quản lý workflow trong Big Data.

21 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 21: 'Data governance' (Quản trị dữ liệu) trong Big Data bao gồm các hoạt động chính nào?

Chỉ tập trung vào bảo mật dữ liệu.

Chỉ liên quan đến việc tối ưu hóa hiệu suất truy vấn.

Chỉ bao gồm việc sao lưu và phục hồi dữ liệu.

Xác định chính sách, quy trình và tiêu chuẩn để đảm bảo chất lượng, tính toàn vẹn, bảo mật và tuân thủ của dữ liệu trong toàn tổ chức.

Câu hỏi về phạm vi và mục tiêu của Data Governance trong Big Data.

22 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 22: Trong quá trình khai phá dữ liệu (data mining) trên tập dữ liệu lớn, kỹ thuật 'clustering' (phân cụm) thường được sử dụng để làm gì?

Dự đoán giá trị tương lai dựa trên dữ liệu lịch sử.

Phân loại dữ liệu vào các nhóm đã được xác định trước.

Phân nhóm các đối tượng dữ liệu tương tự vào các cụm dựa trên các đặc điểm chung, khám phá cấu trúc ẩn trong dữ liệu.

Tìm kiếm các quy luật kết hợp giữa các mục dữ liệu.

Câu hỏi về ứng dụng của kỹ thuật clustering trong khai phá dữ liệu lớn.

23 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 23: 'Data virtualization' (Ảo hóa dữ liệu) mang lại lợi ích gì cho việc truy cập và sử dụng dữ liệu lớn?

Tăng tốc độ xử lý dữ liệu.

Cho phép truy cập và tích hợp dữ liệu từ nhiều nguồn khác nhau mà không cần di chuyển hoặc sao chép dữ liệu vật lý, đơn giản hóa việc truy cập dữ liệu và giảm chi phí quản lý.

Cải thiện khả năng chịu lỗi của hệ thống.

Tăng cường bảo mật dữ liệu.

Câu hỏi về lợi ích của Data Virtualization trong Big Data.

24 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 24: 'In-memory computing' (Tính toán trong bộ nhớ) trong Big Data đặc biệt hiệu quả cho loại ứng dụng nào?

Các ứng dụng yêu cầu độ trễ thấp và phản hồi nhanh, như phân tích tương tác, xử lý giao dịch trực tuyến, và phân tích thời gian thực.

Các ứng dụng xử lý lô dữ liệu lớn định kỳ, không yêu cầu thời gian phản hồi nhanh.

Các ứng dụng tập trung vào lưu trữ dữ liệu lâu dài.

Các ứng dụng liên quan đến quản lý siêu dữ liệu hệ thống tệp.

Câu hỏi về ứng dụng phù hợp với In-memory computing trong Big Data.

25 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 25: 'Serverless computing' (Điện toán phi máy chủ) có thể được áp dụng như thế nào trong kiến trúc Big Data?

Thay thế hoàn toàn các cụm Hadoop truyền thống.

Chỉ sử dụng cho lưu trữ dữ liệu.

Sử dụng cho các tác vụ xử lý dữ liệu theo sự kiện (event-driven), các pipeline ETL đơn giản, hoặc các ứng dụng microservices trong hệ sinh thái Big Data, giúp giảm chi phí quản lý cơ sở hạ tầng.

Chỉ phù hợp cho các ứng dụng nhỏ, không mở rộng được cho Big Data.

Câu hỏi về ứng dụng của Serverless computing trong Big Data.

26 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 26: 'Data lineage' (Dòng dõi dữ liệu) là gì và tại sao nó quan trọng trong quản lý dữ liệu lớn?

Quy trình mã hóa dữ liệu để bảo mật.

Phương pháp nén dữ liệu để giảm dung lượng lưu trữ.

Kỹ thuật phân vùng dữ liệu để tăng hiệu suất truy vấn.

Theo dõi nguồn gốc, biến đổi và dòng chảy của dữ liệu qua các hệ thống và quy trình, giúp hiểu rõ lịch sử dữ liệu, đảm bảo chất lượng dữ liệu và tuân thủ quy định.

Câu hỏi về khái niệm Data Lineage và tầm quan trọng của nó.

27 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 27: Trong ngữ cảnh Big Data và Machine Learning, 'feature engineering' (thiết kế đặc trưng) là quá trình làm gì?

Chọn lọc, biến đổi và tạo ra các đặc trưng (features) phù hợp từ dữ liệu thô để cải thiện hiệu suất của các mô hình học máy.

Xây dựng mô hình học máy phức tạp.

Tối ưu hóa hiệu suất của hệ thống lưu trữ dữ liệu.

Trực quan hóa dữ liệu để khám phá thông tin.

Câu hỏi về định nghĩa và mục đích của Feature Engineering.

28 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 28: 'DataOps' (Data Operations) là gì và mục tiêu của nó là gì trong quản lý dữ liệu lớn?

Một công cụ cụ thể để xử lý dữ liệu lớn.

Một phương pháp luận và tập hợp các thực hành tốt nhất nhằm tự động hóa và tối ưu hóa quy trình làm việc dữ liệu, từ thu thập, chuẩn bị, tích hợp đến phân tích và triển khai mô hình, để tăng tốc độ, hiệu quả và chất lượng của các dự án dữ liệu.

Một loại cơ sở dữ liệu NoSQL mới.

Một phương pháp bảo mật dữ liệu.

Câu hỏi về khái niệm DataOps và mục tiêu của nó trong Big Data.

29 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 29: Giả sử bạn cần lựa chọn giữa Hadoop MapReduce và Apache Flink cho một dự án phân tích dữ liệu lớn. Yếu tố nào sau đây nên được ưu tiên xem xét để đưa ra quyết định phù hợp nhất?

Dung lượng lưu trữ dữ liệu dự kiến.

Ngôn ngữ lập trình hỗ trợ.

Yêu cầu về độ trễ và khả năng xử lý thời gian thực của ứng dụng. Flink phù hợp hơn cho các ứng dụng thời gian thực và độ trễ thấp.

Chi phí triển khai và vận hành hệ thống.

Câu hỏi tình huống về lựa chọn giữa MapReduce và Flink dựa trên yêu cầu dự án.

30 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 05

Câu 30: Trong bối cảnh dữ liệu lớn ngày càng phát triển, thách thức 'Veracity' (Tính xác thực) trong mô hình 5Vs (Volume, Velocity, Variety, Veracity, Value) đề cập đến vấn đề gì?

Khối lượng dữ liệu quá lớn để xử lý.

Tốc độ dữ liệu được tạo ra quá nhanh.

Sự đa dạng của các loại dữ liệu khác nhau.

Độ tin cậy, độ chính xác và sự đáng tin cậy của dữ liệu, bao gồm cả việc xử lý dữ liệu nhiễu, không đầy đủ hoặc không nhất quán.

Xem kết quả

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Nhận kết quả

Xảy ra lỗi

Bước 1: Vào google.com rồi gõ từ khóa:
Copy nhanh thanh-tim-kiem

Bước 2: Trong kết quả tìm kiếm Google, hãy tìm website giống hình bên dưới

Nếu trang 1 không có hãy tìm ở trang 2, 3, 4... nhé trang-google

Bước 3:

Cuộn xuống cuối bài viết rồi bấm vào nút GIỐNG HÌNH DƯỚI và chờ 1 lát để lấy mã:

luot-xem

Nếu tìm không thấy mã bạn có thể Đổi nhiệm vụ để lấy mã khác.

Câu hỏi về thách thức Veracity trong 5Vs của Big Data.

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!

Trắc nghiệm Dữ liệu lớn (BigData)

Trắc nghiệm Dữ liệu lớn (BigData) - Đề 06

1 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 1: Đặc điểm nào sau đây KHÔNG phải là đặc điểm điển hình của dữ liệu lớn (Big Data)?

Dung lượng lớn (Volume)

Tốc độ cao (Velocity)

Cấu trúc chặt chẽ (Structured)

Đa dạng (Variety)

Câu hỏi kiểm tra kiến thức về 5V của Big Data (Volume, Velocity, Variety, Veracity, Value) và yêu cầu xác định đặc điểm không phù hợp.

2 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 2: Trong kiến trúc Hadoop, thành phần nào chịu trách nhiệm quản lý tài nguyên cụm và lập lịch công việc?

HDFS (Hadoop Distributed File System)

YARN (Yet Another Resource Negotiator)

MapReduce

NameNode

Câu hỏi kiểm tra kiến thức về các thành phần cốt lõi của Hadoop và chức năng của YARN.

3 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 3: Định nghĩa nào sau đây mô tả đúng nhất về Data Lake?

Một kho lưu trữ dữ liệu có cấu trúc, được tối ưu hóa cho truy vấn SQL.

Một hệ thống quản lý cơ sở dữ liệu quan hệ phân tán.

Một nền tảng BI (Business Intelligence) để trực quan hóa dữ liệu.

Một kho lưu trữ dữ liệu thô, có thể chứa dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc, cho phép phân tích linh hoạt.

Câu hỏi kiểm tra sự hiểu biết về khái niệm Data Lake và sự khác biệt với Data Warehouse.

4 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 4: Công nghệ nào sau đây thường được sử dụng để xử lý dữ liệu lớn theo thời gian thực (real-time processing)?

Apache Spark Streaming

Apache Hadoop MapReduce

Hive

HDFS

Câu hỏi kiểm tra kiến thức về các công nghệ xử lý dữ liệu lớn, tập trung vào khả năng xử lý thời gian thực.

5 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 5: Trong mô hình lập trình MapReduce, giai đoạn 'Reduce' có chức năng chính là gì?

Đọc dữ liệu đầu vào và chia thành các phần nhỏ hơn.

Lọc và chuyển đổi dữ liệu thành các cặp key-value.

Tổng hợp và kết hợp các giá trị có cùng khóa (key) để tạo ra kết quả cuối cùng.

Lưu trữ dữ liệu đã xử lý vào hệ thống tệp phân tán.

Câu hỏi kiểm tra sự hiểu biết về quy trình MapReduce và vai trò của giai đoạn Reduce.

6 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 6: Kịch bản nào sau đây thể hiện ứng dụng của dữ liệu lớn trong lĩnh vực y tế?

Sử dụng bảng tính Excel để quản lý hồ sơ bệnh nhân.

Phân tích dữ liệu hồ sơ bệnh án điện tử, dữ liệu xét nghiệm và dữ liệu gen để dự đoán nguy cơ bệnh tật và cá nhân hóa phương pháp điều trị.

Gửi email quảng cáo thuốc mới đến bệnh nhân.

In các báo cáo thống kê bệnh viện hàng tháng.

Câu hỏi yêu cầu nhận diện ứng dụng thực tế của Big Data trong một ngành cụ thể, đòi hỏi khả năng liên hệ kiến thức.

7 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 7: Thử thách lớn nhất khi làm việc với dữ liệu lớn về mặt 'Veracity' (Độ tin cậy) là gì?

Khối lượng dữ liệu quá lớn để lưu trữ.

Tốc độ dữ liệu được tạo ra quá nhanh.

Sự đa dạng của các loại dữ liệu khác nhau.

Dữ liệu có thể chứa lỗi, không nhất quán hoặc thiếu chính xác.

Câu hỏi tập trung vào một trong 5V của Big Data - Veracity, và thách thức liên quan đến độ tin cậy của dữ liệu.

8 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 8: Công cụ nào sau đây thường được sử dụng để truy vấn và phân tích dữ liệu trong Hadoop Data Lake bằng ngôn ngữ SQL-like?

MapReduce

HDFS

Apache Hive

YARN

Câu hỏi kiểm tra kiến thức về các công cụ truy vấn dữ liệu lớn trong hệ sinh thái Hadoop, đặc biệt là các công cụ SQL-like.

9 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 9: Quy trình ETL (Extract, Transform, Load) đóng vai trò gì trong quản lý dữ liệu lớn?

Công cụ để trực quan hóa dữ liệu.

Quy trình chuẩn bị dữ liệu từ nhiều nguồn khác nhau, làm sạch, chuyển đổi và đưa vào hệ thống lưu trữ để phân tích.

Ngôn ngữ lập trình để xử lý dữ liệu song song.

Giao thức truyền dữ liệu nhanh trong mạng.

Câu hỏi kiểm tra sự hiểu biết về quy trình ETL và tầm quan trọng của nó trong bối cảnh dữ liệu lớn.

10 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 10: Kiến trúc 'Lambda' trong Big Data được thiết kế để giải quyết vấn đề gì?

Xử lý đồng thời cả dữ liệu batch (lô) và dữ liệu streaming (dòng) với độ trễ thấp.

Tối ưu hóa việc lưu trữ dữ liệu phi cấu trúc.

Đảm bảo tính toàn vẹn và bảo mật dữ liệu.

Cải thiện khả năng mở rộng của hệ thống xử lý dữ liệu.

Câu hỏi kiểm tra kiến thức về các kiến trúc xử lý dữ liệu lớn phổ biến, cụ thể là kiến trúc Lambda và mục đích của nó.

11 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 11: Trong ngữ cảnh Big Data, 'Data Governance' (Quản trị dữ liệu) đề cập đến điều gì?

Công nghệ để lưu trữ dữ liệu lớn một cách hiệu quả.

Phương pháp phân tích dữ liệu để tìm ra thông tin giá trị.

Quy trình kỹ thuật để làm sạch và chuyển đổi dữ liệu.

Tập hợp các chính sách, quy trình và tiêu chuẩn để đảm bảo chất lượng, bảo mật, tuân thủ và khả năng sử dụng dữ liệu của tổ chức.

Câu hỏi kiểm tra sự hiểu biết về khái niệm Data Governance và tầm quan trọng của nó trong môi trường dữ liệu lớn.

12 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 12: So sánh Apache Spark và Hadoop MapReduce, ưu điểm chính của Spark là gì?

Khả năng lưu trữ dữ liệu lớn hơn.

Tốc độ xử lý nhanh hơn nhờ khả năng xử lý dữ liệu in-memory (trong bộ nhớ).

Hỗ trợ nhiều ngôn ngữ lập trình hơn.

Dễ dàng cài đặt và cấu hình hơn.

Câu hỏi yêu cầu so sánh hai framework xử lý dữ liệu lớn phổ biến và chỉ ra ưu điểm của Spark.

13 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 13: Loại hình phân tích dữ liệu nào tập trung vào việc tìm ra các mẫu và mối quan hệ ẩn trong dữ liệu lớn để dự đoán xu hướng hoặc hành vi trong tương lai?

Phân tích mô tả (Descriptive Analytics)

Phân tích chẩn đoán (Diagnostic Analytics)

Phân tích dự đoán (Predictive Analytics)

Phân tích quy chuẩn (Prescriptive Analytics)

Câu hỏi kiểm tra kiến thức về các loại hình phân tích dữ liệu lớn, đặc biệt là phân tích dự đoán.

14 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 14: Để xử lý dữ liệu nhật ký (log data) khổng lồ từ hệ thống web, công nghệ NoSQL nào sau đây thường được ưu tiên sử dụng?

Cơ sở dữ liệu dạng cột (Column-family database) như Apache Cassandra

Cơ sở dữ liệu dạng tài liệu (Document database) như MongoDB

Cơ sở dữ liệu khóa-giá trị (Key-value database) như Redis

Cơ sở dữ liệu đồ thị (Graph database) như Neo4j

Câu hỏi yêu cầu lựa chọn loại cơ sở dữ liệu NoSQL phù hợp cho một loại dữ liệu lớn cụ thể (dữ liệu nhật ký).

15 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 15: 'Data Wrangling' (Chuẩn bị dữ liệu) là một bước quan trọng trong quy trình phân tích dữ liệu lớn. Nó bao gồm các hoạt động nào?

Lưu trữ dữ liệu vào hệ thống HDFS.

Xây dựng mô hình máy học.

Trực quan hóa dữ liệu bằng biểu đồ.

Làm sạch dữ liệu, chuyển đổi định dạng, xử lý dữ liệu thiếu và tích hợp dữ liệu từ nhiều nguồn.

Câu hỏi kiểm tra sự hiểu biết về Data Wrangling và các hoạt động chính của nó.

16 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 16: Trong hệ sinh thái Hadoop, thành phần nào chịu trách nhiệm lưu trữ dữ liệu một cách phân tán trên nhiều máy chủ?

HDFS (Hadoop Distributed File System)

YARN (Yet Another Resource Negotiator)

MapReduce

Hive

Câu hỏi kiểm tra kiến thức về các thành phần cốt lõi của Hadoop và chức năng của HDFS.

17 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 17: Một công ty thương mại điện tử muốn phân tích hành vi duyệt web của khách hàng để tối ưu hóa trải nghiệm mua sắm. Loại dữ liệu lớn nào họ sẽ chủ yếu làm việc?

Dữ liệu giao dịch tài chính.

Dữ liệu cảm biến từ thiết bị IoT.

Dữ liệu clickstream (dòng nhấp chuột) và nhật ký truy cập web.

Dữ liệu hình ảnh sản phẩm.

Câu hỏi yêu cầu xác định loại dữ liệu lớn phù hợp với một ứng dụng cụ thể trong thương mại điện tử.

18 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 18: Phương pháp 'In-memory processing' (Xử lý trong bộ nhớ) trong Big Data mang lại lợi ích gì chính?

Giảm chi phí lưu trữ dữ liệu.

Tăng tốc độ xử lý dữ liệu đáng kể so với xử lý trên đĩa.

Cải thiện khả năng bảo mật dữ liệu.

Đơn giản hóa quy trình lập trình MapReduce.

Câu hỏi kiểm tra sự hiểu biết về phương pháp in-memory processing và lợi ích của nó trong Big Data.

19 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 19: Trong một dự án Big Data, bước nào sau đây thường được thực hiện ĐẦU TIÊN?

Xây dựng mô hình phân tích dữ liệu.

Triển khai hệ thống Hadoop cluster.

Trực quan hóa kết quả phân tích.

Xác định bài toán kinh doanh và yêu cầu phân tích dữ liệu.

Câu hỏi kiểm tra kiến thức về quy trình triển khai dự án Big Data và thứ tự các bước.

20 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 20: Khi lựa chọn công nghệ lưu trữ cho dữ liệu lớn, yếu tố 'Khả năng mở rộng' (Scalability) có ý nghĩa như thế nào?

Chi phí lưu trữ dữ liệu.

Tốc độ truy cập dữ liệu.

Khả năng hệ thống có thể dễ dàng tăng cường tài nguyên (lưu trữ, tính toán) để đáp ứng sự tăng trưởng của dữ liệu.

Tính bảo mật của dữ liệu.

Câu hỏi tập trung vào yếu tố Scalability và tầm quan trọng của nó trong việc lựa chọn công nghệ lưu trữ Big Data.

21 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 21: 'Data Mining' (Khai phá dữ liệu) là một kỹ thuật quan trọng trong Big Data Analytics. Mục tiêu chính của Data Mining là gì?

Phát hiện ra các mẫu, xu hướng và tri thức hữu ích từ lượng lớn dữ liệu.

Làm sạch và chuẩn hóa dữ liệu.

Lưu trữ dữ liệu một cách hiệu quả.

Trực quan hóa dữ liệu cho người dùng cuối.

Câu hỏi kiểm tra sự hiểu biết về Data Mining và mục tiêu cốt lõi của nó.

22 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 22: Trong ngữ cảnh Big Data, 'Schema-on-Read' là đặc điểm của loại hệ thống nào?

Data Warehouse (Kho dữ liệu)

Data Lake (Hồ dữ liệu)

Cơ sở dữ liệu quan hệ (Relational Database)

Hệ thống OLTP (Online Transaction Processing)

Câu hỏi kiểm tra kiến thức về Schema-on-Read và liên hệ nó với loại hệ thống dữ liệu lớn.

23 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 23: Để xử lý dữ liệu lớn phi cấu trúc như văn bản và hình ảnh, framework nào sau đây thường được sử dụng cùng với Hadoop?

Hive

Pig

HBase

Spark

Câu hỏi yêu cầu xác định framework phù hợp để xử lý dữ liệu phi cấu trúc trong hệ sinh thái Hadoop.

24 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 24: 'Value' (Giá trị) là một trong 5V của Big Data. Nó đề cập đến khía cạnh nào?

Số lượng dữ liệu được tạo ra.

Tốc độ dữ liệu được xử lý.

Giá trị kinh doanh hoặc thông tin chi tiết có thể thu được từ việc phân tích dữ liệu.

Độ chính xác và tin cậy của dữ liệu.

Câu hỏi tập trung vào yếu tố Value trong 5V của Big Data và ý nghĩa của nó.

25 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 25: Trong kiến trúc Hadoop, NameNode đóng vai trò quan trọng nào?

Lưu trữ dữ liệu thực tế trong HDFS.

Quản lý metadata (siêu dữ liệu) của hệ thống tệp HDFS, bao gồm thông tin về vị trí các khối dữ liệu.

Thực hiện các phép tính Map và Reduce.

Điều phối tài nguyên cụm YARN.

Câu hỏi kiểm tra kiến thức về thành phần NameNode trong Hadoop và chức năng chính của nó.

26 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 26: 'Data Visualization' (Trực quan hóa dữ liệu) quan trọng như thế nào trong Big Data Analytics?

Giúp người dùng dễ dàng hiểu, khám phá và giao tiếp các thông tin phức tạp từ dữ liệu lớn.

Tăng tốc độ xử lý dữ liệu.

Đảm bảo tính bảo mật của dữ liệu.

Giảm chi phí lưu trữ dữ liệu.

Câu hỏi đánh giá tầm quan trọng của Data Visualization trong phân tích dữ liệu lớn.

27 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 27: Công cụ nào sau đây là một nền tảng mã nguồn mở phổ biến cho việc xây dựng quy trình ETL trong Big Data?

Hadoop MapReduce

Apache Spark

Apache NiFi

Apache Hive

Câu hỏi kiểm tra kiến thức về các công cụ ETL phổ biến trong hệ sinh thái Big Data.

28 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 28: Trong bối cảnh Big Data, 'Data Silos' (Ống khói dữ liệu) gây ra vấn đề gì?

Tăng cường bảo mật dữ liệu.

Tối ưu hóa hiệu suất truy vấn dữ liệu.

Đơn giản hóa việc quản lý dữ liệu.

Hạn chế khả năng khai thác thông tin toàn diện và gây khó khăn cho việc phân tích liên chức năng.

Câu hỏi kiểm tra sự hiểu biết về khái niệm Data Silos và vấn đề mà nó gây ra.

29 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 29: Loại hình tấn công bảo mật nào đặc biệt nguy hiểm trong môi trường Big Data do lượng dữ liệu lớn và đa dạng?

Tấn công từ chối dịch vụ (DoS)

Tấn công đánh cắp dữ liệu (Data Breach)

Tấn công SQL Injection

Tấn công giả mạo (Phishing)

Câu hỏi liên hệ Big Data với vấn đề bảo mật, đặc biệt là loại tấn công phù hợp với đặc điểm của Big Data.

30 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 06

Câu 30: Một tổ chức muốn xây dựng một hệ thống phân tích dữ liệu lớn linh hoạt, có thể xử lý nhiều loại dữ liệu khác nhau và dễ dàng mở rộng. Kiến trúc nào sau đây sẽ phù hợp nhất?

Data Warehouse truyền thống

Cơ sở dữ liệu quan hệ tập trung

Data Lake trên nền tảng đám mây

Hệ thống OLTP tại chỗ

Xem kết quả

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Nhận kết quả

Xảy ra lỗi

Bước 1: Vào google.com rồi gõ từ khóa:
Copy nhanh thanh-tim-kiem

Bước 2: Trong kết quả tìm kiếm Google, hãy tìm website giống hình bên dưới

Nếu trang 1 không có hãy tìm ở trang 2, 3, 4... nhé trang-google

Bước 3:

Cuộn xuống cuối bài viết rồi bấm vào nút GIỐNG HÌNH DƯỚI và chờ 1 lát để lấy mã:

luot-xem

Nếu tìm không thấy mã bạn có thể Đổi nhiệm vụ để lấy mã khác.

Câu hỏi yêu cầu lựa chọn kiến trúc phù hợp nhất cho một tình huống cụ thể, dựa trên các tiêu chí về linh hoạt và khả năng mở rộng.

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!

Trắc nghiệm Dữ liệu lớn (BigData)

Trắc nghiệm Dữ liệu lớn (BigData) - Đề 07

1 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 1: Doanh nghiệp X thu thập dữ liệu nhật ký web, dữ liệu từ cảm biến IoT, và thông tin giao dịch từ nhiều kênh bán hàng khác nhau. Tổng cộng, mỗi ngày doanh nghiệp tạo ra khoảng 50 terabyte dữ liệu mới. Khía cạnh nào của đặc tính '5V's' của Dữ liệu lớn được thể hiện rõ nhất trong tình huống này?

Volume (Khối lượng)

Velocity (Tốc độ)

Variety (Đa dạng)

Veracity (Độ xác thực)

Câu hỏi tập trung vào đặc tính 'Volume' (Khối lượng) trong 5V's của Big Data, thể hiện qua việc doanh nghiệp tạo ra một lượng dữ liệu khổng lồ hàng ngày (50 terabyte).

2 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 2: Trong kiến trúc Hadoop, thành phần nào chịu trách nhiệm quản lý siêu dữ liệu (metadata) của hệ thống tệp phân tán HDFS, bao gồm thông tin về vị trí các khối dữ liệu và không gian tên thư mục?

DataNode

NameNode

ResourceManager

NodeManager

Câu hỏi kiểm tra kiến thức về thành phần NameNode trong Hadoop HDFS, thành phần cốt lõi quản lý metadata.

3 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 3: Để xử lý dữ liệu lớn trong thời gian thực (real-time), ví dụ như phân tích luồng dữ liệu click chuột trên website hoặc dữ liệu giao dịch tài chính, công nghệ nào sau đây thường được ưu tiên sử dụng hơn so với MapReduce?

Hadoop MapReduce

Hadoop YARN

Apache Spark Streaming

Apache Hive

Câu hỏi tập trung vào sự khác biệt giữa MapReduce (batch processing) và các công nghệ stream processing như Spark Streaming hoặc Apache Flink, phù hợp cho xử lý thời gian thực.

4 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 4: Một công ty thương mại điện tử muốn xây dựng hệ thống gợi ý sản phẩm cá nhân hóa cho khách hàng. Dữ liệu nào sau đây sẽ có giá trị nhất để sử dụng trong quá trình xây dựng mô hình gợi ý?

Lịch sử mua hàng và hành vi duyệt web của khách hàng

Thông tin nhân khẩu học cơ bản của khách hàng (tuổi, giới tính, địa chỉ)

Dữ liệu thời tiết tại thời điểm khách hàng truy cập website

Thông tin về giá cổ phiếu của công ty

Câu hỏi về ứng dụng của Big Data trong gợi ý sản phẩm, tập trung vào loại dữ liệu phù hợp nhất (lịch sử mua hàng và hành vi duyệt web).

5 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 5: Trong mô hình lập trình MapReduce, giai đoạn 'Reduce' có chức năng chính là gì?

Phân chia dữ liệu đầu vào thành các phần nhỏ hơn

Lọc và chuyển đổi dữ liệu thành định dạng trung gian (key-value pairs)

Sắp xếp dữ liệu trung gian theo khóa (key)

Tổng hợp và giảm dữ liệu trung gian có cùng khóa để tạo ra kết quả cuối cùng

Câu hỏi kiểm tra sự hiểu biết về giai đoạn Reduce trong MapReduce, tập trung vào chức năng tổng hợp và giảm dữ liệu.

6 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 6: Cơ sở dữ liệu NoSQL thường được ưa chuộng hơn cơ sở dữ liệu quan hệ (RDBMS) trong các ứng dụng Big Data vì lý do chính nào sau đây?

NoSQL đảm bảo tính toàn vẹn ACID tốt hơn RDBMS

NoSQL có khả năng mở rộng theo chiều ngang (horizontally scalable) tốt hơn và xử lý hiệu quả dữ liệu phi cấu trúc

NoSQL có ngôn ngữ truy vấn SQL mạnh mẽ hơn RDBMS

NoSQL có chi phí triển khai và vận hành thấp hơn RDBMS trong mọi trường hợp

Câu hỏi so sánh NoSQL và RDBMS trong bối cảnh Big Data, nhấn mạnh khả năng mở rộng và xử lý dữ liệu phi cấu trúc của NoSQL.

7 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 7: Để lưu trữ và phân tích nhật ký hệ thống (log data) phát sinh liên tục từ hàng ngàn máy chủ, loại hình cơ sở dữ liệu NoSQL nào sau đây có thể phù hợp nhất?

Key-Value Store (ví dụ: Redis, Memcached)

Graph Database (ví dụ: Neo4j)

Column-Family Store (ví dụ: Cassandra, HBase) hoặc Document Store (ví dụ: MongoDB)

Relational Database (ví dụ: MySQL, PostgreSQL)

Câu hỏi tập trung vào việc lựa chọn loại NoSQL phù hợp cho dữ liệu nhật ký, nhấn mạnh đặc điểm của cơ sở dữ liệu dạng cột (column-family) hoặc document store trong việc xử lý dữ liệu dạng chuỗi thời gian và truy vấn theo cột.

8 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 8: Trong ngữ cảnh Big Data, 'Data Lake' (Hồ dữ liệu) khác biệt với 'Data Warehouse' (Kho dữ liệu) chủ yếu ở điểm nào?

Data Lake lưu trữ dữ liệu thô ở định dạng gốc, trong khi Data Warehouse lưu trữ dữ liệu đã được xử lý và cấu trúc hóa

Data Lake chỉ lưu trữ dữ liệu có cấu trúc, còn Data Warehouse lưu trữ dữ liệu phi cấu trúc

Data Lake được sử dụng cho phân tích báo cáo định kỳ, Data Warehouse cho khám phá và phân tích dữ liệu nâng cao

Data Lake có khả năng mở rộng kém hơn Data Warehouse

Câu hỏi so sánh Data Lake và Data Warehouse, tập trung vào sự khác biệt về cấu trúc dữ liệu, mục đích sử dụng và tính linh hoạt.

9 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 9: Khi xử lý dữ liệu lớn có tính biến động cao về tốc độ (high-velocity data), ví dụ dữ liệu từ mạng xã hội hoặc thị trường chứng khoán, thách thức lớn nhất thường gặp phải là gì?

Đảm bảo độ chính xác của dữ liệu (Veracity)

Thu thập, xử lý và phân tích dữ liệu đủ nhanh để đưa ra quyết định kịp thời

Quản lý sự đa dạng của các loại dữ liệu (Variety)

Lưu trữ dữ liệu với chi phí thấp (Volume)

Câu hỏi về thách thức khi xử lý dữ liệu tốc độ cao, tập trung vào khả năng thu thập, xử lý và phân tích dữ liệu kịp thời.

10 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 10: Công nghệ nào sau đây thường được sử dụng để xây dựng 'Data Pipeline' (Quy trình dữ liệu) nhằm tự động hóa việc trích xuất, chuyển đổi và tải dữ liệu (ETL) từ nhiều nguồn khác nhau vào hệ thống Big Data?

Hadoop HDFS

Apache Hive

Apache Spark SQL

Apache Kafka, Apache NiFi hoặc Apache Airflow

Câu hỏi về công cụ Data Pipeline và ETL trong Big Data, tập trung vào các công cụ như Apache Kafka, Apache NiFi hoặc Apache Airflow.

11 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 11: Để truy vấn và phân tích dữ liệu có cấu trúc được lưu trữ trong Hadoop HDFS, công cụ nào sau đây cung cấp giao diện SQL-like, cho phép người dùng sử dụng cú pháp SQL quen thuộc?

Hadoop MapReduce

Apache Hive hoặc Apache Spark SQL

Hadoop YARN

Apache HBase

Câu hỏi về công cụ truy vấn SQL trên Hadoop, tập trung vào Apache Hive và Apache Spark SQL.

12 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 12: Trong quá trình xử lý dữ liệu lớn, 'Data Cleansing' (Làm sạch dữ liệu) đóng vai trò quan trọng như thế nào?

Không quan trọng, vì dữ liệu lớn tự thân đã chứa đủ thông tin hữu ích

Chỉ quan trọng đối với dữ liệu có cấu trúc, không cần thiết cho dữ liệu phi cấu trúc

Rất quan trọng, vì dữ liệu 'bẩn' (sai sót, không nhất quán) có thể dẫn đến kết quả phân tích sai lệch và quyết định kém hiệu quả

Chỉ cần làm sạch dữ liệu sau khi đã phân tích xong, để trình bày báo cáo đẹp hơn

Câu hỏi về tầm quan trọng của Data Cleansing, nhấn mạnh ảnh hưởng của dữ liệu bẩn đến chất lượng phân tích và quyết định.

13 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 13: Phương pháp 'lấy mẫu dữ liệu' (data sampling) thường được sử dụng trong Big Data Analytics khi nào?

Khi muốn giảm chi phí tính toán và thời gian xử lý trên tập dữ liệu quá lớn, nhưng vẫn muốn có kết quả phân tích tương đối chính xác

Khi muốn tăng độ chính xác tuyệt đối của kết quả phân tích

Khi dữ liệu đầu vào có chất lượng rất cao và không cần làm sạch

Khi muốn tạo ra dữ liệu giả lập để thử nghiệm mô hình

Câu hỏi về mục đích sử dụng Data Sampling, nhấn mạnh việc giảm chi phí và thời gian xử lý khi làm việc với dữ liệu rất lớn.

14 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 14: Trong lĩnh vực Big Data, thuật ngữ 'Data Governance' (Quản trị dữ liệu) bao gồm những hoạt động chính nào?

Chỉ bao gồm việc đảm bảo chất lượng dữ liệu

Chỉ bao gồm việc bảo mật dữ liệu

Chỉ bao gồm việc tuân thủ các quy định về dữ liệu

Bao gồm các hoạt động quản lý chất lượng, bảo mật, tuân thủ quy định, và vòng đời dữ liệu

Câu hỏi về phạm vi của Data Governance, bao gồm quản lý chất lượng, bảo mật, tuân thủ và vòng đời dữ liệu.

15 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 15: Để xây dựng một ứng dụng phân tích dữ liệu lớn tương tác (interactive analytics), cho phép người dùng thực hiện các truy vấn phức tạp và nhận kết quả nhanh chóng, nền tảng xử lý nào sau đây thường được ưu tiên hơn MapReduce?

Hadoop MapReduce

Apache Spark

Hadoop YARN

Apache Hive trên MapReduce

Câu hỏi về interactive analytics, nhấn mạnh ưu điểm của Spark so với MapReduce trong các ứng dụng yêu cầu độ trễ thấp.

16 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 16: 'Data Mining' (Khai phá dữ liệu) trong Big Data thường được sử dụng để làm gì?

Để lưu trữ và quản lý dữ liệu lớn

Để truyền tải dữ liệu lớn giữa các hệ thống

Để khám phá các mẫu, xu hướng, và tri thức ẩn sâu trong dữ liệu lớn

Để trực quan hóa dữ liệu lớn trên biểu đồ

Câu hỏi về mục đích của Data Mining, tập trung vào việc khám phá tri thức và mẫu ẩn từ dữ liệu lớn.

17 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 17: Trong kiến trúc Hadoop YARN, 'ResourceManager' (Trình quản lý tài nguyên) có vai trò gì?

Quản lý tài nguyên của toàn bộ cụm Hadoop và phân phối tài nguyên cho các ứng dụng

Lưu trữ dữ liệu trong hệ thống tệp phân tán HDFS

Thực hiện các tác vụ Map và Reduce trong mô hình MapReduce

Cung cấp giao diện SQL để truy vấn dữ liệu trong Hadoop

Câu hỏi về vai trò của ResourceManager trong YARN, tập trung vào quản lý và phân phối tài nguyên cluster.

18 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 18: 'Scalability' (Khả năng mở rộng) là một yêu cầu quan trọng trong hệ thống Big Data. Điều này có nghĩa là gì?

Khả năng hệ thống hoạt động ổn định trong môi trường khắc nghiệt

Khả năng hệ thống bảo vệ dữ liệu khỏi các truy cập trái phép

Khả năng hệ thống dễ dàng sử dụng và quản lý

Khả năng hệ thống có thể xử lý được lượng dữ liệu và tải công việc tăng lên khi quy mô dữ liệu hoặc số lượng người dùng tăng

Câu hỏi về khái niệm Scalability, nhấn mạnh khả năng hệ thống xử lý tăng trưởng về dữ liệu và tải công việc.

19 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 19: 'Data Visualization' (Trực quan hóa dữ liệu) có vai trò gì trong quá trình phân tích Big Data?

Để nén dữ liệu lớn và giảm dung lượng lưu trữ

Để giúp con người dễ dàng hiểu, nhận diện mẫu và giao tiếp thông tin từ dữ liệu phức tạp

Để tự động làm sạch dữ liệu bị lỗi

Để mã hóa dữ liệu và tăng cường bảo mật

Câu hỏi về vai trò của Data Visualization, nhấn mạnh khả năng giúp con người hiểu và giao tiếp thông tin từ dữ liệu phức tạp.

20 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 20: 'Machine Learning' (Học máy) thường được ứng dụng trong Big Data để giải quyết loại bài toán nào?

Để lưu trữ và truy xuất dữ liệu lớn

Để chuyển đổi dữ liệu từ định dạng này sang định dạng khác

Để xây dựng mô hình dự đoán, phân loại, gợi ý, phát hiện bất thường và tự động hóa quyết định dựa trên dữ liệu

Để đảm bảo tính toàn vẹn và bảo mật của dữ liệu lớn

Câu hỏi về ứng dụng Machine Learning trong Big Data, tập trung vào các bài toán dự đoán, phân loại, gợi ý và phát hiện bất thường.

21 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 21: Khi lựa chọn công nghệ lưu trữ Big Data, yếu tố 'độ bền dữ liệu' (data durability) có ý nghĩa gì?

Khả năng hệ thống đảm bảo dữ liệu không bị mất mát hoặc hư hỏng, ngay cả khi có lỗi phần cứng hoặc sự cố xảy ra

Tốc độ truy cập dữ liệu nhanh chóng

Chi phí lưu trữ dữ liệu thấp

Khả năng dữ liệu được mã hóa và bảo mật

Câu hỏi về Data Durability, nhấn mạnh khả năng bảo vệ dữ liệu khỏi mất mát do lỗi phần cứng hoặc sự cố.

22 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 22: 'Data Governance Policy' (Chính sách quản trị dữ liệu) nên được xây dựng dựa trên những nguyên tắc nào?

Chỉ cần tập trung vào bảo mật dữ liệu

Chỉ cần tập trung vào hiệu suất xử lý dữ liệu

Chỉ cần tập trung vào giảm chi phí lưu trữ dữ liệu

Dựa trên các nguyên tắc về tính minh bạch, trách nhiệm, tuân thủ, bảo mật và chất lượng dữ liệu

Câu hỏi về nguyên tắc xây dựng Data Governance Policy, bao gồm tính minh bạch, trách nhiệm, tuân thủ, bảo mật và chất lượng.

23 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 23: Để phân tích dữ liệu chuỗi thời gian (time-series data) lớn, ví dụ dữ liệu cảm biến hoặc nhật ký giao dịch, loại cơ sở dữ liệu NoSQL nào thường được thiết kế tối ưu?

Key-Value Store

Document Store

Time-Series Database (ví dụ: InfluxDB, TimescaleDB)

Graph Database

Câu hỏi về NoSQL phù hợp cho time-series data, nhấn mạnh đặc điểm của Time-Series Database như InfluxDB hoặc TimescaleDB.

24 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 24: Trong ngữ cảnh Big Data, 'Data Silos' (Các silo dữ liệu) gây ra vấn đề gì cho doanh nghiệp?

Giúp tăng cường bảo mật dữ liệu

Hạn chế khả năng kết hợp và phân tích dữ liệu từ nhiều nguồn khác nhau, làm giảm giá trị thông tin tổng thể

Giúp giảm chi phí lưu trữ dữ liệu

Giúp tăng tốc độ truy cập dữ liệu

Câu hỏi về vấn đề Data Silos, nhấn mạnh việc hạn chế khả năng khai thác giá trị tổng thể từ dữ liệu.

25 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 25: 'Edge Computing' (Điện toán biên) có liên quan đến Big Data như thế nào?

Edge Computing là một công nghệ cạnh tranh với Big Data

Edge Computing chỉ được sử dụng cho dữ liệu nhỏ, không liên quan đến Big Data

Edge Computing giúp tăng chi phí xử lý Big Data

Edge Computing cho phép xử lý một phần dữ liệu Big Data gần nguồn sinh ra dữ liệu (ví dụ: thiết bị IoT), giảm tải cho việc truyền dữ liệu về trung tâm và cải thiện độ trễ

Câu hỏi về mối liên hệ giữa Edge Computing và Big Data, nhấn mạnh việc xử lý dữ liệu gần nguồn sinh ra để giảm tải cho hệ thống trung tâm và cải thiện độ trễ.

26 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 26: Để đảm bảo tính 'Veracity' (Độ xác thực) của dữ liệu lớn, các biện pháp nào sau đây thường được áp dụng?

Tăng tốc độ thu thập dữ liệu

Tăng dung lượng lưu trữ dữ liệu

Thực hiện kiểm tra chất lượng dữ liệu, xác minh nguồn gốc dữ liệu, và sử dụng metadata để theo dõi độ tin cậy

Giảm thiểu sự đa dạng của các loại dữ liệu

Câu hỏi về Veracity và các biện pháp đảm bảo, bao gồm kiểm tra chất lượng, nguồn gốc, và sử dụng metadata.

27 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 27: 'Data Lakehouse' là một kiến trúc mới nổi trong Big Data, kết hợp ưu điểm của Data Lake và Data Warehouse. Ưu điểm chính của Data Lakehouse là gì?

Chỉ hỗ trợ lưu trữ dữ liệu phi cấu trúc

Hỗ trợ cả phân tích khám phá (data science) và báo cáo doanh nghiệp (business intelligence) trên cùng một nền tảng dữ liệu

Yêu cầu dữ liệu phải được cấu trúc hóa trước khi lưu trữ

Không hỗ trợ truy vấn SQL

Câu hỏi về Data Lakehouse, nhấn mạnh khả năng hỗ trợ cả phân tích khám phá và báo cáo doanh nghiệp trên cùng một nền tảng.

28 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 28: Trong quá trình xây dựng ứng dụng Big Data, việc lựa chọn 'kiến trúc phù hợp' (right architecture) có vai trò như thế nào?

Rất quan trọng, vì kiến trúc phù hợp quyết định hiệu suất, khả năng mở rộng, chi phí và độ tin cậy của hệ thống

Không quan trọng bằng việc chọn đúng công nghệ

Chỉ quan trọng đối với các ứng dụng quy mô rất lớn

Chỉ cần chọn kiến trúc phổ biến nhất trên thị trường

Câu hỏi về tầm quan trọng của kiến trúc trong Big Data, nhấn mạnh ảnh hưởng đến hiệu suất, khả năng mở rộng, chi phí và độ tin cậy.

29 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 29: 'Real-time analytics' (Phân tích thời gian thực) trong Big Data mang lại lợi ích gì cho doanh nghiệp?

Giảm chi phí lưu trữ dữ liệu

Tăng cường bảo mật dữ liệu

Cho phép doanh nghiệp đưa ra quyết định và hành động ngay lập tức dựa trên dữ liệu mới nhất, phản ứng nhanh nhạy với các sự kiện và thay đổi

Giúp trực quan hóa dữ liệu đẹp mắt hơn

Câu hỏi về lợi ích của Real-time analytics, nhấn mạnh khả năng đưa ra quyết định nhanh chóng và phản ứng kịp thời với sự kiện.

30 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 07

Câu 30: Thách thức 'Veracity' trong Big Data thường xuất phát từ nguồn dữ liệu nào?

Dữ liệu từ cơ sở dữ liệu giao dịch truyền thống

Dữ liệu từ kho dữ liệu doanh nghiệp (Data Warehouse)

Dữ liệu từ các hệ thống ERP và CRM

Dữ liệu từ mạng xã hội, cảm biến IoT, nhật ký hệ thống và các nguồn dữ liệu phân tán khác

Xem kết quả

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Nhận kết quả

Xảy ra lỗi

Bước 1: Vào google.com rồi gõ từ khóa:
Copy nhanh thanh-tim-kiem

Bước 2: Trong kết quả tìm kiếm Google, hãy tìm website giống hình bên dưới

Nếu trang 1 không có hãy tìm ở trang 2, 3, 4... nhé trang-google

Bước 3:

Cuộn xuống cuối bài viết rồi bấm vào nút GIỐNG HÌNH DƯỚI và chờ 1 lát để lấy mã:

luot-xem

Nếu tìm không thấy mã bạn có thể Đổi nhiệm vụ để lấy mã khác.

Câu hỏi về nguồn gốc của thách thức Veracity, nhấn mạnh dữ liệu từ mạng xã hội, cảm biến và nhật ký hệ thống thường có độ tin cậy không đồng đều.

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!

Trắc nghiệm Dữ liệu lớn (BigData)

Trắc nghiệm Dữ liệu lớn (BigData) - Đề 08

1 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 1: Trong bối cảnh Dữ liệu lớn, thuật ngữ 'Tính đa dạng' (Variety) đề cập đến khía cạnh nào sau đây của dữ liệu?

Số lượng dữ liệu được tạo ra theo thời gian.

Sự khác biệt về loại và định dạng dữ liệu, bao gồm cấu trúc, bán cấu trúc và phi cấu trúc.

Tốc độ dữ liệu được tạo ra và xử lý.

Độ tin cậy và chính xác của dữ liệu.

Câu hỏi kiểm tra sự hiểu biết về một trong những đặc tính cốt lõi của Dữ liệu lớn - Variety. Phương án đúng phải chỉ ra sự khác biệt về loại và định dạng dữ liệu.

2 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 2: Hệ thống tệp phân tán Hadoop (HDFS) được thiết kế chủ yếu để giải quyết vấn đề nào liên quan đến Dữ liệu lớn?

Xử lý dữ liệu thời gian thực với độ trễ thấp.

Đảm bảo tính nhất quán của dữ liệu trên các hệ thống giao dịch.

Lưu trữ và quản lý lượng dữ liệu khổng lồ trên một cụm máy tính.

Cung cấp giao diện truy vấn SQL cho dữ liệu phi cấu trúc.

Câu hỏi tập trung vào mục đích chính của HDFS. HDFS được tạo ra để quản lý và lưu trữ lượng lớn dữ liệu trên nhiều máy tính.

3 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 3: YARN (Yet Another Resource Negotiator) đóng vai trò gì trong kiến trúc Hadoop?

Quản lý tài nguyên cụm và lập lịch cho các ứng dụng.

Lưu trữ dữ liệu phân tán và đảm bảo tính dự phòng.

Xử lý dữ liệu song song thông qua mô hình MapReduce.

Cung cấp một lớp trừu tượng hóa SQL trên dữ liệu Hadoop.

Câu hỏi kiểm tra kiến thức về vai trò của YARN. YARN chịu trách nhiệm quản lý tài nguyên và lập lịch công việc trong cụm Hadoop.

4 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 4: Mô hình lập trình MapReduce hoạt động hiệu quả nhất với loại tác vụ phân tích dữ liệu nào?

Truy vấn dữ liệu tương tác với độ trễ thấp.

Xử lý giao dịch trực tuyến (OLTP).

Phân tích dữ liệu thời gian thực.

Phân tích nhật ký web và đếm tần suất từ khóa trên quy mô lớn.

Câu hỏi về ứng dụng tốt nhất của MapReduce. MapReduce phù hợp với các tác vụ có thể chia nhỏ và xử lý song song trên các tập dữ liệu lớn.

5 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 5: Cơ sở dữ liệu NoSQL thường được ưu tiên hơn cơ sở dữ liệu quan hệ (SQL) trong các ứng dụng Dữ liệu lớn vì lý do chính nào?

Cơ sở dữ liệu NoSQL đảm bảo tính toàn vẹn tham chiếu tốt hơn.

Cơ sở dữ liệu NoSQL có khả năng mở rộng ngang (horizontally scalable) tốt hơn và linh hoạt hơn với dữ liệu phi cấu trúc.

Truy vấn SQL trên NoSQL nhanh hơn trên dữ liệu quan hệ.

Chi phí triển khai và vận hành NoSQL luôn thấp hơn SQL.

Câu hỏi so sánh NoSQL và SQL trong Big Data. NoSQL linh hoạt và mở rộng tốt hơn để xử lý dữ liệu lớn và đa dạng.

6 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 6: Công cụ nào sau đây thường được sử dụng để truy vấn và phân tích dữ liệu được lưu trữ trong Hadoop, cung cấp giao diện tương tự SQL?

MapReduce

HDFS

Apache Hive

Apache Spark

Câu hỏi về công cụ truy vấn dữ liệu Hadoop. Hive là một data warehouse system cho phép truy vấn dữ liệu Hadoop bằng ngôn ngữ giống SQL (HiveQL).

7 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 7: Trong quy trình khai thác dữ liệu (data mining), giai đoạn 'làm sạch dữ liệu' (data cleaning) bao gồm các hoạt động chính nào?

Xử lý dữ liệu bị thiếu, loại bỏ dữ liệu nhiễu và chuẩn hóa định dạng dữ liệu.

Chọn các thuộc tính quan trọng nhất từ tập dữ liệu.

Áp dụng các thuật toán học máy để tìm kiếm mẫu.

Trực quan hóa dữ liệu để khám phá thông tin.

Câu hỏi về giai đoạn làm sạch dữ liệu trong data mining. Làm sạch dữ liệu tập trung vào xử lý dữ liệu thiếu, nhiễu, và không nhất quán.

8 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 8: Ứng dụng nào sau đây thể hiện việc sử dụng Dữ liệu lớn để cá nhân hóa trải nghiệm người dùng trong lĩnh vực thương mại điện tử?

Quản lý kho hàng và chuỗi cung ứng.

Đề xuất sản phẩm cho khách hàng dựa trên lịch sử duyệt web và mua hàng.

Phân tích đối thủ cạnh tranh và xu hướng thị trường.

Tối ưu hóa giá sản phẩm theo thời gian thực.

Câu hỏi về ứng dụng Big Data trong thương mại điện tử. Hệ thống gợi ý sản phẩm dựa trên lịch sử mua hàng là một ví dụ điển hình về cá nhân hóa.

9 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 9: 'Vận tốc' (Velocity) trong 5Vs của Dữ liệu lớn đề cập đến điều gì?

Sự đa dạng của các nguồn dữ liệu.

Tính xác thực và đáng tin cậy của dữ liệu.

Tốc độ dữ liệu được tạo ra, truyền tải và xử lý.

Khối lượng dữ liệu được lưu trữ.

Câu hỏi về đặc tính 'Velocity' của Big Data. Velocity liên quan đến tốc độ tạo ra và xử lý dữ liệu.

10 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 10: Công nghệ nào sau đây cho phép xử lý dữ liệu lớn trong bộ nhớ (in-memory processing), giúp tăng tốc độ tính toán so với MapReduce truyền thống?

Hadoop HDFS

Apache Hive

Apache Pig

Apache Spark

Câu hỏi về công nghệ xử lý in-memory. Apache Spark nổi tiếng với khả năng xử lý dữ liệu trong bộ nhớ, nhanh hơn MapReduce.

11 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 11: Trong ngữ cảnh Dữ liệu lớn, 'Hồ dữ liệu' (Data Lake) khác biệt so với 'Kho dữ liệu' (Data Warehouse) chủ yếu ở điểm nào?

Hồ dữ liệu sử dụng lược đồ khi ghi (schema-on-write), còn kho dữ liệu sử dụng lược đồ khi đọc (schema-on-read).

Hồ dữ liệu lưu trữ dữ liệu thô ở định dạng gốc, trong khi kho dữ liệu lưu trữ dữ liệu đã được cấu trúc và chuyển đổi.

Kho dữ liệu có khả năng mở rộng tốt hơn hồ dữ liệu.

Hồ dữ liệu chỉ phù hợp với dữ liệu phi cấu trúc, còn kho dữ liệu chỉ phù hợp với dữ liệu có cấu trúc.

Câu hỏi so sánh Data Lake và Data Warehouse. Data Lake lưu trữ dữ liệu thô, chưa qua xử lý, trong khi Data Warehouse lưu trữ dữ liệu đã được cấu trúc và làm sạch.

12 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 12: Thử thách chính nào về mặt đạo đức phát sinh từ việc sử dụng Dữ liệu lớn và các thuật toán học máy trong việc ra quyết định?

Chi phí lưu trữ và xử lý dữ liệu lớn.

Khả năng mở rộng của hệ thống Dữ liệu lớn.

Nguy cơ tạo ra sự thiên vị và phân biệt đối xử do dữ liệu huấn luyện và thuật toán.

Bảo mật dữ liệu lớn trước các cuộc tấn công mạng.

Câu hỏi về thách thức đạo đức của Big Data. Sự thiên vị trong thuật toán và phân biệt đối xử là một vấn đề đạo đức quan trọng.

13 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 13: Kiến trúc Lambda trong Dữ liệu lớn được thiết kế để kết hợp xử lý loại dữ liệu nào?

Chỉ xử lý dữ liệu lịch sử (batch processing).

Chỉ xử lý dữ liệu thời gian thực (stream processing).

Chỉ xử lý dữ liệu có cấu trúc.

Cả xử lý dữ liệu lịch sử (batch) và dữ liệu thời gian thực (stream).

Câu hỏi về kiến trúc Lambda. Lambda Architecture kết hợp xử lý batch và stream để cung cấp cả tốc độ và độ chính xác.

14 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 14: Để phân tích tình cảm (sentiment analysis) từ các bài đăng trên mạng xã hội, loại dữ liệu nào sau đây sẽ được sử dụng chủ yếu?

Dữ liệu văn bản phi cấu trúc (ví dụ: tweet, bình luận).

Dữ liệu số liệu có cấu trúc (ví dụ: lượt thích, lượt chia sẻ).

Dữ liệu nhật ký máy chủ web.

Dữ liệu giao dịch mua hàng.

Câu hỏi về ứng dụng sentiment analysis. Phân tích tình cảm thường dựa trên dữ liệu văn bản phi cấu trúc.

15 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 15: Trong bối cảnh bảo mật Dữ liệu lớn, kỹ thuật nào sau đây giúp bảo vệ dữ liệu nhạy cảm khi lưu trữ và truyền tải?

Sao chép dữ liệu (data replication).

Mã hóa dữ liệu (data encryption).

Nén dữ liệu (data compression).

Phân mảnh dữ liệu (data sharding).

Câu hỏi về bảo mật Big Data. Mã hóa dữ liệu là biện pháp bảo mật quan trọng.

16 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 16: Điều gì KHÔNG phải là lợi ích chính của việc sử dụng điện toán đám mây (cloud computing) cho các ứng dụng Dữ liệu lớn?

Khả năng mở rộng linh hoạt theo nhu cầu.

Giảm chi phí đầu tư ban đầu vào cơ sở hạ tầng.

Truy cập vào các dịch vụ và công cụ Dữ liệu lớn tiên tiến.

Kiểm soát hoàn toàn phần cứng và cơ sở hạ tầng.

Câu hỏi về lợi ích của cloud computing cho Big Data. Kiểm soát hoàn toàn phần cứng không phải là lợi ích của cloud computing.

17 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 17: Thuật ngữ 'Data Governance' trong Dữ liệu lớn đề cập đến khía cạnh quản lý nào?

Quản lý tính toàn vẹn, bảo mật, chất lượng, khả năng truy cập và sử dụng dữ liệu.

Quản lý cơ sở hạ tầng phần cứng và phần mềm cho Dữ liệu lớn.

Quản lý quy trình khai thác và phân tích dữ liệu.

Quản lý vòng đời phát triển ứng dụng Dữ liệu lớn.

Câu hỏi về Data Governance. Data Governance liên quan đến quản lý tính toàn vẹn, bảo mật, khả năng truy cập và sử dụng dữ liệu.

18 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 18: Trong lĩnh vực y tế, Dữ liệu lớn có thể được ứng dụng để cải thiện việc nào sau đây?

Tự động hóa hoàn toàn quy trình phẫu thuật.

Dự đoán nguy cơ bệnh tật và cá nhân hóa phác đồ điều trị cho bệnh nhân.

Thay thế hoàn toàn bác sĩ bằng hệ thống chẩn đoán tự động.

Giảm chi phí đào tạo nhân viên y tế.

Câu hỏi về ứng dụng Big Data trong y tế. Phân tích dữ liệu bệnh nhân để dự đoán và phòng ngừa bệnh là một ứng dụng quan trọng.

19 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 19: Phương pháp trực quan hóa dữ liệu nào sau đây phù hợp nhất để hiển thị mối tương quan giữa nhiều biến số?

Biểu đồ đường (Line chart).

Biểu đồ tròn (Pie chart).

Ma trận tương quan (Correlation matrix).

Biểu đồ cột (Bar chart).

Câu hỏi về visualization. Ma trận tương quan (Correlation Matrix) là công cụ tốt để hiển thị mối tương quan giữa nhiều biến.

20 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 20: Công cụ nào sau đây thường được sử dụng để thu thập và xử lý dữ liệu nhật ký (log data) trên quy mô lớn trong hệ thống Dữ liệu lớn?

Apache Hadoop.

Apache Hive.

Apache Spark.

ELK stack (Elasticsearch, Logstash, Kibana).

Câu hỏi về công cụ xử lý log data. Elasticsearch, Logstash, Kibana (ELK stack) là phổ biến cho việc này.

21 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 21: Trong quá trình xây dựng mô hình học máy trên dữ liệu lớn, bước 'feature engineering' (kỹ thuật đặc trưng) nhằm mục đích gì?

Chọn thuật toán học máy phù hợp nhất.

Tạo ra các thuộc tính (features) mới từ dữ liệu thô để cải thiện hiệu suất của mô hình học máy.

Đánh giá hiệu suất của mô hình học máy.

Triển khai mô hình học máy vào môi trường sản xuất.

Câu hỏi về feature engineering. Feature engineering là tạo ra các đặc trưng mới từ dữ liệu thô để cải thiện hiệu suất mô hình.

22 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 22: Loại hình phân tích dữ liệu nào tập trung vào việc dự đoán các sự kiện có thể xảy ra trong tương lai?

Phân tích mô tả (Descriptive analytics).

Phân tích chẩn đoán (Diagnostic analytics).

Phân tích dự đoán (Predictive analytics).

Phân tích quy chuẩn (Prescriptive analytics).

Câu hỏi về loại phân tích dự đoán. Phân tích dự đoán (Predictive analytics) tập trung vào dự đoán tương lai.

23 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 23: Khái niệm 'Micro-batching' trong xử lý dữ liệu dòng (stream processing) đề cập đến điều gì?

Xử lý dữ liệu dòng thành các lô nhỏ (micro-batches) thay vì từng sự kiện riêng lẻ.

Xử lý dữ liệu dòng theo thời gian thực mà không có độ trễ.

Lưu trữ dữ liệu dòng vào các tệp nhỏ để tối ưu hóa hiệu suất đọc.

Phân chia dữ liệu dòng thành các phần nhỏ để xử lý song song.

Câu hỏi về micro-batching. Micro-batching là xử lý dữ liệu dòng thành các lô nhỏ để cân bằng giữa độ trễ và hiệu suất.

24 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 24: Trong mô hình học máy, 'overfitting' (quá khớp) xảy ra khi nào?

Mô hình hoạt động kém trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.

Mô hình hoạt động tốt trên dữ liệu kiểm tra nhưng kém trên dữ liệu huấn luyện.

Mô hình hoạt động tốt trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.

Mô hình hoạt động quá tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra mới.

Câu hỏi về overfitting. Overfitting xảy ra khi mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới.

25 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 25: Để đảm bảo tính sẵn sàng cao (high availability) cho NameNode trong Hadoop, giải pháp nào sau đây thường được sử dụng?

Sử dụng một DataNode duy nhất.

Triển khai NameNode dự phòng (Standby NameNode) ở chế độ chờ nóng.

Sao lưu dữ liệu NameNode thường xuyên vào ổ đĩa cục bộ.

Tăng dung lượng RAM cho NameNode.

Câu hỏi về high availability của NameNode. Sử dụng NameNode dự phòng (Standby NameNode) là giải pháp phổ biến.

26 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 26: Trong lĩnh vực tài chính, Dữ liệu lớn được sử dụng để phát hiện gian lận giao dịch bằng cách nào?

Tăng tốc độ xử lý giao dịch.

Giảm chi phí giao dịch.

Phân tích lịch sử giao dịch để phát hiện các mẫu bất thường hoặc hành vi đáng ngờ.

Cải thiện trải nghiệm khách hàng khi giao dịch.

Câu hỏi về ứng dụng Big Data trong tài chính. Phát hiện các mẫu giao dịch bất thường là cách Big Data giúp phát hiện gian lận.

27 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 27: Công nghệ nào sau đây cho phép xây dựng Data Pipeline để tự động hóa quy trình di chuyển và chuyển đổi dữ liệu từ nhiều nguồn khác nhau?

Apache Hadoop MapReduce.

Apache Hive.

Apache Spark Streaming.

Apache Kafka Connect hoặc Apache NiFi.

Câu hỏi về Data Pipeline. Apache Kafka Connect và Apache NiFi là các công cụ xây dựng Data Pipeline.

28 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 28: Thách thức lớn nhất khi làm việc với Dữ liệu lớn thường KHÔNG bao gồm yếu tố nào sau đây?

Khối lượng dữ liệu khổng lồ cần lưu trữ và xử lý.

Sự đa dạng của các nguồn và định dạng dữ liệu.

Tính tương thích ngược với các hệ thống cũ.

Đảm bảo hiệu suất truy vấn và phân tích dữ liệu nhanh chóng.

Câu hỏi về thách thức của Big Data. Tính tương thích ngược không phải là thách thức cốt lõi của Big Data so với các yếu tố khác.

29 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 29: Trong kiến trúc Kappa, luồng dữ liệu nào được coi là nguồn dữ liệu chính?

Dữ liệu batch (lô).

Dữ liệu stream (dòng).

Cả dữ liệu batch và stream đồng thời.

Dữ liệu từ cơ sở dữ liệu quan hệ.

Câu hỏi về kiến trúc Kappa. Kappa Architecture đơn giản hóa kiến trúc bằng cách chỉ sử dụng stream data làm nguồn chính.

30 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 08

Câu 30: Để tối ưu hóa hiệu suất truy vấn trên dữ liệu lớn trong Hadoop, kỹ thuật 'data partitioning' (phân vùng dữ liệu) được sử dụng như thế nào?

Chia dữ liệu thành các phần nhỏ hơn dựa trên một hoặc nhiều thuộc tính, cho phép truy vấn chỉ quét các phân vùng liên quan.

Sao chép dữ liệu sang nhiều DataNode để tăng khả năng chịu lỗi.

Nén dữ liệu để giảm dung lượng lưu trữ.

Chuyển đổi dữ liệu sang định dạng cột (columnar format) để tăng tốc độ đọc.

Xem kết quả

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Nhận kết quả

Xảy ra lỗi

Bước 1: Vào google.com rồi gõ từ khóa:
Copy nhanh thanh-tim-kiem

Bước 2: Trong kết quả tìm kiếm Google, hãy tìm website giống hình bên dưới

Nếu trang 1 không có hãy tìm ở trang 2, 3, 4... nhé trang-google

Bước 3:

Cuộn xuống cuối bài viết rồi bấm vào nút GIỐNG HÌNH DƯỚI và chờ 1 lát để lấy mã:

luot-xem

Nếu tìm không thấy mã bạn có thể Đổi nhiệm vụ để lấy mã khác.

Câu hỏi về data partitioning. Phân vùng dữ liệu giúp giảm lượng dữ liệu cần quét trong truy vấn, tăng hiệu suất.

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!

Trắc nghiệm Dữ liệu lớn (BigData)

Trắc nghiệm Dữ liệu lớn (BigData) - Đề 09

1 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 1: Đặc điểm nào sau đây KHÔNG phải là một trong '5Vs' thường được dùng để mô tả Dữ liệu Lớn?

Volume (Khối lượng)

Velocity (Tốc độ)

Variety (Đa dạng)

Visibility (Tính hiển thị)

Câu hỏi kiểm tra kiến thức cơ bản về định nghĩa Dữ liệu lớn và các chiều cạnh đặc trưng của nó (5Vs).

2 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 2: Trong kiến trúc Hadoop HDFS, thành phần nào chịu trách nhiệm quản lý siêu dữ liệu (metadata) của hệ thống tệp và điều phối truy cập của client?

NameNode

DataNode

Secondary NameNode

ResourceManager

Câu hỏi kiểm tra kiến thức về kiến trúc HDFS và vai trò của các thành phần chính, đặc biệt là NameNode.

3 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 3: Công nghệ NoSQL thường được ưa chuộng trong xử lý Dữ liệu Lớn vì lý do chính nào sau đây?

Tính toàn vẹn dữ liệu ACID mạnh mẽ

Khả năng mở rộng linh hoạt và xử lý dữ liệu phi cấu trúc

Chi phí triển khai và vận hành thấp hơn đáng kể

Khả năng tương thích hoàn toàn với SQL truyền thống

Câu hỏi tập trung vào lý do sử dụng NoSQL trong Big Data, liên quan đến khả năng mở rộng và xử lý dữ liệu phi cấu trúc.

4 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 4: Mô hình lập trình MapReduce hoạt động dựa trên nguyên tắc nào sau đây?

Chia sẻ bộ nhớ chung (Shared memory)

Truyền thông điệp (Message passing) tuần tự

Chia để trị (Divide and Conquer) và xử lý song song

Tính toán dựa trên đồ thị (Graph-based computation)

Câu hỏi kiểm tra sự hiểu biết về mô hình MapReduce, một nền tảng xử lý dữ liệu song song quan trọng trong Big Data.

5 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 5: Trong ngữ cảnh Dữ liệu Lớn, 'Data Lake' (Hồ dữ liệu) khác biệt với 'Data Warehouse' (Kho dữ liệu) chủ yếu ở điểm nào?

Data Lake chỉ lưu trữ dữ liệu có cấu trúc, trong khi Data Warehouse lưu trữ mọi loại dữ liệu.

Data Warehouse được xây dựng trên nền tảng đám mây, còn Data Lake thì không.

Data Lake phù hợp cho báo cáo và phân tích truyền thống, Data Warehouse cho khám phá dữ liệu.

Data Lake lưu trữ dữ liệu thô ở dạng gốc, Data Warehouse lưu trữ dữ liệu đã được xử lý và cấu trúc.

Câu hỏi so sánh Data Lake và Data Warehouse, hai mô hình lưu trữ dữ liệu quan trọng, tập trung vào sự khác biệt về cấu trúc và mục đích sử dụng.

6 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 6: Công cụ nào sau đây thường được sử dụng để thu thập và chuyển dữ liệu nhật ký (log data) thời gian thực từ nhiều nguồn khác nhau vào hệ thống Dữ liệu Lớn?

Sqoop

Flume

Pig

Hive

Câu hỏi kiểm tra kiến thức về các công cụ thu thập dữ liệu trong Big Data, đặc biệt là cho dữ liệu nhật ký và streaming.

7 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 7: Giả sử bạn có một tập dữ liệu văn bản rất lớn và muốn đếm tần suất xuất hiện của mỗi từ. Mô hình MapReduce sẽ xử lý tác vụ này như thế nào?

Gửi toàn bộ dữ liệu đến một node duy nhất để xử lý tuần tự.

Sử dụng thuật toán nén dữ liệu phức tạp trước khi phân tích.

Phân chia dữ liệu thành các phần nhỏ, song song đếm từ ở mỗi phần (Map), sau đó tổng hợp kết quả (Reduce).

Áp dụng kỹ thuật học máy để dự đoán tần suất từ dựa trên mẫu dữ liệu nhỏ hơn.

Câu hỏi yêu cầu ứng dụng kiến thức về MapReduce vào một bài toán cụ thể (word count), minh họa quy trình Map và Reduce.

8 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 8: Apache Spark vượt trội hơn Hadoop MapReduce trong các tác vụ xử lý dữ liệu lặp đi lặp lại (iterative processing) chủ yếu nhờ vào yếu tố nào?

Khả năng lưu trữ dữ liệu trung gian trên bộ nhớ (in-memory processing)

Sử dụng ngôn ngữ lập trình Python thay vì Java.

Kiến trúc phân tán hoàn toàn phi tập trung.

Tích hợp sẵn các thư viện cho xử lý đồ thị và streaming.

Câu hỏi so sánh Spark và MapReduce, tập trung vào ưu điểm của Spark trong xử lý lặp, liên quan đến khả năng lưu trữ dữ liệu trung gian trên bộ nhớ.

9 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 9: 'YARN' trong Hadoop đóng vai trò gì?

Hệ thống tệp phân tán (Distributed file system)

Quản lý tài nguyên cụm (cluster resources) và lập lịch công việc (job scheduling)

Công cụ truy vấn SQL trên Hadoop

Thư viện học máy cho Hadoop

Câu hỏi kiểm tra kiến thức về YARN, một thành phần quan trọng trong Hadoop 2.0+, và vai trò quản lý tài nguyên của nó.

10 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 10: Loại cơ sở dữ liệu NoSQL nào phù hợp nhất để lưu trữ và truy vấn dữ liệu dạng đồ thị, ví dụ như mạng xã hội hoặc quan hệ giữa các thực thể?

Document Database (Cơ sở dữ liệu dạng tài liệu)

Key-Value Store (Kho khóa-giá trị)

Graph Database (Cơ sở dữ liệu đồ thị)

Column-Family Database (Cơ sở dữ liệu dạng cột)

Câu hỏi về các loại NoSQL databases, yêu cầu xác định loại phù hợp cho dữ liệu đồ thị, liên quan đến mô hình dữ liệu và ứng dụng.

11 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 11: Trong HDFS, dữ liệu được chia thành các khối (blocks) và sao chép trên nhiều DataNode. Mục đích chính của việc sao chép dữ liệu này là gì?

Tăng tốc độ truy cập dữ liệu tuần tự.

Giảm dung lượng lưu trữ cần thiết.

Đơn giản hóa việc quản lý siêu dữ liệu.

Đảm bảo tính отказоустойчивость (fault tolerance) và độ tin cậy dữ liệu.

Câu hỏi về tính năng replication trong HDFS, tập trung vào mục đích đảm bảo tính sẵn sàng và độ tin cậy của dữ liệu.

12 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 12: Khi lựa chọn công nghệ lưu trữ Dữ liệu Lớn trên đám mây, yếu tố nào sau đây thường được ưu tiên hàng đầu?

Tính năng bảo mật nâng cao nhất

Khả năng mở rộng linh hoạt và chi phí hiệu quả

Tốc độ truy cập dữ liệu nhanh nhất

Khả năng tích hợp sâu nhất với các hệ thống hiện có

Câu hỏi về lưu trữ Big Data trên cloud, tập trung vào yếu tố quan trọng nhất khi chọn giải pháp đám mây, liên quan đến khả năng mở rộng và chi phí.

13 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 13: 'Schema-on-read' là một đặc điểm của loại hệ thống lưu trữ dữ liệu nào?

Data Warehouse

Cơ sở dữ liệu quan hệ (Relational Database)

Data Lake

Hệ thống OLTP (Online Transaction Processing)

Câu hỏi về 'schema-on-read', một khái niệm quan trọng trong Data Lake và NoSQL, liên quan đến thời điểm áp đặt cấu trúc dữ liệu.

14 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 14: Công cụ nào sau đây thường được sử dụng để truy vấn và phân tích dữ liệu trong Hadoop Data Lake bằng ngôn ngữ SQL-like?

HBase

Pig

Flume

Hive

Câu hỏi về công cụ truy vấn SQL trên Hadoop, tập trung vào Hive và vai trò của nó trong việc cung cấp giao diện SQL cho dữ liệu Hadoop.

15 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 15: Trong quá trình xử lý dữ liệu streaming, khái niệm 'windowing' (cửa sổ) được sử dụng để làm gì?

Chia dữ liệu stream thành các khoảng thời gian hoặc số lượng bản ghi để xử lý theo lô nhỏ.

Nén dữ liệu stream để giảm băng thông truyền tải.

Mã hóa dữ liệu stream để bảo mật thông tin.

Lọc dữ liệu stream để loại bỏ nhiễu.

Câu hỏi về xử lý dữ liệu streaming, tập trung vào 'windowing' và mục đích chia dữ liệu stream thành các khoảng thời gian để phân tích.

16 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 16: Ứng dụng nào sau đây KHÔNG phải là một trường hợp sử dụng phổ biến của Dữ liệu Lớn?

Phân tích hành vi khách hàng để cá nhân hóa trải nghiệm mua sắm.

Dự đoán và phòng ngừa gian lận trong giao dịch tài chính.

Quản lý cơ sở dữ liệu giao dịch nhỏ cho một cửa hàng tạp hóa.

Tối ưu hóa chuỗi cung ứng và quản lý tồn kho.

Câu hỏi kiểm tra kiến thức về ứng dụng của Big Data, yêu cầu xác định ứng dụng không phù hợp, phân biệt với các ứng dụng điển hình.

17 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 17: Khi thiết kế một hệ thống Dữ liệu Lớn, yếu tố 'khả năng mở rộng' (scalability) thường được xem xét ở những khía cạnh nào?

Chỉ khả năng mở rộng về dung lượng lưu trữ.

Chỉ khả năng mở rộng về tốc độ xử lý.

Khả năng mở rộng về số lượng người dùng truy cập đồng thời.

Cả khả năng mở rộng về dung lượng lưu trữ và khả năng mở rộng về tốc độ xử lý.

Câu hỏi về scalability trong Big Data, yêu cầu liệt kê các khía cạnh cần xem xét, liên quan đến khả năng mở rộng về lưu trữ và xử lý.

18 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 18: Để chuyển dữ liệu từ một cơ sở dữ liệu quan hệ truyền thống (RDBMS) sang Hadoop HDFS, công cụ nào sau đây thường được sử dụng?

Flume

Sqoop

Kafka

Spark Streaming

Câu hỏi về công cụ di chuyển dữ liệu từ RDBMS sang Hadoop, tập trung vào Sqoop và vai trò của nó trong việc kết nối và nhập dữ liệu.

19 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 19: Trong kiến trúc Lambda, lớp 'speed layer' (lớp tốc độ) có vai trò chính là gì?

Lưu trữ dữ liệu lịch sử (historical data).

Xử lý dữ liệu theo lô (batch processing).

Xử lý dữ liệu thời gian thực (real-time data) với độ trễ thấp.

Phục vụ truy vấn tương tác (interactive queries).

Câu hỏi về kiến trúc Lambda, một kiến trúc phổ biến trong Big Data, tập trung vào vai trò của 'speed layer' trong xử lý dữ liệu thời gian thực.

20 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 20: 'Data Governance' (Quản trị dữ liệu) trong Dữ liệu Lớn bao gồm những hoạt động nào?

Chỉ quản lý hạ tầng lưu trữ dữ liệu.

Chỉ đảm bảo hiệu suất truy vấn dữ liệu.

Chỉ triển khai các công cụ phân tích dữ liệu.

Xác định chính sách, quy trình và tiêu chuẩn để quản lý chất lượng, bảo mật và vòng đời dữ liệu.

Câu hỏi về Data Governance, một khía cạnh quan trọng trong Big Data, yêu cầu liệt kê các hoạt động liên quan đến quản lý, chất lượng và bảo mật dữ liệu.

21 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 21: Giả sử bạn cần xây dựng một hệ thống phân tích nhật ký web (web log analysis) thời gian thực để phát hiện các sự kiện bất thường. Công nghệ xử lý stream nào sau đây phù hợp nhất?

Kafka Streams

Hadoop MapReduce

Hive

Sqoop

Câu hỏi yêu cầu lựa chọn c??ng nghệ stream phù hợp cho phân tích nhật ký web thời gian thực, tập trung vào Kafka Streams và khả năng xử lý stream phức tạp.

22 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 22: Thách thức lớn nhất khi xử lý dữ liệu 'velocity' (tốc độ) trong Dữ liệu Lớn là gì?

Lưu trữ lượng lớn dữ liệu một cách hiệu quả.

Xử lý và phân tích dữ liệu đến liên tục với tốc độ cao trong thời gian thực hoặc gần thời gian thực.

Xử lý dữ liệu phi cấu trúc và bán cấu trúc.

Đảm bảo tính chính xác và tin cậy của dữ liệu.

Câu hỏi về thách thức của 'velocity' trong 5Vs của Big Data, tập trung vào việc xử lý dữ liệu đến liên tục và nhanh chóng.

23 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 23: Trong mô hình bảo mật Dữ liệu Lớn, kỹ thuật 'data masking' (che giấu dữ liệu) được sử dụng để làm gì?

Mã hóa toàn bộ dữ liệu lưu trữ.

Kiểm soát truy cập dữ liệu dựa trên vai trò người dùng.

Thay thế hoặc ẩn các thông tin nhạy cảm trong dữ liệu để bảo vệ quyền riêng tư và tuân thủ quy định.

Phát hiện và ngăn chặn các cuộc tấn công mạng.

Câu hỏi về bảo mật Big Data, tập trung vào 'data masking' và mục đích bảo vệ dữ liệu nhạy cảm.

24 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 24: Phương pháp phân tích dữ liệu nào sau đây tập trung vào việc khám phá các mẫu ẩn, xu hướng và thông tin chi tiết từ tập dữ liệu lớn, thường không rõ ràng khi nhìn bề ngoài?

Báo cáo thống kê mô tả (Descriptive Statistics Reporting)

Truy vấn SQL truyền thống (Traditional SQL Querying)

Phân tích OLAP (Online Analytical Processing)

Khai phá dữ liệu (Data Mining)

Câu hỏi về các phương pháp phân tích Big Data, tập trung vào 'data mining' và mục đích khám phá tri thức từ dữ liệu.

25 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 25: 'Edge computing' (Điện toán biên) có vai trò gì trong việc xử lý Dữ liệu Lớn, đặc biệt là trong bối cảnh IoT (Internet of Things)?

Tập trung toàn bộ dữ liệu IoT về trung tâm dữ liệu để xử lý tập trung.

Xử lý dữ liệu gần nguồn phát sinh (thiết bị IoT) để giảm độ trễ, băng thông và tăng tính riêng tư.

Sử dụng điện toán đám mây để lưu trữ dữ liệu IoT vô thời hạn.

Thay thế hoàn toàn điện toán đám mây trong các ứng dụng IoT.

Câu hỏi về Edge Computing trong Big Data và IoT, tập trung vào việc xử lý dữ liệu gần nguồn phát sinh để giảm độ trễ và băng thông.

26 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 26: Khi so sánh Spark và Flink, điểm khác biệt chính về mô hình xử lý stream là gì?

Spark nhanh hơn Flink trong mọi trường hợp xử lý stream.

Flink chỉ hỗ trợ ngôn ngữ lập trình Java, còn Spark hỗ trợ đa ngôn ngữ.

Spark Streaming xử lý stream theo mô hình micro-batch, còn Flink xử lý stream liên tục (continuous).

Spark có khả năng chịu lỗi tốt hơn Flink.

Câu hỏi so sánh Spark Streaming và Flink, hai framework stream phổ biến, tập trung vào sự khác biệt về mô hình xử lý (micro-batch vs. continuous).

27 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 27: Trong bối cảnh Dữ liệu Lớn và Trí tuệ Nhân tạo (AI), 'feature engineering' (kỹ thuật đặc trưng) đóng vai trò quan trọng như thế nào?

Tạo ra các đặc trưng (features) phù hợp và có ý nghĩa từ dữ liệu thô để cải thiện hiệu suất của mô hình học máy.

Giảm kích thước dữ liệu lớn để tăng tốc độ xử lý.

Chọn thuật toán học máy tối ưu cho từng bài toán cụ thể.

Đánh giá và kiểm định mô hình học máy.

Câu hỏi về vai trò của 'feature engineering' trong Big Data và AI, tập trung vào việc tạo ra các đặc trưng phù hợp để cải thiện hiệu suất mô hình học máy.

28 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 28: Loại tấn công bảo mật nào sau đây đặc biệt nguy hiểm trong hệ thống Dữ liệu Lớn, khi kẻ tấn công xâm nhập và mã hóa dữ liệu, đòi tiền chuộc?

Tấn công DDoS (Từ chối dịch vụ phân tán)

Tấn công Ransomware

Tấn công SQL Injection

Tấn công Man-in-the-Middle

Câu hỏi về bảo mật Big Data, tập trung vào tấn công ransomware và mức độ nguy hiểm của nó đối với dữ liệu lớn.

29 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 29: Để đảm bảo 'veracity' (tính xác thực) của Dữ liệu Lớn, các biện pháp nào sau đây thường được áp dụng?

Tăng tốc độ thu thập dữ liệu.

Mở rộng dung lượng lưu trữ dữ liệu.

Kiểm soát chất lượng dữ liệu (data quality checks), làm sạch dữ liệu (data cleansing) và xác thực nguồn gốc dữ liệu.

Đa dạng hóa các loại dữ liệu thu thập.

Câu hỏi về 'veracity' trong 5Vs của Big Data, tập trung vào các biện pháp đảm bảo chất lượng và độ tin cậy của dữ liệu.

30 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 09

Câu 30: Trong kiến trúc Kappa, điểm khác biệt chính so với kiến trúc Lambda là gì?

Kiến trúc Kappa chỉ xử lý dữ liệu lịch sử, không xử lý dữ liệu thời gian thực.

Kiến trúc Kappa sử dụng cơ sở dữ liệu NoSQL thay vì HDFS.

Kiến trúc Kappa tập trung vào bảo mật dữ liệu hơn là hiệu suất xử lý.

Kiến trúc Kappa loại bỏ lớp xử lý batch (batch layer) và chỉ sử dụng lớp xử lý stream (streaming layer) cho mọi tác vụ.

Xem kết quả

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Nhận kết quả

Xảy ra lỗi

Bước 1: Vào google.com rồi gõ từ khóa:
Copy nhanh thanh-tim-kiem

Bước 2: Trong kết quả tìm kiếm Google, hãy tìm website giống hình bên dưới

Nếu trang 1 không có hãy tìm ở trang 2, 3, 4... nhé trang-google

Bước 3:

Cuộn xuống cuối bài viết rồi bấm vào nút GIỐNG HÌNH DƯỚI và chờ 1 lát để lấy mã:

luot-xem

Nếu tìm không thấy mã bạn có thể Đổi nhiệm vụ để lấy mã khác.

Câu hỏi so sánh kiến trúc Kappa và Lambda, hai kiến trúc phổ biến trong Big Data, tập trung vào việc Kappa đơn giản hóa bằng cách loại bỏ lớp batch.

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!

Trắc nghiệm Dữ liệu lớn (BigData)

Trắc nghiệm Dữ liệu lớn (BigData) - Đề 10

1 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 1: Khác biệt cốt lõi nào sau đây làm cho Dữ liệu lớn (Big Data) thách thức các hệ thống quản lý cơ sở dữ liệu truyền thống (RDBMS)?

Chỉ có khối lượng dữ liệu lớn.

Yêu cầu tốc độ xử lý cực nhanh cho mọi loại truy vấn.

Sự đa dạng về cấu trúc dữ liệu (có cấu trúc, bán cấu trúc, phi cấu trúc).

Cần độ chính xác tuyệt đối của dữ liệu.

Câu hỏi kiểm tra khả năng phân tích sự khác biệt cơ bản giữa Big Data và dữ liệu truyền thống. Big Data thường bao gồm dữ liệu phi cấu trúc (unstructured) và bán cấu trúc (semi-structured) với khối lượng và tốc độ cao, điều mà RDBMS truyền thống được thiết kế chủ yếu cho dữ liệu có cấu trúc gặp khó khăn trong việc xử lý hiệu quả.

2 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 2: Một công ty thương mại điện tử muốn phân tích hành vi khách hàng theo thời gian thực từ dữ liệu clickstream trên website và dữ liệu tương tác trên ứng dụng di động. Đặc tính nào của Dữ liệu lớn được nhấn mạnh nhất trong trường hợp này?

Volume (Khối lượng)

Velocity (Tốc độ)

Variety (Đa dạng)

Veracity (Tính xác thực)

Tình huống mô tả dữ liệu được tạo ra và cần xử lý liên tục, với tốc độ cao để phân tích theo thời gian thực. Đây chính là đặc tính 'Velocity' (Tốc độ) của Big Data.

3 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 3: Hệ thống tệp phân tán Hadoop (HDFS) được thiết kế để giải quyết thách thức nào sau đây trong việc lưu trữ Dữ liệu lớn?

Lưu trữ các tập dữ liệu khổng lồ trên các máy chủ thông thường và chịu lỗi.

Thực hiện các truy vấn SQL phức tạp với tốc độ cao.

Xử lý dữ liệu theo thời gian thực với độ trễ cực thấp.

Quản lý siêu dữ liệu (metadata) tập trung cho toàn bộ hệ thống doanh nghiệp.

HDFS là hệ thống lưu trữ phân tán của Hadoop, được xây dựng để lưu trữ các tập dữ liệu rất lớn trên các cụm máy tính thông thường (commodity hardware) và đảm bảo khả năng chịu lỗi (fault tolerance) bằng cách nhân bản dữ liệu.

4 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 4: Trong kiến trúc Hadoop, thành phần nào chịu trách nhiệm quản lý tài nguyên (CPU, RAM) trên toàn bộ cụm và lập lịch chạy các ứng dụng (như MapReduce, Spark jobs)?

NameNode (trong HDFS)

DataNode (trong HDFS)

Resource Manager (trong YARN)

Job Tracker (trong Hadoop 1.x MapReduce)

Câu hỏi kiểm tra kiến thức về vai trò của các thành phần trong Hadoop 2.x+. YARN (Yet Another Resource Negotiator) là lớp quản lý tài nguyên, tách biệt việc quản lý tài nguyên khỏi xử lý dữ liệu, cho phép nhiều loại ứng dụng chạy trên Hadoop.

5 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 5: Một nhà khoa học dữ liệu cần xử lý một tập dữ liệu rất lớn lặp đi lặp lại cho một thuật toán học máy. Framework xử lý nào sau đây trong hệ sinh thái Big Data thường được ưu tiên hơn MapReduce truyền thống cho các tác vụ lặp và tính toán trong bộ nhớ?

Apache Hive

Apache Spark

Apache Pig

Apache Sqoop

Câu hỏi yêu cầu áp dụng kiến thức về các framework xử lý Big Data vào một tình huống cụ thể. Apache Spark được biết đến với khả năng xử lý nhanh hơn MapReduce, đặc biệt là các tác vụ lặp và tính toán trong bộ nhớ (in-memory computation), rất phù hợp cho các thuật toán học máy.

6 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 6: 'Data Lake' (Hồ dữ liệu) khác biệt cơ bản với 'Data Warehouse' (Kho dữ liệu) ở điểm nào liên quan đến cấu trúc dữ liệu?

Data Lake lưu trữ dữ liệu có cấu trúc, còn Data Warehouse lưu trữ dữ liệu phi cấu trúc.

Data Lake yêu cầu schema được định nghĩa trước khi dữ liệu được lưu trữ (schema-on-write).

Data Warehouse lưu trữ dữ liệu thô và nguyên bản.

Data Lake cho phép lưu trữ dữ liệu thô với schema linh hoạt (schema-on-read).

Câu hỏi kiểm tra khả năng so sánh hai khái niệm lưu trữ dữ liệu phổ biến. Data Lake lưu trữ dữ liệu thô, nguyên bản ở nhiều định dạng khác nhau (schema-on-read), trong khi Data Warehouse lưu trữ dữ liệu đã được làm sạch, chuyển đổi và có cấu trúc chặt chẽ (schema-on-write).

7 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 7: Khi làm việc với Dữ liệu lớn từ nhiều nguồn khác nhau (cảm biến IoT, mạng xã hội, nhật ký máy chủ), thách thức lớn nhất liên quan đến đặc tính 'Variety' (Đa dạng) là gì?

Tích hợp, làm sạch và chuẩn hóa dữ liệu từ các định dạng và nguồn khác nhau.

Tốc độ xử lý dữ liệu quá nhanh.

Chi phí lưu trữ dữ liệu quá cao.

Khó khăn trong việc đảm bảo bảo mật dữ liệu.

Đặc tính 'Variety' của Big Data đề cập đến sự đa dạng về định dạng và cấu trúc dữ liệu. Thách thức chính là tích hợp, chuyển đổi và làm sạch dữ liệu từ các nguồn không đồng nhất này để có thể phân tích.

8 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 8: Một tổ chức y tế muốn phân tích hàng triệu hồ sơ bệnh án điện tử (bao gồm văn bản tự do, hình ảnh, kết quả xét nghiệm) để tìm ra mối liên hệ giữa các triệu chứng và bệnh tật. Công nghệ cơ sở dữ liệu nào sau đây phù hợp nhất để lưu trữ và truy vấn loại dữ liệu phi cấu trúc và bán cấu trúc này?

Cơ sở dữ liệu quan hệ (Relational Database - RDBMS)

Hệ thống tệp mạng (Network File System - NFS)

Cơ sở dữ liệu NoSQL

Data Warehouse truyền thống

Tình huống mô tả nhu cầu lưu trữ và xử lý dữ liệu đa dạng, bao gồm cả phi cấu trúc (văn bản, hình ảnh). Các cơ sở dữ liệu NoSQL được thiết kế để xử lý hiệu quả các loại dữ liệu này với schema linh hoạt, khác với RDBMS truyền thống cần schema cứng nhắc.

9 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 9: 'Locality of Reference' (Tính cục bộ của dữ liệu) là một nguyên tắc quan trọng trong các hệ thống phân tán như HDFS và MapReduce/Spark. Tại sao việc xử lý dữ liệu 'gần' nơi nó được lưu trữ lại hiệu quả hơn?

Để đảm bảo dữ liệu luôn được nhân bản đủ số lượng.

Để giảm tải cho NameNode.

Để tăng cường bảo mật dữ liệu.

Để giảm thiểu việc truyền dữ liệu qua mạng, tận dụng băng thông cục bộ.

Câu hỏi kiểm tra khả năng phân tích nguyên tắc hoạt động của hệ thống phân tán. Di chuyển code đến dữ liệu thay vì di chuyển dữ liệu đến code giúp giảm thiểu đáng kể lượng dữ liệu cần truyền qua mạng, vốn là nút thắt cổ chai trong xử lý Big Data.

10 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 10: Apache Kafka là một nền tảng xử lý luồng dữ liệu (stream processing). Vai trò chính của Kafka trong kiến trúc Big Data là gì?

Ingest (thu thập) và phân phối dữ liệu luồng theo thời gian thực.

Thực hiện các truy vấn SQL tương tác trên dữ liệu trong HDFS.

Lưu trữ dữ liệu phi cấu trúc lâu dài.

Quản lý tài nguyên cho các ứng dụng chạy trên cụm Hadoop.

Câu hỏi kiểm tra kiến thức về vai trò của Kafka. Kafka là một hệ thống hàng đợi tin nhắn phân tán, được sử dụng rộng rãi để thu thập (ingest), lưu trữ tạm thời và phân phối dữ liệu luồng từ nhiều nguồn đến nhiều hệ thống xử lý hoặc lưu trữ khác.

11 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 11: Một trong những thách thức lớn nhất của đặc tính 'Veracity' (Tính xác thực) của Dữ liệu lớn là gì?

Lưu trữ dữ liệu ở nhiều định dạng khác nhau.

Xử lý dữ liệu không đầy đủ, không chính xác hoặc không nhất quán.

Tốc độ dữ liệu đến quá nhanh.

Khối lượng dữ liệu quá lớn để xử lý.

'Veracity' liên quan đến độ chính xác, tin cậy và tính không chắc chắn của dữ liệu. Thách thức chính là làm thế nào để đánh giá và cải thiện chất lượng dữ liệu khi nó đến từ nhiều nguồn không đáng tin cậy hoặc chứa nhiều sai sót.

12 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 12: Khi một khối dữ liệu (block) trong HDFS bị hỏng hoặc mất đi do lỗi DataNode, HDFS xử lý tình huống này như thế nào để đảm bảo tính sẵn sàng của dữ liệu?

Báo lỗi và không cho phép truy cập khối dữ liệu đó.

Tự động xóa khối dữ liệu bị hỏng và các bản sao của nó.

Sử dụng các bản sao (replicas) trên các DataNode khác để phục hồi hoặc truy cập dữ liệu.

Yêu cầu người dùng tải lại khối dữ liệu từ nguồn ban đầu.

Câu hỏi kiểm tra khả năng phân tích cơ chế chịu lỗi của HDFS. HDFS sử dụng cơ chế nhân bản (replication). Khi phát hiện một khối bị thiếu bản sao do lỗi DataNode, NameNode sẽ yêu cầu tạo bản sao mới từ các bản sao còn lại trên các DataNode khác.

13 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 13: MapReduce là một mô hình lập trình cho xử lý song song các tập dữ liệu lớn trên cụm máy tính. Giai đoạn 'Reduce' trong MapReduce có vai trò chính là gì?

Chia nhỏ dữ liệu đầu vào thành các phần nhỏ hơn.

Áp dụng một hàm trên từng bản ghi dữ liệu đầu vào.

Nhóm và sắp xếp dữ liệu theo khóa.

Tổng hợp kết quả từ các giá trị liên quan đến cùng một khóa.

Câu hỏi kiểm tra kiến thức về mô hình MapReduce. Giai đoạn 'Reduce' nhận đầu ra đã được nhóm (grouped) từ giai đoạn 'Map' và 'Shuffle & Sort', sau đó tổng hợp hoặc xử lý các giá trị liên quan đến cùng một khóa (key) để tạo ra kết quả cuối cùng.

14 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 14: Một công ty cần xây dựng một hệ thống để theo dõi và phân tích các sự kiện bảo mật (security events) từ hàng nghìn máy chủ theo thời gian thực để phát hiện sớm các cuộc tấn công. Công nghệ nào sau đây là thành phần thiết yếu cho việc thu thập và xử lý dữ liệu luồng này?

Apache Kafka

Apache Hive

Apache Sqoop

Apache Pig

Tình huống yêu cầu xử lý dữ liệu theo thời gian thực ('phân tích các sự kiện bảo mật... theo thời gian thực'). Các công nghệ xử lý luồng (Stream Processing) như Apache Flink, Apache Spark Streaming (hoặc Kafka cho ingestion) là phù hợp nhất. Kafka là một hệ thống hàng đợi tin nhắn hiệu quả cho việc thu thập lượng lớn dữ liệu luồng.

15 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 15: Điều nào sau đây là một lợi ích chính của việc sử dụng các dịch vụ Big Data trên nền tảng đám mây (Cloud) so với việc triển khai và quản lý cụm Hadoop tại chỗ (On-premises)?

Kiểm soát hoàn toàn phần cứng vật lý ở mọi thời điểm.

Đảm bảo dữ liệu luôn nằm trong mạng nội bộ của tổ chức.

Khả năng mở rộng linh hoạt theo nhu cầu và chi phí dựa trên sử dụng.

Hiệu suất xử lý luôn cao hơn so với cấu hình tối ưu tại chỗ.

Câu hỏi kiểm tra khả năng so sánh mô hình triển khai. Các dịch vụ Cloud Big Data cung cấp khả năng mở rộng linh hoạt (scale up/down) theo nhu cầu, bạn chỉ trả tiền cho tài nguyên sử dụng, giảm bớt gánh nặng quản lý hạ tầng vật lý so với việc tự xây dựng và duy trì cụm tại chỗ.

16 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 16: Trong bối cảnh Dữ liệu lớn, 'Schema-on-read' (schema khi đọc) là một khái niệm thường liên quan đến Data Lake. Nó có nghĩa là gì?

Cấu trúc dữ liệu (schema) phải được định nghĩa rõ ràng trước khi lưu trữ dữ liệu.

Dữ liệu chỉ có thể được đọc sau khi toàn bộ schema đã được tải vào bộ nhớ.

Schema của dữ liệu tự động thay đổi mỗi khi có dữ liệu mới được ghi vào.

Cấu trúc dữ liệu được áp dụng hoặc suy luận tại thời điểm dữ liệu được truy vấn, không phải lúc lưu trữ.

'Schema-on-read' là đặc trưng của Data Lake và các công nghệ như Hive/Spark SQL trên HDFS. Nó cho phép lưu trữ dữ liệu thô mà không cần định nghĩa cấu trúc (schema) trước. Cấu trúc chỉ được áp dụng (hoặc suy luận) khi dữ liệu được truy vấn.

17 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 17: Một trong những thách thức đạo đức (ethical challenge) quan trọng nhất khi sử dụng Dữ liệu lớn, đặc biệt là dữ liệu cá nhân, là gì?

Đảm bảo quyền riêng tư và bảo vệ dữ liệu cá nhân.

Tốc độ xử lý dữ liệu không đủ nhanh.

Chi phí mua sắm phần cứng cho cụm xử lý.

Khó khăn trong việc tìm kiếm nhân lực có kỹ năng Big Data.

Câu hỏi kiểm tra khả năng nhận diện các vấn đề phi kỹ thuật trong Big Data. Quyền riêng tư (privacy) và bảo vệ dữ liệu cá nhân là thách thức đạo đức hàng đầu, đặc biệt khi dữ liệu được thu thập từ nhiều nguồn và có thể được phân tích để suy ra thông tin nhạy cảm.

18 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 18: Giả sử bạn có một tập dữ liệu lịch sử về giao dịch chứng khoán với khối lượng petabyte và cần chạy các phân tích phức tạp, các thuật toán học máy để dự đoán xu hướng thị trường. Công nghệ lưu trữ nào sau đây trong hệ sinh thái Big Data là lựa chọn phổ biến để lưu trữ tập dữ liệu này một cách hiệu quả về chi phí và khả năng mở rộng?

Cơ sở dữ liệu quan hệ truyền thống (như MySQL, PostgreSQL)

Hệ thống tệp phân tán Hadoop (HDFS)

Cơ sở dữ liệu NoSQL dạng Key-Value (như Redis)

Hệ thống tệp mạng (NFS)

Tình huống mô tả nhu cầu lưu trữ lượng lớn dữ liệu lịch sử cho phân tích. HDFS được thiết kế đặc biệt để lưu trữ các tập dữ liệu khổng lồ trên các cụm máy tính thông thường với chi phí thấp và khả năng mở rộng cao, rất phù hợp cho các kho dữ liệu lớn (Data Lake).

19 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 19: Apache Hive là một công cụ trong hệ sinh thái Hadoop cho phép người dùng truy vấn dữ liệu lưu trữ trong HDFS sử dụng một ngôn ngữ giống SQL. Hive đặc biệt hữu ích cho loại tác vụ nào?

Phân tích dữ liệu theo lô (batch analysis) và báo cáo trên dữ liệu trong HDFS.

Xử lý dữ liệu luồng với độ trễ mili giây.

Lưu trữ và truy vấn dữ liệu đồ thị (graph data).

Thực hiện các giao dịch ACID phức tạp.

Hive cung cấp một tầng trừu tượng SQL trên HDFS, chuyển đổi các truy vấn HiveQL thành các job MapReduce hoặc Spark. Nó rất phù hợp cho các tác vụ phân tích dữ liệu theo lô (batch processing), báo cáo và trích xuất ETL, nơi độ trễ không phải là yếu tố quan trọng hàng đầu.

20 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 20: Khả năng chịu lỗi (Fault Tolerance) là một đặc điểm quan trọng của các hệ thống Big Data phân tán. Điều này có nghĩa là gì?

Hệ thống có thể tự động sửa chữa tất cả các lỗi phần cứng.

Hệ thống sẽ dừng hoạt động ngay khi phát hiện lỗi.

Hệ thống có thể tiếp tục hoạt động và xử lý dữ liệu ngay cả khi có một số thành phần gặp sự cố.

Dữ liệu chỉ được lưu trữ trên một máy chủ duy nhất.

Khả năng chịu lỗi là khả năng của một hệ thống tiếp tục hoạt động bình thường ngay cả khi một hoặc nhiều thành phần (máy chủ, ổ đĩa, mạng) gặp lỗi. Trong HDFS, điều này đạt được thông qua nhân bản dữ liệu.

21 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 21: Giả sử bạn cần di chuyển một lượng lớn dữ liệu từ cơ sở dữ liệu quan hệ truyền thống (như Oracle) sang HDFS để xử lý Big Data. Công cụ nào trong hệ sinh thái Hadoop được thiết kế đặc biệt cho tác vụ này?

Apache Sqoop

Apache Flume

Apache Kafka

Apache ZooKeeper

Câu hỏi yêu cầu áp dụng kiến thức về các công cụ ETL trong Hadoop. Apache Sqoop (SQL to Hadoop) là công cụ chính được sử dụng để chuyển dữ liệu có cấu trúc giữa các cơ sở dữ liệu quan hệ và Hadoop (HDFS, Hive, HBase).

22 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 22: Trong phân tích Dữ liệu lớn, 'Phân tích mô tả' (Descriptive Analytics) có mục đích chính là gì?

Dự đoán những gì có thể xảy ra trong tương lai.

Mô tả và tóm tắt những gì đã xảy ra trong dữ liệu lịch sử.

Đề xuất hành động tốt nhất để đạt được mục tiêu.

Tìm ra mối quan hệ nhân quả giữa các biến.

Phân tích mô tả là cấp độ phân tích cơ bản nhất, tập trung vào việc tóm tắt và mô tả những gì đã xảy ra trong dữ liệu lịch sử. Ví dụ: báo cáo doanh số tháng trước, số lượng người dùng truy cập website hôm qua.

23 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 23: Một công ty viễn thông thu thập dữ liệu nhật ký cuộc gọi (Call Detail Records - CDR) từ hàng triệu thuê bao mỗi ngày. Dữ liệu này có cấu trúc tương đối cố định nhưng khối lượng rất lớn và đến liên tục. Đặc tính nào của Big Data là nổi bật nhất trong trường hợp này?

Variety và Veracity

Veracity và Value

Value và Volume

Volume và Velocity

CDR là dữ liệu có cấu trúc nhưng được tạo ra với 'Volume' (Khối lượng) cực lớn và 'Velocity' (Tốc độ) cao. Mặc dù có cấu trúc, khối lượng và tốc độ là những thách thức chính cho hệ thống truyền thống.

24 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 24: Apache Cassandra là một cơ sở dữ liệu NoSQL phân tán, được thiết kế cho khả năng mở rộng và tính sẵn sàng cao. Loại mô hình dữ liệu chính mà Cassandra sử dụng là gì?

Quan hệ (Relational)

Đồ thị (Graph)

Cột rộng (Wide-column)

Tài liệu (Document)

Cassandra là một cơ sở dữ liệu NoSQL dạng cột rộng (wide-column store), tổ chức dữ liệu thành các bảng, hàng và cột, nhưng với schema linh hoạt và tối ưu cho việc ghi và đọc phân tán.

25 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 25: Tại sao việc bảo mật Dữ liệu lớn lại phức tạp hơn so với bảo mật dữ liệu trong các hệ thống truyền thống?

Vì dữ liệu lớn luôn được lưu trữ trên nền tảng đám mây.

Do dữ liệu được phân tán trên nhiều node, có nhiều định dạng và nguồn khác nhau.

Vì các công cụ Big Data không có tính năng bảo mật tích hợp.

Vì dữ liệu lớn luôn là dữ liệu công khai và không cần bảo mật.

Bảo mật Big Data phức tạp hơn do dữ liệu được phân tán trên nhiều node, có nhiều định dạng khác nhau, và thường xuyên di chuyển giữa các thành phần trong hệ sinh thái. Điều này tạo ra nhiều điểm yếu tiềm ẩn và yêu cầu các giải pháp bảo mật phân tán.

26 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 26: Một trong những ứng dụng phổ biến nhất của Dữ liệu lớn trong lĩnh vực tài chính là phát hiện gian lận (fraud detection). Loại phân tích nào sau đây thường được sử dụng trong các hệ thống phát hiện gian lận dựa trên Big Data?

Chỉ phân tích mô tả.

Chỉ phân tích dự báo.

Chỉ phân tích quy định.

Kết hợp phân tích chẩn đoán và phân tích dự đoán.

Phát hiện gian lận thường dựa vào việc phân tích các mẫu bất thường trong lượng lớn dữ liệu giao dịch, hành vi người dùng,... Đây là một ứng dụng điển hình của phân tích chẩn đoán (Diagnostic Analytics - tìm hiểu tại sao điều gì đó xảy ra) và phân tích dự đoán (Predictive Analytics - dự đoán khả năng xảy ra gian lận trong tương lai).

27 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 27: Khi một ứng dụng chạy trên cụm Hadoop/YARN (ví dụ: một job Spark), Container trong YARN có vai trò gì?

Một đơn vị tài nguyên (CPU, RAM) nơi các Task của ứng dụng được thực thi.

Thành phần lưu trữ dữ liệu trên DataNode.

Quản lý siêu dữ liệu của hệ thống tệp.

Lập lịch chạy các ứng dụng trên toàn cụm.

Trong kiến trúc YARN, Container là đơn vị cơ bản của tài nguyên. Mỗi Container đại diện cho một lượng tài nguyên cụ thể (CPU, RAM) trên một NodeManager và là nơi ApplicationMaster hoặc các Task (Mapper/Reducer/Spark Task) của ứng dụng được thực thi.

28 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 28: Apache Flume là một dịch vụ phân tán đáng tin cậy để thu thập, tổng hợp và di chuyển lượng lớn dữ liệu nhật ký (log data) từ nhiều nguồn khác nhau vào HDFS hoặc các hệ thống lưu trữ trung tâm khác. Flume phù hợp nhất cho loại dữ liệu nào?

Dữ liệu có cấu trúc từ cơ sở dữ liệu quan hệ.

Dữ liệu nhật ký (log data) và sự kiện từ nhiều nguồn.

Dữ liệu đồ thị phức tạp.

Các tệp văn bản nhỏ được tạo ra không thường xuyên.

Flume được thiết kế đặc biệt để thu thập và di chuyển dữ liệu nhật ký (log data) từ các nguồn khác nhau (máy chủ web, ứng dụng,...) một cách hiệu quả và đáng tin cậy.

29 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 29: Một công ty muốn xây dựng hệ thống khuyến nghị sản phẩm dựa trên lịch sử duyệt web và mua hàng của khách hàng. Hệ thống này cần phân tích lượng lớn dữ liệu hành vi khách hàng. Công nghệ xử lý Big Data nào sau đây là lựa chọn tốt để xây dựng mô hình khuyến nghị và áp dụng nó trên tập dữ liệu lớn?

Apache Sqoop

Apache Hive

Apache Spark

Apache ZooKeeper

Xây dựng hệ thống khuyến nghị thường liên quan đến các thuật toán học máy, yêu cầu xử lý lặp và tính toán phức tạp trên tập dữ liệu lớn. Apache Spark, với thư viện MLlib và khả năng xử lý trong bộ nhớ, là nền tảng mạnh mẽ và phổ biến cho các tác vụ học máy trên Big Data.

30 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 10

Câu 30: 'Data Governance' (Quản trị dữ liệu) trong bối cảnh Dữ liệu lớn đề cập đến khía cạnh nào?

Thiết lập và thực thi các chính sách, quy trình và tiêu chuẩn cho việc quản lý dữ liệu.

Chỉ đơn giản là lưu trữ dữ liệu ở một nơi tập trung.

Tự động phân tích dữ liệu mà không cần sự can thiệp của con người.

Đảm bảo tất cả dữ liệu đều có cấu trúc rõ ràng.

Xem kết quả

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Nhận kết quả

Xảy ra lỗi

Bước 1: Vào google.com rồi gõ từ khóa:
Copy nhanh thanh-tim-kiem

Bước 2: Trong kết quả tìm kiếm Google, hãy tìm website giống hình bên dưới

Nếu trang 1 không có hãy tìm ở trang 2, 3, 4... nhé trang-google

Bước 3:

Cuộn xuống cuối bài viết rồi bấm vào nút GIỐNG HÌNH DƯỚI và chờ 1 lát để lấy mã:

luot-xem

Nếu tìm không thấy mã bạn có thể Đổi nhiệm vụ để lấy mã khác.

Quản trị dữ liệu bao gồm việc thiết lập và thực thi các chính sách, quy trình và tiêu chuẩn để quản lý dữ liệu trong suốt vòng đời của nó, bao gồm tính khả dụng, khả năng sử dụng, tính toàn vẹn và bảo mật. Trong Big Data, điều này phức tạp hơn do khối lượng, tốc độ và sự đa dạng của dữ liệu.

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!

Trắc nghiệm Dữ liệu lớn (BigData)

Trắc nghiệm Dữ liệu lớn (BigData) - Đề 11

1 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 1: Trong kiến trúc Hadoop, thành phần nào chịu trách nhiệm quản lý tài nguyên cluster và lập lịch công việc (job scheduling)?

HDFS (Hadoop Distributed File System)

YARN (Yet Another Resource Negotiator)

MapReduce

NameNode

Câu hỏi này kiểm tra kiến thức về kiến trúc Hadoop, đặc biệt là vai trò của YARN trong quản lý tài nguyên và lập lịch công việc, một khái niệm cốt lõi trong Hadoop 2.0 trở lên.

2 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 2: Bạn có một tập dữ liệu lớn chứa nhật ký web (web logs) và muốn phân tích xu hướng truy cập trang web theo thời gian thực. Công nghệ xử lý dữ liệu lớn nào sau đây phù hợp nhất cho yêu cầu này?

Hadoop MapReduce

Apache Hive

Apache Spark Streaming

Hadoop HDFS

Câu hỏi này đặt ra một tình huống ứng dụng thực tế và yêu cầu chọn công nghệ phù hợp. Xử lý dữ liệu nhật ký web theo thời gian thực đòi hỏi các công nghệ streaming, trong đó Apache Kafka và Spark Streaming là những lựa chọn phổ biến.

3 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 3: Điểm khác biệt chính giữa Data Warehouse (Kho dữ liệu) và Data Lake (Hồ dữ liệu) là gì?

Data Warehouse lưu trữ dữ liệu đã được cấu trúc và xử lý, trong khi Data Lake lưu trữ dữ liệu thô ở nhiều định dạng khác nhau.

Data Warehouse phù hợp cho phân tích thời gian thực, còn Data Lake phù hợp cho phân tích batch.

Data Warehouse có khả năng mở rộng tốt hơn Data Lake.

Data Warehouse chỉ lưu trữ dữ liệu từ các nguồn bên ngoài, còn Data Lake lưu trữ dữ liệu nội bộ.

Câu hỏi tập trung vào sự khác biệt cốt lõi giữa hai khái niệm quan trọng trong Big Data: Data Warehouse và Data Lake. Sự khác biệt nằm ở cấu trúc dữ liệu, mục đích sử dụng và khả năng linh hoạt.

4 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 4: Trong mô hình lập trình MapReduce, giai đoạn 'Reduce' có chức năng chính là gì?

Đọc dữ liệu đầu vào và chia thành các phần nhỏ hơn.

Lọc và chuyển đổi dữ liệu thành các cặp key-value.

Tổng hợp và xử lý các giá trị (values) có cùng khóa (key) từ đầu ra của giai đoạn Map.

Phân phối dữ liệu đến các node khác nhau trong cluster.

Câu hỏi kiểm tra kiến thức về quy trình MapReduce, một mô hình lập trình nền tảng của Hadoop. Giai đoạn Reduce tập trung vào tổng hợp và xử lý kết quả từ giai đoạn Map.

5 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 5: Cơ chế 'replication' (sao chép dữ liệu) trong HDFS (Hadoop Distributed File System) nhằm mục đích chính là gì?

Tăng tốc độ truy cập dữ liệu.

Đảm bảo tính sẵn sàng và chịu lỗi (fault tolerance) của dữ liệu khi có node bị lỗi.

Giảm dung lượng lưu trữ dữ liệu.

Mã hóa dữ liệu để bảo mật.

Câu hỏi này hỏi về mục đích của việc sao chép dữ liệu trong HDFS, một tính năng quan trọng để đảm bảo tính sẵn sàng và độ tin cậy của dữ liệu trong hệ thống phân tán.

6 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 6: Loại cơ sở dữ liệu NoSQL nào sau đây phù hợp nhất để lưu trữ dữ liệu dạng đồ thị (graph data), ví dụ như mạng xã hội hoặc quan hệ giữa các thực thể?

Document Databases (ví dụ: MongoDB)

Key-Value Stores (ví dụ: Redis)

Column-Family Databases (ví dụ: Cassandra)

Graph Databases (ví dụ: Neo4j)

Câu hỏi này liên quan đến các loại cơ sở dữ liệu NoSQL và ứng dụng của chúng. Dữ liệu đồ thị đòi hỏi loại NoSQL chuyên biệt để quản lý các mối quan hệ phức tạp, đó là Graph Databases.

7 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 7: Thuật ngữ 'Schema-on-Read' thường được liên kết với loại hệ thống lưu trữ dữ liệu lớn nào sau đây?

Data Warehouse

Data Lake

Relational Database

Operational Data Store

Câu hỏi kiểm tra sự hiểu biết về 'Schema-on-Read' và mối liên hệ của nó với Data Lake. 'Schema-on-Read' là đặc trưng của Data Lake, nơi cấu trúc dữ liệu được xác định khi đọc dữ liệu, không phải khi ghi.

8 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 8: Trong bối cảnh Big Data, 'Data Governance' (Quản trị dữ liệu) đề cập đến điều gì?

Công nghệ lưu trữ và xử lý dữ liệu lớn.

Quy trình khai thác và phân tích dữ liệu lớn.

Tập hợp các chính sách, quy trình và tiêu chuẩn để quản lý, bảo mật và đảm bảo chất lượng dữ liệu.

Các công cụ trực quan hóa dữ liệu lớn.

Câu hỏi định nghĩa 'Data Governance' trong Big Data, một khía cạnh quan trọng để đảm bảo chất lượng, bảo mật và tuân thủ dữ liệu.

9 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 9: Giả sử bạn có một cluster Hadoop và nhận thấy hiệu suất xử lý công việc (job) chậm hơn dự kiến. Một trong những nguyên nhân có thể là do 'data skew' (dữ liệu lệch). 'Data skew' là gì?

Sự phân phối dữ liệu không đồng đều giữa các node trong cluster, dẫn đến một số node phải xử lý lượng dữ liệu lớn hơn nhiều so với các node khác.

Lỗi dữ liệu hoặc dữ liệu không chính xác trong tập dữ liệu.

Sự chậm trễ trong việc truyền dữ liệu giữa các node.

Kích thước dữ liệu quá lớn so với khả năng xử lý của cluster.

Câu hỏi đưa ra một vấn đề thực tế trong xử lý Big Data và yêu cầu định nghĩa 'data skew'. Data skew là tình trạng phân phối dữ liệu không đều, gây ra tình trạng quá tải ở một số node xử lý.

10 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 10: Công cụ nào sau đây thường được sử dụng để truy vấn và phân tích dữ liệu trong Hadoop Data Lake bằng ngôn ngữ SQL-like?

Apache Spark Core

Apache Hive

Apache Kafka

Apache HBase

Câu hỏi tập trung vào các công cụ truy vấn dữ liệu trong Hadoop Data Lake. Apache Hive và Apache Impala là những công cụ phổ biến cho phép truy vấn dữ liệu Data Lake bằng SQL-like.

11 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 11: Trong kiến trúc Lambda, lớp 'batch layer' (lớp xử lý batch) có vai trò chính là gì?

Xử lý dữ liệu thời gian thực với độ trễ thấp.

Lưu trữ dữ liệu stream tạm thời.

Truy vấn dữ liệu tương tác với độ trễ thấp.

Xử lý toàn bộ dữ liệu lịch sử để tính toán các chỉ số và tạo ra 'batch views'.

Câu hỏi này kiểm tra kiến thức về kiến trúc Lambda, một kiến trúc phổ biến cho xử lý dữ liệu lớn. Lớp batch trong kiến trúc Lambda chịu trách nhiệm xử lý toàn bộ dữ liệu lịch sử để cung cấp cái nhìn chính xác và toàn diện.

12 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 12: 'CAP theorem' (Định lý CAP) trong hệ thống phân tán khẳng định rằng, trong một hệ thống phân tán, không thể đồng thời đảm bảo cả ba thuộc tính nào?

Tính nhất quán (Consistency), Tính bảo mật (Security), Tính sẵn sàng (Availability).

Tính toàn vẹn (Integrity), Tính nhất quán (Consistency), Tính phân vùng (Partition tolerance).

Tính nhất quán (Consistency), Tính sẵn sàng (Availability), Tính phân vùng (Partition tolerance).

Tính khả dụng (Usability), Tính sẵn sàng (Availability), Tính phân vùng (Partition tolerance).

Câu hỏi kiểm tra hiểu biết về CAP theorem, một nguyên lý cơ bản trong thiết kế hệ thống phân tán, bao gồm cả các hệ thống Big Data. CAP theorem chỉ ra sự đánh đổi giữa tính nhất quán, tính sẵn sàng và khả năng phân vùng.

13 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 13: Khi lựa chọn cơ sở dữ liệu NoSQL cho một ứng dụng, yếu tố nào sau đây *ít* quan trọng nhất nếu ứng dụng đó chủ yếu tập trung vào việc đọc dữ liệu với số lượng lớn và ít khi cập nhật?

Hiệu suất đọc (Read performance).

Khả năng mở rộng đọc (Read scalability).

Độ trễ đọc (Read latency).

Hiệu suất ghi (Write performance).

Câu hỏi yêu cầu phân tích yếu tố quan trọng khi chọn NoSQL dựa trên đặc điểm ứng dụng. Nếu ứng dụng chủ yếu đọc dữ liệu, thì hiệu suất ghi (write performance) sẽ ít quan trọng hơn so với hiệu suất đọc (read performance), khả năng mở rộng đọc (read scalability) và độ trễ đọc (read latency).

14 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 14: Trong ngữ cảnh Big Data, 'ETL' (Extract, Transform, Load) là quy trình quan trọng trong việc chuẩn bị dữ liệu cho phân tích. Giai đoạn 'Transform' (Biến đổi) trong ETL bao gồm các hoạt động chính nào?

Thu thập dữ liệu từ các nguồn khác nhau.

Làm sạch, chuẩn hóa, tích hợp và biến đổi dữ liệu để phù hợp với mục đích phân tích.

Lưu trữ dữ liệu đã được xử lý vào hệ thống đích.

Trực quan hóa dữ liệu để khám phá thông tin.

Câu hỏi tập trung vào giai đoạn 'Transform' trong quy trình ETL, một quy trình không thể thiếu trong Big Data. Giai đoạn Transform bao gồm các hoạt động làm sạch, chuẩn hóa, tích hợp và biến đổi dữ liệu.

15 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 15: 'Data Mining' (Khai thác dữ liệu) trong Big Data thường được sử dụng để làm gì?

Lưu trữ và quản lý dữ liệu lớn.

Truy vấn và báo cáo dữ liệu lớn.

Khám phá các mẫu, xu hướng và tri thức hữu ích từ dữ liệu lớn.

Truyền tải dữ liệu lớn giữa các hệ thống.

Câu hỏi định nghĩa mục đích chính của Data Mining trong Big Data. Data Mining là quá trình khám phá các mẫu, xu hướng và tri thức ẩn sâu trong dữ liệu lớn.

16 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 16: Phương pháp 'sampling' (lấy mẫu) thường được sử dụng trong Big Data Analytics khi nào?

Khi tập dữ liệu quá lớn và việc xử lý toàn bộ dữ liệu là không khả thi hoặc quá tốn kém.

Khi cần đảm bảo tính chính xác tuyệt đối của kết quả phân tích.

Khi muốn tăng cường bảo mật dữ liệu.

Khi cần tích hợp dữ liệu từ nhiều nguồn khác nhau.

Câu hỏi hỏi về lý do sử dụng 'sampling' trong Big Data. Sampling được sử dụng để giảm kích thước dữ liệu khi dữ liệu quá lớn, giúp tăng tốc độ phân tích và giảm chi phí.

17 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 17: 'Real-time analytics' (Phân tích thời gian thực) khác biệt với 'batch analytics' (phân tích batch) chủ yếu ở yếu tố nào?

Loại dữ liệu được xử lý (có cấu trúc vs. phi cấu trúc).

Độ trễ trong việc xử lý và đưa ra kết quả phân tích.

Công cụ và công nghệ sử dụng để phân tích.

Mục đích sử dụng kết quả phân tích.

Câu hỏi tập trung vào sự khác biệt chính giữa real-time analytics và batch analytics. Sự khác biệt cốt lõi nằm ở độ trễ và thời điểm xử lý dữ liệu.

18 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 18: Trong mô hình bảo mật 'shared responsibility' (trách nhiệm chung) trên cloud (ví dụ: AWS, Azure, GCP) cho các dịch vụ Big Data, nhà cung cấp dịch vụ cloud chịu trách nhiệm chính về khía cạnh bảo mật nào?

Bảo mật dữ liệu ứng dụng Big Data.

Bảo mật cấu hình dịch vụ Big Data.

Bảo mật hạ tầng vật lý, mạng và nền tảng cloud.

Bảo mật quyền truy cập của người dùng vào dữ liệu Big Data.

Câu hỏi kiểm tra hiểu biết về mô hình bảo mật 'shared responsibility' trên cloud. Nhà cung cấp cloud chịu trách nhiệm bảo mật 'cloud itself' - hạ tầng vật lý, mạng, và nền tảng dịch vụ.

19 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 19: 'Data virtualization' (Ảo hóa dữ liệu) trong Big Data mang lại lợi ích chính nào?

Tăng tốc độ xử lý dữ liệu.

Cải thiện chất lượng dữ liệu.

Giảm dung lượng lưu trữ dữ liệu.

Cung cấp một lớp truy cập thống nhất đến dữ liệu từ nhiều nguồn khác nhau mà không cần di chuyển dữ liệu.

Câu hỏi hỏi về lợi ích của Data Virtualization. Lợi ích chính là khả năng truy cập dữ liệu từ nhiều nguồn khác nhau mà không cần di chuyển hoặc sao chép dữ liệu, giúp giảm chi phí và thời gian.

20 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 20: 'Containerization' (Ví dụ: Docker, Kubernetes) ngày càng phổ biến trong triển khai Big Data applications vì lý do chính nào?

Tăng cường bảo mật dữ liệu.

Đóng gói ứng dụng và môi trường, tăng tính di động, nhất quán và dễ dàng quản lý triển khai.

Giảm chi phí lưu trữ dữ liệu.

Tự động tối ưu hóa hiệu suất truy vấn.

Câu hỏi về lợi ích của containerization trong Big Data. Container giúp đóng gói ứng dụng và môi trường, tăng tính di động, nhất quán và dễ dàng quản lý triển khai.

21 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 21: Trong Apache Spark, 'RDD' (Resilient Distributed Dataset) là gì?

Một tập dữ liệu phân tán bất biến, có khả năng chịu lỗi và có thể được xử lý song song.

Một loại cơ sở dữ liệu NoSQL được sử dụng trong Spark.

Một công cụ lập lịch công việc (job scheduler) trong Spark.

Một API để truy vấn dữ liệu thời gian thực trong Spark.

Câu hỏi kiểm tra kiến thức về Spark, cụ thể là khái niệm cốt lõi RDD. RDD là abstraction chính trong Spark, đại diện cho tập dữ liệu phân tán bất biến.

22 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 22: 'Machine Learning' (Học máy) đóng vai trò như thế nào trong Big Data?

Thay thế hoàn toàn các phương pháp phân tích dữ liệu truyền thống.

Giới hạn khả năng mở rộng của hệ thống Big Data.

Cung cấp các thuật toán và kỹ thuật để phân tích, khai thác tri thức và tạo ra giá trị từ dữ liệu lớn.

Chỉ được sử dụng cho dữ liệu có cấu trúc trong Big Data.

Câu hỏi về vai trò của Machine Learning trong Big Data. Machine Learning là công cụ quan trọng để phân tích, khai thác tri thức và tạo ra giá trị từ dữ liệu lớn.

23 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 23: Khi thiết kế một hệ thống Big Data, 'scalability' (khả năng mở rộng) đề cập đến khả năng gì của hệ thống?

Khả năng bảo vệ dữ liệu khỏi các truy cập trái phép.

Khả năng hệ thống có thể xử lý lượng dữ liệu và tải công việc tăng lên mà vẫn duy trì hiệu suất chấp nhận được.

Khả năng tích hợp dữ liệu từ nhiều nguồn khác nhau.

Khả năng trực quan hóa dữ liệu một cách hiệu quả.

Câu hỏi định nghĩa 'scalability' trong Big Data context. Scalability là khả năng hệ thống có thể xử lý lượng dữ liệu và tải công việc tăng lên mà vẫn duy trì hiệu suất chấp nhận được.

24 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 24: 'Edge computing' (Điện toán biên) có thể hỗ trợ Big Data Analytics như thế nào?

Thay thế hoàn toàn cloud computing trong Big Data.

Tăng chi phí hạ tầng cho Big Data.

Làm phức tạp thêm quy trình quản lý dữ liệu.

Cho phép xử lý dữ liệu gần nguồn phát sinh, giảm độ trễ và băng thông mạng, đặc biệt hữu ích cho IoT và các ứng dụng thời gian thực.

Câu hỏi về vai trò của Edge Computing trong Big Data Analytics. Edge Computing giúp xử lý dữ liệu gần nguồn phát sinh, giảm độ trễ, băng thông mạng và tăng tốc độ phân tích.

25 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 25: 'Data lineage' (Dòng dõi dữ liệu) là gì và tại sao nó quan trọng trong Big Data?

Phương pháp mã hóa dữ liệu để bảo mật.

Quy trình sao lưu và phục hồi dữ liệu.

Việc theo dõi nguồn gốc và quá trình biến đổi của dữ liệu, giúp hiểu rõ luồng dữ liệu, đảm bảo chất lượng và tuân thủ.

Công cụ trực quan hóa dữ liệu.

Câu hỏi định nghĩa 'Data lineage' và tầm quan trọng của nó. Data lineage theo dõi nguồn gốc và quá trình biến đổi dữ liệu, giúp đảm bảo chất lượng, tuân thủ và gỡ lỗi.

26 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 26: 'Data quality' (Chất lượng dữ liệu) là một thách thức lớn trong Big Data. Các khía cạnh chính của chất lượng dữ liệu bao gồm:

Tính chính xác (Accuracy), Tính đầy đủ (Completeness), Tính nhất quán (Consistency), Tính kịp thời (Timeliness), Tính hợp lệ (Validity).

Tính bảo mật (Security), Tính riêng tư (Privacy), Tính tuân thủ (Compliance), Tính khả dụng (Availability).

Tính mở rộng (Scalability), Tính linh hoạt (Flexibility), Tính hiệu suất (Performance), Tính ổn định (Stability).

Tính trực quan (Visualization), Tính khám phá (Exploration), Tính dự đoán (Prediction), Tính mô tả (Description).

Câu hỏi về các khía cạnh chính của Data Quality. Chất lượng dữ liệu bao gồm tính chính xác, đầy đủ, nhất quán, kịp thời và hợp lệ.

27 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 27: Để xử lý dữ liệu stream liên tục trong thời gian thực và thực hiện các phép biến đổi phức tạp, công cụ nào sau đ??y thường được ưu tiên sử dụng?

Hadoop MapReduce.

Apache Flink.

Apache Hive.

Hadoop HDFS.

Câu hỏi về công cụ xử lý stream dữ liệu phức tạp. Apache Flink và Apache Spark Streaming là những lựa chọn mạnh mẽ cho xử lý stream phức tạp và thời gian thực.

28 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 28: Trong ngữ cảnh Big Data, thuật ngữ 'data silo' (kho dữ liệu cô lập) dùng để chỉ điều gì?

Một hệ thống lưu trữ dữ liệu an toàn và bảo mật.

Một phương pháp nén dữ liệu để giảm dung lượng lưu trữ.

Một công cụ trực quan hóa dữ liệu.

Các bộ phận dữ liệu bị cô lập và khó chia sẻ giữa các bộ phận khác nhau trong một tổ chức.

Câu hỏi định nghĩa 'data silo'. Data silo là các bộ phận dữ liệu bị cô lập, khó truy cập và chia sẻ giữa các bộ phận khác nhau trong tổ chức.

29 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 29: 'Serverless computing' (Điện toán phi máy chủ) có thể được áp dụng trong Big Data như thế nào?

Thay thế hoàn toàn hạ tầng cluster Hadoop truyền thống.

Giảm khả năng mở rộng của hệ thống Big Data.

Cho phép chạy các công việc Big Data theo yêu cầu mà không cần quản lý máy chủ, giúp tối ưu chi phí và đơn giản hóa quản lý.

Chỉ phù hợp cho các ứng dụng Big Data nhỏ và đơn giản.

Câu hỏi về ứng dụng của Serverless computing trong Big Data. Serverless giúp đơn giản hóa việc triển khai và quản lý các công việc Big Data, đặc biệt là các công việc xử lý sự kiện hoặc theo lịch trình.

30 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 11

Câu 30: Giả sử bạn cần chọn một giải pháp lưu trữ NoSQL cho dữ liệu phiên người dùng web (web user session data) với yêu cầu truy cập nhanh theo key (session ID) và khả năng mở rộng cao. Loại NoSQL nào sau đây phù hợp nhất?

Key-Value Store (ví dụ: Redis, Memcached).

Document Database (ví dụ: MongoDB).

Column-Family Database (ví dụ: Cassandra).

Graph Database (ví dụ: Neo4j).

Xem kết quả

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Nhận kết quả

Xảy ra lỗi

Bước 1: Vào google.com rồi gõ từ khóa:
Copy nhanh thanh-tim-kiem

Bước 2: Trong kết quả tìm kiếm Google, hãy tìm website giống hình bên dưới

Nếu trang 1 không có hãy tìm ở trang 2, 3, 4... nhé trang-google

Bước 3:

Cuộn xuống cuối bài viết rồi bấm vào nút GIỐNG HÌNH DƯỚI và chờ 1 lát để lấy mã:

luot-xem

Nếu tìm không thấy mã bạn có thể Đổi nhiệm vụ để lấy mã khác.

Câu hỏi tình huống yêu cầu chọn loại NoSQL phù hợp cho dữ liệu session người dùng web. Key-value stores như Redis hoặc Memcached là lựa chọn tốt nhất cho trường hợp này do khả năng truy cập nhanh theo key và mở rộng cao.

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!

Trắc nghiệm Dữ liệu lớn (BigData)

Trắc nghiệm Dữ liệu lớn (BigData) - Đề 12

1 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 1: Đặc điểm nào sau đây KHÔNG phải là đặc điểm điển hình của dữ liệu lớn (Big Data)?

Khối lượng lớn (Volume)

Tốc độ cao (Velocity)

Tính đa dạng (Variety)

Tính xác định (Veracity)

Câu hỏi kiểm tra sự hiểu biết về các đặc tính cốt lõi của Big Data (5Vs). Tính biến động (Volatility) là một đặc tính, nhưng 'Tính xác định' không nằm trong số các đặc điểm tiêu chuẩn và thường không liên quan đến bản chất của Big Data.

2 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 2: Trong kiến trúc Hadoop, thành phần nào chịu trách nhiệm quản lý tài nguyên cụm và lập lịch công việc (job scheduling)?

HDFS NameNode

YARN ResourceManager

MapReduce JobTracker

HBase Master

Câu hỏi kiểm tra kiến thức về kiến trúc Hadoop và vai trò của YARN. YARN (Yet Another Resource Negotiator) là framework quản lý tài nguyên và lập lịch công việc trong Hadoop.

3 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 3: Loại cơ sở dữ liệu NoSQL nào phù hợp nhất để lưu trữ và truy vấn dữ liệu dạng đồ thị, ví dụ như mạng xã hội hoặc bản đồ quan hệ?

Cơ sở dữ liệu dạng cột (Column-family database)

Cơ sở dữ liệu tài liệu (Document database)

Cơ sở dữ liệu đồ thị (Graph database)

Cơ sở dữ liệu khóa-giá trị (Key-value database)

Câu hỏi kiểm tra kiến thức về các loại cơ sở dữ liệu NoSQL và ứng dụng của chúng. Cơ sở dữ liệu đồ thị (Graph Database) được thiết kế đặc biệt để quản lý và truy vấn dữ liệu quan hệ phức tạp dưới dạng đồ thị.

4 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 4: Để xử lý luồng dữ liệu thời gian thực (real-time streaming data), công nghệ nào sau đây thường được sử dụng phổ biến nhất trong hệ sinh thái Big Data?

Apache Kafka

Apache Hadoop MapReduce

Apache Hive

Apache Spark SQL

Câu hỏi kiểm tra kiến thức về các công nghệ xử lý luồng dữ liệu. Apache Kafka là một nền tảng phân tán cho phép xây dựng các ứng dụng và pipelines xử lý dữ liệu luồng thời gian thực.

5 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 5: Kỹ thuật 'Data Wrangling' (chuẩn bị dữ liệu) trong Big Data chủ yếu tập trung vào công việc nào?

Xây dựng mô hình Machine Learning

Triển khai hệ thống lưu trữ dữ liệu phân tán

Làm sạch, chuyển đổi và tích hợp dữ liệu thô

Trực quan hóa dữ liệu để khám phá insight

Câu hỏi kiểm tra hiểu biết về quy trình Data Wrangling. Data Wrangling là quá trình biến đổi và ánh xạ dữ liệu từ định dạng thô sang định dạng phù hợp để phân tích, bao gồm làm sạch, chuyển đổi, và tích hợp dữ liệu.

6 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 6: Phương pháp phân tích dữ liệu nào sau đây tập trung vào việc khám phá các mẫu ẩn, mối quan hệ hoặc xu hướng thú vị trong tập dữ liệu lớn mà không có giả định hoặc mục tiêu cụ thể từ trước?

Phân tích dự đoán (Predictive Analytics)

Phân tích khám phá (Exploratory Data Analysis)

Phân tích mô tả (Descriptive Analytics)

Phân tích quy chuẩn (Prescriptive Analytics)

Câu hỏi kiểm tra kiến thức về các loại phân tích dữ liệu. Phân tích khám phá (Exploratory Data Analysis - EDA) là phương pháp tiếp cận để khám phá dữ liệu một cách tự do, không định kiến, nhằm phát hiện ra các thông tin hữu ích.

7 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 7: Trong mô hình lập trình MapReduce, giai đoạn 'Reduce' có vai trò chính là gì?

Chia nhỏ dữ liệu đầu vào thành các phần nhỏ hơn

Lọc và chuyển đổi dữ liệu đầu vào

Sắp xếp dữ liệu trung gian

Tổng hợp và tính toán kết quả cuối cùng từ dữ liệu đã xử lý

Câu hỏi kiểm tra kiến thức về quy trình MapReduce. Giai đoạn Reduce trong MapReduce nhận đầu vào là kết quả đã được sắp xếp từ giai đoạn Map, và thực hiện tổng hợp, tính toán để đưa ra kết quả cuối cùng.

8 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 8: Công cụ nào sau đây thường được sử dụng để truy vấn và phân tích dữ liệu được lưu trữ trong Hadoop Data Lake bằng cú pháp SQL-like?

Apache Spark Core

Apache Flink

Apache Hive

Apache HBase

Câu hỏi kiểm tra kiến thức về các công cụ truy vấn dữ liệu trong Hadoop. Apache Hive cung cấp một giao diện SQL-like (HiveQL) để truy vấn và phân tích dữ liệu lớn trong Hadoop.

9 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 9: Giả sử bạn có một tập dữ liệu lớn chứa thông tin nhật ký web (web logs). Bạn muốn đếm số lượng truy cập duy nhất (unique visits) từ mỗi quốc gia. Công cụ nào sau đây của hệ sinh thái Big Data sẽ phù hợp nhất để thực hiện tác vụ này một cách hiệu quả?

Apache HBase

Apache Spark

Apache Flume

Apache Sqoop

Câu hỏi tình huống về lựa chọn công cụ phù hợp cho tác vụ cụ thể. Apache Spark với khả năng xử lý dữ liệu nhanh chóng và các phép biến đổi dữ liệu linh hoạt (như group by, count distinct) rất phù hợp cho phân tích nhật ký web và đếm số lượng truy cập duy nhất.

10 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 10: 'Data Lake' (hồ dữ liệu) khác biệt so với 'Data Warehouse' (kho dữ liệu) chủ yếu ở điểm nào?

Data Lake lưu trữ dữ liệu thô, Data Warehouse lưu trữ dữ liệu đã qua xử lý

Data Lake sử dụng SQL, Data Warehouse sử dụng NoSQL

Data Lake chỉ dành cho dữ liệu phi cấu trúc, Data Warehouse chỉ dành cho dữ liệu có cấu trúc

Data Lake có tính bảo mật cao hơn Data Warehouse

Câu hỏi kiểm tra sự phân biệt giữa Data Lake và Data Warehouse. Data Lake lưu trữ dữ liệu thô ở định dạng gốc, trong khi Data Warehouse lưu trữ dữ liệu đã được xử lý và có cấu trúc, thường cho mục đích báo cáo và BI.

11 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 11: Trong ngữ cảnh Big Data, thuật ngữ 'Schema-on-Read' (lược đồ khi đọc) có nghĩa là gì?

Lược đồ dữ liệu phải được xác định trước khi dữ liệu được ghi vào hệ thống

Lược đồ dữ liệu được tự động suy luận từ nội dung dữ liệu

Lược đồ dữ liệu được lưu trữ riêng biệt với dữ liệu

Lược đồ dữ liệu được áp dụng khi dữ liệu được truy vấn, không phải khi ghi

Câu hỏi kiểm tra hiểu biết về 'Schema-on-Read' trong Data Lake. 'Schema-on-Read' nghĩa là lược đồ dữ liệu không được áp đặt khi ghi dữ liệu vào hệ thống, mà chỉ được xác định và áp dụng khi dữ liệu được truy vấn hoặc đọc.

12 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 12: Khi thiết kế một hệ thống Big Data, yếu tố nào sau đây quan trọng nhất để đảm bảo khả năng mở rộng (scalability) theo chiều ngang?

Sử dụng cơ sở dữ liệu quan hệ truyền thống

Kiến trúc phân tán và song song

Tối ưu hóa phần cứng máy chủ đơn lẻ

Áp dụng mô hình ACID cho giao dịch dữ liệu

Câu hỏi về yếu tố then chốt cho khả năng mở rộng ngang. Khả năng mở rộng ngang (horizontal scalability) đạt được bằng cách phân tán dữ liệu và xử lý trên nhiều nút (nodes). Kiến trúc phân tán là yếu tố cốt lõi.

13 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 13: Trong Hadoop Distributed File System (HDFS), thành phần nào lưu trữ metadata (siêu dữ liệu) về hệ thống tệp, chẳng hạn như thông tin về vị trí các khối dữ liệu và quyền truy cập?

NameNode

DataNode

Secondary NameNode

ResourceManager

Câu hỏi kiểm tra kiến thức về HDFS và vai trò của NameNode. NameNode trong HDFS chịu trách nhiệm quản lý không gian tên hệ thống tệp và metadata, bao gồm thông tin vị trí khối dữ liệu, quyền truy cập, v.v.

14 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 14: Để truyền dữ liệu từ các nguồn bên ngoài (ví dụ: cơ sở dữ liệu quan hệ, hệ thống log) vào Hadoop HDFS, công cụ nào sau đây thường được sử dụng?

Apache Flume

Apache Kafka

Apache Pig

Apache Sqoop

Câu hỏi về công cụ nhập dữ liệu vào Hadoop. Apache Sqoop được thiết kế để truyền dữ liệu có cấu trúc giữa Hadoop và các cơ sở dữ liệu quan hệ.

15 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 15: Trong ngữ cảnh bảo mật Big Data, kỹ thuật 'Data Masking' (che dấu dữ liệu) được sử dụng để làm gì?

Mã hóa dữ liệu khi truyền qua mạng

Che giấu hoặc thay thế dữ liệu nhạy cảm để bảo vệ quyền riêng tư

Kiểm soát quyền truy cập vào dữ liệu dựa trên vai trò người dùng

Phát hiện và ngăn chặn các cuộc tấn công SQL injection

Câu hỏi về bảo mật dữ liệu và Data Masking. Data Masking là kỹ thuật thay thế hoặc làm ẩn các dữ liệu nhạy cảm (ví dụ: thông tin cá nhân) bằng dữ liệu giả mạo nhưng vẫn giữ định dạng và tính chất thống kê, nhằm bảo vệ quyền riêng tư và tuân thủ quy định.

16 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 16: Loại hình phân tích Big Data nào tập trung vào việc trả lời câu hỏi 'Điều gì sẽ xảy ra?' (What will happen?) bằng cách sử dụng các mô hình thống kê và Machine Learning để dự đoán xu hướng hoặc kết quả tương lai?

Phân tích dự đoán (Predictive Analytics)

Phân tích mô tả (Descriptive Analytics)

Phân tích chẩn đoán (Diagnostic Analytics)

Phân tích quy chuẩn (Prescriptive Analytics)

Câu hỏi về các loại phân tích và mục tiêu của phân tích dự đoán. Phân tích dự đoán (Predictive Analytics) sử dụng các kỹ thuật thống kê, mô hình hóa và Machine Learning để đưa ra dự đoán về tương lai.

17 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 17: Trong Apache Spark, 'RDD' (Resilient Distributed Dataset) là gì?

Ngôn ngữ truy vấn dữ liệu của Spark

Công cụ quản lý tài nguyên của Spark

Tập dữ liệu phân tán và chịu lỗi trong Spark

Thư viện Machine Learning của Spark

Câu hỏi kiểm tra kiến thức về Spark và RDD. RDD (Resilient Distributed Dataset) là một trừu tượng dữ liệu cốt lõi trong Spark, đại diện cho một tập hợp các đối tượng phân tán trên các node trong cluster, có khả năng chịu lỗi.

18 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 18: Để xử lý đồ thị quy mô lớn và thực hiện phân tích đồ thị (graph analytics), framework nào sau đây thường được sử dụng trong hệ sinh thái Big Data?

Apache Storm

Apache Giraph

Apache Cassandra

Apache Kafka Streams

Câu hỏi về framework phân tích đồ thị. Apache Giraph là một framework mã nguồn mở được thiết kế đặc biệt cho xử lý đồ thị quy mô lớn, dựa trên mô hình lập trình Bulk Synchronous Parallel (BSP).

19 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 19: Trong quá trình xây dựng pipeline dữ liệu Big Data, giai đoạn 'Data Ingestion' (tiếp nhận dữ liệu) có vai trò chính là gì?

Biến đổi và làm sạch dữ liệu

Lưu trữ dữ liệu đã qua xử lý

Phân tích và trực quan hóa dữ liệu

Thu thập và chuyển dữ liệu từ các nguồn khác nhau

Câu hỏi về pipeline dữ liệu và giai đoạn Data Ingestion. Data Ingestion là giai đoạn đầu tiên trong pipeline, tập trung vào việc thu thập và chuyển dữ liệu từ nhiều nguồn khác nhau vào hệ thống Big Data.

20 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 20: Công nghệ 'In-Memory Computing' (tính toán trong bộ nhớ) mang lại lợi ích chính nào cho xử lý Big Data?

Tăng cường bảo mật dữ liệu

Giảm chi phí lưu trữ dữ liệu

Tăng tốc độ xử lý dữ liệu đáng kể

Đơn giản hóa việc quản lý dữ liệu phân tán

Câu hỏi về lợi ích của In-Memory Computing. In-Memory Computing giúp tăng tốc độ xử lý dữ liệu đáng kể bằng cách lưu trữ và xử lý dữ liệu trực tiếp trong bộ nhớ RAM thay vì trên đĩa, giảm thiểu độ trễ I/O.

21 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 21: Để thực hiện phân tích cảm xúc (sentiment analysis) trên dữ liệu văn bản lớn (ví dụ: đánh giá sản phẩm, bình luận trên mạng xã hội), kỹ thuật nào sau đây thường được sử dụng?

Phân tích hồi quy (Regression analysis)

Xử lý ngôn ngữ tự nhiên (Natural Language Processing)

Phân tích chuỗi thời gian (Time series analysis)

Phân tích phương sai (ANOVA)

Câu hỏi về ứng dụng phân tích dữ liệu văn bản. Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) là lĩnh vực chuyên xử lý và phân tích ngôn ngữ của con người, bao gồm cả phân tích cảm xúc.

22 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 22: Trong ngữ cảnh Big Data và Machine Learning, 'Feature Engineering' (kỹ thuật đặc trưng) là quá trình nào?

Lựa chọn thuật toán Machine Learning phù hợp

Đánh giá hiệu suất của mô hình Machine Learning

Chọn lọc và biến đổi dữ liệu thô thành các đặc trưng phù hợp

Triển khai mô hình Machine Learning vào môi trường sản xuất

Câu hỏi về Feature Engineering trong Machine Learning. Feature Engineering là quá trình chọn lọc, biến đổi và tạo ra các đặc trưng (features) phù hợp từ dữ liệu thô để cải thiện hiệu suất của mô hình Machine Learning.

23 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 23: Khi làm việc với dữ liệu Big Data có tính biến động cao (ví dụ: dữ liệu cảm biến, dữ liệu clickstream), thách thức lớn nhất thường gặp phải là gì?

Xử lý dữ liệu trong thời gian thực hoặc gần thời gian thực

Đảm bảo tính toàn vẹn của dữ liệu

Lưu trữ dữ liệu với chi phí thấp

Trực quan hóa dữ liệu một cách hiệu quả

Câu hỏi về thách thức khi xử lý dữ liệu biến động. Dữ liệu biến động cao thay đổi liên tục và nhanh chóng, do đó việc xử lý và phân tích dữ liệu này trong thời gian thực hoặc gần thời gian thực là một thách thức lớn.

24 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 24: Để xây dựng ứng dụng phân tích Big Data tương tác (interactive), công cụ nào sau đây thường được sử dụng để cung cấp khả năng truy vấn và trực quan hóa dữ liệu nhanh chóng?

Apache Oozie

Apache Zookeeper

Apache Zeppelin

Apache Cassandra

Câu hỏi về công cụ cho phân tích tương tác và trực quan hóa. Apache Zeppelin là một notebook web-based cho phép phân tích dữ liệu tương tác, trực quan hóa và hợp tác, hỗ trợ nhiều backend xử lý dữ liệu như Spark, Flink, v.v.

25 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 25: Trong kiến trúc Lambda, lớp 'Speed Layer' (lớp tốc độ) có vai trò chính là gì?

Lưu trữ dữ liệu lịch sử

Xử lý dữ liệu mới nhất với độ trễ thấp

Phục vụ các truy vấn phân tích batch

Quản lý metadata của dữ liệu

Câu hỏi về kiến trúc Lambda và vai trò của Speed Layer. Speed Layer trong kiến trúc Lambda được thiết kế để xử lý dữ liệu mới nhất (recent data) với độ trễ thấp, thường sử dụng các công nghệ xử lý luồng thời gian thực.

26 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 26: Khi lựa chọn công nghệ lưu trữ Big Data, yếu tố 'độ trễ' (latency) thường quan trọng nhất đối với loại ứng dụng nào?

Báo cáo kinh doanh hàng tháng

Phân tích xu hướng thị trường hàng quý

Sao lưu và phục hồi dữ liệu

Ứng dụng thời gian thực (ví dụ: phát hiện gian lận)

Câu hỏi về yếu tố độ trễ và loại ứng dụng. Đối với các ứng dụng thời gian thực (real-time applications) như phát hiện gian lận, cá nhân hóa trải nghiệm người dùng, độ trễ thấp là cực kỳ quan trọng để đảm bảo phản hồi nhanh chóng.

27 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 27: Để quản lý và điều phối các workflow phức tạp trong hệ thống Big Data (ví dụ: các job MapReduce, Spark, Hive), công cụ nào sau đây thường được sử dụng?

Apache Oozie

Apache Zookeeper

Apache Ambari

Apache Curator

Câu hỏi về công cụ quản lý workflow. Apache Oozie là một hệ thống điều phối workflow cho phép quản lý và lên lịch các job Hadoop, Spark, Pig, v.v., dưới dạng các workflow tuần tự hoặc song song.

28 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 28: Trong ngữ cảnh Big Data, 'Data Governance' (quản trị dữ liệu) bao gồm những hoạt động chính nào?

Phát triển các thuật toán Machine Learning

Xây dựng hạ tầng lưu trữ dữ liệu phân tán

Đảm bảo chất lượng, bảo mật, tuân thủ và khả năng truy xuất nguồn gốc của dữ liệu

Trực quan hóa dữ liệu để khám phá insight

Câu hỏi về phạm vi của Data Governance. Data Governance bao gồm các hoạt động liên quan đến quản lý chất lượng, bảo mật, tuân thủ quy định, và khả năng truy xuất nguồn gốc của dữ liệu trong tổ chức.

29 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 29: Khi đánh giá hiệu suất của một hệ thống Big Data, chỉ số 'throughput' (thông lượng) đo lường điều gì?

Thời gian phản hồi trung bình cho một truy vấn

Lượng công việc hoặc dữ liệu được xử lý thành công trong một đơn vị thời gian

Tổng thời gian cần thiết để hoàn thành một tác vụ

Mức độ sử dụng tài nguyên hệ thống (CPU, bộ nhớ, đĩa)

Câu hỏi về chỉ số hiệu suất throughput. Throughput đo lường lượng công việc hoặc dữ liệu mà hệ thống có thể xử lý thành công trong một đơn vị thời gian nhất định.

30 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 12

Câu 30: Để xây dựng một hệ thống Big Data trên đám mây (cloud), dịch vụ nào sau đây của Amazon Web Services (AWS) cung cấp nền tảng Hadoop và Spark được quản lý hoàn toàn?

Amazon S3

Amazon EC2

Amazon RDS

Amazon EMR

Xem kết quả

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Nhận kết quả

Xảy ra lỗi

Bước 1: Vào google.com rồi gõ từ khóa:
Copy nhanh thanh-tim-kiem

Bước 2: Trong kết quả tìm kiếm Google, hãy tìm website giống hình bên dưới

Nếu trang 1 không có hãy tìm ở trang 2, 3, 4... nhé trang-google

Bước 3:

Cuộn xuống cuối bài viết rồi bấm vào nút GIỐNG HÌNH DƯỚI và chờ 1 lát để lấy mã:

luot-xem

Nếu tìm không thấy mã bạn có thể Đổi nhiệm vụ để lấy mã khác.

Câu hỏi về dịch vụ Big Data trên cloud AWS. Amazon EMR (Elastic MapReduce) là dịch vụ của AWS cung cấp nền tảng Hadoop và Spark được quản lý, cho phép triển khai và vận hành các cluster Big Data trên đám mây một cách dễ dàng.

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!

Trắc nghiệm Dữ liệu lớn (BigData)

Trắc nghiệm Dữ liệu lớn (BigData) - Đề 13

1 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 1: Đặc điểm nào sau đây KHÔNG phải là đặc điểm chính của Dữ liệu Lớn (Big Data)?

Dung lượng (Volume) lớn

Tốc độ (Velocity) cao

Đa dạng (Variety) về loại dữ liệu

Tính Biến đổi (Variability) liên tục

Câu hỏi kiểm tra kiến thức nền tảng về 5Vs của Big Data. Tính 'Variable' (Biến đổi) không nằm trong bộ 5Vs kinh điển (Volume, Velocity, Variety, Veracity, Value).

2 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 2: Trong bối cảnh Dữ liệu Lớn, thuật ngữ 'Data Lake' (Hồ Dữ liệu) dùng để chỉ điều gì?

Một hệ thống quản lý cơ sở dữ liệu quan hệ truyền thống.

Một kho lưu trữ tập trung, chứa dữ liệu thô ở nhiều định dạng khác nhau, sẵn sàng cho phân tích.

Một phương pháp trực quan hóa dữ liệu phức tạp.

Một kỹ thuật mã hóa dữ liệu để bảo mật thông tin.

Câu hỏi kiểm tra sự hiểu biết về 'Data Lake' - một kho lưu trữ dữ liệu thô, đa dạng, khác với Data Warehouse.

3 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 3: Công nghệ nào sau đây thường được sử dụng để xử lý Dữ liệu Lớn theo thời gian thực (real-time processing)?

Hadoop MapReduce

Apache Hive

Apache Kafka Streams

Cơ sở dữ liệu quan hệ SQL

Câu hỏi tập trung vào kỹ năng nhận biết công nghệ xử lý dữ liệu real-time. Apache Kafka và Apache Flink là những lựa chọn phổ biến cho stream processing.

4 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 4: Mục tiêu chính của việc 'chuẩn hóa dữ liệu' (data normalization) trong quá trình tiền xử lý Dữ liệu Lớn là gì?

Đưa dữ liệu về một thang đo chung để so sánh và phân tích hiệu quả hơn.

Loại bỏ hoàn toàn dữ liệu nhiễu và dữ liệu ngoại lai.

Tăng cường tính bảo mật cho dữ liệu nhạy cảm.

Giảm dung lượng lưu trữ dữ liệu.

Câu hỏi kiểm tra hiểu biết về mục đích của chuẩn hóa dữ liệu. Chuẩn hóa giúp dữ liệu đồng nhất về thang đo, cải thiện hiệu suất và độ chính xác của các thuật toán phân tích.

5 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 5: Trong kiến trúc Hadoop, thành phần nào chịu trách nhiệm quản lý tài nguyên cluster và lập lịch công việc (job scheduling)?

HDFS (Hadoop Distributed File System)

YARN (Yet Another Resource Negotiator)

MapReduce

NameNode

Câu hỏi kiểm tra kiến thức về kiến trúc Hadoop và vai trò của YARN (Yet Another Resource Negotiator) trong quản lý tài nguyên.

6 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 6: Xét tình huống: Một công ty thương mại điện tử muốn phân tích hành vi mua sắm trực tuyến của khách hàng để cá nhân hóa trải nghiệm và tăng doanh số. Ứng dụng Dữ liệu Lớn này thuộc về lĩnh vực nào?

Quản lý chuỗi cung ứng

Phân tích rủi ro tài chính

Nghiên cứu và phát triển sản phẩm

Marketing và trải nghiệm khách hàng

Câu hỏi tình huống về ứng dụng Big Data trong thương mại điện tử, cụ thể là Marketing và Cá nhân hóa trải nghiệm khách hàng.

7 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 7: Phương pháp nào sau đây KHÔNG phải là một kỹ thuật phổ biến để phân tích Dữ liệu Lớn?

Khai phá dữ liệu (Data Mining)

Học máy (Machine Learning)

Phân tích hồi quy tuyến tính (Linear Regression) trên Excel

Phân tích dự đoán (Predictive Analytics)

Câu hỏi kiểm tra kiến thức về các kỹ thuật phân tích dữ liệu. 'Phân tích hồi quy tuyến tính' (Linear Regression) là kỹ thuật thống kê truyền thống, ít được nhấn mạnh như các kỹ thuật đặc trưng cho Big Data như Machine Learning hay Data Mining.

8 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 8: Trong mô hình lập trình MapReduce, giai đoạn 'Reduce' có chức năng chính là gì?

Phân chia dữ liệu đầu vào thành các phần nhỏ hơn để xử lý song song.

Tổng hợp và kết hợp các kết quả trung gian từ giai đoạn 'Map' để tạo ra kết quả cuối cùng.

Lưu trữ dữ liệu đã qua xử lý vào hệ thống tệp phân tán HDFS.

Quản lý tài nguyên và phân phối công việc cho các node trong cluster.

Câu hỏi kiểm tra hiểu biết về quy trình MapReduce. Giai đoạn Reduce tập hợp và tổng hợp kết quả từ giai đoạn Map.

9 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 9: Loại cơ sở dữ liệu NoSQL nào phù hợp nhất để lưu trữ và truy vấn dữ liệu dạng đồ thị (graph data), ví dụ như mạng xã hội hoặc quan hệ giữa các thực thể?

Cơ sở dữ liệu dạng Key-Value (Key-Value Database)

Cơ sở dữ liệu dạng Document (Document Database)

Cơ sở dữ liệu dạng Column-Family (Column-Family Database)

Cơ sở dữ liệu dạng Đồ thị (Graph Database)

Câu hỏi về loại NoSQL database phù hợp cho graph data. Graph databases (ví dụ: Neo4j) được thiết kế đặc biệt để quản lý và truy vấn dữ liệu dạng đồ thị.

10 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 10: Khái niệm 'Data Governance' (Quản trị dữ liệu) trong Dữ liệu Lớn tập trung vào điều gì?

Tối ưu hóa hiệu suất truy vấn dữ liệu.

Lựa chọn công nghệ lưu trữ dữ liệu phù hợp.

Đảm bảo chất lượng, bảo mật, tuân thủ và quản lý vòng đời dữ liệu một cách hiệu quả.

Phát triển các thuật toán phân tích dữ liệu tiên tiến.

Câu hỏi về Data Governance, nhấn mạnh vào việc quản lý, bảo mật, chất lượng và tuân thủ quy định của dữ liệu.

11 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 11: Công cụ nào sau đây thường được sử dụng để truy vấn và phân tích dữ liệu tương tác (interactive query) trên Hadoop, cung cấp giao diện SQL-like?

Apache Hive

Apache Spark Streaming

Apache Kafka

Hadoop MapReduce

Câu hỏi về công cụ truy vấn tương tác trên Hadoop với giao diện SQL. Apache Hive và Apache Impala là những lựa chọn phổ biến.

12 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 12: 'ETL' là viết tắt của quy trình nào trong quản lý dữ liệu, đặc biệt quan trọng trong Dữ liệu Lớn?

Evaluate, Transform, Load

Extract, Transform, Load

Encrypt, Transfer, Log

Error, Tracking, Logging

Câu hỏi kiểm tra kiến thức về ETL - một quy trình quan trọng trong Data Warehousing và Big Data để chuẩn bị dữ liệu cho phân tích.

13 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 13: Trong ngữ cảnh bảo mật Dữ liệu Lớn, kỹ thuật 'data masking' (che dấu dữ liệu) được sử dụng để làm gì?

Mã hóa toàn bộ cơ sở dữ liệu.

Phân quyền truy cập dữ liệu nghiêm ngặt.

Thay thế hoặc che giấu dữ liệu nhạy cảm để bảo vệ quyền riêng tư.

Giám sát hoạt động truy cập dữ liệu bất thường.

Câu hỏi về kỹ thuật bảo mật 'data masking'. Mục đích chính là bảo vệ dữ liệu nhạy cảm bằng cách thay thế hoặc che đi thông tin.

14 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 14: 'Data wrangling' (vật lộn với dữ liệu) là một bước quan trọng trong phân tích Dữ liệu Lớn. Nó bao gồm các hoạt động nào?

Xây dựng mô hình học máy.

Trực quan hóa dữ liệu bằng biểu đồ.

Thu thập dữ liệu từ các nguồn khác nhau.

Làm sạch, biến đổi và cấu trúc lại dữ liệu thô để chuẩn bị cho phân tích.

Câu hỏi về 'data wrangling', mô tả các hoạt động tiền xử lý dữ liệu như làm sạch, biến đổi, và cấu trúc lại dữ liệu.

15 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 15: Ưu điểm chính của việc sử dụng 'in-memory computing' (tính toán trong bộ nhớ) trong xử lý Dữ liệu Lớn là gì?

Giảm chi phí lưu trữ dữ liệu.

Tăng tốc độ xử lý dữ liệu đáng kể do giảm thiểu truy cập đĩa.

Đơn giản hóa quá trình quản lý cluster Hadoop.

Cải thiện khả năng mở rộng của hệ thống.

Câu hỏi về 'in-memory computing'. Ưu điểm lớn nhất là tốc độ xử lý nhanh hơn nhiều do giảm thiểu thời gian truy cập đĩa.

16 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 16: Công cụ nào sau đây là một framework mã nguồn mở phổ biến để xử lý Dữ liệu Lớn, nổi tiếng với khả năng xử lý nhanh và linh hoạt, đặc biệt phù hợp cho machine learning?

Hadoop MapReduce

Apache Hive

Apache Spark

Apache Pig

Câu hỏi về framework xử lý Big Data mạnh mẽ cho machine learning. Apache Spark là lựa chọn hàng đầu với tốc độ và khả năng tương thích tốt với ML.

17 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 17: 'Schema-on-read' là một đặc điểm của loại kho dữ liệu nào?

Data Warehouse

Data Lake

Cơ sở dữ liệu quan hệ

Hệ thống OLTP

Câu hỏi về 'schema-on-read'. Data Lakes thường áp dụng schema-on-read, cho phép linh hoạt hơn trong việc xử lý dữ liệu đa dạng, không cần định nghĩa schema trước.

18 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 18: Trong lĩnh vực Dữ liệu Lớn, 'data provenance' (nguồn gốc dữ liệu) đề cập đến điều gì?

Lịch sử và nguồn gốc của dữ liệu, bao gồm quá trình thu thập, biến đổi và xử lý.

Kích thước và dung lượng của tập dữ liệu.

Loại và định dạng dữ liệu (structured, unstructured, semi-structured).

Tốc độ dữ liệu được tạo ra và xử lý.

Câu hỏi về 'data provenance'. Provenance theo dõi lịch sử và nguồn gốc của dữ liệu, quan trọng cho độ tin cậy và truy vết dữ liệu.

19 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 19: 'Lambda architecture' là một mẫu kiến trúc Dữ liệu Lớn được thiết kế để giải quyết vấn đề gì?

Bảo mật dữ liệu nhạy cảm.

Tối ưu hóa chi phí lưu trữ dữ liệu.

Xử lý đồng thời cả dữ liệu batch (lô) và dữ liệu streaming (dòng) để cung cấp cả độ trễ thấp và độ chính xác cao.

Quản lý metadata của dữ liệu.

Câu hỏi về 'Lambda architecture'. Lambda architecture kết hợp batch processing và stream processing để xử lý cả dữ liệu lịch sử và dữ liệu thời gian thực.

20 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 20: Thách thức lớn nhất trong việc xử lý 'dark data' (dữ liệu tối) là gì?

Dung lượng quá lớn của dữ liệu.

Tốc độ tạo ra dữ liệu quá nhanh.

Độ phức tạp của việc mã hóa dữ liệu.

Khó khăn trong việc xác định và khai thác giá trị tiềm ẩn vì nó thường bị bỏ qua hoặc không được sử dụng.

Câu hỏi về 'dark data'. Thách thức chính của dark data là việc nó không được khai thác và sử dụng hiệu quả, do thiếu nhận biết hoặc khó truy cập.

21 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 21: Trong ngữ cảnh Dữ liệu Lớn, 'data virtualization' (ảo hóa dữ liệu) mang lại lợi ích chính nào?

Tăng cường bảo mật dữ liệu bằng cách mã hóa.

Cung cấp cái nhìn thống nhất và truy cập dữ liệu từ nhiều nguồn khác nhau mà không cần di chuyển hoặc sao chép dữ liệu.

Tối ưu hóa hiệu suất truy vấn bằng cách nén dữ liệu.

Giảm chi phí lưu trữ bằng cách loại bỏ dữ liệu trùng lặp.

Câu hỏi về 'data virtualization'. Lợi ích chính là cung cấp cái nhìn thống nhất về dữ liệu từ nhiều nguồn khác nhau mà không cần di chuyển dữ liệu.

22 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 22: Công nghệ nào sau đây thường được sử dụng để xây dựng 'data pipeline' (ống dẫn dữ liệu) trong Dữ liệu Lớn, giúp tự động hóa quá trình di chuyển và biến đổi dữ liệu giữa các hệ thống?

Hadoop HDFS

Apache Hive

Apache NiFi

Apache Spark SQL

Câu hỏi về công nghệ xây dựng data pipeline. Apache NiFi và Apache Airflow là những công cụ phổ biến để tự động hóa và quản lý luồng dữ liệu.

23 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 23: 'Data mesh' là một phương pháp tiếp cận tổ chức dữ liệu theo hướng nào?

Tập trung hóa toàn bộ dữ liệu vào một kho dữ liệu trung tâm.

Áp dụng mô hình ELT (Extract, Load, Transform) thay vì ETL.

Sử dụng cơ sở dữ liệu NoSQL cho tất cả các loại dữ liệu.

Phân quyền sở hữu và quản lý dữ liệu cho các domain (lĩnh vực kinh doanh) cụ thể trong tổ chức.

Câu hỏi về 'data mesh'. Data mesh là một kiến trúc dữ liệu phi tập trung, theo hướng domain-driven, trao quyền cho các domain sở hữu và quản lý dữ liệu của mình.

24 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 24: Trong phân tích Dữ liệu Lớn, 'feature engineering' (kỹ thuật đặc trưng) đóng vai trò quan trọng như thế nào trong quá trình xây dựng mô hình học máy?

Rất quan trọng, vì nó quyết định chất lượng dữ liệu đầu vào cho mô hình, ảnh hưởng trực tiếp đến hiệu suất dự đoán.

Ít quan trọng, vì các thuật toán học máy hiện đại có thể tự động trích xuất đặc trưng.

Chỉ quan trọng đối với dữ liệu có cấu trúc, không cần thiết cho dữ liệu phi cấu trúc.

Chỉ cần thiết trong giai đoạn triển khai mô hình, không ảnh hưởng đến giai đoạn huấn luyện.

Câu hỏi về vai trò của 'feature engineering'. Feature engineering là bước quan trọng để tạo ra các đặc trưng phù hợp, ảnh hưởng lớn đến hiệu suất của mô hình ML.

25 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 25: Khi lựa chọn giải pháp lưu trữ Dữ liệu Lớn trên đám mây, yếu tố 'scalability' (khả năng mở rộng) có ý nghĩa gì?

Giá thành của dịch vụ lưu trữ.

Khả năng hệ thống dễ dàng tăng hoặc giảm dung lượng lưu trữ và tài nguyên tính toán khi nhu cầu thay đổi.

Mức độ bảo mật của dữ liệu trên đám mây.

Tốc độ truy cập dữ liệu từ đám mây.

Câu hỏi về 'scalability' trong cloud storage cho Big Data. Scalability là khả năng hệ thống dễ dàng tăng giảm tài nguyên theo nhu cầu dữ liệu và tải công việc.

26 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 26: 'Data drift' (trôi dữ liệu) là một vấn đề thường gặp trong mô hình học máy triển khai trong môi trường Dữ liệu Lớn. Nó mô tả hiện tượng gì?

Lỗi trong quá trình thu thập dữ liệu.

Sự cố hệ thống làm mất mát dữ liệu.

Sự thay đổi theo thời gian trong phân phối thống kê của dữ liệu đầu vào, dẫn đến giảm hiệu suất mô hình.

Vi phạm bảo mật dữ liệu.

Câu hỏi về 'data drift'. Data drift là sự thay đổi theo thời gian trong phân phối dữ liệu đầu vào, làm giảm hiệu suất mô hình ML.

27 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 27: Trong quá trình phân tích cảm xúc từ văn bản (sentiment analysis) trong Dữ liệu Lớn, kỹ thuật 'Natural Language Processing' (NLP) đóng vai trò gì?

Trực quan hóa kết quả phân tích.

Lưu trữ và quản lý dữ liệu văn bản.

Tối ưu hóa hiệu suất truy vấn dữ liệu văn bản.

Giúp máy tính hiểu và xử lý ngôn ngữ tự nhiên trong văn bản để xác định cảm xúc (tích cực, tiêu cực, trung lập).

Câu hỏi về vai trò của NLP trong sentiment analysis. NLP là nền tảng để máy tính hiểu và xử lý ngôn ngữ tự nhiên, cần thiết cho phân tích cảm xúc từ văn bản.

28 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 28: 'Kappa architecture' là một kiến trúc Dữ liệu Lớn đơn giản hóa so với Lambda architecture bằng cách loại bỏ thành phần nào?

Real-time processing layer (lớp xử lý thời gian thực)

Batch processing layer (lớp xử lý batch)

Serving layer (lớp phục vụ kết quả)

Data ingestion layer (lớp thu thập dữ liệu)

Câu hỏi về 'Kappa architecture'. Kappa đơn giản hóa Lambda bằng cách bỏ batch layer, chỉ giữ stream processing, phù hợp cho nhiều ứng dụng real-time.

29 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 29: Khi đánh giá chất lượng của một giải pháp Dữ liệu Lớn, chỉ số 'data latency' (độ trễ dữ liệu) đo lường điều gì?

Tổng dung lượng dữ liệu được xử lý.

Độ chính xác của dữ liệu sau khi xử lý.

Thời gian trễ từ khi dữ liệu được tạo ra đến khi có thể được truy cập và sử dụng.

Mức độ bảo mật của dữ liệu trong quá trình truyền tải.

Câu hỏi về 'data latency'. Latency đo thời gian trễ từ khi dữ liệu được tạo ra đến khi sẵn sàng để sử dụng/phân tích.

30 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 13

Câu 30: Trong ngữ cảnh Dữ liệu Lớn và điện toán đám mây, 'serverless computing' (điện toán phi máy chủ) mang lại lợi ích gì cho việc xây dựng ứng dụng phân tích dữ liệu?

Tăng cường bảo mật dữ liệu bằng cách cô lập máy chủ.

Giảm chi phí lưu trữ dữ liệu.

Cải thiện hiệu suất truy vấn dữ liệu.

Giảm gánh nặng quản lý hạ tầng máy chủ, cho phép tập trung vào phát triển logic ứng dụng và tận dụng khả năng tự động масштабирование.

Xem kết quả

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Nhận kết quả

Xảy ra lỗi

Bước 1: Vào google.com rồi gõ từ khóa:
Copy nhanh thanh-tim-kiem

Bước 2: Trong kết quả tìm kiếm Google, hãy tìm website giống hình bên dưới

Nếu trang 1 không có hãy tìm ở trang 2, 3, 4... nhé trang-google

Bước 3:

Cuộn xuống cuối bài viết rồi bấm vào nút GIỐNG HÌNH DƯỚI và chờ 1 lát để lấy mã:

luot-xem

Nếu tìm không thấy mã bạn có thể Đổi nhiệm vụ để lấy mã khác.

Câu hỏi về 'serverless computing' trong Big Data. Lợi ích chính là giảm gánh nặng quản lý hạ tầng, tập trung vào logic ứng dụng và khả năng tự động масштабирование.

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!

Trắc nghiệm Dữ liệu lớn (BigData)

Trắc nghiệm Dữ liệu lớn (BigData) - Đề 14

1 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 1: Đặc điểm nào sau đây KHÔNG phải là đặc trưng điển hình của Dữ liệu Lớn (Big Data)?

Dung lượng lớn (Volume)

Tốc độ cao (Velocity)

Đa dạng (Variety)

Tính biến động (Volatility)

Câu hỏi kiểm tra sự hiểu biết về các đặc tính cốt lõi của Big Data, thường được biết đến như 5Vs (Volume, Velocity, Variety, Veracity, Value) hoặc 3Vs (Volume, Velocity, Variety) trong định nghĩa ban đầu. Tính 'Volatility' (Biến động) không nằm trong nhóm đặc trưng cốt lõi này.

2 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 2: Trong hệ sinh thái Hadoop, thành phần nào chịu trách nhiệm quản lý tài nguyên cụm và lập lịch công việc (job scheduling)?

HDFS (Hadoop Distributed File System)

YARN (Yet Another Resource Negotiator)

MapReduce

HBase

Câu hỏi tập trung vào kiến thức về kiến trúc Hadoop, cụ thể là vai trò của YARN (Yet Another Resource Negotiator). YARN là lớp quản lý tài nguyên, tách biệt với lớp xử lý dữ liệu (MapReduce), cho phép Hadoop hỗ trợ nhiều mô hình xử lý dữ liệu khác nhau.

3 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 3: Xét tình huống một công ty thương mại điện tử muốn phân tích hành vi duyệt web của khách hàng theo thời gian thực để cá nhân hóa trải nghiệm mua sắm. Công nghệ Dữ liệu Lớn nào sau đây phù hợp nhất để xử lý luồng dữ liệu liên tục này?

Hadoop MapReduce

Kho dữ liệu (Data Warehouse)

Xử lý luồng (Stream processing) với Apache Kafka

Hệ thống quản lý cơ sở dữ liệu quan hệ (RDBMS)

Câu hỏi tình huống về ứng dụng Big Data trong thương mại điện tử, tập trung vào xử lý dữ liệu theo thời gian thực. Stream processing (xử lý luồng) là kỹ thuật phù hợp nhất cho tình huống này, và Apache Kafka là một nền tảng phổ biến cho stream processing.

4 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 4: Định dạng tệp nào sau đây được tối ưu hóa cho việc lưu trữ và truy vấn dữ liệu cột (columnar data), thường được sử dụng trong các hệ thống Dữ liệu Lớn để cải thiện hiệu suất truy vấn phân tích?

CSV (Comma Separated Values)

Parquet

JSON (JavaScript Object Notation)

XML (eXtensible Markup Language)

Câu hỏi kiểm tra kiến thức về các định dạng tệp tối ưu hóa cho Big Data. Định dạng columnar (dữ liệu cột) như Parquet hoặc ORC giúp giảm thiểu I/O và tăng tốc độ truy vấn phân tích do chỉ đọc các cột dữ liệu cần thiết.

5 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 5: Trong kiến trúc HDFS (Hadoop Distributed File System), vai trò chính của NameNode là gì?

Quản lý siêu dữ liệu (metadata) của hệ thống tệp và không gian tên

Lưu trữ dữ liệu thực tế (data blocks) của các tệp

Thực hiện tính toán và xử lý dữ liệu (data processing)

Sao lưu và phục hồi dữ liệu (data backup and recovery)

Câu hỏi tập trung vào thành phần cốt lõi của HDFS - NameNode. NameNode quản lý metadata (siêu dữ liệu) của hệ thống tệp, bao gồm cấu trúc thư mục, thông tin về block và vị trí của chúng trên DataNodes. Nó không lưu trữ dữ liệu thực tế.

6 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 6: Giả sử bạn có một tập dữ liệu văn bản lớn chứa nhật ký hoạt động web. Bạn muốn đếm tần suất xuất hiện của mỗi từ khóa (ví dụ: 'mua', 'xem', 'giỏ hàng'). Mô hình lập trình song song nào sau đây phù hợp nhất để thực hiện tác vụ này trên Hadoop?

Xử lý đồ thị (Graph processing)

Xử lý giao dịch trực tuyến (OLTP)

MapReduce

Xử lý luồng phức tạp (Complex Event Processing - CEP)

Câu hỏi yêu cầu áp dụng kiến thức về mô hình lập trình MapReduce vào một bài toán cụ thể (word count). MapReduce được thiết kế để xử lý song song các tác vụ phân tích dữ liệu trên lượng lớn dữ liệu phi cấu trúc hoặc bán cấu trúc.

7 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 7: Công cụ nào sau đây trong hệ sinh thái Hadoop cung cấp một giao diện SQL để truy vấn và phân tích dữ liệu được lưu trữ trong HDFS?

Apache Pig

Apache Spark

Apache HBase

Apache Hive

Câu hỏi kiểm tra kiến thức về các công cụ SQL-on-Hadoop. Apache Hive là một data warehouse system xây dựng trên Hadoop, cho phép người dùng truy vấn dữ liệu HDFS bằng cú pháp SQL tương tự như SQL truyền thống.

8 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 8: Phân biệt giữa Data Warehouse và Data Lake về mục đích sử dụng chính. Data Warehouse thường được tối ưu hóa cho, còn Data Lake thì linh hoạt hơn và phù hợp với?

Phân tích khám phá (Data exploration); Báo cáo doanh nghiệp (Business Reporting)

Báo cáo doanh nghiệp (Business Reporting); Phân tích khám phá (Data exploration)

Dữ liệu giao dịch (Transactional data); Dữ liệu phi cấu trúc (Unstructured data)

Dữ liệu lịch sử (Historical data); Dữ liệu thời gian thực (Real-time data)

Câu hỏi so sánh Data Warehouse và Data Lake, hai kiến trúc lưu trữ dữ liệu khác nhau. Data Warehouse hướng đến dữ liệu đã được cấu trúc và mục đích phân tích báo cáo (BI), trong khi Data Lake chấp nhận nhiều loại dữ liệu (cấu trúc, bán cấu trúc, phi cấu trúc) và phục vụ nhiều mục đích khác nhau, bao gồm cả data science và khám phá dữ liệu.

9 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 9: Trong quá trình ETL (Extract, Transform, Load) để xây dựng Data Warehouse, giai đoạn 'Transformation' (Biến đổi) bao gồm các hoạt động nào sau đây?

Thu thập dữ liệu từ các nguồn khác nhau

Chuyển dữ liệu đã xử lý vào hệ thống đích

Làm sạch, chuẩn hóa và tích hợp dữ liệu

Lập mô hình dữ liệu và thiết kế lược đồ

Câu hỏi về quy trình ETL, một khái niệm quan trọng trong Data Warehousing và Big Data. Giai đoạn 'Transformation' bao gồm các hoạt động làm sạch, chuẩn hóa, chuyển đổi và tích hợp dữ liệu để đảm bảo chất lượng và tính nhất quán trước khi đưa vào Data Warehouse.

10 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 10: NoSQL (Not only SQL) database được thiết kế để giải quyết những thách thức nào mà các hệ quản trị CSDL quan hệ (RDBMS) truyền thống gặp phải khi xử lý Dữ liệu Lớn?

Khả năng mở rộng, tính linh hoạt lược đồ và hiệu suất đọc/ghi cao

Tính toàn vẹn dữ liệu (ACID properties) và truy vấn phức tạp

Khả năng xử lý giao dịch (transaction processing) và bảo mật dữ liệu

Tính nhất quán mạnh (strong consistency) và hỗ trợ SQL tiêu chuẩn

Câu hỏi về sự khác biệt giữa NoSQL và RDBMS trong bối cảnh Big Data. NoSQL database được thiết kế để xử lý tốt hơn các đặc tính của Big Data như dung lượng lớn, tốc độ cao và sự đa dạng, đặc biệt là khả năng mở rộng ngang (horizontal scalability) và linh hoạt về lược đồ.

11 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 11: Trong ngữ cảnh Big Data, 'Data Governance' (Quản trị dữ liệu) đề cập đến điều gì?

Công nghệ và công cụ để lưu trữ và xử lý Dữ liệu Lớn

Các chính sách và quy trình để quản lý chất lượng, bảo mật và tuân thủ dữ liệu

Phân tích dữ liệu và khai thác thông tin từ Dữ liệu Lớn

Trực quan hóa dữ liệu và báo cáo kết quả phân tích

Câu hỏi về Data Governance, một khía cạnh quan trọng trong quản lý Big Data. Data Governance bao gồm các chính sách, quy trình và tiêu chuẩn để đảm bảo chất lượng, bảo mật, tuân thủ và khả năng sử dụng dữ liệu một cách hiệu quả và có trách nhiệm.

12 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 12: Một công ty viễn thông muốn dự đoán khả năng khách hàng rời mạng (churn) dựa trên dữ liệu lịch sử cuộc gọi, thông tin thuê bao và hành vi sử dụng dịch vụ. Phương pháp phân tích Dữ liệu Lớn nào sau đây phù hợp nhất?

Thống kê mô tả (Descriptive statistics)

Phân tích đường dẫn (Path analysis)

Học máy (Machine learning) và mô hình hóa dự đoán

Truy vấn SQL và báo cáo ad-hoc

Câu hỏi tình huống về ứng dụng Big Data trong viễn thông, cụ thể là dự đoán churn rate. Machine learning (học máy), đặc biệt là các thuật toán phân loại (classification algorithms), là phương pháp phù hợp để xây dựng mô hình dự đoán dựa trên dữ liệu lịch sử.

13 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 13: 'Lambda Architecture' và 'Kappa Architecture' là hai mô hình kiến trúc phổ biến trong xử lý Dữ liệu Lớn. Sự khác biệt chính giữa chúng là gì?

Lambda Architecture chỉ xử lý dữ liệu batch, Kappa Architecture chỉ xử lý dữ liệu stream.

Lambda Architecture tập trung vào tính nhất quán mạnh, Kappa Architecture tập trung vào tính sẵn sàng cao.

Lambda Architecture sử dụng Hadoop, Kappa Architecture sử dụng Spark.

Lambda Architecture kết hợp batch và stream processing, Kappa Architecture chỉ sử dụng stream processing.

Câu hỏi so sánh Lambda và Kappa Architectures, hai mô hình kiến trúc cho xử lý dữ liệu. Lambda Architecture kết hợp batch processing và stream processing, trong khi Kappa Architecture đơn giản hóa bằng cách chỉ sử dụng stream processing cho tất cả dữ liệu, cả lịch sử và thời gian thực.

14 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 14: Trong ngữ cảnh bảo mật Dữ liệu Lớn, kỹ thuật 'Data Masking' (Che giấu dữ liệu) được sử dụng để làm gì?

Bảo vệ dữ liệu nhạy cảm bằng cách thay thế hoặc xáo trộn chúng

Mã hóa dữ liệu trong quá trình truyền tải và lưu trữ

Kiểm soát truy cập và xác thực người dùng vào hệ thống dữ liệu

Phát hiện và ngăn chặn các cuộc tấn công mạng vào hệ thống Dữ liệu Lớn

Câu hỏi về bảo mật Big Data, cụ thể là kỹ thuật Data Masking. Data Masking là quá trình thay thế hoặc xáo trộn dữ liệu nhạy cảm (ví dụ: thông tin cá nhân) để bảo vệ quyền riêng tư và tuân thủ quy định, trong khi vẫn cho phép sử dụng dữ liệu cho mục đích phân tích hoặc thử nghiệm.

15 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 15: 'Data Lakehouse' là một kiến trúc dữ liệu mới nổi, kết hợp ưu điểm của Data Lake và Data Warehouse. Ưu điểm chính của Data Lakehouse so với Data Lake truyền thống là gì?

Khả năng lưu trữ dữ liệu phi cấu trúc với chi phí thấp hơn

Hỗ trợ quản lý dữ liệu, tính toàn vẹn và truy vấn hiệu quả hơn

Khả năng xử lý dữ liệu thời gian thực nhanh hơn

Tích hợp tốt hơn với các công cụ Business Intelligence truyền thống

Câu hỏi về Data Lakehouse, một xu hướng kiến trúc mới. Data Lakehouse mang lại cấu trúc và khả năng quản lý dữ liệu tốt hơn so với Data Lake truyền thống, cho phép thực hiện các truy vấn phân tích hiệu quả hơn và hỗ trợ các workload phức tạp hơn, đồng thời vẫn giữ được tính linh hoạt của Data Lake.

16 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 16: Trong Apache Spark, 'RDD' (Resilient Distributed Dataset) là gì?

Một loại cơ sở dữ liệu NoSQL phân tán

Một công cụ lập lịch công việc trong YARN

Một tập hợp dữ liệu phân tán và bất biến trong Spark

Một giao diện SQL để truy vấn dữ liệu trong Spark

Câu hỏi về Apache Spark, một framework xử lý dữ liệu nhanh. RDD (Resilient Distributed Dataset) là abstraction cốt lõi trong Spark, đại diện cho một tập hợp dữ liệu bất biến, phân tán và có khả năng chịu lỗi, cho phép thực hiện các phép biến đổi và hành động song song trên cụm.

17 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 17: 'Microbatching' là một kỹ thuật xử lý dữ liệu được sử dụng trong Spark Streaming. Nó hoạt động như thế nào?

Xử lý từng bản ghi dữ liệu đến ngay lập tức

Chia luồng dữ liệu thành các batch nhỏ và xử lý theo chu kỳ

Xử lý dữ liệu theo mô hình hướng sự kiện (event-driven)

Kết hợp batch processing và stream processing trong cùng một pipeline

Câu hỏi về Spark Streaming và kỹ thuật microbatching. Microbatching là cách Spark Streaming xử lý dữ liệu gần thời gian thực bằng cách chia luồng dữ liệu liên tục thành các batch nhỏ và xử lý chúng theo chu kỳ, tạo ra độ trễ thấp nhưng vẫn đảm bảo hiệu quả xử lý.

18 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 18: 'Containerization' (Ví dụ: Docker, Kubernetes) ngày càng trở nên quan trọng trong triển khai và quản lý các ứng dụng Dữ liệu Lớn. Lợi ích chính của việc sử dụng containerization trong bối cảnh này là gì?

Tăng cường bảo mật dữ liệu bằng cách cô lập ứng dụng

Giảm chi phí lưu trữ dữ liệu bằng cách nén dữ liệu hiệu quả hơn

Cải thiện hiệu suất truy vấn bằng cách tối ưu hóa truy cập dữ liệu

Đơn giản hóa triển khai, quản lý và mở rộng ứng dụng

Câu hỏi về containerization trong Big Data. Containerization giúp đóng gói ứng dụng và các dependencies của nó vào một unit độc lập, giúp triển khai, quản lý và mở rộng ứng dụng dễ dàng hơn, đồng thời tăng tính nhất quán và khả năng tái sử dụng.

19 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 19: 'Serverless Computing' (Điện toán phi máy chủ) đang trở thành một xu hướng trong Big Data. Mô hình này mang lại lợi ích gì cho việc xử lý Dữ liệu Lớn?

Tăng cường khả năng kiểm soát và tùy biến hạ tầng

Cải thiện hiệu suất xử lý dữ liệu batch

Giảm chi phí vận hành và quản lý hạ tầng, tập trung vào logic nghiệp vụ

Đảm bảo tính sẵn sàng cao và khả năng chịu lỗi tốt hơn

Câu hỏi về serverless computing trong Big Data. Serverless computing giúp giảm gánh nặng quản lý hạ tầng, cho phép tập trung vào logic xử lý dữ liệu, và tối ưu hóa chi phí bằng cách chỉ trả tiền cho tài nguyên tính toán thực sự sử dụng, đặc biệt phù hợp cho các workload không liên tục hoặc có tính biến động cao.

20 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 20: 'Data Mesh' là một phương pháp tiếp cận phi tập trung để quản lý và chia sẻ dữ liệu trong tổ chức. Nguyên tắc cốt lõi của Data Mesh là gì?

Tập trung hóa toàn bộ dữ liệu vào một nền tảng duy nhất

Phân quyền sở hữu dữ liệu cho các domain nghiệp vụ cụ thể

Áp dụng kiến trúc Data Warehouse truyền thống cho Dữ liệu Lớn

Sử dụng Data Lake làm trung tâm dữ liệu duy nhất cho mọi mục đích

Câu hỏi về Data Mesh, một phương pháp quản lý dữ liệu hiện đại. Data Mesh thúc đẩy mô hình phi tập trung, trao quyền sở hữu dữ liệu cho các domain cụ thể (domain-oriented ownership) và coi dữ liệu là sản phẩm (data as a product), khuyến khích tự phục vụ dữ liệu (self-serve data platform) và liên kết các sản phẩm dữ liệu (federated computational governance).

21 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 21: Trong lĩnh vực Dữ liệu Lớn, thuật ngữ 'Data Swamp' (Đầm lầy dữ liệu) dùng để chỉ điều gì?

Một Data Lake được bảo mật và quản lý tốt

Một hệ thống xử lý dữ liệu thời gian thực hiệu quả

Một Data Lake không được quản lý, chứa dữ liệu lộn xộn và khó sử dụng

Một kho dữ liệu (Data Warehouse) lỗi thời và kém hiệu quả

Câu hỏi về 'Data Swamp', một thuật ngữ tiêu cực trong Big Data. Data Swamp ám chỉ một Data Lake không được quản lý tốt, trở nên lộn xộn, khó sử dụng và không mang lại giá trị, trái ngược với mục tiêu ban đầu của Data Lake.

22 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 22: 'Data Wrangling' (Chuẩn bị dữ liệu) là một bước quan trọng trong quy trình phân tích Dữ liệu Lớn. Nó bao gồm các hoạt động nào?

Thu thập dữ liệu từ các nguồn khác nhau

Lưu trữ dữ liệu trong hệ thống Dữ liệu Lớn

Phân tích dữ liệu và xây dựng mô hình

Làm sạch, chuyển đổi và cấu trúc lại dữ liệu thô

Câu hỏi về Data Wrangling, một giai đoạn quan trọng trong data analysis. Data Wrangling bao gồm các hoạt động làm sạch, chuyển đổi, cấu trúc lại và làm phong phú dữ liệu để chuẩn bị cho phân tích, mô hình hóa hoặc trực quan hóa.

23 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 23: 'Real-time Analytics' (Phân tích thời gian thực) mang lại giá trị đặc biệt trong các ứng dụng nào sau đây?

Báo cáo doanh thu hàng tháng và quý

Phát hiện gian lận giao dịch thẻ tín dụng ngay lập tức

Phân tích xu hướng bán hàng trong năm

Dự báo nhu cầu sản phẩm cho năm tới

Câu hỏi về ứng dụng của Real-time Analytics. Real-time Analytics đặc biệt quan trọng trong các ứng dụng yêu cầu phản ứng nhanh với thông tin mới nhất, ví dụ như phát hiện gian lận trực tuyến, cá nhân hóa trải nghiệm người dùng, giám sát hệ thống và cảnh báo sớm.

24 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 24: Trong kiến trúc Dữ liệu Lớn trên đám mây (cloud), dịch vụ nào thường được sử dụng để lưu trữ dữ liệu với khả năng mở rộng và độ bền cao?

Cơ sở dữ liệu quan hệ (Relational Database)

Data Warehouse truyền thống

Object Storage (ví dụ: Amazon S3)

Hệ thống tệp mạng (Network File System - NFS)

Câu hỏi về cloud-based Big Data storage. Dịch vụ object storage trên cloud (ví dụ: Amazon S3, Azure Blob Storage, Google Cloud Storage) thường được sử dụng để lưu trữ Big Data do khả năng mở rộng, độ bền cao, chi phí hiệu quả và khả năng tích hợp tốt với các dịch vụ phân tích khác.

25 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 25: 'Edge Computing' (Điện toán biên) có vai trò gì trong việc xử lý dữ liệu từ các thiết bị IoT (Internet of Things) và các nguồn dữ liệu phân tán?

Xử lý dữ liệu gần nguồn phát sinh để giảm độ trễ và băng thông

Tập trung toàn bộ dữ liệu về trung tâm để phân tích

Sử dụng điện toán đám mây để xử lý dữ liệu IoT

Lưu trữ dữ liệu IoT trong Data Warehouse

Câu hỏi về Edge Computing trong bối cảnh IoT. Edge Computing đưa việc xử lý dữ liệu đến gần nguồn dữ liệu (ví dụ: thiết bị IoT) giúp giảm độ trễ, giảm băng thông mạng cần thiết, tăng cường quyền riêng tư và bảo mật, và cho phép xử lý cục bộ ngay cả khi kết nối mạng không ổn định.

26 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 26: 'Data Lineage' (Dòng dõi dữ liệu) là một khái niệm quan trọng trong quản lý dữ liệu. Nó cung cấp thông tin gì?

Kích thước và dung lượng của dữ liệu

Tốc độ và tần suất cập nhật dữ liệu

Định dạng và cấu trúc của dữ liệu

Nguồn gốc, đường đi và biến đổi của dữ liệu theo thời gian

Câu hỏi về Data Lineage. Data Lineage theo dõi nguồn gốc, đường đi và các biến đổi của dữ liệu từ nguồn đến đích, giúp hiểu rõ luồng dữ liệu, xác định vấn đề chất lượng dữ liệu, tuân thủ quy định và thực hiện phân tích tác động khi có thay đổi dữ liệu.

27 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 27: 'Data Catalog' (Danh mục dữ liệu) giúp giải quyết vấn đề gì trong môi trường Dữ liệu Lớn phức tạp?

Bảo mật dữ liệu và kiểm soát truy cập

Khám phá và hiểu dữ liệu, cải thiện khả năng tìm kiếm dữ liệu

Tối ưu hóa hiệu suất truy vấn dữ liệu

Tự động hóa quy trình ETL

Câu hỏi về Data Catalog. Data Catalog là một inventory metadata, giúp tổ chức và quản lý metadata của dữ liệu trong tổ chức, giúp người dùng dễ dàng tìm kiếm, khám phá, hiểu và sử dụng dữ liệu một cách hiệu quả, giải quyết vấn đề 'data discoverability' trong môi trường Big Data.

28 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 28: 'Feature Engineering' (Thiết kế đặc trưng) là một bước quan trọng trong machine learning với Dữ liệu Lớn. Mục đích của Feature Engineering là gì?

Chọn thuật toán học máy phù hợp nhất

Tối ưu hóa tham số của mô hình học máy

Tạo ra các đặc trưng tốt hơn từ dữ liệu thô để cải thiện mô hình

Đánh giá và kiểm tra mô hình học máy

Câu hỏi về Feature Engineering trong machine learning. Feature Engineering là quá trình chọn lọc, biến đổi và tạo ra các đặc trưng (features) phù hợp từ dữ liệu thô để cải thiện hiệu suất của mô hình học máy. Các đặc trưng tốt giúp mô hình học hiệu quả hơn và đưa ra dự đoán chính xác hơn.

29 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 29: 'Data Visualization' (Trực quan hóa dữ liệu) đóng vai trò như thế nào trong phân tích Dữ liệu Lớn?

Giúp hiểu dữ liệu, phát hiện xu hướng và truyền đạt thông tin hiệu quả

Thay thế cho các phương pháp phân tích dữ liệu phức tạp

Tự động hóa quy trình thu thập và làm sạch dữ liệu

Tăng cường bảo mật và quản lý dữ liệu

Câu hỏi về vai trò của Data Visualization. Data Visualization giúp trình bày dữ liệu và kết quả phân tích một cách trực quan, dễ hiểu và hấp dẫn, giúp người dùng nhanh chóng nắm bắt thông tin, nhận diện xu hướng, pattern và insight, hỗ trợ ra quyết định dựa trên dữ liệu.

30 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 14

Câu 30: Trong bối cảnh ứng dụng Dữ liệu Lớn trong thành phố thông minh (smart city), dữ liệu từ các cảm biến IoT, camera giám sát và hệ thống giao thông có thể được sử dụng để giải quyết vấn đề nào sau đây?

Dự báo thời tiết chính xác hơn

Cải thiện chất lượng không khí

Giảm thiểu ô nhiễm tiếng ồn

Tối ưu hóa luồng giao thông và giảm ùn tắc đô thị

Xem kết quả

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Nhận kết quả

Xảy ra lỗi

Bước 1: Vào google.com rồi gõ từ khóa:
Copy nhanh thanh-tim-kiem

Bước 2: Trong kết quả tìm kiếm Google, hãy tìm website giống hình bên dưới

Nếu trang 1 không có hãy tìm ở trang 2, 3, 4... nhé trang-google

Bước 3:

Cuộn xuống cuối bài viết rồi bấm vào nút GIỐNG HÌNH DƯỚI và chờ 1 lát để lấy mã:

luot-xem

Nếu tìm không thấy mã bạn có thể Đổi nhiệm vụ để lấy mã khác.

Câu hỏi tình huống về ứng dụng Big Data trong smart city. Dữ liệu từ nhiều nguồn khác nhau trong thành phố thông minh có thể được tích hợp và phân tích để giải quyết nhiều vấn đề đô thị, trong đó có tối ưu hóa giao thông và giảm ùn tắc, cải thiện chất lượng cuộc sống đô thị.

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!

Trắc nghiệm Dữ liệu lớn (BigData)

Trắc nghiệm Dữ liệu lớn (BigData) - Đề 15

1 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 1: Dữ liệu lớn (Big Data) thường được mô tả dựa trên các đặc tính 'V'. Đặc tính nào sau đây đề cập đến tốc độ mà dữ liệu được tạo ra, thu thập và xử lý?

Volume

Variety

Velocity

Veracity

Đặc tính Velocity trong Big Data đề cập đến tốc độ dữ liệu được tạo ra, thu thập và xử lý. Đây là yếu tố quan trọng đối với các ứng dụng thời gian thực hoặc gần thời gian thực.

2 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 2: Một công ty thương mại điện tử thu thập dữ liệu từ nhiều nguồn khác nhau bao gồm lịch sử mua hàng (có cấu trúc), nhật ký clickstream trên website (bán cấu trúc), bình luận của khách hàng trên mạng xã hội (không cấu trúc) và dữ liệu cảm biến từ thiết bị IoT (bán cấu trúc/có cấu trúc). Đặc tính 'V' nào của Big Data được thể hiện rõ nhất trong trường hợp này?

Volume

Variety

Velocity

Value

Trường hợp này mô tả việc thu thập dữ liệu từ nhiều định dạng và nguồn khác nhau (có cấu trúc, bán cấu trúc, không cấu trúc), đây chính là đặc tính Variety (Đa dạng) của Big Data.

3 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 3: Hệ thống tệp phân tán Hadoop (HDFS) được thiết kế chủ yếu để giải quyết thách thức nào của Big Data?

Lưu trữ lượng dữ liệu khổng lồ (Volume)

Xử lý dữ liệu tốc độ cao (Velocity)

Đảm bảo tính chính xác của dữ liệu (Veracity)

Phân tích dữ liệu đa dạng (Variety)

HDFS là một hệ thống lưu trữ phân tán, có khả năng mở rộng cao, được thiết kế để lưu trữ lượng dữ liệu khổng lồ (Volume) trên nhiều máy tính thông thường, đồng thời hỗ trợ khả năng chịu lỗi.

4 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 4: Trong kiến trúc HDFS, vai trò chính của NameNode là gì?

Lưu trữ dữ liệu thực tế (các block)

Thực hiện các tác vụ tính toán trên dữ liệu

Quản lý tài nguyên cho các ứng dụng (như YARN)

Quản lý metadata của hệ thống tệp (thông tin về tệp, thư mục, block)

NameNode đóng vai trò là master node trong HDFS, quản lý metadata của hệ thống tệp, bao gồm thông tin về các tệp, thư mục, quyền truy cập và vị trí của các block dữ liệu trên các DataNode.

5 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 5: Nếu một DataNode trong cụm HDFS gặp sự cố và ngừng hoạt động, điều gì sẽ xảy ra với các block dữ liệu mà nó lưu trữ?

NameNode sẽ phát hiện và yêu cầu các DataNode khác sao chép lại các block bị thiếu bản sao.

Dữ liệu trên DataNode đó sẽ bị mất vĩnh viễn.

Các ứng dụng đang truy cập dữ liệu trên DataNode đó sẽ bị lỗi ngay lập tức.

NameNode sẽ tự động chuyển dữ liệu từ DataNode lỗi sang DataNode khác.

HDFS sử dụng cơ chế sao chép (replication). Khi một DataNode lỗi, NameNode sẽ nhận biết các block bị thiếu bản sao (replication factor giảm xuống) và chỉ đạo các DataNode khác sao chép lại các block đó từ các bản sao còn tồn tại để đảm bảo đủ số bản sao theo cấu hình.

6 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 6: Một tệp 200MB được lưu trữ trong HDFS với kích thước block mặc định là 128MB và hệ số sao chép là 3. Tệp này sẽ được chia thành bao nhiêu block logic (không tính bản sao)?

Tệp 200MB được chia thành các block kích thước 128MB. Block đầu tiên là 128MB. Phần còn lại là 200MB - 128MB = 72MB. Phần 72MB này sẽ tạo thành block thứ hai. Do đó, có tổng cộng 2 block logic.

7 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 7: Tiếp theo câu 6, tổng dung lượng lưu trữ vật lý (tính cả các bản sao) mà tệp 200MB này chiếm dụng trên cụm HDFS là bao nhiêu?

200 MB

400 MB

512 MB

600 MB

Có 2 block logic (128MB và 72MB). Mỗi block được sao chép 3 lần. Tổng dung lượng vật lý = (Kích thước block 1 + Kích thước block 2) * Hệ số sao chép = (128MB + 72MB) * 3 = 200MB * 3 = 600MB.

8 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 8: YARN (Yet Another Resource Negotiator) trong Hadoop chịu trách nhiệm chính về điều gì?

Quản lý tài nguyên và lập lịch cho các ứng dụng trong cụm.

Lưu trữ dữ liệu phân tán.

Thực hiện các phép tính Map và Reduce.

Quản lý metadata của hệ thống tệp.

YARN là lớp quản lý tài nguyên của Hadoop 2.x trở đi. Vai trò chính của nó là quản lý tài nguyên (CPU, bộ nhớ) trong cụm và lập lịch cho các ứng dụng khác nhau (như MapReduce, Spark, Tez) chạy trên cụm đó.

9 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 9: MapReduce là một mô hình lập trình để xử lý dữ liệu lớn. Giai đoạn 'Map' trong MapReduce có chức năng gì?

Tổng hợp hoặc tóm tắt các cặp key-value trung gian.

Phân phối các cặp key-value trung gian đến các reducer.

Xử lý dữ liệu đầu vào và tạo ra các cặp key-value trung gian.

Lưu trữ kết quả cuối cùng vào HDFS.

Giai đoạn Map trong MapReduce thường bao gồm việc đọc dữ liệu đầu vào, phân tích (parsing), lọc (filtering), chuyển đổi (transforming) và tạo ra các cặp key-value trung gian.

10 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 10: Giai đoạn 'Reduce' trong MapReduce có chức năng gì?

Tổng hợp hoặc tóm tắt các cặp key-value trung gian đã được nhóm.

Phân chia dữ liệu đầu vào thành các phần nhỏ hơn.

Tạo ra các cặp key-value trung gian từ dữ liệu đầu vào.

Quản lý việc phân phối công việc đến các task tracker.

Giai đoạn Reduce nhận các cặp key-value trung gian đã được nhóm theo key từ giai đoạn Map (sau Shuffle & Sort). Chức năng chính của nó là tổng hợp, tóm tắt hoặc thực hiện các phép tính cuối cùng dựa trên các giá trị được nhóm cho mỗi key.

11 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 11: Tại sao việc di chuyển tính toán đến nơi dữ liệu được lưu trữ (Data Locality) lại quan trọng trong các hệ thống xử lý Big Data như Hadoop?

Để đảm bảo tính nhất quán của dữ liệu.

Để giảm thiểu việc di chuyển dữ liệu qua mạng, tăng hiệu suất xử lý.

Để đơn giản hóa kiến trúc hệ thống.

Để tăng cường bảo mật dữ liệu.

Di chuyển tính toán đến nơi dữ liệu giúp giảm thiểu việc truyền dữ liệu qua mạng, vốn là một nút thắt cổ chai lớn khi xử lý lượng dữ liệu khổng lồ. Việc đọc dữ liệu cục bộ nhanh hơn nhiều so với đọc từ xa qua mạng.

12 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 12: Ngoài HDFS và MapReduce, hệ sinh thái Hadoop còn có nhiều dự án khác. Dự án nào sau đây là một cơ sở dữ liệu NoSQL dạng cột (column-oriented NoSQL database) thường được sử dụng với Hadoop?

Apache Spark

Apache Hive

Apache HBase

Apache Kafka

HBase là một cơ sở dữ liệu phân tán, định hướng cột, được xây dựng trên HDFS. Nó cung cấp khả năng truy cập ngẫu nhiên (random access) hiệu quả cho dữ liệu lớn, trái ngược với truy cập tuần tự (sequential access) của HDFS và MapReduce.

13 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 13: Apache Hive là một công cụ phổ biến trong hệ sinh thái Hadoop. Mục đích chính của Hive là gì?

Cung cấp giao diện giống SQL để truy vấn dữ liệu trong HDFS.

Xử lý dữ liệu luồng (streaming data) theo thời gian thực.

Lưu trữ dữ liệu dưới dạng đồ thị (graph data).

Quản lý tài nguyên cụm Hadoop.

Apache Hive cung cấp một lớp trừu tượng SQL (HiveQL) trên dữ liệu được lưu trữ trong HDFS, cho phép người dùng truy vấn dữ liệu lớn bằng cú pháp giống SQL mà không cần viết mã MapReduce phức tạp. Hive dịch các truy vấn SQL thành các job MapReduce hoặc các engine xử lý khác (như Tez, Spark).

14 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 14: Apache Spark là một nền tảng xử lý dữ liệu lớn phổ biến, thường được xem là thay thế hoặc bổ sung cho MapReduce. Ưu điểm nổi bật nhất của Spark so với MapReduce truyền thống cho các tác vụ lặp (iterative tasks) hoặc xử lý tương tác (interactive processing) là gì?

Khả năng chịu lỗi tốt hơn.

Hỗ trợ nhiều định dạng dữ liệu hơn.

Kiến trúc Master-Slave đơn giản hơn.

Tốc độ xử lý nhanh hơn nhờ xử lý trong bộ nhớ.

Ưu điểm chính của Spark là khả năng xử lý dữ liệu trong bộ nhớ (in-memory processing) thông qua các RDD (Resilient Distributed Datasets) hoặc DataFrame/Dataset. Điều này giúp giảm đáng kể số lần đọc/ghi dữ liệu ra đĩa (HDFS) so với MapReduce truyền thống, đặc biệt hiệu quả cho các thuật toán lặp hoặc truy vấn tương tác.

15 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 15: Khi làm việc với dữ liệu lớn, việc làm sạch và tiền xử lý dữ liệu (Data Cleaning and Preprocessing) là rất quan trọng. Tại sao bước này lại cần thiết trước khi thực hiện phân tích?

Để giảm kích thước dữ liệu, tiết kiệm không gian lưu trữ.

Để tăng tốc độ thu thập dữ liệu.

Để đảm bảo chất lượng và tính chính xác của dữ liệu đầu vào cho phân tích.

Để chuyển đổi tất cả dữ liệu về cùng một định dạng có cấu trúc.

Dữ liệu lớn thường chứa nhiều nhiễu, giá trị thiếu, định dạng không nhất quán hoặc sai lệch. Việc làm sạch và tiền xử lý giúp loại bỏ hoặc sửa chữa những vấn đề này, đảm bảo dữ liệu đầu vào cho phân tích là chính xác và đáng tin cậy, từ đó dẫn đến kết quả phân tích có ý nghĩa hơn.

16 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 16: Một công ty muốn phân tích hành vi người dùng trên website của họ để đưa ra các đề xuất sản phẩm cá nhân hóa theo thời gian thực. Công cụ hoặc công nghệ nào sau đây trong hệ sinh thái Big Data là phù hợp nhất cho việc xử lý dữ liệu luồng (streaming data) tốc độ cao?

Apache Kafka và Apache Flink

Apache Hive và Apache HBase

Apache Sqoop và Apache Pig

HDFS và MapReduce

Apache Kafka và Apache Flink (hoặc Spark Streaming, Storm) là các công nghệ được thiết kế để xử lý dữ liệu luồng (streaming data) theo thời gian thực hoặc gần thời gian thực. Kafka là nền tảng nhắn tin phân tán, Flink/Spark Streaming/Storm là các engine xử lý luồng. Các lựa chọn khác (Hive, HBase, Sqoop) không phù hợp cho xử lý luồng tốc độ cao.

17 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 17: Kỹ thuật Sharding hoặc Partitioning trong cơ sở dữ liệu hoặc hệ thống lưu trữ Big Data nhằm mục đích gì?

Mã hóa dữ liệu để tăng cường bảo mật.

Tạo bản sao dữ liệu để đảm bảo tính sẵn sàng.

Chia nhỏ dữ liệu và phân tán trên nhiều node để cải thiện hiệu suất và khả năng mở rộng.

Tổng hợp dữ liệu từ nhiều nguồn khác nhau.

Sharding/Partitioning là kỹ thuật chia dữ liệu thành các phần nhỏ hơn và lưu trữ chúng trên các node khác nhau. Mục đích chính là phân tán tải (load balancing), cải thiện hiệu suất truy vấn (chỉ cần quét một phần nhỏ dữ liệu) và cho phép mở rộng hệ thống theo chiều ngang (horizontal scaling).

18 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 18: Data Lake là một khái niệm kiến trúc lưu trữ dữ liệu lớn. Đặc điểm khác biệt chính của Data Lake so với Data Warehouse truyền thống là gì?

Data Lake chỉ lưu trữ dữ liệu có cấu trúc, trong khi Data Warehouse lưu trữ mọi loại dữ liệu.

Data Lake lưu trữ dữ liệu ở định dạng thô (raw format) với schema-on-read, còn Data Warehouse lưu trữ dữ liệu đã được xử lý với schema-on-write.

Data Lake chỉ sử dụng công nghệ đám mây, trong khi Data Warehouse chỉ sử dụng hệ thống tại chỗ.

Data Lake chỉ phù hợp cho phân tích báo cáo, còn Data Warehouse phù hợp cho học máy.

Data Lake lưu trữ dữ liệu ở định dạng thô (raw format), không yêu cầu cấu trúc (schema) được định nghĩa trước khi lưu trữ (schema-on-read). Ngược lại, Data Warehouse yêu cầu dữ liệu phải được chuyển đổi và làm sạch để phù hợp với một schema định nghĩa trước khi nhập (schema-on-write).

19 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 19: Khi thiết kế một hệ thống xử lý Big Data, việc lựa chọn giữa xử lý hàng loạt (Batch Processing) và xử lý luồng (Stream Processing) phụ thuộc vào yếu tố nào là chính?

Tổng kích thước của tập dữ liệu.

Định dạng của dữ liệu (có cấu trúc hay không cấu trúc).

Yêu cầu về độ trễ (latency) của kết quả xử lý.

Số lượng người dùng truy cập hệ thống.

Sự lựa chọn giữa xử lý hàng loạt và xử lý luồng phụ thuộc chủ yếu vào yêu cầu về độ trễ (latency) của ứng dụng. Xử lý hàng loạt phù hợp với các tác vụ không yêu cầu kết quả ngay lập tức (độ trễ cao có thể chấp nhận được), trong khi xử lý luồng được dùng cho các ứng dụng cần phản hồi gần như tức thời (độ trễ thấp).

20 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 20: Apache ZooKeeper đóng vai trò gì trong nhiều hệ thống phân tán như Hadoop và Kafka?

Lưu trữ dữ liệu thô (raw data).

Thực hiện các tác vụ tính toán song song.

Cung cấp giao diện truy vấn dữ liệu giống SQL.

Cung cấp các dịch vụ phối hợp như quản lý cấu hình và đồng bộ hóa cho các ứng dụng phân tán.

Apache ZooKeeper là một dịch vụ phối hợp phân tán. Nó cung cấp các dịch vụ trung tâm như quản lý cấu hình, đặt tên, cung cấp đồng bộ hóa phân tán và cung cấp các dịch vụ nhóm (group services). Nó giúp các ứng dụng phân tán phối hợp hoạt động một cách tin cậy.

21 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 21: Giả sử bạn có một tập dữ liệu lớn về các giao dịch khách hàng và muốn tìm ra các nhóm khách hàng có hành vi mua sắm tương tự nhau (phân khúc khách hàng). Thuật toán học máy nào sau đây là phù hợp nhất cho tác vụ này?

K-Means Clustering

Linear Regression

Decision Tree Classification

Principal Component Analysis (PCA)

Phân khúc khách hàng dựa trên hành vi mua sắm là một bài toán phân cụm (Clustering). Thuật toán K-Means là một thuật toán phân cụm phổ biến, phù hợp để nhóm các điểm dữ liệu (khách hàng) thành các cụm dựa trên đặc điểm (hành vi mua sắm).

22 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 22: Một công ty muốn dự đoán doanh số bán hàng cho quý tiếp theo dựa trên dữ liệu bán hàng lịch sử. Đây là loại bài toán học máy nào?

Phân loại (Classification)

Phân cụm (Clustering)

Hồi quy (Regression)

Phát hiện bất thường (Anomaly Detection)

Dự đoán một giá trị liên tục (doanh số bán hàng) dựa trên dữ liệu đầu vào là một bài toán hồi quy (Regression). Các thuật toán hồi quy tuyến tính hoặc hồi quy phi tuyến tính sẽ được sử dụng cho mục đích này.

23 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 23: Khi xử lý dữ liệu lớn trên các hệ thống phân tán như Hadoop hoặc Spark, vấn đề 'Skewed Data' (dữ liệu bị lệch) có thể gây ra những thách thức gì?

Giảm dung lượng lưu trữ cần thiết trên HDFS.

Làm chậm hiệu suất xử lý do một số task phải xử lý lượng dữ liệu lớn hơn nhiều.

Tăng cường khả năng chịu lỗi của hệ thống.

Đơn giản hóa logic của các thuật toán xử lý.

Skewed Data xảy ra khi một số key hoặc partition chứa lượng dữ liệu lớn hơn đáng kể so với các key/partition khác. Điều này dẫn đến việc một số task xử lý (Map hoặc Reduce task) phải xử lý lượng công việc lớn hơn nhiều, trở thành nút thắt cổ chai và làm chậm toàn bộ job. Các worker node khác có thể hoàn thành sớm và chờ đợi node bị 'lệch' này.

24 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 24: Apache Sqoop là một công cụ trong hệ sinh thái Hadoop được sử dụng cho mục đích gì?

Truyền dữ liệu hai chiều giữa cơ sở dữ liệu quan hệ và Hadoop.

Xử lý dữ liệu luồng theo thời gian thực.

Thực hiện các truy vấn SQL trên dữ liệu trong HDFS.

Quản lý vòng đời của các ứng dụng trong cụm YARN.

Apache Sqoop (SQL to Hadoop) được thiết kế để chuyển dữ liệu có cấu trúc giữa các cơ sở dữ liệu quan hệ (RDBMS) như MySQL, PostgreSQL, Oracle, SQL Server và Hadoop (HDFS, Hive, HBase).

25 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 25: Trong bối cảnh bảo mật Big Data, 'Data Masking' là một kỹ thuật được sử dụng để làm gì?

Mã hóa toàn bộ tập dữ liệu khi lưu trữ.

Kiểm tra tính toàn vẹn của dữ liệu.

Nén dữ liệu để tiết kiệm không gian.

Tạo ra các phiên bản dữ liệu giả để bảo vệ thông tin nhạy cảm trong môi trường phi sản xuất.

Data Masking (che giấu dữ liệu) là kỹ thuật tạo ra các phiên bản dữ liệu giả nhưng có cấu trúc và định dạng giống với dữ liệu gốc. Mục đích là để bảo vệ dữ liệu nhạy cảm (ví dụ: số thẻ tín dụng, thông tin cá nhân) trong môi trường phi sản xuất (như phát triển, kiểm thử) mà vẫn cho phép các quy trình làm việc với dữ liệu có vẻ 'thật'.

26 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 26: Một công ty muốn phân tích dữ liệu lớn để hiểu rõ hơn về xu hướng thị trường và hành vi khách hàng nhằm đưa ra quyết định kinh doanh chiến lược. Đây là một ví dụ về ứng dụng của Big Data trong lĩnh vực nào?

Chăm sóc sức khỏe (Healthcare)

Phân tích Kinh doanh (Business Analytics)

Thành phố thông minh (Smart Cities)

Khoa học khí hậu (Climate Science)

Sử dụng dữ liệu lớn để phân tích xu hướng, hành vi và đưa ra quyết định chiến lược là ứng dụng điển hình của Big Data trong Phân tích Kinh doanh (Business Analytics) và Trí tuệ Kinh doanh (Business Intelligence).

27 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 27: Khi triển khai một cụm Hadoop hoặc Spark trên đám mây (Cloud), lợi ích chính so với việc triển khai tại chỗ (On-premises) là gì?

Kiểm soát hoàn toàn cơ sở hạ tầng vật lý.

Độ bảo mật dữ liệu nội bộ cao hơn một cách mặc định.

Khả năng mở rộng linh hoạt và mô hình thanh toán theo sử dụng.

Tốc độ xử lý dữ liệu luôn nhanh hơn.

Triển khai Big Data trên đám mây mang lại lợi ích lớn về khả năng mở rộng linh hoạt (scalability) và mô hình thanh toán theo sử dụng (pay-as-you-go). Doanh nghiệp có thể dễ dàng tăng giảm tài nguyên theo nhu cầu mà không cần đầu tư ban đầu lớn vào phần cứng và cơ sở hạ tầng.

28 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 28: Apache Pig là một nền tảng để phân tích tập dữ liệu lớn. Nó cung cấp một ngôn ngữ bậc cao gọi là Pig Latin. Ưu điểm của Pig Latin là gì?

Cung cấp một ngôn ngữ lập trình bậc cao, dễ sử dụng hơn MapReduce Java.

Thực thi các truy vấn SQL trực tiếp trên HDFS.

Lưu trữ dữ liệu dưới dạng đồ thị.

Quản lý tài nguyên cụm YARN.

Pig Latin là một ngôn ngữ lập trình thủ tục (procedural) bậc cao, trừu tượng hóa sự phức tạp của MapReduce. Nó cho phép người dùng viết các kịch bản phân tích dữ liệu lớn một cách dễ dàng hơn và nhanh hơn so với việc viết trực tiếp các chương trình MapReduce bằng Java.

29 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 29: Trong kiến trúc Lambda, lớp nào chịu trách nhiệm xử lý dữ liệu theo thời gian thực với độ trễ thấp?

Batch Layer

Serving Layer

Speed Layer

Storage Layer

Kiến trúc Lambda bao gồm ba lớp: Batch Layer, Serving Layer và Speed Layer. Speed Layer (lớp tốc độ) được thiết kế để xử lý dữ liệu luồng (streaming data) và cung cấp kết quả gần thời gian thực với độ trễ thấp.

30 / 30

Category: Trắc nghiệm Dữ liệu lớn (BigData)

Tags: Bộ đề 15

Câu 30: Khi thiết kế một hệ thống Big Data, việc xem xét tính 'Veracity' (Tính xác thực/độ tin cậy) của dữ liệu liên quan đến thách thức nào?

Khả năng mở rộng của hệ thống lưu trữ.

Tốc độ xử lý dữ liệu.

Đa dạng về định dạng và nguồn dữ liệu.

Sự không chắc chắn, không chính xác hoặc không nhất quán của dữ liệu.

Xem kết quả

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Nhận kết quả

Xảy ra lỗi

Bước 1: Vào google.com rồi gõ từ khóa:
Copy nhanh thanh-tim-kiem

Bước 2: Trong kết quả tìm kiếm Google, hãy tìm website giống hình bên dưới

Nếu trang 1 không có hãy tìm ở trang 2, 3, 4... nhé trang-google

Bước 3:

Cuộn xuống cuối bài viết rồi bấm vào nút GIỐNG HÌNH DƯỚI và chờ 1 lát để lấy mã:

luot-xem

Nếu tìm không thấy mã bạn có thể Đổi nhiệm vụ để lấy mã khác.

Veracity đề cập đến sự không chắc chắn, không nhất quán, sai lệch hoặc nhiễu trong dữ liệu. Đảm bảo tính xác thực của dữ liệu liên quan đến việc xử lý các vấn đề như dữ liệu không đầy đủ, không chính xác, không nhất quán, hoặc có nguồn gốc không đáng tin cậy. Đây là một thách thức lớn trong việc trích xuất giá trị từ Big Data.

Đề trắc nghiệm liên quan:

Đề Thi Thử Trắc Nghiệm Online – Môn Suy Tim 1
Đề Thi Thử Trắc Nghiệm Online – Môn Lịch Sử Thế Giới Cận Đại
Đề Thi Thử Trắc Nghiệm Online – Môn Luật Giáo Dục
Đề Thi Thử Trắc Nghiệm Online – Môn Đạo Đức Nghề Luật
Đề Thi Thử Trắc Nghiệm Online – Môn Giải Phẫu

Đề 01

Đề 02

Đề 03

Đề 04

Đề 05

Đề 06

Đề 07

Đề 08

Đề 09

Đề 10

Đề 11

Đề 12

Đề 13

Đề 14

Đề 15

Bạn ơi!!! Để xem được kết quảbạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quảbạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quảbạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quảbạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quảbạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quảbạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quảbạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quảbạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quảbạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quảbạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quảbạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quảbạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quảbạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quảbạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quảbạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Đề trắc nghiệm liên quan:

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

Bạn ơi!!! Để xem được kết quả
bạn vui lòng làm nhiệm vụ nhỏ xíu này nha