Bài Tập Trắc nghiệm Tin học 12 - Cánh diều - Bài 3: Giới thiệu về Khoa học dữ liệu ( Tiếp theo) - Đề 09
Bài Tập Trắc nghiệm Tin học 12 - Cánh diều - Bài 3: Giới thiệu về Khoa học dữ liệu ( Tiếp theo) - Đề 09 được xây dựng với nhiều câu hỏi chất lượng, sát với nội dung chương trình học, giúp bạn dễ dàng ôn tập và kiểm tra kiến thức hiệu quả. Hãy cùng bắt đầu làm bài tập trắc nghiệm ngay để nâng cao hiểu biết và chuẩn bị tốt cho kỳ thi sắp tới!
Câu 1: Một công ty thương mại điện tử thu thập dữ liệu về lịch sử duyệt web, hành vi mua sắm và thông tin cá nhân của hàng triệu khách hàng. Lượng dữ liệu này tăng lên nhanh chóng mỗi ngày. Thách thức chính mà công ty này đối mặt liên quan đến đặc trưng nào của Dữ liệu lớn (Big Data)?
- A. Variety (Tính đa dạng)
- B. Velocity (Tốc độ)
- C. Volume (Khối lượng)
- D. Veracity (Tính xác thực)
Câu 2: Dữ liệu lớn bao gồm các loại dữ liệu rất khác nhau, từ văn bản trên mạng xã hội, hình ảnh, video, đến dữ liệu cảm biến và giao dịch tài chính. Việc xử lý và tích hợp các nguồn dữ liệu đa dạng này đòi hỏi những công cụ và kỹ thuật đặc thù. Đặc trưng nào của Dữ liệu lớn được mô tả ở đây?
- A. Volume (Khối lượng)
- B. Velocity (Tốc độ)
- C. Variety (Tính đa dạng)
- D. Value (Giá trị)
Câu 3: Khi phân tích dữ liệu từ các nguồn không chính thống hoặc có độ tin cậy khác nhau (ví dụ: tin đồn trên mạng xã hội, dữ liệu cảm biến bị lỗi), các nhà khoa học dữ liệu cần đặc biệt chú ý đến việc làm sạch và xác minh dữ liệu. Khía cạnh này liên quan đến đặc trưng nào của Dữ liệu lớn?
- A. Volume (Khối lượng)
- B. Variety (Tính đa dạng)
- C. Velocity (Tốc độ)
- D. Veracity (Tính xác thực)
Câu 4: Mục tiêu cuối cùng của việc thu thập, lưu trữ và phân tích Dữ liệu lớn là để trích xuất thông tin hữu ích, tìm ra các xu hướng, mẫu hình ẩn giấu, từ đó đưa ra quyết định kinh doanh tốt hơn, cải thiện dịch vụ hoặc tạo ra sản phẩm mới. Điều này thể hiện đặc trưng nào quan trọng nhất của Dữ liệu lớn?
- A. Value (Giá trị)
- B. Volume (Khối lượng)
- C. Velocity (Tốc độ)
- D. Variety (Tính đa dạng)
Câu 5: Một ngân hàng muốn phân tích lịch sử giao dịch của hàng triệu khách hàng trong 5 năm gần đây để xác định các nhóm khách hàng có rủi ro tín dụng cao. Loại hình phân tích dữ liệu nào phù hợp nhất để thực hiện nhiệm vụ này?
- A. Phân tích mô tả (Descriptive Analytics)
- B. Phân tích dự đoán (Predictive Analytics)
- C. Phân tích quy định (Prescriptive Analytics)
- D. Trực quan hóa dữ liệu (Data Visualization)
Câu 6: Một cửa hàng bán lẻ sau khi thu thập dữ liệu bán hàng trong một tháng, đã tạo ra các báo cáo thống kê, biểu đồ thể hiện doanh thu theo từng mặt hàng, số lượng khách hàng theo ngày và lợi nhuận trung bình. Hoạt động này thuộc loại hình phân tích dữ liệu nào?
- A. Phân tích mô tả (Descriptive Analytics)
- B. Phân tích dự đoán (Predictive Analytics)
- C. Phân tích quy định (Prescriptive Analytics)
- D. Khai phá dữ liệu (Data Mining)
Câu 7: Một hệ thống gợi ý sản phẩm trên trang web thương mại điện tử sử dụng dữ liệu về hành vi mua sắm và lịch sử xem của người dùng để đưa ra các đề xuất sản phẩm phù hợp. Hệ thống này đang áp dụng chủ yếu loại hình phân tích dữ liệu nào?
- A. Phân tích mô tả (Descriptive Analytics)
- B. Phân tích dự đoán (Predictive Analytics)
- C. Phân tích quy định (Prescriptive Analytics)
- D. Trực quan hóa dữ liệu (Data Visualization)
Câu 8: Khai phá dữ liệu (Data Mining) là một phần quan trọng của Khoa học dữ liệu, tập trung vào việc khám phá các mẫu, xu hướng và mối quan hệ ẩn giấu trong các tập dữ liệu lớn. Để làm được điều này, Khai phá dữ liệu chủ yếu sử dụng các kỹ thuật từ hai lĩnh vực chính nào?
- A. Thiết kế đồ họa và đa phương tiện
- B. Lập trình web và cơ sở dữ liệu quan hệ
- C. Học máy (Machine Learning) và Thống kê (Statistics)
- D. Mạng máy tính và bảo mật thông tin
Câu 9: Giả sử bạn cần lưu trữ một lượng lớn dữ liệu phi cấu trúc như hàng triệu tệp âm thanh, video và bài đăng trên mạng xã hội cho dự án Khoa học dữ liệu của mình. Loại cơ sở dữ liệu nào sau đây thường được xem là phù hợp hơn so với cơ sở dữ liệu quan hệ truyền thống (SQL) cho mục đích này?
- A. Cơ sở dữ liệu NoSQL
- B. Cơ sở dữ liệu quan hệ (SQL)
- C. Cơ sở dữ liệu phân tán (Distributed Database)
- D. Cơ sở dữ liệu đồ thị (Graph Database)
Câu 10: Để xử lý các tác vụ phân tích dữ liệu phức tạp và tốn kém về mặt tính toán trên các tập dữ liệu lớn trong thời gian hợp lý, các nhà khoa học dữ liệu thường cần tận dụng sức mạnh của nhiều máy tính hoạt động song song. Mô hình kiến trúc phần cứng nào mô tả việc tập hợp nhiều máy tính riêng lẻ để hoạt động như một hệ thống duy nhất với hiệu năng cao?
- A. Máy tính cá nhân (Personal Computer)
- B. Máy chủ đơn lẻ (Single Server)
- C. Máy tính cụm (Computer Cluster)
- D. Máy tính nhúng (Embedded System)
Câu 11: Một trong những thách thức của Dữ liệu lớn là tốc độ tạo ra dữ liệu rất nhanh (Velocity). Để xử lý dữ liệu "đang di chuyển" này (data in motion) một cách hiệu quả, chẳng hạn như luồng dữ liệu từ cảm biến IoT hoặc giao dịch tài chính theo thời gian thực, Khoa học dữ liệu cần áp dụng các kỹ thuật và công nghệ xử lý nào?
- A. Chỉ xử lý dữ liệu theo lô (Batch Processing)
- B. Lưu trữ dữ liệu trên thiết bị cá nhân
- C. Giảm khối lượng dữ liệu trước khi xử lý
- D. Xử lý dữ liệu theo luồng (Stream Processing)
Câu 12: Việc sử dụng Điện toán đám mây (Cloud Computing) trong Khoa học dữ liệu mang lại nhiều lợi ích đáng kể. Lợi ích nào sau đây là nổi bật nhất khi làm việc với Dữ liệu lớn, đặc biệt là về mặt tài nguyên tính toán và lưu trữ?
- A. Cung cấp khả năng mở rộng linh hoạt về lưu trữ và tính toán theo nhu cầu.
- B. Đảm bảo dữ liệu luôn có cấu trúc rõ ràng.
- C. Loại bỏ hoàn toàn nhu cầu về thuật toán phân tích.
- D. Chỉ cho phép truy cập dữ liệu từ một địa điểm cố định.
Câu 13: Thuật toán song song (Parallel Algorithms) đóng vai trò quan trọng trong việc xử lý Dữ liệu lớn. Vai trò chính của chúng là gì?
- A. Giảm thiểu lỗi trong dữ liệu.
- B. Chỉ hoạt động với dữ liệu có cấu trúc.
- C. Cho phép thực hiện nhiều phép tính đồng thời để tăng tốc xử lý.
- D. Tạo ra dữ liệu tổng hợp từ dữ liệu thô.
Câu 14: Khi một nhà khoa học dữ liệu sử dụng các kỹ thuật thống kê để tóm tắt các đặc điểm chính của một tập dữ liệu (ví dụ: tính giá trị trung bình, độ lệch chuẩn, vẽ biểu đồ phân phối), họ đang thực hiện loại phân tích nào?
- A. Phân tích mô tả (Descriptive Analytics)
- B. Phân tích dự đoán (Predictive Analytics)
- C. Phân tích quy định (Prescriptive Analytics)
- D. Khai phá dữ liệu (Data Mining)
Câu 15: Một công ty vận tải muốn tối ưu hóa các tuyến đường giao hàng của mình dựa trên dữ liệu giao thông thời gian thực, dự báo thời tiết và vị trí các đơn hàng. Mục tiêu là đưa ra các quyết định về tuyến đường tối ưu nhất cho các tài xế. Loại hình phân tích dữ liệu nào phù hợp nhất cho mục tiêu này?
- A. Phân tích mô tả (Descriptive Analytics)
- B. Phân tích dự đoán (Predictive Analytics)
- C. Phân tích quy định (Prescriptive Analytics)
- D. Trực quan hóa dữ liệu (Data Visualization)
Câu 16: Trong ngữ cảnh Dữ liệu lớn, việc xử lý dữ liệu tại chỗ (in-situ processing), tức là xử lý dữ liệu ngay tại nơi nó được lưu trữ thay vì di chuyển toàn bộ dữ liệu đến một máy tính trung tâm, giúp giải quyết thách thức nào chủ yếu?
- A. Giảm thời gian và chi phí di chuyển dữ liệu lớn (Volume).
- B. Tăng tính đa dạng của dữ liệu (Variety).
- C. Cải thiện tính xác thực của dữ liệu (Veracity).
- D. Chỉ áp dụng cho dữ liệu có cấu trúc.
Câu 17: Hệ thống Hadoop và Spark là các framework phổ biến được sử dụng để xử lý Dữ liệu lớn. Chức năng cốt lõi của các hệ thống này là gì?
- A. Chỉ dùng để tạo ra các báo cáo thống kê đơn giản.
- B. Chỉ hỗ trợ lưu trữ dữ liệu trên một máy chủ duy nhất.
- C. Chỉ phục vụ cho việc trực quan hóa dữ liệu.
- D. Hỗ trợ lưu trữ và xử lý phân tán dữ liệu lớn trên cụm máy tính.
Câu 18: Trực quan hóa dữ liệu (Data Visualization) đóng vai trò quan trọng trong Khoa học dữ liệu, đặc biệt là sau khi thực hiện phân tích. Mục đích chính của trực quan hóa dữ liệu là gì?
- A. Tự động làm sạch và xử lý dữ liệu thô.
- B. Trình bày kết quả phân tích một cách dễ hiểu và trực quan cho con người.
- C. Thực hiện các mô hình học máy phức tạp.
- D. Lưu trữ an toàn dữ liệu phi cấu trúc.
Câu 19: Một trong những thách thức lớn nhất khi làm việc với đặc trưng Veracity (Tính xác thực) của Dữ liệu lớn là gì?
- A. Tốc độ dữ liệu tạo ra quá nhanh để xử lý kịp thời.
- B. Khối lượng dữ liệu vượt quá khả năng lưu trữ của một máy tính.
- C. Sự đa dạng về định dạng và nguồn của dữ liệu.
- D. Đảm bảo độ tin cậy, chính xác và xử lý sự không chắc chắn của dữ liệu từ các nguồn khác nhau.
Câu 20: Khoa học dữ liệu không chỉ đơn thuần là thu thập và lưu trữ dữ liệu. Yếu tố nào sau đây là quan trọng nhất để chuyển đổi dữ liệu thô thành "giá trị" (Value) có ý nghĩa?
- A. Khối lượng dữ liệu càng lớn càng tốt.
- B. Chỉ lưu trữ dữ liệu có cấu trúc.
- C. Áp dụng các kỹ thuật phân tích và khai phá để trích xuất tri thức.
- D. Thu thập dữ liệu từ càng nhiều nguồn càng tốt mà không cần kiểm tra.
Câu 21: Khi một nhà khoa học dữ liệu xây dựng một mô hình học máy để dự đoán khả năng một khách hàng sẽ rời bỏ dịch vụ (churn prediction), họ đang thực hiện loại hình phân tích nào?
- A. Phân tích mô tả (Descriptive Analytics)
- B. Phân tích dự đoán (Predictive Analytics)
- C. Phân tích quy định (Prescriptive Analytics)
- D. Trực quan hóa dữ liệu (Data Visualization)
Câu 22: Một hệ thống quản lý năng lượng của tòa nhà sử dụng dữ liệu cảm biến để theo dõi mức tiêu thụ điện, nhiệt độ, độ ẩm và dự báo nhu cầu năng lượng trong ngày. Dựa trên dự báo này, hệ thống tự động điều chỉnh cài đặt HVAC (sưởi ấm, thông gió, điều hòa không khí) để tiết kiệm năng lượng. Đây là một ví dụ về ứng dụng loại hình phân tích nào?
- A. Phân tích mô tả (Descriptive Analytics)
- B. Phân tích dự đoán (Predictive Analytics)
- C. Phân tích quy định (Prescriptive Analytics)
- D. Khai phá dữ liệu (Data Mining)
Câu 23: Trong quy trình Khoa học dữ liệu, bước nào thường được thực hiện sau khi dữ liệu đã được thu thập, làm sạch và tích hợp, nhằm mục đích tìm kiếm các mẫu hình, mối quan hệ hoặc tri thức ẩn giấu trong dữ liệu?
- A. Khai phá dữ liệu (Data Mining)
- B. Thu thập dữ liệu (Data Collection)
- C. Làm sạch dữ liệu (Data Cleaning)
- D. Trực quan hóa dữ liệu (Data Visualization)
Câu 24: Để xử lý hiệu quả khối lượng dữ liệu khổng lồ (Volume) và tốc độ dữ liệu nhanh chóng (Velocity) của Big Data, cơ sở hạ tầng công nghệ thông tin cần có khả năng mở rộng linh hoạt. Công nghệ nào sau đây cung cấp khả năng mở rộng tài nguyên tính toán và lưu trữ theo nhu cầu một cách hiệu quả nhất?
- A. Máy chủ vật lý đơn lẻ.
- B. Thiết bị lưu trữ ngoài (External Hard Drive).
- C. Mạng cục bộ (Local Area Network - LAN).
- D. Điện toán đám mây (Cloud Computing).
Câu 25: Dữ liệu lớn được mô tả bằng 5 chữ V: Volume, Velocity, Variety, Veracity, và Value. Chữ V nào liên quan trực tiếp đến quy mô và số lượng dữ liệu được tạo ra và lưu trữ?
- A. Volume
- B. Velocity
- C. Variety
- D. Value
Câu 26: Một công ty truyền thông xã hội cần phân tích hàng tỷ bài đăng, hình ảnh, video và bình luận mỗi ngày để phát hiện xu hướng, phân loại nội dung và nhận diện thông tin sai lệch. Việc xử lý loại dữ liệu đa dạng này đặt ra thách thức lớn về đặc trưng nào của Dữ liệu lớn?
- A. Volume (Khối lượng)
- B. Variety (Tính đa dạng)
- C. Veracity (Tính xác thực)
- D. Value (Giá trị)
Câu 27: Khi một tổ chức sử dụng các công cụ và kỹ thuật Khoa học dữ liệu để hiểu rõ hơn về hành vi khách hàng trong quá khứ và hiện tại nhằm cải thiện trải nghiệm mua sắm trực tuyến, họ đang tập trung vào việc khai thác khía cạnh nào của Dữ liệu lớn?
- A. Velocity (Tốc độ)
- B. Variety (Tính đa dạng)
- C. Volume (Khối lượng)
- D. Value (Giá trị)
Câu 28: Hệ thống gợi ý phim trên một nền tảng xem video trực tuyến sử dụng dữ liệu về lịch sử xem, đánh giá và sở thích của người dùng để đề xuất các bộ phim mới. Hệ thống này dựa chủ yếu vào loại hình phân tích dữ liệu nào?
- A. Phân tích mô tả
- B. Phân tích dự đoán
- C. Phân tích quy định
- D. Trực quan hóa dữ liệu
Câu 29: Một nhà khoa học dữ liệu đang làm việc với một tập dữ liệu bán hàng lớn. Anh ta tính toán tổng doanh thu theo từng khu vực, số lượng sản phẩm bán chạy nhất và vẽ biểu đồ thể hiện xu hướng bán hàng trong năm qua. Anh ta đang thực hiện loại hình phân tích nào?
- A. Phân tích mô tả
- B. Phân tích dự đoán
- C. Phân tích quy định
- D. Khai phá dữ liệu
Câu 30: Giả sử bạn là nhà khoa học dữ liệu tại một công ty sản xuất và cần tối ưu hóa lịch trình sản xuất để giảm thiểu chi phí và tăng hiệu quả. Bạn có dữ liệu về tồn kho, đơn đặt hàng, năng lực máy móc và thời gian giao hàng. Bạn nên sử dụng loại hình phân tích dữ liệu nào để đưa ra các quyết định về lịch trình sản xuất tối ưu?
- A. Phân tích mô tả
- B. Phân tích dự đoán
- C. Phân tích quy định
- D. Trực quan hóa dữ liệu