Bài Tập Trắc nghiệm Tin học 12 - Chân trời sáng tạo - Bài F15: Khoa học dữ liệu - Đề 03
Bài Tập Trắc nghiệm Tin học 12 - Chân trời sáng tạo - Bài F15: Khoa học dữ liệu - Đề 03 được xây dựng với nhiều câu hỏi chất lượng, sát với nội dung chương trình học, giúp bạn dễ dàng ôn tập và kiểm tra kiến thức hiệu quả. Hãy cùng bắt đầu làm bài tập trắc nghiệm ngay để nâng cao hiểu biết và chuẩn bị tốt cho kỳ thi sắp tới!
Câu 1: Khoa học dữ liệu (Data Science) là lĩnh vực liên ngành tập trung vào việc trích xuất tri thức và hiểu biết từ dữ liệu dưới nhiều hình thức khác nhau. Lĩnh vực này kết hợp kiến thức và kỹ năng từ những mảng chính nào?
- A. Văn học, Nghệ thuật và Thể thao
- B. Kinh tế học, Luật học và Xã hội học
- C. Toán học, Thống kê, Khoa học máy tính và Kiến thức chuyên ngành
- D. Địa lý, Sinh học và Lịch sử
Câu 2: Một công ty thương mại điện tử muốn hiểu rõ hành vi mua sắm của khách hàng để cải thiện trải nghiệm người dùng và tăng doanh số. Họ thu thập dữ liệu từ lịch sử duyệt web, các giao dịch đã thực hiện, và thông tin nhân khẩu học. Hoạt động này phù hợp nhất với mục tiêu nào của Khoa học dữ liệu?
- A. Giảm thiểu chi phí lưu trữ dữ liệu
- B. Tăng tốc độ truy cập internet
- C. Chỉ để lưu trữ thông tin khách hàng
- D. Khám phá tri thức và hiểu biết sâu sắc về khách hàng
Câu 3: Một nhà khoa học dữ liệu đang phân tích một tập dữ liệu lớn về các giao dịch ngân hàng để tìm ra những mẫu bất thường có thể là dấu hiệu của hoạt động gian lận. Kỹ thuật nào sau đây trong Khoa học dữ liệu là phù hợp nhất cho mục đích này?
- A. Khai phá luật kết hợp (Association Rule Mining)
- B. Phát hiện ngoại lệ (Outlier Detection)
- C. Gom cụm (Clustering)
- D. Giảm chiều dữ liệu (Dimensionality Reduction)
Câu 4: Một bệnh viện muốn phân loại bệnh nhân thành các nhóm có nguy cơ mắc một bệnh cụ thể (ví dụ: nguy cơ cao, trung bình, thấp) dựa trên các yếu tố như tuổi tác, tiền sử bệnh, kết quả xét nghiệm. Kỹ thuật Khoa học dữ liệu nào thường được sử dụng để xây dựng mô hình phân loại như vậy?
- A. Phân lớp/Phân loại (Classification)
- B. Hồi quy (Regression)
- C. Gom cụm (Clustering)
- D. Trực quan hóa dữ liệu (Data Visualization)
Câu 5: Khi một nhà khoa học dữ liệu sử dụng các biểu đồ, đồ thị (như biểu đồ cột, biểu đồ đường, biểu đồ phân tán) để trình bày các xu hướng, mẫu hình và mối quan hệ trong dữ liệu, họ đang thực hiện hoạt động nào trong quy trình Khoa học dữ liệu?
- A. Thu thập dữ liệu (Data Collection)
- B. Làm sạch dữ liệu (Data Cleaning)
- C. Trực quan hóa dữ liệu (Data Visualization)
- D. Xây dựng mô hình (Model Building)
Câu 6: Dữ liệu thô thu thập được thường chứa nhiều lỗi, giá trị thiếu, hoặc định dạng không nhất quán. Bước nào trong quy trình Khoa học dữ liệu là cần thiết để xử lý những vấn đề này, đảm bảo dữ liệu sẵn sàng cho phân tích?
- A. Xây dựng mô hình (Model Building)
- B. Làm sạch và tiền xử lý dữ liệu (Data Cleaning and Preprocessing)
- C. Triển khai mô hình (Model Deployment)
- D. Trực quan hóa dữ liệu (Data Visualization)
Câu 7: Một nhà bán lẻ trực tuyến sử dụng dữ liệu về lịch sử mua sắm và các mặt hàng khách hàng đã xem để gợi ý các sản phẩm có thể họ quan tâm. Hệ thống gợi ý này là một ứng dụng điển hình của Khoa học dữ liệu trong lĩnh vực nào?
- A. Thương mại điện tử / Bán lẻ
- B. Y tế
- C. Giáo dục
- D. Nông nghiệp
Câu 8: Trong lĩnh vực y tế, Khoa học dữ liệu có thể được ứng dụng để phân tích hình ảnh y khoa (như X-quang, MRI) nhằm hỗ trợ bác sĩ trong việc chẩn đoán bệnh. Ứng dụng này thường sử dụng các kỹ thuật từ lĩnh vực con nào của Trí tuệ nhân tạo, vốn là một phần quan trọng của Khoa học dữ liệu?
- A. Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP)
- B. Robot học (Robotics)
- C. Thị giác máy tính (Computer Vision)
- D. Hệ chuyên gia (Expert Systems)
Câu 9: Một công ty sản xuất muốn dự báo lượng cầu cho sản phẩm của mình trong quý tới dựa trên dữ liệu bán hàng lịch sử, các chiến dịch marketing và các yếu tố kinh tế vĩ mô. Bài toán dự báo một giá trị liên tục (số lượng sản phẩm) dựa trên dữ liệu quá khứ thuộc loại kỹ thuật nào trong Khoa học dữ liệu?
- A. Phân loại (Classification)
- B. Hồi quy (Regression)
- C. Gom cụm (Clustering)
- D. Phát hiện ngoại lệ (Outlier Detection)
Câu 10: Một trong những thách thức lớn khi làm việc với "Big Data" trong Khoa học dữ liệu là gì?
- A. Dữ liệu Big Data luôn có chất lượng hoàn hảo và không cần làm sạch.
- B. Big Data chỉ có thể được phân tích bằng các công cụ truyền thống.
- C. Khối lượng, tốc độ và sự đa dạng của dữ liệu không gây ra khó khăn gì.
- D. Yêu cầu về hạ tầng lưu trữ và xử lý, cũng như kỹ thuật phân tích phù hợp với quy mô và tính chất dữ liệu.
Câu 11: Công cụ hoặc ngôn ngữ lập trình nào sau đây được sử dụng phổ biến trong Khoa học dữ liệu để phân tích, xử lý và trực quan hóa dữ liệu, đặc biệt là khi làm việc với các thư viện mạnh mẽ như Pandas, NumPy, Scikit-learn, Matplotlib?
- A. Python
- B. Microsoft Word
- C. Adobe Photoshop
- D. C++
Câu 12: Giả sử bạn có một tập dữ liệu về khách hàng và muốn chia họ thành các nhóm khác nhau dựa trên các đặc điểm tương đồng (mà không biết trước các nhóm này là gì, ví dụ: nhóm khách hàng chi tiêu cao, nhóm khách hàng mới...). Kỹ thuật Khoa học dữ liệu nào là phù hợp nhất để thực hiện việc phân nhóm này?
- A. Phân loại (Classification)
- B. Hồi quy (Regression)
- C. Gom cụm (Clustering)
- D. Phát hiện ngoại lệ (Outlier Detection)
Câu 13: Một trong những thành tựu quan trọng của Khoa học dữ liệu là khả năng cá nhân hóa trải nghiệm người dùng. Ví dụ nào sau đây thể hiện rõ nhất thành tựu này?
- A. Tất cả người dùng trên một trang web đều thấy cùng một quảng cáo.
- B. Một nền tảng xem phim gợi ý các bộ phim dựa trên lịch sử xem của từng người dùng.
- C. Một ứng dụng di động yêu cầu người dùng nhập lại thông tin cá nhân mỗi lần sử dụng.
- D. Các email khuyến mãi được gửi hàng loạt đến tất cả khách hàng mà không phân biệt.
Câu 14: Trong quy trình Khoa học dữ liệu, sau khi dữ liệu đã được thu thập, làm sạch và tiền xử lý, bước tiếp theo thường là khám phá và trực quan hóa dữ liệu. Mục đích chính của bước này là gì?
- A. Tìm hiểu cấu trúc dữ liệu, nhận diện mẫu hình, xu hướng, mối quan hệ và các điểm bất thường ban đầu.
- B. Xây dựng mô hình dự đoán cuối cùng.
- C. Triển khai mô hình vào hệ thống sản xuất.
- D. Chỉ để làm cho dữ liệu trông đẹp mắt hơn.
Câu 15: Một nhà khoa học dữ liệu đã xây dựng xong một mô hình dự đoán. Bước quan trọng tiếp theo trước khi đưa mô hình vào sử dụng thực tế là gì?
- A. Thu thập thêm dữ liệu mới mà không cần kiểm tra mô hình.
- B. Xóa bỏ tất cả dữ liệu gốc.
- C. Đánh giá hiệu suất của mô hình bằng các chỉ số phù hợp và trên dữ liệu độc lập.
- D. Thay đổi thuật toán mô hình một cách ngẫu nhiên.
Câu 16: Công cụ nào sau đây chủ yếu được thiết kế để tạo ra các báo cáo tương tác và bảng điều khiển (dashboard) giúp người dùng không chuyên về kỹ thuật cũng có thể khám phá và hiểu dữ liệu một cách trực quan?
- A. Trình biên dịch C++
- B. Hệ quản trị cơ sở dữ liệu (DBMS)
- C. Phần mềm xử lý văn bản
- D. Công cụ trực quan hóa dữ liệu và Business Intelligence (BI)
Câu 17: Khi phân tích dữ liệu, việc giảm số lượng các thuộc tính (biến) trong tập dữ liệu nhưng vẫn giữ lại phần lớn thông tin quan trọng được gọi là kỹ thuật gì? Kỹ thuật này giúp giảm thời gian xử lý và tránh hiện tượng "lời nguyền chiều dữ liệu".
- A. Giảm chiều dữ liệu (Dimensionality Reduction)
- B. Tăng chiều dữ liệu (Dimensionality Expansion)
- C. Chuẩn hóa dữ liệu (Data Normalization)
- D. Làm sạch dữ liệu (Data Cleaning)
Câu 18: Một công ty giao thông công cộng thu thập dữ liệu từ các cảm biến trên xe buýt về tốc độ, vị trí, số lượng hành khách theo thời gian. Họ muốn sử dụng dữ liệu này để tối ưu hóa lịch trình và các tuyến đường. Đây là một ví dụ về ứng dụng của Khoa học dữ liệu trong việc:
- A. Tăng số lượng xe buýt một cách ngẫu nhiên
- B. Chỉ để theo dõi vị trí xe buýt
- C. Tối ưu hóa hoạt động và ra quyết định dựa trên dữ liệu thời gian thực
- D. Giảm chất lượng dịch vụ cho hành khách
Câu 19: Sự khác biệt cốt lõi giữa Thống kê truyền thống và Khoa học dữ liệu hiện đại là gì?
- A. Thống kê chỉ làm việc với dữ liệu số, còn Khoa học dữ liệu thì không.
- B. Khoa học dữ liệu chỉ sử dụng các phương pháp từ Thống kê.
- C. Thống kê tập trung vào việc xây dựng các mô hình dự đoán phức tạp, còn KHDL thì không.
- D. Khoa học dữ liệu có phạm vi rộng hơn, kết hợp Thống kê với Khoa học máy tính, AI và kiến thức chuyên ngành để xử lý dữ liệu lớn, đa dạng và đưa ra các giải pháp thực tế.
Câu 20: Một nhà khoa học dữ liệu cần trình bày kết quả phân tích của mình cho một nhóm quản lý không có nền tảng kỹ thuật sâu. Hình thức nào sau đây là hiệu quả nhất để truyền đạt thông tin một cách dễ hiểu và thuyết phục?
- A. Sử dụng các biểu đồ, đồ thị trực quan và giải thích kết quả bằng ngôn ngữ đơn giản, tập trung vào ý nghĩa kinh doanh/thực tế.
- B. Trình bày tất cả các công thức toán học và thuật toán phức tạp đã sử dụng.
- C. Chỉ đưa ra bảng số liệu thô mà không có bất kỳ hình ảnh hay giải thích nào.
- D. Sử dụng biệt ngữ kỹ thuật chuyên sâu mà không giải thích.
Câu 21: Công ty X muốn tự động hóa quy trình phân loại email khách hàng thành các danh mục như "Hỗ trợ kỹ thuật", "Yêu cầu bán hàng", "Phản hồi". Họ có sẵn một lượng lớn email đã được gán nhãn trước đó. Kỹ thuật Khoa học dữ liệu nào là phù hợp nhất để xây dựng hệ thống tự động này?
- A. Gom cụm (Clustering)
- B. Phân loại (Classification)
- C. Phát hiện ngoại lệ (Outlier Detection)
- D. Giảm chiều dữ liệu (Dimensionality Reduction)
Câu 22: Khi xây dựng một mô hình dự đoán, việc chia tập dữ liệu ban đầu thành tập huấn luyện (training set) và tập kiểm tra (test set) là một bước quan trọng. Mục đích chính của việc này là gì?
- A. Giúp mô hình học thuộc lòng dữ liệu huấn luyện.
- B. Làm cho quá trình huấn luyện mô hình chậm hơn.
- C. Đánh giá khả năng tổng quát hóa của mô hình trên dữ liệu mới, chưa từng thấy.
- D. Loại bỏ các giá trị thiếu trong dữ liệu.
Câu 23: Một trong những ứng dụng tiềm năng của Khoa học dữ liệu trong lĩnh vực giáo dục là gì?
- A. Chỉ dùng để quản lý danh sách học sinh.
- B. Thay thế hoàn toàn giáo viên bằng máy tính.
- C. In ấn sách giáo khoa số lượng lớn.
- D. Phân tích dữ liệu học tập của học sinh để cá nhân hóa lộ trình học hoặc phát hiện sớm học sinh có nguy cơ gặp khó khăn.
Câu 24: Thuật ngữ "Học máy" (Machine Learning) có mối quan hệ như thế nào với Khoa học dữ liệu?
- A. Học máy là một tập hợp con quan trọng của Khoa học dữ liệu, cung cấp các thuật toán để xây dựng mô hình từ dữ liệu.
- B. Khoa học dữ liệu là một tập hợp con của Học máy.
- C. Học máy và Khoa học dữ liệu là hai lĩnh vực hoàn toàn tách biệt.
- D. Học máy chỉ liên quan đến dữ liệu phi cấu trúc, còn Khoa học dữ liệu thì không.
Câu 25: Khi sử dụng Khoa học dữ liệu để phân tích dữ liệu nhạy cảm (ví dụ: thông tin sức khỏe, tài chính cá nhân), vấn đề đạo đức nào sau đây cần được đặc biệt quan tâm?
- A. Tốc độ xử lý dữ liệu.
- B. Màu sắc của biểu đồ trực quan.
- C. Bảo vệ quyền riêng tư và bảo mật thông tin của cá nhân.
- D. Số lượng thuật toán được sử dụng.
Câu 26: Một nhà khoa học dữ liệu đang phân tích dữ liệu bán hàng theo thời gian để xác định xu hướng tăng trưởng và dự báo doanh số cho các tháng tiếp theo. Kỹ thuật phân tích nào sau đây là cốt lõi cho bài toán này?
- A. Phân tích hình ảnh.
- B. Xử lý ngôn ngữ tự nhiên.
- C. Phân tích mạng xã hội.
- D. Phân tích chuỗi thời gian và dự báo.
Câu 27: Việc thu thập dữ liệu từ nhiều nguồn khác nhau (cơ sở dữ liệu nội bộ, API công cộng, web scraping...) là bước đầu tiên và quan trọng trong quy trình Khoa học dữ liệu. Thách thức chính ở bước này thường là gì?
- A. Dữ liệu từ các nguồn khác nhau luôn có định dạng giống hệt nhau.
- B. Đảm bảo tính toàn vẹn, nhất quán và phù hợp của dữ liệu từ các nguồn phân tán, đa dạng.
- C. Dữ liệu thu thập được luôn sạch và không chứa lỗi.
- D. Việc thu thập dữ liệu luôn diễn ra tức thời và không tốn thời gian.
Câu 28: Một công ty sử dụng Khoa học dữ liệu để xây dựng một mô hình dự đoán nguy cơ khách hàng rời bỏ dịch vụ (churn prediction). Mô hình này sẽ phân loại khách hàng thành hai nhóm: "có nguy cơ rời bỏ" và "không có nguy cơ rời bỏ". Mục đích chính của việc này là gì?
- A. Xác định khách hàng có nguy cơ cao để có chiến lược giữ chân phù hợp.
- B. Tăng số lượng khách hàng rời bỏ.
- C. Giảm chất lượng dịch vụ cho khách hàng trung thành.
- D. Chỉ để biết số lượng khách hàng.
Câu 29: Khi một mô hình Khoa học dữ liệu được "triển khai" (deployed), điều đó có nghĩa là gì?
- A. Mô hình chỉ được lưu trữ trong máy tính của nhà khoa học dữ liệu.
- B. Mô hình được xóa đi sau khi hoàn thành.
- C. Mô hình được sử dụng để huấn luyện lại với dữ liệu cũ.
- D. Mô hình được tích hợp vào hệ thống hoặc ứng dụng thực tế để đưa ra dự đoán hoặc quyết định tự động dựa trên dữ liệu mới.
Câu 30: Một nhà khoa học dữ liệu cần phân tích mối quan hệ giữa thói quen ăn uống và nguy cơ mắc bệnh tim mạch từ một tập dữ liệu khảo sát sức khỏe. Để tìm ra các nhóm người có thói quen ăn uống tương tự nhau mà không cần biết trước các nhóm này là gì, kỹ thuật nào sẽ hữu ích nhất?
- A. Phân loại (Classification)
- B. Gom cụm (Clustering)
- C. Hồi quy (Regression)
- D. Phát hiện ngoại lệ (Outlier Detection)