Bài Tập Trắc nghiệm Tin học 12 - Chân trời sáng tạo - Bài F16: Máy tính, thuật toán và Khoa học dữ liệu - Đề 02
Bài Tập Trắc nghiệm Tin học 12 - Chân trời sáng tạo - Bài F16: Máy tính, thuật toán và Khoa học dữ liệu - Đề 02 được xây dựng với nhiều câu hỏi chất lượng, sát với nội dung chương trình học, giúp bạn dễ dàng ôn tập và kiểm tra kiến thức hiệu quả. Hãy cùng bắt đầu làm bài tập trắc nghiệm ngay để nâng cao hiểu biết và chuẩn bị tốt cho kỳ thi sắp tới!
Câu 1: Một công ty thương mại điện tử đang xử lý hàng triệu giao dịch mua bán mỗi ngày. Để phân tích hành vi khách hàng theo thời gian thực và đưa ra gợi ý sản phẩm tức thì, họ cần một hệ thống máy tính có năng lực xử lý mạnh mẽ. Vai trò cốt lõi nào của máy tính được nhấn mạnh trong tình huống này liên quan đến đặc điểm "Velocity" của Dữ liệu lớn?
- A. Khả năng lưu trữ dữ liệu lịch sử.
- B. Khả năng tạo ra dữ liệu mới.
- C. Khả năng xử lý dữ liệu theo thời gian thực.
- D. Khả năng trực quan hóa dữ liệu đơn giản.
Câu 2: Một nhà khoa học dữ liệu đang làm việc với một tập dữ liệu khách hàng thu thập từ nhiều nguồn khác nhau bao gồm: phiếu khảo sát giấy (đã scan thành ảnh), bản ghi âm cuộc gọi hỗ trợ khách hàng, lịch sử duyệt web và dữ liệu đơn hàng trong cơ sở dữ liệu. Sự đa dạng về định dạng và cấu trúc của dữ liệu này thể hiện đặc điểm nào của Dữ liệu lớn?
- A. Volume (Khối lượng).
- B. Variety (Đa dạng).
- C. Velocity (Tốc độ).
- D. Veracity (Độ tin cậy).
Câu 3: Trong quy trình Khoa học dữ liệu, giai đoạn nào tập trung vào việc xử lý các giá trị thiếu, loại bỏ dữ liệu trùng lặp, sửa lỗi định dạng và chuyển đổi dữ liệu sang một cấu trúc phù hợp cho việc phân tích tiếp theo?
- A. Xác định vấn đề.
- B. Thu thập dữ liệu.
- C. Xây dựng mô hình.
- D. Chuẩn bị dữ liệu.
Câu 4: Một thuật toán xử lý ảnh được thiết kế để chia nhỏ bức ảnh thành hàng nghìn pixel và xử lý màu sắc, độ sáng của từng pixel đó một cách đồng thời trên nhiều lõi xử lý của máy tính. Kỹ thuật xử lý này minh họa cho loại thuật toán nào giúp tăng hiệu quả xử lý dữ liệu lớn?
- A. Thuật toán xử lý song song.
- B. Thuật toán sắp xếp.
- C. Thuật toán tìm kiếm.
- D. Thuật toán mã hóa.
Câu 5: Một công ty muốn xây dựng một hệ thống dự đoán khả năng một khách hàng sẽ rời bỏ dịch vụ trong 3 tháng tới dựa trên lịch sử sử dụng và thông tin cá nhân của họ. Đây là một bài toán điển hình của Khoa học dữ liệu. Bước đầu tiên quan trọng nhất mà nhóm Khoa học dữ liệu cần thực hiện là gì?
- A. Thu thập tất cả dữ liệu khách hàng có sẵn.
- B. Xác định rõ vấn đề cần giải quyết: dự đoán khách hàng rời bỏ.
- C. Bắt đầu làm sạch dữ liệu ngay lập tức.
- D. Chọn mô hình học máy phù hợp nhất.
Câu 6: Dữ liệu lớn đôi khi chứa thông tin không chính xác, không đầy đủ hoặc có sai lệch do lỗi thu thập, nhập liệu, hoặc các yếu tố bên ngoài. Đặc điểm nào của Dữ liệu lớn phản ánh sự không chắc chắn và cần được kiểm tra cẩn thận này?
- A. Volume.
- B. Variety.
- C. Velocity.
- D. Veracity.
Câu 7: Sau khi xây dựng một mô hình dự đoán doanh số bán hàng cho tháng tới, nhà khoa học dữ liệu cần biết mô hình này hoạt động hiệu quả đến mức nào trên dữ liệu thực tế hoặc dữ liệu mới. Giai đoạn nào trong quy trình Khoa học dữ liệu thực hiện công việc này?
- A. Chuẩn bị dữ liệu.
- B. Xây dựng mô hình.
- C. Đánh giá.
- D. Triển khai.
Câu 8: Máy tính hiện đại có khả năng kết nối với nhau thành các mạng lưới lớn (ví dụ: cụm máy tính, điện toán đám mây) để cùng nhau xử lý các tác vụ phức tạp trên dữ liệu khổng lồ. Khả năng này của máy tính hỗ trợ trực tiếp cho yêu cầu nào khi làm việc với Dữ liệu lớn?
- A. Khả năng mở rộng (Scalability) để xử lý khối lượng dữ liệu khổng lồ.
- B. Khả năng tự động hóa các tác vụ đơn giản.
- C. Khả năng tạo ra dữ liệu tổng hợp.
- D. Khả năng trực quan hóa dữ liệu 3D.
Câu 9: Một thuật toán được lập trình để tự động thực hiện chuỗi các bước: đọc dữ liệu từ nguồn A, làm sạch dữ liệu theo quy tắc B, và lưu kết quả vào cơ sở dữ liệu C mà không cần sự can thiệp thủ công. Loại thuật toán này đóng vai trò chính trong việc gì trong xử lý dữ liệu?
- A. Phát hiện mẫu ẩn trong dữ liệu.
- B. Tự động hóa các quy trình xử lý dữ liệu.
- C. Trực quan hóa dữ liệu phức tạp.
- D. Tạo ra dữ liệu giả lập.
Câu 10: Một công ty bảo hiểm muốn sử dụng Khoa học dữ liệu để phân tích hồ sơ yêu cầu bồi thường nhằm phát hiện các trường hợp có dấu hiệu gian lận. Họ đã xác định được vấn đề và thu thập dữ liệu cần thiết. Bước tiếp theo trong quy trình KHDL mà họ nên tập trung là gì?
- A. Chuẩn bị dữ liệu (làm sạch, biến đổi).
- B. Trực quan hóa dữ liệu cuối cùng.
- C. Triển khai mô hình vào hệ thống.
- D. Đánh giá hiệu suất của giải pháp tổng thể.
Câu 11: Đặc điểm "Value" (Giá trị) trong 5V của Dữ liệu lớn đề cập đến điều gì?
- A. Dữ liệu phải có định dạng duy nhất.
- B. Dữ liệu phải được thu thập liên tục.
- C. Dữ liệu phải mang lại giá trị hoặc hiểu biết sâu sắc khi được phân tích.
- D. Dữ liệu phải có kích thước nhỏ để dễ xử lý.
Câu 12: Trong giai đoạn "Xây dựng mô hình" của quy trình Khoa học dữ liệu, máy tính đóng vai trò cực kỳ quan trọng. Vai trò đó chủ yếu là gì?
- A. Lưu trữ các mô hình đã được xây dựng.
- B. Tạo ra các thuật toán học máy mới.
- C. Trực quan hóa cấu trúc của mô hình.
- D. Cung cấp năng lực tính toán để huấn luyện mô hình.
Câu 13: Một nhà khoa học dữ liệu đang phân tích dữ liệu từ các cảm biến IoT trong một nhà máy. Dữ liệu này đến với tốc độ rất nhanh và cần được xử lý ngay lập tức để phát hiện sớm các dấu hiệu lỗi máy móc. Loại thuật toán nào là cần thiết để xử lý hiệu quả dòng dữ liệu tốc độ cao này?
- A. Thuật toán xử lý theo thời gian thực hoặc xử lý luồng.
- B. Thuật toán nén dữ liệu.
- C. Thuật toán mã hóa dữ liệu.
- D. Thuật toán phân loại văn bản.
Câu 14: Quy trình Khoa học dữ liệu không phải lúc nào cũng là một đường thẳng. Sau khi đánh giá một mô hình dự đoán và nhận thấy hiệu suất chưa đạt yêu cầu, nhà khoa học dữ liệu có thể cần quay lại các bước trước đó. Bước nào có khả năng cao nhất cần xem xét lại nếu mô hình hoạt động kém trên dữ liệu mới?
- A. Triển khai mô hình.
- B. Chuẩn bị dữ liệu.
- C. Xác định vấn đề (trừ khi vấn đề ban đầu không rõ ràng).
- D. Chỉ cần thu thập thêm dữ liệu mới.
Câu 15: Một công ty muốn phân tích dữ liệu từ các bài đăng và bình luận của khách hàng trên mạng xã hội để hiểu cảm nhận chung của họ về sản phẩm mới ra mắt. Loại dữ liệu này chủ yếu là văn bản phi cấu trúc. Để xử lý hiệu quả, Khoa học dữ liệu cần tích hợp các kỹ thuật từ lĩnh vực nào?
- A. Kỹ thuật đồ họa máy tính.
- B. Quản trị cơ sở dữ liệu quan hệ.
- C. Xử lý ngôn ngữ tự nhiên (NLP).
- D. Thiết kế giao diện người dùng.
Câu 16: Biểu đồ phân tán (scatter plot) hoặc biểu đồ cột (bar chart) thường được sử dụng trong giai đoạn chuẩn bị dữ liệu hoặc khám phá dữ liệu. Mục đích chính của việc tạo ra các biểu đồ này là gì?
- A. Huấn luyện mô hình học máy.
- B. Lưu trữ dữ liệu hiệu quả hơn.
- C. Tự động hóa quy trình thu thập dữ liệu.
- D. Khám phá xu hướng, mối quan hệ và các vấn đề trong dữ liệu.
Câu 17: Khi dữ liệu cần xử lý có kích thước vượt quá dung lượng bộ nhớ RAM của một máy tính đơn lẻ và đòi hỏi thời gian tính toán quá lâu, giải pháp kỹ thuật nào dưới đây, liên quan đến khả năng của máy tính và thuật toán, thường được áp dụng trong Khoa học dữ liệu?
- A. Sử dụng hệ thống máy tính phân tán và thuật toán xử lý song song.
- B. Nén dữ liệu xuống kích thước nhỏ hơn.
- C. Chỉ phân tích một phần nhỏ của dữ liệu.
- D. Chuyển đổi dữ liệu sang định dạng văn bản thuần túy.
Câu 18: Một mô hình học máy được huấn luyện để phân loại email là "thư rác" hay "không phải thư rác". Sau khi triển khai, người dùng phàn nàn rằng nhiều email quan trọng bị đánh dấu nhầm là thư rác. Vấn đề này liên quan đến giai đoạn nào của quy trình Khoa học dữ liệu và đòi hỏi hành động gì?
- A. Xác định vấn đề - cần xác định lại mục tiêu.
- B. Thu thập dữ liệu - cần thu thập thêm dữ liệu.
- C. Đánh giá/Sau triển khai - cần đánh giá lại hiệu suất mô hình và điều chỉnh.
- D. Chuẩn bị dữ liệu - dữ liệu ban đầu chắc chắn bị lỗi.
Câu 19: Thuật toán gom cụm (clustering) trong học máy được sử dụng để nhóm các đối tượng dữ liệu lại với nhau dựa trên sự tương đồng về đặc điểm của chúng. Ứng dụng nào sau đây minh họa rõ nhất vai trò của thuật toán gom cụm trong Khoa học dữ liệu?
- A. Dự đoán giá nhà dựa trên diện tích và vị trí.
- B. Phân khúc khách hàng thành các nhóm dựa trên lịch sử mua sắm.
- C. Nhận diện khuôn mặt trong ảnh.
- D. Dịch văn bản từ tiếng Anh sang tiếng Việt.
Câu 20: So với phân tích dữ liệu truyền thống thường làm việc trên các tập dữ liệu có cấu trúc, sạch sẽ và quy mô tương đối nhỏ, Khoa học dữ liệu có khả năng xử lý tốt hơn những thách thức nào liên quan đến đặc điểm của dữ liệu?
- A. Chỉ xử lý dữ liệu có cấu trúc.
- B. Chỉ làm việc với dữ liệu tĩnh, không thay đổi.
- C. Chỉ yêu cầu năng lực tính toán thấp.
- D. Làm việc với dữ liệu có khối lượng lớn, tốc độ cao, đa dạng và không chắc chắn.
Câu 21: Khi một mô hình học máy đã được xây dựng và đánh giá là đạt hiệu suất mong muốn, bước cuối cùng trong quy trình Khoa học dữ liệu là đưa mô hình đó vào ứng dụng thực tế, nơi người dùng cuối hoặc hệ thống khác có thể sử dụng kết quả dự đoán hoặc phân tích của nó. Giai đoạn này được gọi là gì?
- A. Triển khai.
- B. Thu thập dữ liệu.
- C. Đánh giá.
- D. Chuẩn bị dữ liệu.
Câu 22: Để xử lý các tập dữ liệu lớn hiệu quả, máy tính cần có khả năng lưu trữ dữ liệu lâu dài và đảm bảo an toàn thông tin. Vai trò nào của máy tính liên quan trực tiếp đến yêu cầu này trong Khoa học dữ liệu?
- A. Khả năng tạo ra thuật toán mới.
- B. Khả năng trực quan hóa dữ liệu.
- C. Khả năng lưu trữ và bảo mật dữ liệu.
- D. Khả năng giao tiếp với người dùng cuối.
Câu 23: Một thuật toán hồi quy tuyến tính được sử dụng để xây dựng mô hình dự đoán giá nhà. Trong quá trình huấn luyện, thuật toán này điều chỉnh các trọng số của mô hình để giảm thiểu sai số giữa giá dự đoán và giá thực tế. Loại thuật toán này thuộc nhóm nào?
- A. Thuật toán phân loại.
- B. Thuật toán dự đoán/Hồi quy.
- C. Thuật toán gom cụm.
- D. Thuật toán tìm kiếm.
Câu 24: Để đảm bảo tính công bằng và tránh thiên vị trong các quyết định được đưa ra dựa trên kết quả phân tích dữ liệu (ví dụ: quyết định cho vay, tuyển dụng), nhà khoa học dữ liệu cần đặc biệt lưu ý đến vấn đề nào liên quan đến dữ liệu và mô hình?
- A. Chỉ sử dụng dữ liệu từ một nguồn duy nhất.
- B. Bỏ qua các bước làm sạch dữ liệu phức tạp.
- C. Sử dụng mô hình đơn giản nhất có thể.
- D. Kiểm tra và xử lý thiên vị (bias) trong dữ liệu và mô hình.
Câu 25: Một trong những lợi ích kinh doanh quan trọng nhất mà Khoa học dữ liệu mang lại cho các tổ chức là gì, dựa trên khả năng phân tích dữ liệu lớn và phức tạp?
- A. Đưa ra các quyết định kinh doanh dựa trên dữ liệu và hiểu biết sâu sắc.
- B. Giảm chi phí lưu trữ dữ liệu.
- C. Tạo ra dữ liệu mới hoàn toàn.
- D. Thay thế hoàn toàn vai trò của con người trong phân tích.
Câu 26: Trong quá trình xây dựng mô hình học máy, việc lựa chọn thuật toán phù hợp (ví dụ: mạng nơ-ron, cây quyết định, máy vector hỗ trợ) phụ thuộc vào nhiều yếu tố như loại bài toán (phân loại, hồi quy, gom cụm), đặc điểm của dữ liệu, và tài nguyên tính toán. Điều này nhấn mạnh mối liên hệ nào giữa thuật toán và Khoa học dữ liệu?
- A. Thuật toán chỉ dùng để thu thập dữ liệu.
- B. Thuật toán chỉ liên quan đến trực quan hóa dữ liệu.
- C. Thuật toán hoàn toàn độc lập với dữ liệu.
- D. Thuật toán là công cụ nền tảng để phân tích và xây dựng mô hình từ dữ liệu.
Câu 27: Một nhà khoa học dữ liệu đang sử dụng một tập dữ liệu nhỏ để thử nghiệm nhanh các ý tưởng và thuật toán trước khi áp dụng chúng trên tập dữ liệu lớn. Việc sử dụng máy tính cá nhân cấu hình mạnh trong giai đoạn này chủ yếu hỗ trợ mục tiêu nào?
- A. Lưu trữ toàn bộ dữ liệu lớn.
- B. Tăng tốc độ thử nghiệm và khám phá trên dữ liệu mẫu.
- C. Triển khai mô hình ra môi trường sản phẩm.
- D. Đảm bảo an ninh mạng cho hệ thống dữ liệu.
Câu 28: Tại sao việc làm sạch dữ liệu (Data Cleaning) lại là một trong những công việc tốn thời gian nhất nhưng lại cực kỳ quan trọng trong quy trình Khoa học dữ liệu?
- A. Chất lượng dữ liệu đầu vào ảnh hưởng trực tiếp đến độ chính xác của kết quả phân tích và mô hình.
- B. Làm sạch dữ liệu giúp tăng khối lượng dữ liệu.
- C. Làm sạch dữ liệu chỉ là một bước tùy chọn.
- D. Làm sạch dữ liệu giúp giảm tốc độ xử lý.
Câu 29: Máy tính và thuật toán cho phép thực hiện các phân tích phức tạp mà con người không thể làm thủ công, ví dụ như tìm kiếm các mối tương quan phức tạp giữa hàng trăm biến trong tập dữ liệu lớn. Khả năng này của máy tính và thuật toán hỗ trợ chủ yếu cho mục tiêu nào của Khoa học dữ liệu?
- A. Chỉ để lưu trữ dữ liệu một cách có tổ chức.
- B. Chỉ để tự động hóa các tác vụ nhập liệu.
- C. Khám phá tri thức và hiểu biết sâu sắc từ dữ liệu phức tạp.
- D. Chỉ để hiển thị dữ liệu dưới dạng bảng biểu đơn giản.
Câu 30: Trong một dự án Khoa học dữ liệu, nhóm nghiên cứu nhận thấy rằng việc thu thập dữ liệu từ một số nguồn gặp khó khăn do hạn chế về kỹ thuật và quyền riêng tư. Thách thức này chủ yếu liên quan đến giai đoạn nào của quy trình Khoa học dữ liệu?
- A. Xây dựng mô hình.
- B. Thu thập dữ liệu.
- C. Đánh giá mô hình.
- D. Triển khai mô hình.