Bài Tập Trắc nghiệm Tin học 12 - Cánh diều - Bài 1: Giới thiệu về học máy - Đề 05
Bài Tập Trắc nghiệm Tin học 12 - Cánh diều - Bài 1: Giới thiệu về học máy - Đề 05 được xây dựng với nhiều câu hỏi chất lượng, sát với nội dung chương trình học, giúp bạn dễ dàng ôn tập và kiểm tra kiến thức hiệu quả. Hãy cùng bắt đầu làm bài tập trắc nghiệm ngay để nâng cao hiểu biết và chuẩn bị tốt cho kỳ thi sắp tới!
Câu 1: Học máy (Machine Learning - ML) là một lĩnh vực con của Trí tuệ Nhân tạo (AI). Mục tiêu chính của học máy là giúp máy tính có khả năng gì?
- A. Thực hiện các phép tính phức tạp nhanh hơn con người.
- B. Hiểu và xử lý ngôn ngữ tự nhiên một cách hoàn hảo.
- C. Tự động tạo ra các phần mềm mới mà không cần lập trình viên.
- D. Học hỏi và cải thiện hiệu suất từ dữ liệu kinh nghiệm mà không cần được lập trình chi tiết.
Câu 2: Trong quy trình xây dựng một mô hình học máy, bước nào sau đây thường được thực hiện NGAY SAU khi thu thập dữ liệu thô?
- A. Chuẩn bị và xử lý dữ liệu.
- B. Đánh giá hiệu suất của mô hình.
- C. Triển khai mô hình vào ứng dụng thực tế.
- D. Huấn luyện mô hình bằng thuật toán.
Câu 3: Bạn đang xây dựng một hệ thống dự đoán giá nhà dựa trên các yếu tố như diện tích, số phòng ngủ, vị trí, và dữ liệu giá nhà đã bán trước đây. Loại bài toán học máy nào phù hợp nhất với nhiệm vụ này?
- A. Phân loại (Classification).
- B. Hồi quy (Regression).
- C. Phân cụm (Clustering).
- D. Giảm chiều dữ liệu (Dimensionality Reduction).
Câu 4: Một công ty thương mại điện tử muốn nhóm khách hàng của mình thành các phân khúc dựa trên hành vi mua sắm (sản phẩm đã xem, đã mua, tần suất mua, v.v.) để cá nhân hóa chiến lược tiếp thị. Công ty này KHÔNG có sẵn nhãn cho từng khách hàng thuộc phân khúc nào. Loại hình học máy nào phù hợp nhất?
- A. Học có giám sát (Supervised Learning).
- B. Hồi quy (Regression).
- C. Học không giám sát (Unsupervised Learning).
- D. Học tăng cường (Reinforcement Learning).
Câu 5: Điểm khác biệt cốt lõi giữa học có giám sát và học không giám sát nằm ở đặc điểm của dữ liệu huấn luyện. Đặc điểm đó là gì?
- A. Kích thước của tập dữ liệu.
- B. Tốc độ xử lý của thuật toán.
- C. Độ phức tạp của mô hình.
- D. Việc dữ liệu huấn luyện có được gán nhãn đầu ra tương ứng hay không.
Câu 6: Bài toán nhận dạng thư rác (spam detection) là một ví dụ điển hình của loại bài toán học máy nào?
- A. Bài toán phân loại trong học có giám sát.
- B. Bài toán hồi quy trong học có giám sát.
- C. Bài toán phân cụm trong học không giám sát.
- D. Bài toán giảm chiều dữ liệu trong học không giám sát.
Câu 7: Khi xây dựng một mô hình học máy, việc "huấn luyện" mô hình bằng dữ liệu có mục đích chính là gì?
- A. Tạo ra dữ liệu mới để sử dụng sau này.
- B. Kiểm tra tốc độ xử lý của máy tính.
- C. Giúp mô hình tìm ra các mẫu và mối quan hệ trong dữ liệu để có thể đưa ra dự đoán hoặc quyết định.
- D. Làm sạch và loại bỏ dữ liệu không cần thiết.
Câu 8: Bạn thu thập một tập dữ liệu lớn về các giao dịch thẻ tín dụng, bao gồm thời gian, địa điểm, số tiền, loại hàng hóa, v.v. Mục tiêu của bạn là phát hiện các giao dịch bất thường, có khả năng là gian lận, mà không dựa vào bất kỳ nhãn "gian lận" hay "không gian lận" nào có sẵn trong dữ liệu cũ. Loại bài toán học máy nào phù hợp nhất?
- A. Phân loại (Classification).
- B. Hồi quy (Regression).
- C. Học có giám sát (Supervised Learning).
- D. Học không giám sát (Unsupervised Learning).
Câu 9: Trong bối cảnh học máy, thuật ngữ "nhãn" (label) trong dữ liệu huấn luyện (training data) của học có giám sát dùng để chỉ điều gì?
- A. Kết quả đầu ra mong muốn hoặc danh mục mà mỗi mẫu dữ liệu thuộc về.
- B. Tên của các thuộc tính (features) trong dữ liệu.
- C. Số lượng mẫu dữ liệu trong tập huấn luyện.
- D. Thuật toán được sử dụng để huấn luyện mô hình.
Câu 10: Bạn đang xây dựng một ứng dụng phân tích cảm xúc từ các bình luận của khách hàng trên mạng xã hội (ví dụ: tích cực, tiêu cực, trung lập). Bạn có một tập dữ liệu lớn gồm các bình luận đã được gán nhãn cảm xúc bởi con người. Loại bài toán học máy nào phù hợp nhất?
- A. Phân loại (Classification).
- B. Hồi quy (Regression).
- C. Phân cụm (Clustering).
- D. Phát hiện bất thường (Anomaly Detection).
Câu 11: Giả sử bạn có một tập dữ liệu về các loại trái cây khác nhau, bao gồm các thuộc tính như màu sắc, kích thước, hình dạng, độ cứng. Bạn muốn tự động nhóm các loại trái cây giống nhau lại với nhau mà không biết trước chúng thuộc loại nào (ví dụ: nhóm táo, nhóm chuối, nhóm cam). Kỹ thuật học máy nào phù hợp?
- A. Hồi quy tuyến tính.
- B. Phân loại Naive Bayes.
- C. Phân cụm K-means.
- D. Hồi quy Logistic.
Câu 12: Bước "Đánh giá mô hình" trong quy trình học máy có vai trò quan trọng như thế nào?
- A. Thu thập thêm dữ liệu để huấn luyện lại.
- B. Xác định mức độ chính xác và hiệu quả của mô hình trước khi đưa vào sử dụng.
- C. Làm sạch dữ liệu đầu vào.
- D. Tự động điều chỉnh các tham số của thuật toán.
Câu 13: Một trong những thách thức lớn nhất khi áp dụng học máy là việc thu thập và chuẩn bị dữ liệu. Tại sao việc này lại quan trọng và thường tốn nhiều công sức?
- A. Dữ liệu thực tế thường không hoàn hảo (thiếu, nhiễu, không nhất quán) và việc gán nhãn (đối với học có giám sát) có thể tốn kém.
- B. Các thuật toán học máy chỉ hoạt động với dữ liệu có cấu trúc rất đơn giản.
- C. Máy tính cần nhiều thời gian để đọc dữ liệu từ ổ cứng.
- D. Việc này chỉ quan trọng đối với học không giám sát.
Câu 14: Hệ thống gợi ý sản phẩm (recommendation system) trên các trang thương mại điện tử (ví dụ: "Những sản phẩm bạn có thể thích") thường sử dụng kỹ thuật học máy nào để hoạt động?
- A. Chỉ sử dụng các quy tắc lập trình cứng.
- B. Dựa hoàn toàn vào nhập liệu thủ công của người bán hàng.
- C. Áp dụng các công thức toán học đơn giản, không liên quan đến học máy.
- D. Sử dụng các thuật toán học máy để phân tích hành vi người dùng và đặc điểm sản phẩm nhằm đưa ra gợi ý phù hợp.
Câu 15: Một bác sĩ muốn sử dụng học máy để phân tích hình ảnh X-quang phổi nhằm phát hiện sớm các dấu hiệu của bệnh. Bác sĩ có một tập dữ liệu lớn gồm các ảnh X-quang đã được các chuyên gia đánh dấu (có/không có dấu hiệu bệnh). Đây là ví dụ về loại bài toán học máy nào?
- A. Phân loại trong học có giám sát.
- B. Hồi quy trong học có giám sát.
- C. Phân cụm trong học không giám sát.
- D. Giảm chiều dữ liệu trong học không giám sát.
Câu 16: Giả sử bạn đang làm việc với một tập dữ liệu gồm hàng nghìn bức ảnh về động vật. Bạn muốn tự động sắp xếp chúng thành các nhóm như "ảnh chó", "ảnh mèo", "ảnh chim", v.v., nhưng bạn KHÔNG có sẵn thông tin (nhãn) cho biết mỗi ảnh là con vật gì. Kỹ thuật học máy nào phù hợp nhất để thực hiện việc này?
- A. Sử dụng mô hình hồi quy để dự đoán loại động vật.
- B. Áp dụng thuật toán phân loại đã được huấn luyện trên dữ liệu động vật khác.
- C. Sử dụng thuật toán phân cụm để nhóm các ảnh tương tự lại với nhau.
- D. Thực hiện giảm chiều dữ liệu để nén kích thước ảnh.
Câu 17: Một trong những lợi ích chính của việc sử dụng học máy trong các ứng dụng thực tế là gì?
- A. Giảm hoàn toàn nhu cầu về dữ liệu đầu vào.
- B. Cho phép hệ thống tự động học hỏi, thích ứng và đưa ra quyết định hoặc dự đoán dựa trên dữ liệu.
- C. Đảm bảo kết quả luôn chính xác 100% trong mọi trường hợp.
- D. Thay thế hoàn toàn vai trò của con người trong mọi công việc.
Câu 18: Trong bài toán học có giám sát, nếu đầu ra mà mô hình cần dự đoán là một giá trị liên tục (ví dụ: nhiệt độ ngày mai, doanh số bán hàng quý tới), thì đó là bài toán gì?
- A. Hồi quy (Regression).
- B. Phân loại (Classification).
- C. Phân cụm (Clustering).
- D. Giảm chiều dữ liệu (Dimensionality Reduction).
Câu 19: Ngược lại với câu 18, nếu đầu ra mà mô hình cần dự đoán là một trong các danh mục rời rạc (ví dụ: "mưa"/"không mưa", "ảnh chó"/"ảnh mèo", "người dùng A"/"người dùng B"), thì đó là bài toán gì?
- A. Hồi quy (Regression).
- B. Phân loại (Classification).
- C. Phân cụm (Clustering).
- D. Phát hiện bất thường (Anomaly Detection).
Câu 20: Một nhà nghiên cứu muốn phân tích các chủ đề chính xuất hiện trong một tập hợp lớn các bài báo khoa học mà không có bất kỳ nhãn chủ đề nào được gán trước. Kỹ thuật học máy nào có thể giúp nhà nghiên cứu này tìm ra các chủ đề ẩn trong dữ liệu?
- A. Sử dụng mô hình phân loại văn bản.
- B. Áp dụng hồi quy logistic.
- C. Huấn luyện mô hình dự đoán tác giả của bài báo.
- D. Sử dụng các kỹ thuật học không giám sát để khám phá cấu trúc dữ liệu.
Câu 21: Tại sao việc "chuẩn bị dữ liệu" (data preparation) lại là một bước quan trọng và thường chiếm nhiều thời gian trong quy trình học máy?
- A. Dữ liệu cần được làm sạch, biến đổi và định dạng lại để phù hợp với yêu cầu của thuật toán học máy.
- B. Bước này giúp giảm số lượng dữ liệu xuống mức tối thiểu.
- C. Chỉ đơn giản là sao chép dữ liệu sang một thư mục khác.
- D. Đây là bước duy nhất cần sự can thiệp của con người.
Câu 22: Khi một mô hình học máy được cho dữ liệu mới (chưa từng thấy trong quá trình huấn luyện) để đưa ra dự đoán hoặc quyết định, đó là bước nào trong quy trình học máy?
- A. Thu thập dữ liệu.
- B. Huấn luyện mô hình.
- C. Đánh giá mô hình.
- D. Triển khai ứng dụng mô hình (Inference/Prediction).
Câu 23: Hệ thống nhận dạng tiếng nói (Speech Recognition) trên điện thoại thông minh (ví dụ: Siri, Google Assistant) là một ứng dụng phổ biến của học máy. Loại bài toán học máy nào thường được sử dụng trong các hệ thống này để chuyển đổi âm thanh thành văn bản?
- A. Học có giám sát, thường là bài toán phân loại hoặc xử lý chuỗi.
- B. Học không giám sát, sử dụng phân cụm âm thanh.
- C. Chỉ dựa trên các bộ lọc âm thanh đơn giản.
- D. Hoàn toàn là lập trình thủ công.
Câu 24: Khi nào thì bạn nên cân nhắc sử dụng các kỹ thuật học không giám sát thay vì học có giám sát?
- A. Khi bạn có rất nhiều dữ liệu có nhãn.
- B. Khi mục tiêu là dự đoán một giá trị số cụ thể.
- C. Khi dữ liệu không có nhãn đầu ra và mục tiêu là tìm kiếm cấu trúc hoặc nhóm các mẫu dữ liệu tương tự.
- D. Khi bạn muốn dự đoán danh mục cho dữ liệu mới.
Câu 25: Một hệ thống kiểm tra chất lượng sản phẩm trong nhà máy sử dụng camera để chụp ảnh từng sản phẩm và một mô hình học máy để phân loại sản phẩm đó là "Đạt" hay "Không đạt" dựa trên các đặc điểm hình ảnh. Đây là ứng dụng của học máy loại nào?
- A. Học có giám sát (Phân loại).
- B. Học có giám sát (Hồi quy).
- C. Học không giám sát (Phân cụm).
- D. Học tăng cường (Reinforcement Learning).
Câu 26: Thuật toán học máy nào sau đây thường được sử dụng để giải quyết bài toán phân cụm (clustering)?
- A. Hồi quy tuyến tính (Linear Regression).
- B. Máy vector hỗ trợ (Support Vector Machine - SVM).
- C. Cây quyết định (Decision Tree).
- D. K-means.
Câu 27: Điều nào sau đây KHÔNG phải là một ứng dụng phổ biến của học máy?
- A. Nhận dạng khuôn mặt trên mạng xã hội.
- B. Phát hiện gian lận trong giao dịch ngân hàng.
- C. Thiết kế và xây dựng hệ điều hành máy tính mới từ đầu.
- D. Dịch tự động ngôn ngữ giữa các thứ tiếng.
Câu 28: Khi nói rằng một mô hình học máy "học" từ dữ liệu, điều đó có nghĩa là gì?
- A. Mô hình ghi nhớ tất cả các mẫu dữ liệu đã thấy.
- B. Mô hình điều chỉnh các tham số bên trong của nó dựa trên dữ liệu để cải thiện hiệu suất thực hiện một nhiệm vụ cụ thể.
- C. Mô hình tự động viết mã lập trình mới.
- D. Mô hình yêu cầu con người liên tục cung cấp quy tắc mới.
Câu 29: Một nhà khoa học dữ liệu đang làm việc với một tập dữ liệu về các loài thực vật, bao gồm hình ảnh, mô tả, và các thông tin sinh học khác. Cô ấy muốn xây dựng một mô hình để, khi đưa vào ảnh hoặc mô tả của một loài thực vật mới, mô hình có thể xác định đó là loài gì trong số các loài đã biết. Đây là bài toán học máy loại nào?
- A. Bài toán phân loại trong học có giám sát.
- B. Bài toán hồi quy trong học có giám sát.
- C. Bài toán phân cụm trong học không giám sát.
- D. Bài toán phát hiện bất thường.
Câu 30: Trong bối cảnh học máy, thuật ngữ "mô hình" (model) thường dùng để chỉ điều gì?
- A. Tập dữ liệu được sử dụng để huấn luyện.
- B. Biểu diễn toán học hoặc cấu trúc dữ liệu được tạo ra từ thuật toán và dữ liệu huấn luyện, dùng để đưa ra dự đoán hoặc quyết định.
- C. Thuật toán cụ thể được sử dụng để xử lý dữ liệu.
- D. Giao diện người dùng của ứng dụng học máy.