Bài Tập Trắc nghiệm Tin học 12 - Chân trời sáng tạo - Bài F14: Học máy - Đề 03
Bài Tập Trắc nghiệm Tin học 12 - Chân trời sáng tạo - Bài F14: Học máy - Đề 03 được xây dựng với nhiều câu hỏi chất lượng, sát với nội dung chương trình học, giúp bạn dễ dàng ôn tập và kiểm tra kiến thức hiệu quả. Hãy cùng bắt đầu làm bài tập trắc nghiệm ngay để nâng cao hiểu biết và chuẩn bị tốt cho kỳ thi sắp tới!
Câu 1: Học máy (Machine Learning) được xem là một lĩnh vực con quan trọng của:
- A. Khoa học dữ liệu (Data Science)
- B. Trí tuệ nhân tạo (Artificial Intelligence - AI)
- C. Phân tích dữ liệu (Data Analytics)
- D. Lập trình hướng đối tượng (Object-Oriented Programming)
Câu 2: Một công ty công nghệ muốn xây dựng hệ thống tự động phân loại email vào các thư mục như "Hộp thư đến", "Thư rác", "Quảng cáo", "Mạng xã hội". Để làm được điều này, họ thu thập hàng triệu email đã được người dùng phân loại sẵn. Phương pháp học máy nào phù hợp nhất để xây dựng hệ thống này?
- A. Học có giám sát (Supervised Learning)
- B. Học không giám sát (Unsupervised Learning)
- C. Học tăng cường (Reinforcement Learning)
- D. Học sâu (Deep Learning)
Câu 3: Trong học máy, "dữ liệu có nhãn" (labeled data) là loại dữ liệu như thế nào?
- A. Dữ liệu chỉ chứa các số và không có văn bản.
- B. Dữ liệu đã được làm sạch và loại bỏ nhiễu.
- C. Dữ liệu mà mỗi mẫu dữ liệu đầu vào được gán kèm với kết quả đầu ra hoặc phân loại mong muốn.
- D. Dữ liệu được thu thập tự động từ cảm biến mà không cần con người can thiệp.
Câu 4: Một nhà bán lẻ trực tuyến muốn khám phá các nhóm khách hàng có hành vi mua sắm tương tự nhau để đưa ra các chiến dịch marketing phù hợp. Họ có dữ liệu về lịch sử duyệt web, các sản phẩm đã mua, và thông tin nhân khẩu học của khách hàng, nhưng không có sẵn các nhóm khách hàng được định nghĩa trước. Phương pháp học máy nào phù hợp nhất để thực hiện việc này?
- A. Học có giám sát (Supervised Learning)
- B. Học không giám sát (Unsupervised Learning)
- C. Học tăng cường (Reinforcement Learning)
- D. Học bán giám sát (Semi-supervised Learning)
Câu 5: Mục tiêu chính của học không giám sát là gì?
- A. Dự đoán một giá trị liên tục dựa trên dữ liệu đầu vào.
- B. Phân loại các mẫu dữ liệu vào các lớp định trước.
- C. Học cách đưa ra quyết định thông qua thử và sai để tối đa hóa phần thưởng.
- D. Tìm kiếm cấu trúc, mối quan hệ, hoặc các mẫu ẩn trong dữ liệu không có nhãn.
Câu 6: Trong quá trình phát triển một mô hình học máy, việc chia tập dữ liệu ban đầu thành các tập Huấn luyện (Training), Kiểm tra (Testing) và đôi khi là Xác thực (Validation) có mục đích chính là gì?
- A. Đánh giá hiệu suất của mô hình một cách khách quan trên dữ liệu chưa được sử dụng trong quá trình huấn luyện, giúp tránh hiện tượng overfitting.
- B. Tăng tốc độ huấn luyện mô hình bằng cách giảm kích thước tập dữ liệu.
- C. Đảm bảo rằng mô hình chỉ học được các quy tắc đơn giản và dễ hiểu.
- D. Làm cho dữ liệu trở nên ngẫu nhiên hơn trước khi đưa vào huấn luyện.
Câu 7: Hiện tượng "overfitting" (quá khớp) trong học máy xảy ra khi nào?
- A. Mô hình quá đơn giản để nắm bắt được mối quan hệ phức tạp trong dữ liệu.
- B. Mô hình học quá sát vào dữ liệu huấn luyện (bao gồm cả nhiễu) và không thể khái quát hóa tốt trên dữ liệu mới.
- C. Tập dữ liệu huấn luyện quá nhỏ hoặc không đủ đa dạng.
- D. Tốc độ huấn luyện của mô hình quá chậm.
Câu 8: Một ứng dụng phổ biến của học máy trong lĩnh vực y tế là hỗ trợ chẩn đoán bệnh. Hệ thống học máy sẽ được huấn luyện trên một lượng lớn dữ liệu y tế (hình ảnh y tế, kết quả xét nghiệm, triệu chứng, lịch sử bệnh án) đã được các chuyên gia y tế gán nhãn (loại bệnh, không bệnh). Đây là ứng dụng của phương pháp học máy nào?
- A. Học có giám sát (Supervised Learning)
- B. Học không giám sát (Unsupervised Learning)
- C. Học tăng cường (Reinforcement Learning)
- D. Giảm chiều dữ liệu (Dimensionality Reduction)
Câu 9: Hệ thống gợi ý sản phẩm của các trang thương mại điện tử (ví dụ: "Những sản phẩm bạn có thể thích" dựa trên lịch sử mua sắm của bạn và những người dùng khác) thường sử dụng các kỹ thuật học máy để tìm ra các mẫu hành vi hoặc sự tương đồng giữa người dùng/sản phẩm. Kỹ thuật học máy nào thường được áp dụng trong hệ thống gợi ý này?
- A. Phân loại (Classification)
- B. Gom cụm (Clustering) hoặc Phân tích luật kết hợp (Association Rule Mining)
- C. Hồi quy (Regression)
- D. Nhận dạng ký tự quang học (OCR)
Câu 10: Khi xây dựng một mô hình học máy để dự đoán giá nhà dựa trên các yếu tố như diện tích, số phòng ngủ, vị trí, loại dữ liệu đầu ra mà mô hình cần dự đoán là gì?
- A. Một phân loại (ví dụ: nhà tốt/nhà xấu)
- B. Một nhóm (ví dụ: thuộc nhóm nhà cao cấp/nhà bình dân)
- C. Một chuỗi các từ (ví dụ: mô tả về căn nhà)
- D. Một giá trị số liên tục (ví dụ: 2.500.000.000 VNĐ)
Câu 11: Phép thử Turing được đề xuất bởi Alan Turing nhằm mục đích gì?
- A. Kiểm tra tốc độ xử lý của máy tính.
- B. Đo lường hiệu quả của các thuật toán học máy.
- C. Đánh giá khả năng của máy móc thể hiện hành vi thông minh tương đương con người.
- D. Xác định lượng dữ liệu cần thiết để huấn luyện một mô hình học máy.
Câu 12: Một nhà nghiên cứu đang phân tích một bộ dữ liệu lớn về các giao dịch ngân hàng để phát hiện các giao dịch có dấu hiệu bất thường, có khả năng là gian lận. Ông không có sẵn nhãn "gian lận" hay "không gian lận" cho tất cả các giao dịch, nhưng ông biết rằng các giao dịch gian lận thường có các đặc điểm rất khác biệt so với giao dịch thông thường. Kỹ thuật học máy nào phù hợp nhất để tìm ra các giao dịch bất thường này?
- A. Phân loại (Classification)
- B. Phát hiện bất thường (Anomaly Detection)
- C. Hồi quy (Regression)
- D. Phân tích tình cảm (Sentiment Analysis)
Câu 13: Giả sử bạn huấn luyện một mô hình học máy nhận dạng hình ảnh chó và mèo. Sau khi huấn luyện, mô hình hoạt động rất tốt trên tập dữ liệu huấn luyện nhưng lại dự đoán sai rất nhiều khi bạn đưa vào các hình ảnh chó, mèo mới từ internet. Hiện tượng này có thể là dấu hiệu của vấn đề gì?
- A. Overfitting (Quá khớp)
- B. Underfitting (Chưa khớp)
- C. Mô hình quá đơn giản
- D. Tập dữ liệu kiểm tra quá lớn
Câu 14: Một trong những thách thức lớn nhất khi làm việc với dữ liệu trong học máy là dữ liệu "nhiễu" (noisy data). Dữ liệu nhiễu có thể gây ra vấn đề gì cho mô hình học máy?
- A. Luôn giúp mô hình học nhanh hơn.
- B. Chỉ ảnh hưởng đến các mô hình học không giám sát.
- C. Làm mô hình học sai các mẫu, dẫn đến hiệu suất kém và khó khái quát hóa.
- D. Không ảnh hưởng đến hiệu suất nếu tập dữ liệu đủ lớn.
Câu 15: Hệ thống nhận dạng giọng nói như Siri hay Google Assistant hoạt động dựa trên việc chuyển đổi tín hiệu âm thanh thành văn bản. Đây là một ứng dụng phức tạp sử dụng học máy. Cụ thể, nó liên quan đến lĩnh vực nào của học máy?
- A. Thị giác máy tính (Computer Vision)
- B. Xử lý ảnh (Image Processing)
- C. Hệ thống gợi ý (Recommendation Systems)
- D. Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP)
Câu 16: Khi một mô hình học máy không đủ phức tạp để nắm bắt được mối quan hệ hoặc mẫu thực sự trong dữ liệu, dẫn đến hiệu suất kém trên cả tập huấn luyện và tập kiểm tra, hiện tượng này được gọi là gì?
- A. Overfitting (Quá khớp)
- B. Generalization (Khái quát hóa)
- C. Underfitting (Chưa khớp)
- D. Bias-variance tradeoff
Câu 17: Bạn đang xây dựng một mô hình học máy để phân loại các bức ảnh là có chứa ô tô hay không. Bạn thu thập một tập dữ liệu gồm các bức ảnh và gán nhãn cho chúng ("có ô tô" hoặc "không có ô tô"). Loại nhãn này cho thấy bạn đang làm việc với bài toán thuộc loại nào trong học có giám sát?
- A. Phân loại (Classification)
- B. Hồi quy (Regression)
- C. Gom cụm (Clustering)
- D. Giảm chiều dữ liệu (Dimensionality Reduction)
Câu 18: Trong học tăng cường (Reinforcement Learning), "phần thưởng" (reward) đóng vai trò gì?
- A. Là dữ liệu có nhãn để huấn luyện mô hình.
- B. Là các đặc trưng (features) của dữ liệu đầu vào.
- C. Là mục tiêu cuối cùng mà mô hình cần dự đoán.
- D. Là tín hiệu phản hồi cho tác nhân biết hành động của nó là tốt hay xấu trong môi trường.
Câu 19: Một trong những ứng dụng của học máy trong lĩnh vực tài chính là dự đoán xu hướng của thị trường chứng khoán. Để làm được điều này, mô hình học máy thường phân tích dữ liệu lịch sử giá cổ phiếu, khối lượng giao dịch, tin tức kinh tế, v.v. Đây là một ví dụ về bài toán học máy thuộc loại nào?
- A. Phân loại (Classification)
- B. Hồi quy (Regression)
- C. Gom cụm (Clustering)
- D. Phát hiện bất thường (Anomaly Detection)
Câu 20: Dữ liệu không có nhãn (unlabeled data) thường được sử dụng trong phương pháp học máy nào?
- A. Học không giám sát (Unsupervised Learning)
- B. Học có giám sát (Supervised Learning)
- C. Chỉ trong học tăng cường (Reinforcement Learning)
- D. Chỉ trong các bài toán phân loại (Classification)
Câu 21: Khi một mô hình học máy được huấn luyện trên tập dữ liệu huấn luyện và sau đó được sử dụng để đưa ra dự đoán trên tập dữ liệu kiểm tra hoặc dữ liệu mới trong thực tế, khả năng mô hình hoạt động tốt trên dữ liệu mới này được gọi là gì?
- A. Overfitting (Quá khớp)
- B. Underfitting (Chưa khớp)
- C. Generalization (Khái quát hóa)
- D. Convergence (Hội tụ)
Câu 22: Tại sao chất lượng của dữ liệu đầu vào (tính chính xác, đầy đủ, nhất quán) lại cực kỳ quan trọng đối với sự thành công của một dự án học máy?
- A. Dữ liệu chất lượng cao giúp mô hình học nhanh hơn.
- B. Chỉ cần lượng dữ liệu lớn là đủ, chất lượng không quá quan trọng.
- C. Dữ liệu nhiễu giúp mô hình trở nên mạnh mẽ hơn.
- D. Dữ liệu kém chất lượng sẽ khiến mô hình học sai, dẫn đến kết quả không chính xác và hiệu suất kém.
Câu 23: Một công ty truyền thông xã hội muốn tự động gắn thẻ các bức ảnh được người dùng đăng tải (ví dụ: #bãi biển, #ngọn núi, #thành phố). Để làm điều này, họ cần huấn luyện một mô hình nhận dạng các đối tượng và cảnh vật trong ảnh. Đây là một ứng dụng của học máy trong lĩnh vực nào?
- A. Thị giác máy tính (Computer Vision)
- B. Xử lý ngôn ngữ tự nhiên (NLP)
- C. Hệ thống gợi ý (Recommendation Systems)
- D. Phân tích chuỗi thời gian (Time Series Analysis)
Câu 24: Học tăng cường (Reinforcement Learning) khác biệt đáng kể so với học có giám sát và học không giám sát ở điểm nào?
- A. Nó luôn yêu cầu lượng dữ liệu lớn hơn.
- B. Nó học thông qua tương tác với môi trường và nhận phản hồi (phần thưởng/phạt) thay vì dựa vào dữ liệu có nhãn hoặc không nhãn có sẵn.
- C. Nó chỉ được sử dụng trong các bài toán phân loại.
- D. Nó không cần bất kỳ dạng dữ liệu nào để hoạt động.
Câu 25: Một công ty muốn tự động hóa việc kiểm tra chất lượng sản phẩm trên dây chuyền sản xuất bằng cách sử dụng camera chụp ảnh từng sản phẩm và xác định xem sản phẩm đó có bị lỗi hay không. Họ đã thu thập một bộ dữ liệu lớn gồm ảnh các sản phẩm lỗi và không lỗi, được gán nhãn rõ ràng. Để xây dựng hệ thống này, họ sẽ sử dụng phương pháp học máy nào?
- A. Học có giám sát (Supervised Learning)
- B. Học không giám sát (Unsupervised Learning)
- C. Học tăng cường (Reinforcement Learning)
- D. Gom cụm (Clustering)
Câu 26: Giả sử bạn có một tập dữ liệu về hành vi sử dụng website của hàng nghìn người dùng (thời gian truy cập, số trang xem, các nút bấm...). Bạn muốn sử dụng học máy để phân nhóm những người dùng có hành vi tương tự nhau mà không có bất kỳ tiêu chí phân nhóm nào được định nghĩa trước. Kỹ thuật học máy phù hợp nhất cho mục tiêu này là gì?
- A. Hồi quy (Regression)
- B. Phân loại (Classification)
- C. Phát hiện bất thường (Anomaly Detection)
- D. Gom cụm (Clustering)
Câu 27: Trong bối cảnh học máy, "đặc trưng" (features) của dữ liệu là gì?
- A. Kết quả đầu ra mà mô hình dự đoán.
- B. Các thuộc tính hoặc biến số mô tả mẫu dữ liệu đầu vào.
- C. Thuật toán được sử dụng để huấn luyện mô hình.
- D. Tập dữ liệu được sử dụng để kiểm tra mô hình.
Câu 28: Khi bạn huấn luyện một mô hình học máy, việc sử dụng tập dữ liệu huấn luyện (training set) quá nhỏ hoặc không đại diện cho dữ liệu thực tế mà mô hình sẽ gặp phải trong tương lai có thể dẫn đến vấn đề gì?
- A. Mô hình có khả năng khái quát hóa kém trên dữ liệu mới.
- B. Luôn gây ra hiện tượng overfitting.
- C. Làm cho mô hình trở nên quá phức tạp.
- D. Không ảnh hưởng đến hiệu suất nếu thuật toán được chọn phù hợp.
Câu 29: Hệ thống gợi ý từ tiếp theo khi bạn gõ tin nhắn trên điện thoại (ví dụ: bạn gõ "Tôi muốn đi", hệ thống gợi ý "ăn", "chơi", "ngủ") là một ứng dụng của học máy liên quan đến việc dự đoán phần tử tiếp theo trong một chuỗi. Đây là một ví dụ về ứng dụng trong lĩnh vực nào?
- A. Thị giác máy tính (Computer Vision)
- B. Hồi quy (Regression)
- C. Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP)
- D. Phát hiện bất thường (Anomaly Detection)
Câu 30: Giả sử bạn đang xây dựng một mô hình học máy để phân loại các bài viết tin tức vào các chủ đề khác nhau (Thể thao, Chính trị, Kinh tế, Giải trí...). Bạn có một tập dữ liệu lớn gồm các bài viết đã được gán nhãn chủ đề. Đây là một bài toán thuộc loại nào trong học máy?
- A. Phân loại (Classification)
- B. Hồi quy (Regression)
- C. Gom cụm (Clustering)
- D. Phát hiện bất thường (Anomaly Detection)