Bài Tập Trắc nghiệm Tin học 12 - Kết nối tri thức - Bài 25: Làm quen với Học máy - Đề 03
Bài Tập Trắc nghiệm Tin học 12 - Kết nối tri thức - Bài 25: Làm quen với Học máy - Đề 03 được xây dựng với nhiều câu hỏi chất lượng, sát với nội dung chương trình học, giúp bạn dễ dàng ôn tập và kiểm tra kiến thức hiệu quả. Hãy cùng bắt đầu làm bài tập trắc nghiệm ngay để nâng cao hiểu biết và chuẩn bị tốt cho kỳ thi sắp tới!
Câu 1: Học máy (Machine Learning) là một lĩnh vực cốt lõi của Trí tuệ nhân tạo (AI). Đặc điểm nào sau đây thể hiện rõ nhất sự khác biệt cơ bản giữa cách máy tính giải quyết vấn đề theo lập trình truyền thống và theo học máy?
- A. Lập trình truyền thống sử dụng ngôn ngữ bậc cao, còn học máy sử dụng ngôn ngữ máy.
- B. Lập trình truyền thống dựa trên các quy tắc cố định do con người viết, còn học máy dựa trên việc máy tính tự học từ dữ liệu.
- C. Lập trình truyền thống chỉ xử lý được dữ liệu có cấu trúc, còn học máy xử lý được cả dữ liệu phi cấu trúc.
- D. Học máy yêu cầu phần cứng mạnh hơn lập trình truyền thống.
Câu 2: Một công ty thương mại điện tử muốn xây dựng hệ thống gợi ý sản phẩm cho khách hàng dựa trên lịch sử mua sắm và hành vi xem sản phẩm của họ. Hệ thống này phân tích dữ liệu hành vi của hàng triệu người dùng để tìm ra các mẫu liên kết (ví dụ: những người mua A thường mua kèm B). Đây là ứng dụng điển hình của phương pháp học máy nào?
- A. Học có giám sát (Supervised Learning)
- B. Học không giám sát (Unsupervised Learning)
- C. Học tăng cường (Reinforcement Learning)
- D. Học sâu (Deep Learning)
Câu 3: Dữ liệu "có nhãn" (labeled data) đóng vai trò cực kỳ quan trọng trong phương pháp học máy nào? Đặc điểm nào sau đây mô tả đúng nhất về dữ liệu có nhãn?
- A. Dữ liệu đầu vào đi kèm với kết quả hoặc giá trị mục tiêu (nhãn) tương ứng.
- B. Dữ liệu chỉ chứa các đặc điểm của đối tượng mà không có bất kỳ thông tin phân loại nào.
- C. Dữ liệu được thu thập tự động mà không cần sự can thiệp của con người.
- D. Dữ liệu chỉ được sử dụng để kiểm tra độ chính xác của mô hình.
Câu 4: Một ngân hàng muốn xây dựng một mô hình để tự động phân loại các giao dịch thẻ tín dụng là "gian lận" hay "không gian lận". Họ có sẵn một lượng lớn dữ liệu lịch sử về các giao dịch, trong đó mỗi giao dịch đã được đánh dấu rõ ràng là gian lận hoặc không gian lận. Để xây dựng mô hình này, loại học máy nào là phù hợp nhất?
- A. Học có giám sát (Supervised Learning)
- B. Học không giám sát (Unsupervised Learning)
- C. Học tăng cường (Reinforcement Learning)
- D. Học bán giám sát (Semi-supervised Learning)
Câu 5: Phân tích và phân nhóm (clustering) khách hàng thành các nhóm có hành vi mua sắm tương đồng là một ứng dụng phổ biến của học máy. Tại sao đây lại là một ví dụ điển hình của học không giám sát?
- A. Vì mô hình cần được "thưởng" hoặc "phạt" dựa trên kết quả phân nhóm.
- B. Vì dữ liệu khách hàng đã được gán nhãn rõ ràng là thuộc nhóm nào trước khi huấn luyện.
- C. Vì mô hình học cách dự đoán một giá trị liên tục cho từng khách hàng.
- D. Vì mô hình tìm kiếm cấu trúc hoặc mẫu ẩn trong dữ liệu mà không có nhãn đầu ra được xác định trước.
Câu 6: Trong quá trình huấn luyện một mô hình học máy, dữ liệu được sử dụng để làm gì?
- A. Để máy tính tìm ra các mẫu, quy tắc hoặc mối quan hệ ẩn trong dữ liệu.
- B. Chỉ để kiểm tra xem mô hình có hoạt động hay không.
- C. Để con người viết code cho thuật toán.
- D. Để làm sạch và định dạng lại dữ liệu.
Câu 7: Bạn đang xây dựng một ứng dụng nhận dạng giọng nói để chuyển đổi lời nói thành văn bản. Bạn có một bộ dữ liệu lớn gồm các đoạn âm thanh và phiên bản văn bản tương ứng của chúng. Để huấn luyện mô hình nhận dạng giọng nói, bạn sẽ sử dụng phương pháp học máy nào và loại dữ liệu nào là chủ yếu?
- A. Học không giám sát, dữ liệu không có nhãn.
- B. Học tăng cường, dữ liệu không có nhãn.
- C. Học có giám sát, dữ liệu có nhãn.
- D. Học bán giám sát, dữ liệu có nhãn.
Câu 8: Một trong những lợi ích chính của việc áp dụng học máy trong các hệ thống là khả năng tự động hóa các nhiệm vụ phức tạp. Điều này có nghĩa là gì trong bối cảnh của học máy?
- A. Máy tính có thể tự viết code để giải quyết vấn đề.
- B. Máy tính có thể thực hiện các tác vụ dựa trên việc học từ dữ liệu mà không cần lập trình tường minh cho từng bước.
- C. Học máy giúp tăng tốc độ tính toán của phần cứng máy tính.
- D. Học máy loại bỏ hoàn toàn nhu cầu về dữ liệu đầu vào.
Câu 9: Hãy xem xét hai nhiệm vụ: (A) Dự đoán giá nhà dựa trên diện tích, số phòng ngủ và vị trí; (B) Nhóm các bài báo tin tức thành các chủ đề khác nhau (ví dụ: thể thao, chính trị, giải trí) mà không có danh mục chủ đề được định nghĩa trước. Nhiệm vụ nào là ví dụ điển hình của Học có giám sát và nhiệm vụ nào là của Học không giám sát?
- A. (A) Học có giám sát, (B) Học không giám sát.
- B. (A) Học không giám sát, (B) Học có giám sát.
- C. Cả hai đều là Học có giám sát.
- D. Cả hai đều là Học không giám sát.
Câu 10: Khi nói về "mô hình" trong học máy, thuật ngữ này thường dùng để chỉ điều gì?
- A. Tập dữ liệu được sử dụng để huấn luyện.
- B. Ngôn ngữ lập trình được sử dụng để viết code.
- C. Giao diện người dùng của ứng dụng học máy.
- D. Kết quả của quá trình huấn luyện, được sử dụng để đưa ra dự đoán hoặc quyết định trên dữ liệu mới.
Câu 11: Học máy mang lại khả năng dự đoán dựa trên dữ liệu. Điều này có ý nghĩa như thế nào trong các ứng dụng thực tế như phân tích thị trường hoặc dự báo thời tiết?
- A. Cho phép hệ thống dự báo các sự kiện hoặc xu hướng trong tương lai dựa trên việc học từ dữ liệu lịch sử và hiện tại.
- B. Giúp hệ thống chỉ ghi nhớ lại các dữ liệu đã xảy ra trong quá khứ.
- C. Đảm bảo kết quả dự đoán luôn chính xác 100%.
- D. Loại bỏ hoàn toàn yếu tố không chắc chắn trong mọi tình huống.
Câu 12: Một nhà nghiên cứu y tế đang sử dụng học máy để xác định các yếu tố nguy cơ tiềm ẩn gây ra một bệnh hiếm gặp. Họ có dữ liệu về hàng nghìn bệnh nhân, bao gồm thông tin cá nhân, tiền sử bệnh, kết quả xét nghiệm, và liệu họ có mắc bệnh hiếm gặp đó hay không. Loại phân tích nào trong học máy phù hợp nhất để tìm ra mối liên hệ giữa các yếu tố đầu vào và khả năng mắc bệnh?
- A. Học có giám sát để xây dựng mô hình phân loại hoặc dự đoán.
- B. Học không giám sát để nhóm bệnh nhân thành các cụm ngẫu nhiên.
- C. Học tăng cường để hệ thống tự động đưa ra quyết định điều trị.
- D. Chỉ sử dụng các thuật toán thống kê truyền thống, không dùng học máy.
Câu 13: Trong học máy, quá trình "huấn luyện" (training) một mô hình có thể được hiểu là gì?
- A. Việc con người nhập thủ công tất cả dữ liệu vào máy tính.
- B. Quá trình kiểm tra cuối cùng độ chính xác của mô hình trên dữ liệu mới.
- C. Việc lựa chọn thuật toán học máy phù hợp cho bài toán.
- D. Sử dụng dữ liệu để điều chỉnh các tham số của mô hình, giúp mô hình học cách thực hiện nhiệm vụ cụ thể.
Câu 14: Hãy tưởng tượng bạn có một tập hợp lớn các bức ảnh về động vật và muốn xây dựng một hệ thống có thể tự động nhận biết đó là chó, mèo hay chim. Bạn có sẵn nhãn cho hàng nghìn bức ảnh (ví dụ: ảnh này là "chó", ảnh kia là "mèo"). Đây là một bài toán nhận dạng hình ảnh. Loại học máy nào phù hợp nhất cho nhiệm vụ này?
- A. Học có giám sát (Supervised Learning)
- B. Học không giám sát (Unsupervised Learning)
- C. Học tăng cường (Reinforcement Learning)
- D. Học bán giám sát (Semi-supervised Learning)
Câu 15: Ưu điểm chính của việc sử dụng học máy trong việc lọc thư rác (spam filtering) so với việc chỉ dựa vào các quy tắc cố định do con người đặt ra (ví dụ: chặn email chứa từ "khuyến mãi" hoặc "miễn phí") là gì?
- A. Học máy giúp lọc thư rác nhanh hơn.
- B. Học máy không cần bất kỳ dữ liệu nào để hoạt động.
- C. Học máy có thể tự động học và thích ứng với các loại thư rác mới và phức tạp.
- D. Học máy đảm bảo không bao giờ có thư hợp lệ bị đánh dấu là thư rác.
Câu 16: Trong học không giám sát, một kỹ thuật phổ biến là giảm chiều dữ liệu (dimensionality reduction). Mục đích chính của kỹ thuật này là gì?
- A. Để gán nhãn tự động cho dữ liệu không có nhãn.
- B. Để giảm số lượng đặc điểm của dữ liệu trong khi vẫn giữ lại thông tin quan trọng.
- C. Để tăng số lượng dữ liệu huấn luyện.
- D. Để phân loại dữ liệu vào các nhóm đã định trước.
Câu 17: Một công ty phát triển trò chơi muốn sử dụng học máy để tạo ra các nhân vật game (NPC - Non-Player Character) có khả năng học hỏi và cải thiện hành vi của mình qua mỗi lần chơi của người dùng, thay vì chỉ tuân theo kịch bản cố định. Loại học máy nào phù hợp nhất cho mục đích này?
- A. Học có giám sát (Supervised Learning)
- B. Học không giám sát (Unsupervised Learning)
- C. Học tăng cường (Reinforcement Learning)
- D. Học bán giám sát (Semi-supervised Learning)
Câu 18: Tại sao việc chuẩn bị và làm sạch dữ liệu (data preprocessing and cleaning) là một bước quan trọng trong quy trình làm việc với học máy?
- A. Dữ liệu "sạch" và được chuẩn bị tốt giúp cải thiện đáng kể độ chính xác và hiệu suất của mô hình học máy.
- B. Bước này chỉ cần thiết cho học không giám sát.
- C. Làm sạch dữ liệu giúp giảm kích thước của mô hình cuối cùng.
- D. Quá trình huấn luyện mô hình sẽ tự động làm sạch dữ liệu đầu vào.
Câu 19: Một công ty sản xuất ô tô tự lái đang sử dụng học máy để giúp xe nhận diện các vật thể trên đường (người đi bộ, xe khác, biển báo giao thông) từ dữ liệu camera. Để huấn luyện mô hình nhận diện vật thể này, họ cần loại dữ liệu nào?
- A. Chỉ cần dữ liệu hình ảnh không có nhãn.
- B. Dữ liệu hình ảnh đã được gán nhãn (vị trí và loại vật thể).
- C. Chỉ cần dữ liệu cảm biến từ các loại sensor khác.
- D. Không cần dữ liệu, mô hình tự học từ môi trường.
Câu 20: Khả năng "tổng quát hóa" (generalization) là một tiêu chí quan trọng đánh giá chất lượng của mô hình học máy. Khả năng này thể hiện điều gì?
- A. Mô hình có thể huấn luyện nhanh trên mọi loại dữ liệu.
- B. Mô hình có thể xử lý được dữ liệu có kích thước rất lớn.
- C. Mô hình đưa ra kết quả hoàn toàn giống với dữ liệu huấn luyện.
- D. Mô hình có thể đưa ra dự đoán chính xác trên dữ liệu mới chưa từng thấy trong quá trình huấn luyện.
Câu 21: Một trường học muốn sử dụng học máy để phân tích điểm thi của học sinh trong nhiều năm và xác định những học sinh có nguy cơ học lực kém để có biện pháp hỗ trợ kịp thời. Dữ liệu bao gồm điểm các môn, kết quả rèn luyện, và thông tin cá nhân (không nhạy cảm). Nếu họ muốn dự đoán liệu một học sinh có khả năng đạt điểm dưới trung bình trong kỳ thi sắp tới hay không, đây là bài toán thuộc loại nào?
- A. Phân loại (Classification) - một dạng của Học có giám sát.
- B. Phân nhóm (Clustering) - một dạng của Học không giám sát.
- C. Giảm chiều dữ liệu (Dimensionality Reduction) - một dạng của Học không giám sát.
- D. Học tăng cường (Reinforcement Learning).
Câu 22: So sánh học có giám sát và học không giám sát, điểm khác biệt cốt lõi nằm ở yếu tố nào?
- A. Thuật toán được sử dụng (ví dụ: mạng nơ-ron hay cây quyết định).
- B. Kích thước của tập dữ liệu huấn luyện.
- C. Sự có mặt của dữ liệu có nhãn trong quá trình huấn luyện.
- D. Lĩnh vực ứng dụng của mô hình sau khi huấn luyện.
Câu 23: Một nhà khoa học dữ liệu đang phân tích dữ liệu từ kính thiên văn để tìm kiếm các nhóm sao mới dựa trên đặc điểm vật lý của chúng (độ sáng, nhiệt độ, thành phần hóa học), mà không có bất kỳ phân loại sao nào được xác định trước cho tập dữ liệu này. Nhiệm vụ này phù hợp với phương pháp học máy nào?
- A. Học có giám sát để dự đoán tuổi của các ngôi sao.
- B. Học không giám sát để phân nhóm các ngôi sao tương tự nhau.
- C. Học tăng cường để điều khiển kính thiên văn.
- D. Học bán giám sát để phân loại các thiên hà.
Câu 24: Phát biểu nào sau đây mô tả đúng nhất về mục tiêu cuối cùng của việc xây dựng và triển khai một mô hình học máy trong thực tế?
- A. Chỉ đơn giản là đạt được độ chính xác 100% trên tập dữ liệu huấn luyện.
- B. Tạo ra một thuật toán phức tạp nhất có thể.
- C. Hiểu rõ mọi chi tiết nhỏ trong dữ liệu huấn luyện.
- D. Áp dụng mô hình đã học để đưa ra các dự đoán hoặc quyết định hữu ích trên dữ liệu mới nhằm giải quyết một vấn đề cụ thể.
Câu 25: Hệ thống nhận diện khuôn mặt trên điện thoại thông minh, sau khi bạn đã "dạy" nó khuôn mặt của mình bằng cách chụp vài góc độ khác nhau, sử dụng phương pháp học máy nào là chủ yếu để nhận biết bạn trong tương lai?
- A. Học có giám sát (Supervised Learning)
- B. Học không giám sát (Unsupervised Learning)
- C. Học tăng cường (Reinforcement Learning)
- D. Chỉ sử dụng các thuật toán xử lý ảnh đơn giản.
Câu 26: Một trong những thách thức lớn khi làm việc với học máy là vấn đề "quá khớp" (overfitting). Quá khớp xảy ra khi mô hình học máy có đặc điểm gì?
- A. Mô hình không thể học được bất kỳ mẫu nào từ dữ liệu.
- B. Mô hình hoạt động kém trên dữ liệu huấn luyện nhưng tốt trên dữ liệu mới.
- C. Mô hình hoạt động rất tốt trên dữ liệu huấn luyện nhưng kém hiệu quả trên dữ liệu mới.
- D. Mô hình yêu cầu lượng dữ liệu huấn luyện rất ít.
Câu 27: Một nhà bán lẻ trực tuyến muốn phân tích các đánh giá sản phẩm (review) của khách hàng để tự động phân loại chúng thành "tích cực", "tiêu cực" hoặc "trung lập". Họ có sẵn một lượng lớn các đánh giá đã được gán nhãn cảm xúc. Loại học máy nào phù hợp nhất cho nhiệm vụ phân tích cảm xúc này?
- A. Học có giám sát (Supervised Learning)
- B. Học không giám sát (Unsupervised Learning)
- C. Học tăng cường (Reinforcement Learning)
- D. Giảm chiều dữ liệu (Dimensionality Reduction)
Câu 28: Bạn thu thập một tập dữ liệu về các loài hoa khác nhau, bao gồm các đặc điểm như chiều dài cánh hoa, chiều rộng cánh hoa, màu sắc,... nhưng bạn không biết tên của từng loài hoa trong tập dữ liệu này. Bạn muốn sử dụng học máy để tự động nhóm các bông hoa tương tự nhau lại. Phương pháp học máy nào bạn nên áp dụng?
- A. Học có giám sát, vì bạn muốn phân loại hoa.
- B. Học không giám sát, vì bạn muốn phân nhóm dữ liệu không có nhãn.
- C. Học tăng cường, vì bạn cần hệ thống học cách nhận diện hoa qua tương tác.
- D. Giảm chiều dữ liệu, vì bạn muốn giảm số lượng đặc điểm của hoa.
Câu 29: Vai trò của học máy trong lĩnh vực y tế, cụ thể là trong chẩn đoán bệnh, thường được thể hiện qua khả năng nào?
- A. Thay thế hoàn toàn các bác sĩ trong quá trình chẩn đoán.
- B. Chỉ lưu trữ hồ sơ bệnh án điện tử.
- C. Phân tích dữ liệu y tế phức tạp để hỗ trợ bác sĩ phát hiện bệnh hoặc đưa ra dự báo về tình trạng sức khỏe.
- D. Chỉ được sử dụng để quản lý lịch hẹn bệnh nhân.
Câu 30: Bạn muốn xây dựng một ứng dụng có thể dịch tự động văn bản từ tiếng Việt sang tiếng Anh. Bạn có một bộ dữ liệu lớn gồm các cặp câu tiếng Việt và bản dịch tiếng Anh tương ứng. Phương pháp học máy nào bạn sẽ sử dụng và tại sao?
- A. Học có giám sát, vì bạn có dữ liệu đầu vào (tiếng Việt) và đầu ra mong muốn (tiếng Anh) đã được gán nhãn.
- B. Học không giám sát, vì bạn đang tìm kiếm cấu trúc ẩn trong ngôn ngữ.
- C. Học tăng cường, vì hệ thống cần học cách dịch tốt hơn qua phản hồi.
- D. Giảm chiều dữ liệu, vì bạn muốn giảm độ phức tạp của ngôn ngữ.