Đây là bài soạn gợi ý trả lời SGK tin học 12 (bộ sách Cánh diều). Bài này thuộc định hướng: Khoa học máy tính (CS). Các em truy cập vào để tham khảo nhé. Chúc các em có nhiều sức khỏe và chăm ngoan học giỏi.
Nháy vào các mục bên dưới để xem nhanh hơn | ||||
---|---|---|---|---|
Khởi động | Hoạt động | Luyện tập | ||
Vận dụng | Câu hỏi tự kiểm tra |
Hiện nay người ta nói nhiều đến “Dữ liệu lớn”. Em hãy lấy một ví dụ về dữ liệu lớn mà em biết.
Mạng xã hội: Facebook, Instagram, Twitter, TikTok...: Mỗi ngày, hàng tỷ người dùng tạo ra hàng petabyte dữ liệu trên các nền tảng này. Dữ liệu bao gồm bài đăng, hình ảnh, video, bình luận, lượt thích, chia sẻ, v.v.
Trong môn Toán, nội dung 'Thống kê và xác suất' có phần 'Phân tích và xử lí dữ liệu' với yêu cầu vận dụng các kiến thức để giải quyết một số bài toán thực tiễn. Em hãy nêu một số vấn đề thực tế có thể giải quyết bằng phân tích và xử lí dữ liệu thống kê. Theo em, đây có phải là phát hiện tri thức không?
- Dự đoán doanh số bán hàng
- Phân tích điểm số học sinh
- Nghiên cứu mức độ hài lòng của khách hàng
- Phân tích tỉ lệ mắc bệnh trong cộng đồng
- Dự báo thời tiết
Theo em đây là phát hiện tri thức. Bởi vì: Khi phân tích và xử lý dữ liệu thống kê, ta có thể tìm ra những xu hướng, quy luật và mối quan hệ ẩn giấu trong dữ liệu. Những thông tin này không hiển nhiên trước đó, nhưng sau khi xử lý, chúng có thể giúp đưa ra quyết định thông minh hơn. Đây chính là quá trình khai phá dữ liệu để phát hiện tri thức mới.
Trong buổi thảo luận nhóm, một số bạn có những phát biểu sau. Em hãy cho biết mỗi phát biểu là đúng hay sai: a) Dữ liệu lớn có khuôn dạng xác định, ý nghĩa rõ ràng. b) Phân tích dữ liệu nhằm rút ra các thông tin hữu ích còn tiềm ẩn. c) Khai phá dữ liệu có mục đích tìm ra dữ liệu mới. d) Học máy thúc đẩy việc phát triển những phương pháp mới để khai phá dữ liệu.
⤷ Sai. Dữ liệu lớn thường có đặc điểm là đa dạng về định dạng (có cấu trúc, bán cấu trúc và phi cấu trúc), khối lượng lớn và tốc độ phát sinh nhanh. Do đó, ý nghĩa của dữ liệu lớn thường không rõ ràng ngay từ đầu và cần được phân tích để khai thác.
b) Phân tích dữ liệu nhằm rút ra các thông tin hữu ích còn tiềm ẩn.
⤷ Đúng. Phân tích dữ liệu là quá trình khám phá, làm sạch, biến đổi và mô hình hóa dữ liệu để tìm ra các mẫu, xu hướng và thông tin hữu ích có thể được sử dụng để đưa ra quyết định hoặc giải quyết vấn đề.
c) Khai phá dữ liệu có mục đích tìm ra dữ liệu mới.
⤷ Sai. Khai phá dữ liệu (data mining) nhằm mục đích khám phá các mẫu, quy luật và tri thức tiềm ẩn trong dữ liệu hiện có, chứ không phải tìm ra dữ liệu mới.
d) Học máy thúc đẩy việc phát triển những phương pháp mới để khai phá dữ liệu.
⤷ Đúng. Học máy cung cấp các thuật toán và mô hình mạnh mẽ để tự động hóa quá trình khai phá dữ liệu, giúp tìm ra các mẫu và quy luật phức tạp mà con người khó có thể nhận ra.
Trong bài học đã có ví dụ cho từng chữ V, em hãy nêu một ví dụ khác cho một trong năm chữ V về đặc trưng của dữ liệu lớn.
Ví dụ: Trong các nền tảng mạng xã hội như Facebook, Twitter, TikTok, hàng triệu người dùng liên tục tạo và chia sẻ nội dung (bài viết, hình ảnh, video) trong thời gian thực.
- Mỗi giây có hàng triệu bài đăng, bình luận, lượt thích và chia sẻ.
- Hệ thống phải xử lý dữ liệu với tốc độ cực nhanh để hiển thị nội dung mới nhất cho người dùng.
- Facebook sử dụng công nghệ AI và Machine Learning để phát hiện nội dung vi phạm hoặc đề xuất nội dung phù hợp ngay lập tức.
➥ Đây là một ví dụ điển hình về Velocity (Tốc độ dữ liệu), một đặc trưng quan trọng của dữ liệu lớn (Big Data).
Câu 1. Dữ liệu lớn có những đặc trưng gì?
Câu 2. Điều gì thể hiện máy tính là công cụ quan trọng trong khoa học dữ liệu?
Câu 3. Các thuật toán song song thể hiện tính ưu việt ở những điểm nào?
1. Volume (Khối lượng lớn)
- Dữ liệu có số lượng khổng lồ, có thể lên đến petabyte (PB) hoặc exabyte (EB).
- Ví dụ: Facebook xử lý hàng tỷ bài đăng, ảnh và video mỗi ngày.
2. Velocity (Tốc độ cao)
- Dữ liệu được tạo ra và xử lý nhanh chóng theo thời gian thực.
- Ví dụ: Giao dịch ngân hàng trực tuyến cần xử lý ngay lập tức để đảm bảo tính chính xác.
3. Variety (Đa dạng)
- Dữ liệu có nhiều dạng khác nhau: có cấu trúc (bảng dữ liệu), phi cấu trúc (hình ảnh, video, văn bản) và bán cấu trúc (JSON, XML).
- Ví dụ: Dữ liệu từ mạng xã hội gồm văn bản, hình ảnh, video, emoji,...
4. Veracity (Độ tin cậy)
- Dữ liệu có thể bị nhiễu, sai lệch hoặc không đầy đủ, cần được làm sạch và kiểm chứng.
- Ví dụ: Tin giả (fake news) trên mạng cần xác minh trước khi sử dụng.
5. Value (Giá trị)
- Dữ liệu lớn mang lại giá trị khi được phân tích để hỗ trợ ra quyết định, dự đoán xu hướng và tối ưu hóa hoạt động.
- Ví dụ: Amazon sử dụng dữ liệu khách hàng để cá nhân hóa đề xuất sản phẩm, tăng doanh thu.
Câu 2. Máy tính là công cụ quan trọng trong khoa học dữ liệu vì:
- Khả năng xử lý dữ liệu khổng lồ
+ Máy tính có thể xử lý hàng terabyte (TB) hoặc petabyte (PB) dữ liệu nhanh chóng, điều mà con người không thể làm thủ công.
+ Ví dụ: Google phân tích hàng tỷ tìm kiếm mỗi ngày để cải thiện kết quả hiển thị.
- Tự động hóa phân tích dữ liệu
+ Máy tính sử dụng thuật toán và trí tuệ nhân tạo (AI) để khám phá xu hướng, mô hình từ dữ liệu.
+ Ví dụ: Các mô hình học máy có thể dự đoán doanh số bán hàng hoặc chẩn đoán bệnh từ dữ liệu y tế.
- Lưu trữ và quản lý dữ liệu hiệu quả
+ Hệ thống cơ sở dữ liệu giúp lưu trữ, truy xuất và tổ chức dữ liệu một cách khoa học.
+ Ví dụ: Ngân hàng sử dụng máy tính để quản lý thông tin khách hàng và giao dịch.
- Trực quan hóa dữ liệu
+ Máy tính hỗ trợ vẽ biểu đồ, đồ thị, bản đồ nhiệt,... giúp con người hiểu dữ liệu dễ dàng hơn.
+ Ví dụ: Bản đồ thời tiết hiển thị dự báo nhiệt độ, lượng mưa theo thời gian thực.
- Khả năng học và thích ứng
+ Các mô hình học máy giúp máy tính có thể học từ dữ liệu và cải thiện độ chính xác theo thời gian.
+ Ví dụ: Netflix phân tích sở thích người xem để đề xuất phim phù hợp.
Câu 3. Thuật toán song song thể hiện tính ưu việt ở những điểm sau:
- Tăng tốc độ xử lý:
+ Thuật toán song song cho phép chia nhỏ một tác vụ lớn thành nhiều tác vụ nhỏ hơn và thực hiện chúng đồng thời trên nhiều bộ xử lý.
+ Điều này giúp giảm đáng kể thời gian xử lý, đặc biệt là đối với các tác vụ phức tạp và đòi hỏi nhiều tính toán.
- Tăng hiệu suất:
+ Bằng cách sử dụng nhiều bộ xử lý cùng lúc, thuật toán song song có thể tận dụng tối đa sức mạnh tính toán của hệ thống.
+ Điều này dẫn đến hiệu suất tổng thể cao hơn so với việc sử dụng thuật toán tuần tự.
- Giải quyết các vấn đề lớn hơn:
+ Thuật toán song song cho phép giải quyết các vấn đề có kích thước và độ phức tạp lớn hơn, vượt quá khả năng xử lý của các hệ thống tuần tự.
+ Điều này mở ra khả năng giải quyết các bài toán trong nhiều lĩnh vực như khoa học, kỹ thuật, tài chính và y tế.
- Tối ưu hóa sử dụng tài nguyên:
+ Thuật toán song song có thể tối ưu hóa việc sử dụng tài nguyên hệ thống, chẳng hạn như CPU, bộ nhớ và băng thông.
+ Điều này giúp tăng hiệu quả sử dụng tài nguyên và giảm chi phí.
Gợi ý trả lời:
Ví dụ về dữ liệu lớn mà em biết đó là:Mạng xã hội: Facebook, Instagram, Twitter, TikTok...: Mỗi ngày, hàng tỷ người dùng tạo ra hàng petabyte dữ liệu trên các nền tảng này. Dữ liệu bao gồm bài đăng, hình ảnh, video, bình luận, lượt thích, chia sẻ, v.v.
Trong môn Toán, nội dung 'Thống kê và xác suất' có phần 'Phân tích và xử lí dữ liệu' với yêu cầu vận dụng các kiến thức để giải quyết một số bài toán thực tiễn. Em hãy nêu một số vấn đề thực tế có thể giải quyết bằng phân tích và xử lí dữ liệu thống kê. Theo em, đây có phải là phát hiện tri thức không?
Gợi ý trả lời:
Một số vấn đề thực tế có thể giải quyết bằng phân tích và xử lý dữ liệu thống kê:- Dự đoán doanh số bán hàng
- Phân tích điểm số học sinh
- Nghiên cứu mức độ hài lòng của khách hàng
- Phân tích tỉ lệ mắc bệnh trong cộng đồng
- Dự báo thời tiết
Theo em đây là phát hiện tri thức. Bởi vì: Khi phân tích và xử lý dữ liệu thống kê, ta có thể tìm ra những xu hướng, quy luật và mối quan hệ ẩn giấu trong dữ liệu. Những thông tin này không hiển nhiên trước đó, nhưng sau khi xử lý, chúng có thể giúp đưa ra quyết định thông minh hơn. Đây chính là quá trình khai phá dữ liệu để phát hiện tri thức mới.
Trong buổi thảo luận nhóm, một số bạn có những phát biểu sau. Em hãy cho biết mỗi phát biểu là đúng hay sai: a) Dữ liệu lớn có khuôn dạng xác định, ý nghĩa rõ ràng. b) Phân tích dữ liệu nhằm rút ra các thông tin hữu ích còn tiềm ẩn. c) Khai phá dữ liệu có mục đích tìm ra dữ liệu mới. d) Học máy thúc đẩy việc phát triển những phương pháp mới để khai phá dữ liệu.
Gợi ý trả lời:
a) Dữ liệu lớn có khuôn dạng xác định, ý nghĩa rõ ràng.⤷ Sai. Dữ liệu lớn thường có đặc điểm là đa dạng về định dạng (có cấu trúc, bán cấu trúc và phi cấu trúc), khối lượng lớn và tốc độ phát sinh nhanh. Do đó, ý nghĩa của dữ liệu lớn thường không rõ ràng ngay từ đầu và cần được phân tích để khai thác.
b) Phân tích dữ liệu nhằm rút ra các thông tin hữu ích còn tiềm ẩn.
⤷ Đúng. Phân tích dữ liệu là quá trình khám phá, làm sạch, biến đổi và mô hình hóa dữ liệu để tìm ra các mẫu, xu hướng và thông tin hữu ích có thể được sử dụng để đưa ra quyết định hoặc giải quyết vấn đề.
c) Khai phá dữ liệu có mục đích tìm ra dữ liệu mới.
⤷ Sai. Khai phá dữ liệu (data mining) nhằm mục đích khám phá các mẫu, quy luật và tri thức tiềm ẩn trong dữ liệu hiện có, chứ không phải tìm ra dữ liệu mới.
d) Học máy thúc đẩy việc phát triển những phương pháp mới để khai phá dữ liệu.
⤷ Đúng. Học máy cung cấp các thuật toán và mô hình mạnh mẽ để tự động hóa quá trình khai phá dữ liệu, giúp tìm ra các mẫu và quy luật phức tạp mà con người khó có thể nhận ra.
Trong bài học đã có ví dụ cho từng chữ V, em hãy nêu một ví dụ khác cho một trong năm chữ V về đặc trưng của dữ liệu lớn.
Gợi ý trả lời:
Em chọn chữ "Velocity" (Tốc độ xử lý dữ liệu) để đưa ra ví dụ.Ví dụ: Trong các nền tảng mạng xã hội như Facebook, Twitter, TikTok, hàng triệu người dùng liên tục tạo và chia sẻ nội dung (bài viết, hình ảnh, video) trong thời gian thực.
- Mỗi giây có hàng triệu bài đăng, bình luận, lượt thích và chia sẻ.
- Hệ thống phải xử lý dữ liệu với tốc độ cực nhanh để hiển thị nội dung mới nhất cho người dùng.
- Facebook sử dụng công nghệ AI và Machine Learning để phát hiện nội dung vi phạm hoặc đề xuất nội dung phù hợp ngay lập tức.
➥ Đây là một ví dụ điển hình về Velocity (Tốc độ dữ liệu), một đặc trưng quan trọng của dữ liệu lớn (Big Data).
Câu 1. Dữ liệu lớn có những đặc trưng gì?
Câu 2. Điều gì thể hiện máy tính là công cụ quan trọng trong khoa học dữ liệu?
Câu 3. Các thuật toán song song thể hiện tính ưu việt ở những điểm nào?
Gợi ý trả lời:
Câu 1. Dữ liệu lớn có 5 đặc trưng chính, thường được gọi là 5V:1. Volume (Khối lượng lớn)
- Dữ liệu có số lượng khổng lồ, có thể lên đến petabyte (PB) hoặc exabyte (EB).
- Ví dụ: Facebook xử lý hàng tỷ bài đăng, ảnh và video mỗi ngày.
2. Velocity (Tốc độ cao)
- Dữ liệu được tạo ra và xử lý nhanh chóng theo thời gian thực.
- Ví dụ: Giao dịch ngân hàng trực tuyến cần xử lý ngay lập tức để đảm bảo tính chính xác.
3. Variety (Đa dạng)
- Dữ liệu có nhiều dạng khác nhau: có cấu trúc (bảng dữ liệu), phi cấu trúc (hình ảnh, video, văn bản) và bán cấu trúc (JSON, XML).
- Ví dụ: Dữ liệu từ mạng xã hội gồm văn bản, hình ảnh, video, emoji,...
4. Veracity (Độ tin cậy)
- Dữ liệu có thể bị nhiễu, sai lệch hoặc không đầy đủ, cần được làm sạch và kiểm chứng.
- Ví dụ: Tin giả (fake news) trên mạng cần xác minh trước khi sử dụng.
5. Value (Giá trị)
- Dữ liệu lớn mang lại giá trị khi được phân tích để hỗ trợ ra quyết định, dự đoán xu hướng và tối ưu hóa hoạt động.
- Ví dụ: Amazon sử dụng dữ liệu khách hàng để cá nhân hóa đề xuất sản phẩm, tăng doanh thu.
Câu 2. Máy tính là công cụ quan trọng trong khoa học dữ liệu vì:
- Khả năng xử lý dữ liệu khổng lồ
+ Máy tính có thể xử lý hàng terabyte (TB) hoặc petabyte (PB) dữ liệu nhanh chóng, điều mà con người không thể làm thủ công.
+ Ví dụ: Google phân tích hàng tỷ tìm kiếm mỗi ngày để cải thiện kết quả hiển thị.
- Tự động hóa phân tích dữ liệu
+ Máy tính sử dụng thuật toán và trí tuệ nhân tạo (AI) để khám phá xu hướng, mô hình từ dữ liệu.
+ Ví dụ: Các mô hình học máy có thể dự đoán doanh số bán hàng hoặc chẩn đoán bệnh từ dữ liệu y tế.
- Lưu trữ và quản lý dữ liệu hiệu quả
+ Hệ thống cơ sở dữ liệu giúp lưu trữ, truy xuất và tổ chức dữ liệu một cách khoa học.
+ Ví dụ: Ngân hàng sử dụng máy tính để quản lý thông tin khách hàng và giao dịch.
- Trực quan hóa dữ liệu
+ Máy tính hỗ trợ vẽ biểu đồ, đồ thị, bản đồ nhiệt,... giúp con người hiểu dữ liệu dễ dàng hơn.
+ Ví dụ: Bản đồ thời tiết hiển thị dự báo nhiệt độ, lượng mưa theo thời gian thực.
- Khả năng học và thích ứng
+ Các mô hình học máy giúp máy tính có thể học từ dữ liệu và cải thiện độ chính xác theo thời gian.
+ Ví dụ: Netflix phân tích sở thích người xem để đề xuất phim phù hợp.
Câu 3. Thuật toán song song thể hiện tính ưu việt ở những điểm sau:
- Tăng tốc độ xử lý:
+ Thuật toán song song cho phép chia nhỏ một tác vụ lớn thành nhiều tác vụ nhỏ hơn và thực hiện chúng đồng thời trên nhiều bộ xử lý.
+ Điều này giúp giảm đáng kể thời gian xử lý, đặc biệt là đối với các tác vụ phức tạp và đòi hỏi nhiều tính toán.
- Tăng hiệu suất:
+ Bằng cách sử dụng nhiều bộ xử lý cùng lúc, thuật toán song song có thể tận dụng tối đa sức mạnh tính toán của hệ thống.
+ Điều này dẫn đến hiệu suất tổng thể cao hơn so với việc sử dụng thuật toán tuần tự.
- Giải quyết các vấn đề lớn hơn:
+ Thuật toán song song cho phép giải quyết các vấn đề có kích thước và độ phức tạp lớn hơn, vượt quá khả năng xử lý của các hệ thống tuần tự.
+ Điều này mở ra khả năng giải quyết các bài toán trong nhiều lĩnh vực như khoa học, kỹ thuật, tài chính và y tế.
- Tối ưu hóa sử dụng tài nguyên:
+ Thuật toán song song có thể tối ưu hóa việc sử dụng tài nguyên hệ thống, chẳng hạn như CPU, bộ nhớ và băng thông.
+ Điều này giúp tăng hiệu quả sử dụng tài nguyên và giảm chi phí.
---The end!---
CÙNG CHUYÊN MỤC:


Bài 1. Cơ sở mạng máy tính
Bài 2. Mô hình và các giao thức mạng
Bài 3. Thực hành thiết lập kết nối và sử dụng mạng
Bài 2. Mô hình và các giao thức mạng
Bài 3. Thực hành thiết lập kết nối và sử dụng mạng


Bài 1. Làm quen với ngôn ngữ đánh dấu siêu văn bản
Bài 2. Định dạng văn bản và siêu tạo liên kết
Bài 3. Thực hành định dạng văn bản và tạo siêu liên kết
Bài 4. Trình bày nội dung theo dạng danh sách, bảng biểu
Bài 5. Chèn hình ảnh, âm thanh, video và sử dụng khung
Bài 6. Tạo biểu mẫu
Bài 7. Thực hành tạo biểu mẫu
Bài 8. Làm quen với CSS
Bài 9. Thực hành định dạng một số thuộc tính CSS
Bài 10. Bộ chọn lớp, bộ chọn định danh
Bài 11. Mô hình hộp, bố cục trang web
Bài 12. Dự án nhỏ: Tạo trang web báo tường
Bài 2. Định dạng văn bản và siêu tạo liên kết
Bài 3. Thực hành định dạng văn bản và tạo siêu liên kết
Bài 4. Trình bày nội dung theo dạng danh sách, bảng biểu
Bài 5. Chèn hình ảnh, âm thanh, video và sử dụng khung
Bài 6. Tạo biểu mẫu
Bài 7. Thực hành tạo biểu mẫu
Bài 8. Làm quen với CSS
Bài 9. Thực hành định dạng một số thuộc tính CSS
Bài 10. Bộ chọn lớp, bộ chọn định danh
Bài 11. Mô hình hộp, bố cục trang web
Bài 12. Dự án nhỏ: Tạo trang web báo tường

Bài 1. Giới thiệu nhóm nghề Dịch vụ và Quản trị trong ngành Công nghệ thông tin
Bài 2. Một số nghề khác trong ngành Công nghệ thông tin và một số nghề ứng dụng Công nghệ thông tin
Bài 3. Dự án nhỏ: Tìm hiểu thông tin tuyển sinh và hướng nghiệp về lĩnh vực đào tạo “Máy tính và Công nghệ thông tin” ở Việt Nam.
Bài 2. Một số nghề khác trong ngành Công nghệ thông tin và một số nghề ứng dụng Công nghệ thông tin
Bài 3. Dự án nhỏ: Tìm hiểu thông tin tuyển sinh và hướng nghiệp về lĩnh vực đào tạo “Máy tính và Công nghệ thông tin” ở Việt Nam.

Bài 1. Thực hành kết nối máy tính với ti vi thông minh
Bài 2. Thực hành theo nhóm: Kết nối các thiết bị không dây cho ứng dụng
Bài 2. Thực hành theo nhóm: Kết nối các thiết bị không dây cho ứng dụng

Bài 1. Giới thiệu phần mềm tạo website
Bài 2. Tạo website bằng phần mềm
Bài 3. Tạo thanh điều hướng cho trang web
Bài 4. Tạo nội dung văn bản cho trang web
Bài 5. Tạo nội dung hình ảnh cho trang web
Bài 6. Tạo biểu mẫu cho trang web và xuất bản website
Bài 7. Tạo sản phẩm theo nhóm (Bài tập nhóm)
Bài 2. Tạo website bằng phần mềm
Bài 3. Tạo thanh điều hướng cho trang web
Bài 4. Tạo nội dung văn bản cho trang web
Bài 5. Tạo nội dung hình ảnh cho trang web
Bài 6. Tạo biểu mẫu cho trang web và xuất bản website
Bài 7. Tạo sản phẩm theo nhóm (Bài tập nhóm)

Bài 1. Môi trường truyền dẫn
Bài 2. Thiết bị mạng
Bài 3. Thiết kế mạng LAN
Bài 4. Thực hành về nhận diện thiết bị mạng và thiết kế mạng LAN (Bài tập nhóm)
Bài 2. Thiết bị mạng
Bài 3. Thiết kế mạng LAN
Bài 4. Thực hành về nhận diện thiết bị mạng và thiết kế mạng LAN (Bài tập nhóm)


Bài 1. Giới thiệu về học máy
Bài 2. Giới thiệu về khoa học dữ liệu
Bài 3. Giới thiệu về khoa học dữ liệu (tiếp theo)
Bài 4. Thực hành phân tích dữ liệu
Bài 2. Giới thiệu về khoa học dữ liệu
Bài 3. Giới thiệu về khoa học dữ liệu (tiếp theo)
Bài 4. Thực hành phân tích dữ liệu

CÁC CHUYÊN MỤC LIÊN QUAN: