Thầy cô kiến thức thâm sâu
Học sinh chăm chỉ bước đầu thành công.

BÀI 3 - GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU (TT) (CÁNH DIỀU - CS)

Bài 3-Giới thiệu về khoa học dữ liệu (tt) (Cánh diều - cs)
 Đây là bài soạn gợi ý trả lời SGK tin học 12 (bộ sách Cánh diều). Bài này thuộc định hướng: Khoa học máy tính (CS). Các em truy cập vào để tham khảo nhé. Chúc các em có nhiều sức khỏe và chăm ngoan học giỏi.
Nháy vào các mục bên dưới để xem nhanh hơn
Khởi động Hoạt động Luyện tập
Vận dụng Câu hỏi tự kiểm tra
Hiện nay người ta nói nhiều đến “Dữ liệu lớn”. Em hãy lấy một ví dụ về dữ liệu lớn mà em biết.
Gợi ý trả lời:
 Ví dụ về dữ liệu lớn mà em biết đó là:
 Mạng xã hội: Facebook, Instagram, Twitter, TikTok...: Mỗi ngày, hàng tỷ người dùng tạo ra hàng petabyte dữ liệu trên các nền tảng này. Dữ liệu bao gồm bài đăng, hình ảnh, video, bình luận, lượt thích, chia sẻ, v.v.
Trong môn Toán, nội dung 'Thống kê và xác suất' có phần 'Phân tích và xử lí dữ liệu' với yêu cầu vận dụng các kiến thức để giải quyết một số bài toán thực tiễn. Em hãy nêu một số vấn đề thực tế có thể giải quyết bằng phân tích và xử lí dữ liệu thống kê. Theo em, đây có phải là phát hiện tri thức không?
Gợi ý trả lời:
Một số vấn đề thực tế có thể giải quyết bằng phân tích và xử lý dữ liệu thống kê:
 - Dự đoán doanh số bán hàng
 - Phân tích điểm số học sinh
 - Nghiên cứu mức độ hài lòng của khách hàng
 - Phân tích tỉ lệ mắc bệnh trong cộng đồng
 - Dự báo thời tiết
 Theo em đây là phát hiện tri thức. Bởi vì: Khi phân tích và xử lý dữ liệu thống kê, ta có thể tìm ra những xu hướng, quy luật và mối quan hệ ẩn giấu trong dữ liệu. Những thông tin này không hiển nhiên trước đó, nhưng sau khi xử lý, chúng có thể giúp đưa ra quyết định thông minh hơn. Đây chính là quá trình khai phá dữ liệu để phát hiện tri thức mới.
Trong buổi thảo luận nhóm, một số bạn có những phát biểu sau. Em hãy cho biết mỗi phát biểu là đúng hay sai: a) Dữ liệu lớn có khuôn dạng xác định, ý nghĩa rõ ràng. b) Phân tích dữ liệu nhằm rút ra các thông tin hữu ích còn tiềm ẩn. c) Khai phá dữ liệu có mục đích tìm ra dữ liệu mới. d) Học máy thúc đẩy việc phát triển những phương pháp mới để khai phá dữ liệu.
Gợi ý trả lời:
 a) Dữ liệu lớn có khuôn dạng xác định, ý nghĩa rõ ràng.
 ⤷ Sai. Dữ liệu lớn thường có đặc điểm là đa dạng về định dạng (có cấu trúc, bán cấu trúc và phi cấu trúc), khối lượng lớn và tốc độ phát sinh nhanh. Do đó, ý nghĩa của dữ liệu lớn thường không rõ ràng ngay từ đầu và cần được phân tích để khai thác.
 b) Phân tích dữ liệu nhằm rút ra các thông tin hữu ích còn tiềm ẩn.
 ⤷ Đúng. Phân tích dữ liệu là quá trình khám phá, làm sạch, biến đổi và mô hình hóa dữ liệu để tìm ra các mẫu, xu hướng và thông tin hữu ích có thể được sử dụng để đưa ra quyết định hoặc giải quyết vấn đề.
 c) Khai phá dữ liệu có mục đích tìm ra dữ liệu mới.
 ⤷ Sai. Khai phá dữ liệu (data mining) nhằm mục đích khám phá các mẫu, quy luật và tri thức tiềm ẩn trong dữ liệu hiện có, chứ không phải tìm ra dữ liệu mới.
 d) Học máy thúc đẩy việc phát triển những phương pháp mới để khai phá dữ liệu.
 ⤷ Đúng. Học máy cung cấp các thuật toán và mô hình mạnh mẽ để tự động hóa quá trình khai phá dữ liệu, giúp tìm ra các mẫu và quy luật phức tạp mà con người khó có thể nhận ra.
Trong bài học đã có ví dụ cho từng chữ V, em hãy nêu một ví dụ khác cho một trong năm chữ V về đặc trưng của dữ liệu lớn.
Gợi ý trả lời:
 Em chọn chữ "Velocity" (Tốc độ xử lý dữ liệu) để đưa ra ví dụ.
Ví dụ: Trong các nền tảng mạng xã hội như Facebook, Twitter, TikTok, hàng triệu người dùng liên tục tạo và chia sẻ nội dung (bài viết, hình ảnh, video) trong thời gian thực.
 - Mỗi giây có hàng triệu bài đăng, bình luận, lượt thích và chia sẻ.
 - Hệ thống phải xử lý dữ liệu với tốc độ cực nhanh để hiển thị nội dung mới nhất cho người dùng.
 - Facebook sử dụng công nghệ AI và Machine Learning để phát hiện nội dung vi phạm hoặc đề xuất nội dung phù hợp ngay lập tức.
➥ Đây là một ví dụ điển hình về Velocity (Tốc độ dữ liệu), một đặc trưng quan trọng của dữ liệu lớn (Big Data).
Câu 1. Dữ liệu lớn có những đặc trưng gì?
Câu 2. Điều gì thể hiện máy tính là công cụ quan trọng trong khoa học dữ liệu?
Câu 3. Các thuật toán song song thể hiện tính ưu việt ở những điểm nào?
Gợi ý trả lời:
Câu 1. Dữ liệu lớn có 5 đặc trưng chính, thường được gọi là 5V:
1. Volume (Khối lượng lớn)
 - Dữ liệu có số lượng khổng lồ, có thể lên đến petabyte (PB) hoặc exabyte (EB).
 - Ví dụ: Facebook xử lý hàng tỷ bài đăng, ảnh và video mỗi ngày.
2. Velocity (Tốc độ cao)
 - Dữ liệu được tạo ra và xử lý nhanh chóng theo thời gian thực.
 - Ví dụ: Giao dịch ngân hàng trực tuyến cần xử lý ngay lập tức để đảm bảo tính chính xác.
3. Variety (Đa dạng)
 - Dữ liệu có nhiều dạng khác nhau: có cấu trúc (bảng dữ liệu), phi cấu trúc (hình ảnh, video, văn bản) và bán cấu trúc (JSON, XML).
 - Ví dụ: Dữ liệu từ mạng xã hội gồm văn bản, hình ảnh, video, emoji,...
4. Veracity (Độ tin cậy)
 - Dữ liệu có thể bị nhiễu, sai lệch hoặc không đầy đủ, cần được làm sạch và kiểm chứng.
 - Ví dụ: Tin giả (fake news) trên mạng cần xác minh trước khi sử dụng.
5. Value (Giá trị)
 - Dữ liệu lớn mang lại giá trị khi được phân tích để hỗ trợ ra quyết định, dự đoán xu hướng và tối ưu hóa hoạt động.
 - Ví dụ: Amazon sử dụng dữ liệu khách hàng để cá nhân hóa đề xuất sản phẩm, tăng doanh thu.
Câu 2. Máy tính là công cụ quan trọng trong khoa học dữ liệu vì:
 - Khả năng xử lý dữ liệu khổng lồ
  + Máy tính có thể xử lý hàng terabyte (TB) hoặc petabyte (PB) dữ liệu nhanh chóng, điều mà con người không thể làm thủ công.
  + Ví dụ: Google phân tích hàng tỷ tìm kiếm mỗi ngày để cải thiện kết quả hiển thị.
 - Tự động hóa phân tích dữ liệu
  + Máy tính sử dụng thuật toán và trí tuệ nhân tạo (AI) để khám phá xu hướng, mô hình từ dữ liệu.
  + Ví dụ: Các mô hình học máy có thể dự đoán doanh số bán hàng hoặc chẩn đoán bệnh từ dữ liệu y tế.
 - Lưu trữ và quản lý dữ liệu hiệu quả
  + Hệ thống cơ sở dữ liệu giúp lưu trữ, truy xuất và tổ chức dữ liệu một cách khoa học.
  + Ví dụ: Ngân hàng sử dụng máy tính để quản lý thông tin khách hàng và giao dịch.
 - Trực quan hóa dữ liệu
  + Máy tính hỗ trợ vẽ biểu đồ, đồ thị, bản đồ nhiệt,... giúp con người hiểu dữ liệu dễ dàng hơn.
  + Ví dụ: Bản đồ thời tiết hiển thị dự báo nhiệt độ, lượng mưa theo thời gian thực.
 - Khả năng học và thích ứng
  + Các mô hình học máy giúp máy tính có thể học từ dữ liệu và cải thiện độ chính xác theo thời gian.
  + Ví dụ: Netflix phân tích sở thích người xem để đề xuất phim phù hợp.
Câu 3. Thuật toán song song thể hiện tính ưu việt ở những điểm sau:
- Tăng tốc độ xử lý:
  + Thuật toán song song cho phép chia nhỏ một tác vụ lớn thành nhiều tác vụ nhỏ hơn và thực hiện chúng đồng thời trên nhiều bộ xử lý.
  + Điều này giúp giảm đáng kể thời gian xử lý, đặc biệt là đối với các tác vụ phức tạp và đòi hỏi nhiều tính toán.
- Tăng hiệu suất:
  + Bằng cách sử dụng nhiều bộ xử lý cùng lúc, thuật toán song song có thể tận dụng tối đa sức mạnh tính toán của hệ thống.
  + Điều này dẫn đến hiệu suất tổng thể cao hơn so với việc sử dụng thuật toán tuần tự.
- Giải quyết các vấn đề lớn hơn:
  + Thuật toán song song cho phép giải quyết các vấn đề có kích thước và độ phức tạp lớn hơn, vượt quá khả năng xử lý của các hệ thống tuần tự.
  + Điều này mở ra khả năng giải quyết các bài toán trong nhiều lĩnh vực như khoa học, kỹ thuật, tài chính và y tế.
- Tối ưu hóa sử dụng tài nguyên:
  + Thuật toán song song có thể tối ưu hóa việc sử dụng tài nguyên hệ thống, chẳng hạn như CPU, bộ nhớ và băng thông.
  + Điều này giúp tăng hiệu quả sử dụng tài nguyên và giảm chi phí.

---The end!---

CÙNG CHUYÊN MỤC:
Chủ đề A
Chủ đề B
Chủ đề D
Chủ đề F
Chủ đề G
Chủ đề A (ICT)
Chủ đề E (ICT)
Chủ đề B (CS)
Chủ đề F (CS)
Chủ đề F (CS1)
Chủ đề F (CS1)

CÁC CHUYÊN MỤC LIÊN QUAN:
☎ TIN HỌC 10-KẾT NỐI TRI THỨC
☎ TIN HỌC 11-KẾT NỐI TRI THỨC
☎ TIN HỌC 12-KẾT NỐI TRI THỨC

Tổng số lượt xem

Chăm chỉ chiến thắng tài năng
khi tài năng không chịu chăm chỉ.

- Tim Notke -

Bản quyền
Liên hệ
Chat Zalo
Chat Facebook