Thầy cô kiến thức thâm sâu
Học sinh chăm chỉ bước đầu thành công.

BÀI 28 - THỰC HÀNH TRẢI NGHIỆM TRÍCH RÚT THÔNG TIN VÀ TRI THỨC (KNTT - CS)

Bài 28 - Thực hành trải nghiệm trích rút thông tin và tri thức (kntt)
 Đây là bài soạn lý thuyết tin học 12 - sách Kết nối tri thức. Bài học này thuộc định hướng Khoa học máy tính (CS). Quý Thầy Cô và các em học sinh truy cập để làm tài liệu tham khảo nhé. Chúc Thầy Cô dạy tốt, chúc các em học sinh học giỏi.
Yêu cầu: Phân tích mối quan hệ giữa các nhóm khách hàng với xếp hạng khả năng tín dụng.
 Dữ liệu sử dụng trong bài học được trích rút từ nguồn dữ liệu nêu trong trang web của Cộng đồng Khoa học dữ liệu và Học máy Kaggle. Đây là dữ liệu xếp hạng khả năng tín dụng khách hàng của một đơn vị cho vay tài chính, gồm các cột Mã định danh, Số tuổi, Thu nhập năm (tính theo USD) và khả năng tín dụng (Hình 28.1). Dưới đây, em sẽ được hướng dẫn thực hiện vài thao tác xử lí và phân tích dữ liệu, với một số công cụ của Excel Data Analysis (Microsoft Office 365). Thông qua đó, em có được trải nghiệm bước đầu về việc trích rút thông tin và tri thức hữu ích từ dữ liệu.
Yêu cầu: Bổ sung phân loại dữ liệu từ dữ liệu đã có.
Hướng dẫn: Chuẩn bị dữ liệu gồm nhiều công đoạn khác nhau, là một trong những giai đoạn mất nhiều thời gian và công sức nhất của quy trình khoa học dữ liệu. Tuy nhiên, trong nhiệm vụ này, ta sẽ chỉ thực hiện việc bổ sung thêm cột mới trong bảng dữ liệu đã có. Nói chung, việc thay đổi các cột dữ liệu (cột nào thêm vào, cột nào bỏ đi,…) cần được cân nhắc trước khi bắt đầu giai đoạn Chuẩn bị dữ liệu, xuất phát từ yêu cầu phân tích dữ liệu. Ví dụ, từ yêu cầu phân tích dữ liệu của Nhiệm vụ chung đã nêu ở trên, nhằm phân tích khả năng tín dụng theo độ tuổi hoặc theo mức thu nhập, ta sẽ cần bổ sung các cột Nhóm tuổiMức thu nhập dựa trên số liệu các cột Số tuổiThu nhập năm.
a) Tải dữ liệu vào Power Query
Bước 1. Tải dữ liệu từ trang hanhtrangso.nxbgd.vn và lưu với tên VD_KHDL.
Bước 2. Mở tệp VD_KHDL trong Excel.
Bước 3. Chọn vùng dữ liệu muốn xử lí: chọn Data → Get Data → From Table/Range hoặc Data → From Table tùy theo phiên bản Excel trên từng máy tính cụ thể.
b) Tiền xử lí dữ liệu
Bước 1. Tạo cột Mức thu nhập từ cột Thu nhập năm:
Nháy chuột chọn cột Thu nhập năm;
Trên thanh công cụ, chọn Add Column → Conditional Column (Hình 28.2).
Phân mức thu nhập thành các nhóm: Thấp: <= $25.000; Trung bình: ($25.000 - 50.000]; Khá: ($50.000 - 75.000]; Cao: >= $75.000. Nháy OK để hoàn thành việc phân mức (Hình 28.3).
Bước 2. Thực hiện các thao tác tương tự Bước 1 đối với cột Số tuổi để tạo cột Nhóm tuổi: < 21; 21 – 30; 31 – 40; 41 – 50; > 50.
 Kết quả nhận được là bảng dữ liệu như Hình 28.4.
Bước 3. Lưu dữ liệu đã qua tiền xử lí: Home → Close to hoặc Home → Close/Load to tùy theo cài đặt cụ thể của các phiên bản Excel. Dữ liệu sao xử lí sẽ được lưu thành một Sheet mới. Có thể đổi tên Sheet đó, ví dụ thành “Done Query” cho dễ nhớ để sử dụng sau này.
Bước 4. Có thể thực hiện việc đổi tên bảng dữ liệu đã qua xử lí thành “Processed_Data” để thuận tiện cho việc lập bảng tổng hợp bằng PivotTable sau này:
Nháy chuột vào ô bất kì trong bảng dữ liệu đã qua tiền xử lí.
Trên thanh công cụ, chọn Table Design.
Di chuyển chuột đến Table Name và đổi tên bảng theo yêu cầu (Hình 28.5).
Lưu ý: Sau khi đã lưu kết quả tiền xử lí dữ liệu, nếu muốn tiếp tục thực hiện thêm những thao tác khác với các cột dữ liệu, thì chỉ cần hiện bảng chọn như Hình 28.5, chọn Query → Edit.
c) Tạo trình tự sắp xếp dữ liệu mong muốn
 Cột Khả năng tín dụng có ba hạng mục: Kém, Trung bình, Tốt. Theo trình tự mặc định của bảng chữ cái, khi sắp xếp, dữ liệu cột này sẽ được xếp theo thứ tự Kém - Tốt - Trung bình. Để thay đổi trình tự sắp xếp dữ liệu này theo mong muốn, ví dụ theo trình tự Kém - Trung bình - Tốt, ta cần thực hiện các bước sau:
Bước 1. File → Options → Advanced
Bước 2. Di chuột xuống mục General → Edit Custom List
Bước 3. Tạo danh sách mới: NEW LIST → Add (xem Hình 28.6).
 Làm tương tự bước trên với cột Nhóm tuổi và cột Mức thu nhập để bổ sung các danh sách sắp xếp thứ tự tương ứng: < 21, 21 – 30, 31 – 40, 41 – 50, > 50 và Cao, Khá, Trung bình, Thấp. Yêu cầu: Tổng hợp Khả năng tín dụng theo Mức thu nhập
Hướng dẫn: Sử dụng PivotTable (Bảng tổng hợp) trong Excel để tổng hợp dữ liệu.
a) Khởi tạo bảng PivotTable
Bước 1. Nháy chuột vào ô bất kì trong bảng Processed_Data đã qua tiền xử lí.
Bước 2. Trên thanh công cụ, chọn Insert → PivotTable:
Chọn New wordsheet.
Nháy OK.
b) Tạo bảng tổng hợp Khả năng tín dụng theo Mức thu nhập
Bước 1. Tạo bảng tổng hợp để tính số lượng mỗi hạn mức tín dụng theo từng nhóm thu nhập bằng cách kéo thả các cột vào vùng Columns, RowsValues tương ứng (Hình 28.7). Trong đó, Rows là tiêu chí được sử dụng để tổng hợp dữ liệu có trong Columns.
Bước 2. Thực hiện việc kéo thả các cột dữ liệu vào các nguồn Columns, RowsValues tương ứng và quan sát sự thay đổi kết quả trên màn hình để chọn bảng tổng hợp phù hợp với mong muốn (ví dụ như hình 28.8, trong đó Grand Total là kết quả tổng cộng theo hàng/cột dữ liệu tương ứng).
c) Điều chỉnh việc hiển thị kết quả thống kê
Nhận xét: Có thể thấy, số lượng khách hàng ở mỗi nhóm thu nhập có sự khác biệt quá lớn, việc so sánh các giá trị này giữa các mức tín dụng với nhau không hợp lí. Vì vậy, ta sẽ điều chỉnh bảng tổng hợp trong Hình 28.8 để tính toán tỉ lệ phần trăm tương ứng thay cho số lượng khách hàng tuyệt đối:
Bước 1. Nháy nút phải chuột vào hàng PivotTable đã tạo ra (Hình 28.8).
Bước 2. Trong thực đơn xổ xuống, chọn Show Values As → % of Row Total ta nhận được bảng tổng hợp mới (ví dụ như hình 28.9, trong đó tỉ lệ % tính theo tổng của mỗi hàng tương ứng của bảng).
Yêu cầu: Tạo biểu đồ mô tả dữ liệu tổng hợp do PivotTable tạo ra.
Hướng dẫn: Sử dụng PivotChart trong Excel, một công cụ liên kết với PivotTable để thực hiện nhiệm vụ này.
 Tạo biểu đồ tổng hợp khả năng tín dụng theo nhóm thu nhập:
Bước 1. Nháy chuột vào vị trí bất kì trong bảng tổng hợp do PivotTable tạo ra (Hình 28.9).
Bước 2. Trên thanh công cụ, chọn Insert → PivotChart → Columns → OK. Ta nhận được biểu diễn dữ liệu nêu trên bằng biểu đồ cột (xem hình 28.10).
Lưu ý: Hình 28.10 là biểu đồ kết quả được bổ sung thêm nhãn dữ liệu, tên các mức thu nhập, tiêu đề cột ở mỗi trục biểu đồ,… để dễ dàng đọc số liệu qua biểu đồ. Việc bổ sung này được thực hiện tương tự như khi lập biểu đồ trong Excel.
Yêu cầu: Quan sát kết quả tổng hợp và biểu diễn dữ liệu để rút ra các kết luận về tính chất/mối quan hệ/xu hướng dữ liệu (nếu có) dựa trên mục tiêu phân tích dữ liệu đặt ra.
Hướng dẫn: Việc phân tích kết quả tổng hợp dữ liệu là một phần của quá trình phân tích dữ liệu. Công việc này trên thực tế là một việc trích rút các thông tin và tri thức hữu ích có ý nghĩa để trả lời các câu hỏi xuất phát từ mục tiêu phân tích dữ liệu.
a) Trả lời câu hỏi: Khả năng tín dụng nào có xu hướng ổn định nhất trong các nhóm thu nhập
Trả lời: Căn cứ bảng tổng hợp ngoài biểu đồ tương ứng ở Hình 28.9 và Hình 28.10 có thể dễ dàng nhận thấy, khả năng tín dụng Trung bình ổn định nhất trong tất cả các nhóm thu nhập và chiếm trên 50% tổng số khách hàng của từng nhóm.
b) Hãy cho biết:
Nhóm thu nhập nào có tỉ lệ phần trăm khách hàng có khả năng tín dụng mức Tốt cao nhất?
Nhóm thu nhập nào có tỉ lệ phần trăm khách hàng có khả năng tín dụng mức Kém cao nhất?
Nhóm thu nhập nào có số lượng khách hàng có khả năng tín dụng Tốt gần gấp đôi số khách hàng có khả năng tín dụng Kém? Nhóm thu nhập nào có khả năng tín dụng mức Kém cao hơn mức Tốt?
Lưu ý: Kết quả phân tích dữ liệu có thể trở thành tiền đề cho một nghiên cứu tiếp theo. Ví dụ, trong nhóm khách hàng có mức thu nhập loại Khá, số có khả năng tín dụng mức Kém lớn gần gấp ba số có khả năng tín dụng mức Tốt - điều này có thể gợi ý cho một việc thực hiện một cuộc điều tra xã hội nhằm tìm hiểu nguyên nhân của thực tế này.
CÙNG CHUYÊN MỤC:

PHẦN I. KIẾN THỨC CỐT LÕI CHUNG CHO CẢ HAI ĐỊNH HƯỚNG (CS) VÀ (ICT) - 21 bài.
CHỦ ĐỀ 1. MÁY TÍNH VÀ XÃ HỘI TRI THỨC
CHỦ ĐỀ 2. MẠNG MÁY TÍNH VÀ INTERNET
CHỦ ĐỀ 3. ĐẠO ĐỨC, PHÁP LUẬT VÀ VĂN HÓA TRONG MÔI TRƯỜNG SỐ
CHỦ ĐỀ 4. GIẢI QUYẾT VẤN ĐỀ VỚI SỰ TRỢ GIÚP CỦA MÁY TÍNH
CHỦ ĐỀ 5. HƯỚNG NGHIỆP VỚI TIN HỌC

PHẦN II. ĐỊNH HƯỚNG KHOA HỌC MÁY TÍNH (CS) - 9 bài.
CHỦ ĐỀ 6. MẠNG MÁY TÍNH VÀ INTERNET
CHỦ ĐỀ 7. GIẢI QUYẾT VẤN ĐỀ VỚI SỰ TRỢ GIÚP CỦA MÁY TÍNH

PHẦN III. ĐỊNH HƯỚNG TIN HỌC ỨNG DỤNG (ICT) - 7 bài.
CHỦ ĐỀ 6. MÁY TÍNH VÀ XÃ HỘI TRI THỨC
CHỦ ĐỀ 7. ỨNG DỤNG TIN HỌC

CÁC CHUYÊN MỤC LIÊN QUAN:

BÀI 27 - MÁY TÍNH VÀ KHOA HỌC DỮ LIỆU (KNTT - CS)

Bài 27 - Máy tính và khoa học dữ liệu (kntt)
 Đây là bài soạn lý thuyết tin học 12 - sách Kết nối tri thức. Bài học này thuộc định hướng Khoa học máy tính (CS). Quý Thầy Cô và các em học sinh truy cập để làm tài liệu tham khảo nhé. Chúc Thầy Cô dạy tốt, chúc các em học sinh học giỏi.
 Trong khoa học dữ liệu, quy trình Khoa học dữ liệu là một chuỗi các bước được thực hiện để nghiên cứu, phân tích và khám phá tri thức từ dữ liệu. Quy trình này thường bao gồm các giai đoạn như thu thập và tiền xử lí dữ liệu; khám phá tri thức; phân tích, đánh giá triển khai và báo cáo kết quả,… Quy trình đó có thể được coi như là một khung hành động để triển khai các dự án Khoa Học dữ liệu, làm cho việc tương tác với dữ liệu trở nên có hệ thống và hiệu quả hơn, để chuyển đổi dữ liệu thành tri thức và thông tin hữu ích.
 Máy tính có vai trò không thể thiếu trong mọi giai đoạn của quy trình khoa học dữ liệu. Nó cung cấp sức mạnh tính toán, khả năng lưu trữ và khả năng tự động hóa cần thiết để xử lí, phân tích và khám phá tri thức từ dữ liệu, góp phần vào sự phát triển và thành công của Khoa học dữ liệu. Vai trò quan trọng của máy tính đối với sự phát triển của Khoa học dữ liệu có thể được nhìn nhận từ nhiều góc độ khác nhau:
Xử lí và lưu trữ dữ liệu: Máy tính cung cấp công cụ và phương tiện để xử lí, lưu trữ và quản lí khối lượng lớn dữ liệu. Nó cung cấp sức mạnh tính toán cần thiết để làm việc với dữ liệu lớn, phức tạp, được lưu trữ với nhiều định dạng khác nhau, từ các cơ sở dữ liệu đến hệ thống tệp phân tán.
Phân tích và khai phá dữ liệu: Khoa học dữ liệu thường liên quan đến việc sử dụng các mô hình thống kê và Học máy để phân tích và khai phá dữ liệu phức tạp. Máy tính là phương tiện không thể thiếu để thực hiện các thuật toán, huấn luyện và kiểm nghiệm các mô hình học máy, nhằm khám phá tri thức từ dữ liệu, đưa ra dự đoán và xác định các mẫu.
Trực quan hóa dữ liệu: Máy tính cho phép tạo ra các biểu diễn dữ liệu trực quan, giúp các nhà khoa học dữ liệu khám phá và trình bày những phát hiện của họ dễ dàng hơn. Các công cụ và thư viện trực quan hóa dữ liệu cho phép tạo nhiều loại biểu đồ, đồ thị và báo cáo tổng quan có khả năng tương tác.
Tự động hóa: Quy trình khoa học dữ liệu thường bao gồm nhiều nhiệm vụ lặp đi lặp lại như làm sạch dữ liệu và huấn luyện mô hình. Nhiều công cụ máy tính có khả năng trợ giúp việc tự động hóa những tác vụ này, giảm thiểu các lỗi nảy sinh do các thao tác thủ công và tăng tốc quá trình xử lí, phân tích.
Xử lý song song: Nhiều nhiệm vụ trong quy trình khoa học dữ liệu có khả năng song song hóa cao. Máy tính với bộ xử lí đa lõi, các siêu máy tính hoặc hệ thống tính toán phân tán có thể xử lí dữ liệu song song, giảm đáng kể thời gian cần thiết để phân tích, đặc biệt là khi xử lí dữ liệu lớn.
Điện toán đám mây: Nền tảng đám mây cung cấp tài nguyên tính toán, bao gồm các dịch vụ và cơ sở hạ tầng đa dạng, cho phép các nhà khoa học có thể thực hiện việc phân tích dữ liệu mà không cần đầu tư vào phần cứng và những cơ sở hạ tầng đắt tiền (Hình 27.1).
Hợp tác và truyền thông: Thông qua các công cụ làm việc theo nhóm, làm việc từ xa, cùng các phương tiện chia sẻ thông tin và dữ liệu, máy tính hỗ trợ đắc lực cho việc phối hợp, cộng tác khoa học. Nhờ các công cụ và phương tiện máy tính, các nhà khoa học dữ liệu có thể truyền đạt những phát hiện của họ một cách hiệu quả tới các bên liên quan.
 Tính ưu việt của việc sử dụng máy tính và các thuật toán hiệu quả trong xử lí dữ liệu lớn nói chung và dữ liệu có kích thước lớn nói riêng được thể hiện qua khả năng lưu trữ, xử lí, phân tích, khai phá dữ liệu ấy một cách nhanh chóng, nhất quán và hiệu quả. Để nhận biết được điều này ta sẽ xem xét một ví dụ cụ thể.
 Hệ gene người (cũng như các loài khác) là một chuỗi các nucleotide, kí hiệu là A, C, G, T, mang thông tin di truyền quyết định đến hình dáng, sức khỏe, bệnh tật và thậm chí cả tính cách con người. Nói một cách đơn giản, hệ gene người có thể được xem như là một chuỗi có độ dài khoảng 3 tỉ các kí tự A, C, G, T. Chuỗi kí tự này của hai người bất kì là khác nhau, trừ vài trường hợp đặc biệt, ví dụ sinh đôi từ cùng một trứng. Giải trình tự gene (Hình 27.2) là việc xác định trình tự xuất hiện các kí tự ,A C, G, T trong chuỗi ký tự đó. Tuy nhiên các máy giải trình tự gene thường chỉ xác định được các đoạn nucleotide ngắn, có chiều dài hàng trăm kí tự và cũng không xác định được các đoạn này nằm ở vị trí nào trên hệ gene. Người ta thu thập rất nhiều đoạn ngắn như vậy và lắp ráp hàng triệu các đoạn ngắn này thành một hệ gene hoàn chỉnh. Quá trình này rất phức tạp, cần hệ thống máy tính mạnh, các thuật toán có độ chính xác cao và tốc độ nhanh để thực hiện.
 Dự án Hệ gene người (Human Genome Project - HGP) là một nỗ lực khoa học mang tính đột phá nhằm, xác lập hệ gene và giải mã bản thiết kế di truyền hoàn chỉnh của con người. Bằng cách xác định thứ tự của tất cả các nucleotide trong hệ gene, Dự án tìm cách khám phá những bí mật về cấu trúc di truyền của con người. HGP tạo ra một lượng dữ liệu khổng lồ và đòi hỏi nguồn lực tính toán hết sức to lớn. Dưới đây là một vài số liệu cụ thể:
Kích thước dữ liệu: Chuỗi kí tự được nói ở trên của hệ gene người có độ dài khoảng 107,8 tỉ km. Việc giải trình tự toàn bộ hệ gene người tạo ra hàng trăm gigabyte dữ liệu thô.
Lưu trữ dữ liệu: Việc lưu trữ dữ liệu từ HGB là một thách thức đáng kể. Tổng dung lượng lưu trữ cho dữ liệu HGP được ước tính chiếm khoảng một trăm nghìn gigabyte.
Sức mạnh xử lí: Phân tích dữ liệu HGP đòi hỏi nguồn lực tính toán mạnh mẽ. Vào thời kì đỉnh cao, HGB dựa vào mạng lưới siêu máy tính trên khắp thế giới. Sức mạnh tính toán được sử dụng trong Dự án tương đương với hàng nghìn máy tính xách tay hiện đại hoạt động đồng thời.
 Được thực hiện từ năm 1990 đến năm 2003, sự thành công của HGB đã cung cấp rất nhiều thông tin về gene người và chức năng của chúng, làm thay đổi hiểu biết hiện nay về di truyền học, dẫn tới nhiều tiến bộ y học và khoa học. Nó mở đường cho việc phát triển y học cá nhân hóa, nghiên cứu bệnh tật, đồng thời cho phép đánh giá sâu sắc hơn về sinh học con người. HGP cũng cho thấy tầm quan trọng to lớn của mạng máy tính, các phương pháp và kĩ thuật quản lí dữ liệu,… tiên tiến trong nghiên cứu bộ gene. Tính ưu việt của việc sử dụng máy tính và các thuật toán hiệu quả trong việc xử lí dữ liệu lớn cho HGP được thể hiện ở nhiều khía cạnh:
Tốc độ và hiệu quả: Máy tính và thuật toán hiệu quả đã đẩy nhanh đáng kể quá trình phân tích lượng dữ liệu di truyền khổng lồ. Những gì có thể phải mất nhiều thập niên theo cách thủ công đã đạt được trong khoảng thời gian ngắn hơn nhiều, giúp Dự án có thể hoàn thành.
Độ chính xác: Các quy trình tự động giúp giảm nguy cơ sai sót của con người trong phân tích dữ liệu và đảm bảo tính chính xác của trình tự bộ gene cuối cùng.
Xử lí dữ liệu: Cơ sở hạ tầng tính toán cho phép quản lí và lưu trữ các bộ dữ liệu gene lớn, giúp tổ chức và truy cập thông tin di truyền mở rộng do Dự án tạo ra.
Tích hợp dữ liệu: Máy tính và thuật toán tích hợp dữ liệu từ các nhóm và tổ chức nghiên cứu khác nhau giúp đảm bảo tính nhất quán trong khám phá tri thức từ dữ liệu và làm tăng thêm hiệu quả hợp tác khoa học.
Giải thích dữ liệu: Các thuật toán phức tạp được sử dụng để giải thích thông tin di truyền, xác định gene, cùng các đặc tính và các vùng chức năng khác trong bộ gene.
Phân tích thời gian thực: Khả năng này của máy tính cho phép đưa ra quyết định nhanh chóng, điều này rất quan trọng đối với tiến độ của Dự án và tác động khoa học của nó.
Xử lí song song: Các kĩ thuật tính toán song song cho phép xử lí đồng thời nhiều luồng dữ liệu, tăng tốc đáng kể việc phân tích dữ liệu di truyền.
Khả năng mở rộng: Cơ sở hạ tầng tính toán được thiết kế để xử lí quy mô và độ phức tạp của dữ liệu bộ gene, điều này rất cần thiết cho các dự án khoa học quy mô lớn như HGP.
CÙNG CHUYÊN MỤC:

PHẦN I. KIẾN THỨC CỐT LÕI CHUNG CHO CẢ HAI ĐỊNH HƯỚNG (CS) VÀ (ICT) - 21 bài.
CHỦ ĐỀ 1. MÁY TÍNH VÀ XÃ HỘI TRI THỨC
CHỦ ĐỀ 2. MẠNG MÁY TÍNH VÀ INTERNET
CHỦ ĐỀ 3. ĐẠO ĐỨC, PHÁP LUẬT VÀ VĂN HÓA TRONG MÔI TRƯỜNG SỐ
CHỦ ĐỀ 4. GIẢI QUYẾT VẤN ĐỀ VỚI SỰ TRỢ GIÚP CỦA MÁY TÍNH
CHỦ ĐỀ 5. HƯỚNG NGHIỆP VỚI TIN HỌC

PHẦN II. ĐỊNH HƯỚNG KHOA HỌC MÁY TÍNH (CS) - 9 bài.
CHỦ ĐỀ 6. MẠNG MÁY TÍNH VÀ INTERNET
CHỦ ĐỀ 7. GIẢI QUYẾT VẤN ĐỀ VỚI SỰ TRỢ GIÚP CỦA MÁY TÍNH

PHẦN III. ĐỊNH HƯỚNG TIN HỌC ỨNG DỤNG (ICT) - 7 bài.
CHỦ ĐỀ 6. MÁY TÍNH VÀ XÃ HỘI TRI THỨC
CHỦ ĐỀ 7. ỨNG DỤNG TIN HỌC

CÁC CHUYÊN MỤC LIÊN QUAN:

BÀI 26 - LÀM QUEN VỚI KHOA HỌC DỮ LIỆU (KNTT - CS)

Bài 26 - Làm quen với khoa học dữ liệu (kntt)
 Đây là bài soạn lý thuyết tin học 12 - sách Kết nối tri thức. Bài học này thuộc định hướng Khoa học máy tính (CS). Quý Thầy Cô và các em học sinh truy cập để làm tài liệu tham khảo nhé. Chúc Thầy Cô dạy tốt, chúc các em học sinh học giỏi.
 Khoa học dữ liệu là một lĩnh vực liên ngành, sử dụng các phương pháp khoa học, quy trình, thuật toán để khám phá tri thức từ dữ liệu, kết hợp những tri thức đó với tri thức chuyên ngành làm cơ sở cho những quyết định.
 Nói một cách cụ thể hơn, Khoa học dữ liệu sử dụng các phương pháp và công cụ của: khoa học máy tính, toán học và thống kê kết hợp với tri thức chuyên ngành để giúp tổ chức, cá nhân hiểu rõ hơn về dữ liệu mình sở hữu và tận dụng tri thức này để đưa ra những quyết định phù hợp (Hình 26.1).
 Trong đó:
Khoa học máy tính cung cấp các công cụ và kĩ thuật để xử lí, phân tích và khai phá dữ liệu. Các ngôn ngữ và thư viện lập trình cũng như Học máy cùng với khả năng xử lí dữ liệu có quy mô và độ phức tạp khác nhau, đóng vai trò quan trọng trong việc phân tích, khai phá dữ liệu và xây dựng các mô hình dự đoán.
Toán học và thống kê cung cấp cơ sở cho các phương pháp phân tích và khai phá dữ liệu. Các thuật toán thống kê và toán học giúp kiểm tra giả thuyết, tính toán phân phối xác suất, xác định sự tương quan giữa các biến trong dữ liệu,…
Tri thức chuyên ngành là tri thức của từng lĩnh vực, ví dụ kinh doanh, y tế, khoa học xã hội,… có vai trò quan trọng để hiểu ngữ cảnh và ý nghĩa của dữ liệu. Nó giúp các nhà khoa học dữ liệu đánh giá được chất lượng và độ chính xác của dữ liệu, diễn giải được kết quả phân tích và khai phá dữ liệu theo cách có ý nghĩa phù hợp với lĩnh vực ứng dụng để đưa ra quyết định đúng đắn.
 Mục tiêu chính của Khoa học dữ liệu là phân tích và khai phá dữ liệu để có được tri thức, vận dụng tri thức đó để giải quyết vấn đề và đưa ra các quyết định phù hợp. Các mục tiêu cụ thể của Khoa học dữ liệu có thể được nêu ngắn gọn như sau:
Tổ chức và quản lí dữ liệu tập trung vào việc xây dựng, duy trì hệ thống tổ chức dữ liệu một cách khoa học để đảm bảo tính toàn vẹn, sẵn sàng và quản lí hiệu quả các nguồn dữ liệu. Đây là nhiệm vụ rất quan trọng để tạo ra cơ sở hạ tầng dữ liệu mạnh mẽ và linh hoạt, hỗ trợ quá trình phân tích và ra quyết định trong lĩnh vực Khoa học dữ liệu.
Phân tích dữ liệu nhằm hiểu rõ về nội dung, cấu trúc dữ liệu, xác định các đặc điểm quan trọng, nhận dạng nhóm và xu hướng trong dữ liệu. Việc này giúp tạo ra cái nhìn toàn diện về dữ liệu và hỗ trợ quá trình ra quyết định.
Trực quan hóa dữ liệu nhằm biểu hiện dữ liệu một cách trực quan, dễ hiểu bằng các sơ đồ, biểu đồ hay hình ảnh, giúp người dùng có được cái nhìn tổng quan về dữ liệu. Ví dụ, nhìn biểu đồ trong Hình 26.2 có thể dễ dàng suy ra được nhiệt độ và biên độ nhiệt cũng như tổng lượng mưa trung bình năm,...
Tối ưu hóa quyết định nhằm cải thiện quyết định dựa trên dữ liệu, bao gồm việc sử dụng các thuật toán tối ưu hóa để đưa ra quyết định tốt nhất dựa trên các ràng buộc và mục tiêu. Ví dụ, tối ưu hóa quy trình sản xuất để tối ưu hóa hiệu quả của dây chuyền sản xuất hay sản lượng, chất lượng sản phẩm,...
Khám phá tri thức để tìm ra các mối quan hệ ẩn chứa trong dữ liệu, xác định nguyên nhân và kết quả, tạo ra tri thức mới từ dữ liệu. Đây cũng là mục tiêu cụ thể cao nhất của Khoa học dữ liệu. Ví dụ, trong nghiên cứu dược phẩm, người ta có thể sử dụng dữ liệu bệnh nhân để tìm hiểu mối quan hệ giữa một loại thuốc và các phản ứng phụ, giúp họ hiểu rõ hơn về tác dụng của loại thuốc này đối với sức khỏe của bệnh nhân. Nhiều trang web thương mại điện tử sử dụng dữ liệu lịch sử mua sắm của người dùng để dự đoán và đề xuất sản phẩm mà họ có thể quan tâm,...
 Tất cả các mục tiêu cụ thể nêu trên góp phần vào việc tận dụng dữ liệu để đưa ra những quyết định thông minh, cải thiện hoạt động của tổ chức hoặc doanh nghiệp.
 Sự phát triển trong thời gian gần đây của Khoa học dữ liệu cũng như AI và Học máy không tách rời với sự ra đời và phát triển của dữ liệu lớn. Thuật ngữ dữ liệu lớn, trong ngữ cảnh thông thường, được dùng để chỉ một tập dữ liệu rất lớn và phức tạp mà các công cụ xử lí dữ liệu truyền thống không xử lí được. Dữ liệu lớn thường được đặc trưng bởi “năm chữ V” (5V): khối lượng (Volume), vận tốc (Velocity) và sự đa dạng (Variety), giá trị (Value) và tính xác thực (Veracity). Trong đó, khối lượng đề cập đến kích thước lớn của các cặp dữ liệu đó; vận tốc đề cập đến tốc độ mà dữ liệu đó được tạo ra và cần được phân tích; sự đa dạng đề cập đến nhiều loại dữ liệu khác nhau, có thể ở dạng văn bản, âm thanh, video hoặc các dạng khác; giá trị đề cập đến tính hữu ích của dữ liệu và tính xác thực đề cập đến sự cần thiết phải đảm bảo tính xác thực của dữ liệu do dữ liệu lớn thường có nhiều nhiễu/sai số hoặc không chính xác trong dữ liệu.
 Không thể tận dụng một cách hiệu quả dữ liệu lớn nếu không tự động hóa quy trình xử lí, phân tích và khai phá. Khoa học dữ liệu cùng với AI và Học máy cung cấp các quy trình như vậy. Nói cách khác, việc phân tích và khám phá các nghi thức hữu ích từ dữ liệu lớn có thể được coi là thành tựu và lợi ích chung lớn nhất mà Khoa học dữ liệu đem lại.
 Hình 26.3 cho cái nhìn trực quan về mối quan hệ giữa các lĩnh vực AI, Học máy và khoa học dữ liệu. Có thể thấy đó là mối quan hệ gắn bó và tương hỗ lẫn nhau giữa các lĩnh vực đang phát triển hết sức mạnh mẽ. Chính vì thế, nhiều thành tựu được coi là thành tựu chung của cả ba lĩnh vực; không ít ứng dụng thực tế được mô tả trong các tài liệu khác nhau như là ứng dụng của AI, của Học máy hay của Khoa học dữ liệu tùy theo bối cảnh mà chúng được nhắc tới.
 Dưới đây sẽ đề cập khái quát một số thành tựu cụ thể của Khoa học dữ liệu:
Đổi mới quá trình ra quyết định - ra quyết định dựa trên dữ liệu góp phần tăng hiệu quả công việc: Các tổ chức và cá nhân có thể đưa ra những quyết định sáng suốt và chính xác hơn nhờ việc sử dụng dữ liệu để cung cấp thông tin cho quá trình ra quyết định. Thông qua việc phân tích và khai phá dữ liệu thu thập được, Khoa học dữ liệu có thể đưa ra những dự báo và phân tích xu hướng phát triển, từ đó giúp tổ chức, doanh nghiệp sớm chuẩn bị, sẵn sàng thích nghi với những thay đổi và đưa ra các quyết định kinh doanh phù hợp. Bằng cách sử dụng thuật toán học máy để phân tích và khai phá dữ liệu lớn về các giao dịch, ngân hàng và tổ chức tài chính có thể xác định những mẫu và điểm bất thường, từ đó xác định hoạt động gian lận, giúp ngăn ngừa tổn thất và cải thiện tính bảo mật tổng thể của hệ thống tài chính. Một ví dụ khác đó là Khoa học dữ liệu có khả năng hỗ trợ phân bổ tài nguyên hợp lí nhờ phân tích dữ liệu sử dụng tài nguyên, giúp các tổ chức tối ưu hóa việc phân bổ tài nguyên, giảm các nguy cơ lãng phí.
Tự động hóa và thúc đẩy quá trình đổi mới sáng tạo: Các mô hình Học máy trong Khoa học dữ liệu có thể giúp tự động hóa những tác vụ lặp đi lặp lại và tốn thời gian, cho phép con người tập trung vào những công việc phức tạp và sáng tạo hơn. Ví dụ chúng có thể giúp tự động hóa nhiều quy trình và công việc trong các lĩnh vực sản xuất, hậu cần (logistic), dịch vụ khách hàng, quản lí tài chính, giúp tiết kiệm thời gian và chi phí, tăng tính hiệu quả và độ chính xác. Đồng thời, do các công cụ và nền tảng Khoa học dữ liệu ngày càng trở nên dễ tiếp cận hơn, các tổ chức thuộc mọi lĩnh vực đều có thể vận dụng và hưởng lợi nhờ những khả năng của Khoa học dữ liệu. Vì thế, có thể nói Khoa học dữ liệu góp phần thúc đẩy quá trình đổi mới sáng tạo, tạo ra nhiều cơ hội mới cho các lĩnh vực khác nhau.
Cá nhân hóa các dịch vụ, cải thiện trải nghiệm khách hàng: Khoa học dữ liệu có thể hỗ trợ việc cung cấp các dịch vụ được cá nhân hóa, dựa trên việc phân tích các dữ liệu được thường xuyên cập nhật về khách hàng, giúp các doanh nghiệp có được những thông tin đầy đủ hơn về nhu cầu, sở thích và hành vi của họ. Điều này giúp các doanh nghiệp đưa ra những giải pháp cải thiện trải nghiệm khách hàng, góp phần gia tăng doanh số. Các hệ khuyến nghị (còn được gọi là các hệ tư vấn) định hướng cá nhân hóa, được phát triển và ứng dụng rộng rãi để giới thiệu những sản phẩm hoặc nội dung mà khách hàng có thể quan tâm, đang là một trong các giải pháp kinh doanh hiệu quả. Trong lĩnh vực y tế, y học cá nhân hóa cũng là một trong những thành tựu đáng lưu ý của Khoa học dữ liệu. Tiếp cận sử dụng Khoa học dữ liệu và Học máy, thông qua việc phân tích và khai thác các bộ dữ liệu lớn về thông tin di truyền và y tế liên quan, cho phép đưa ra phác đồ điều trị phù hợp với từng bệnh nhân, giúp nâng cao hiệu quả và kết quả chăm sóc sức khỏe cộng đồng.
CÙNG CHUYÊN MỤC:

PHẦN I. KIẾN THỨC CỐT LÕI CHUNG CHO CẢ HAI ĐỊNH HƯỚNG (CS) VÀ (ICT) - 21 bài.
CHỦ ĐỀ 1. MÁY TÍNH VÀ XÃ HỘI TRI THỨC
CHỦ ĐỀ 2. MẠNG MÁY TÍNH VÀ INTERNET
CHỦ ĐỀ 3. ĐẠO ĐỨC, PHÁP LUẬT VÀ VĂN HÓA TRONG MÔI TRƯỜNG SỐ
CHỦ ĐỀ 4. GIẢI QUYẾT VẤN ĐỀ VỚI SỰ TRỢ GIÚP CỦA MÁY TÍNH
CHỦ ĐỀ 5. HƯỚNG NGHIỆP VỚI TIN HỌC

PHẦN II. ĐỊNH HƯỚNG KHOA HỌC MÁY TÍNH (CS) - 9 bài.
CHỦ ĐỀ 6. MẠNG MÁY TÍNH VÀ INTERNET
CHỦ ĐỀ 7. GIẢI QUYẾT VẤN ĐỀ VỚI SỰ TRỢ GIÚP CỦA MÁY TÍNH

PHẦN III. ĐỊNH HƯỚNG TIN HỌC ỨNG DỤNG (ICT) - 7 bài.
CHỦ ĐỀ 6. MÁY TÍNH VÀ XÃ HỘI TRI THỨC
CHỦ ĐỀ 7. ỨNG DỤNG TIN HỌC

CÁC CHUYÊN MỤC LIÊN QUAN:

BÀI 25 - LÀM QUEN VỚI HỌC MÁY (KNTT - CS)

Bài 25 - Làm quen với học máy (kntt)
 Đây là bài soạn lý thuyết tin học 12 - sách Kết nối tri thức. Bài học này thuộc định hướng Khoa học máy tính (CS). Quý Thầy Cô và các em học sinh truy cập để làm tài liệu tham khảo nhé. Chúc Thầy Cô dạy tốt, chúc các em học sinh học giỏi.
 Trong thực tế sử dụng thư điện tử, các loại thư rác mới xuất hiện ngày càng nhiều và đa dạng. Do vậy, việc xây dựng bộ lọc thư điện tử bằng cách thủ công nói chung tốn nhiều công sức và không hiệu quả. Thay vào đó, có thể sử dụng Học máy giúp máy tính tự xây dựng bộ lọc để phân loại thư điện tử.
Học máy là một lĩnh vực của AI tập trung vào việc phát triển các thuật toán và mô hình cho phép máy tính tự học và cải thiện từ dữ liệu để đưa ra dự đoán hoặc quyết định dựa trên dữ liệu mà không cần lập trình rõ ràng.
 Vài ví dụ cụ thể sau đây có thể giúp em hiểu một cách sơ lược hai điểm mấu chốt trong khái niệm Học máy: “máy tính tự học từ dữ liệu” và “không cần lập trình rõ ràng”.
 Trong trường hợp lọc thư điện tử, việc “không cần lập trình rõ ràng” có nghĩa là không cần viết chương trình để hướng dẫn máy tính các quy tắc cụ thể, ví dụ, “một thư điện tử chứa từ X hoặc y là thư rác”. Thay vào đó, chỉ cần cung cấp cho máy tính tập dữ liệu các ví dụ về thư rác và thư hợp lệ, máy tính sử dụng dữ liệu này để học những đặc điểm, mẫu hoặc quy luật mà nó sẽ sử dụng để đoán nhận và phân loại thư điện tử mới được gửi tới.
 Tương tự như vậy, nếu muốn máy tính nhận dạng con ngựa trong hình ảnh, việc lập trình rõ ràng có thể là viết một chương trình máy tính với các mô tả như “Con vật có 4 chân cao, mặt dài, đôi tai nhọn là con ngựa”. Tuy nhiên, việc mô tả tất cả đặc điểm cụ thể của con ngựa trong mọi trường hợp có thể gặp là không khả thi và không hiệu quả. Thay vào đó, chỉ cần cung cấp cho máy tính hàng nghìn hình ảnh chứa con ngựa và các con vật khác để máy tính tự học từ dữ liệu này. Máy tính tự xác định các đặc trưng từ dữ liệu, ví dụ, “Con ngựa thường có 4 chân cao, mặt dài, đôi tai nhọn” và sử dụng chúng để nhận dạng ngựa trong hình ảnh nhận được sau này. Trong cả hai ví dụ nêu trên, máy tính không biết trước như thế nào là thư rác hoặc như thế nào là con ngựa và cách nhận dạng chúng - nó tự học từ dữ liệu mà chúng ta cung cấp. Đây cũng là điểm mấu chốt nhất trong tất cả các ứng dụng Học máy. Điều này cho phép máy tính giải quyết nhiều bài toán nhờ việc “tự học” từ dữ liệu, không đòi hỏi phải hướng dẫn trực tiếp bằng cách lập trình rõ ràng.
 Việc xây dựng các ứng dụng Học máy có thể chia thành 5 bước cơ bản như Hình 25.2. Tùy theo bài toán cần giải quyết, việc thu thập dữ liệu để xây dựng mô hình Học máy có thể được lấy từ nhiều nguồn khác nhau, như các cơ sở dữ liệu, tệp tin hoặc thậm chí thông qua việc ghi chép trực tiếp. Thông thường, dữ liệu đó không phù hợp để có thể sử dụng được ngay. Do vậy, cần thực hiện các thao tác chuẩn bị dữ liệu (còn được gọi là “làm sạch dữ liệu”) bao gồm việc loại bỏ dữ liệu nhiễu, bổ sung các giá trị thiếu, chuyển đổi dữ liệu sang định dạng phù hợp và giảm kích thước dữ liệu nếu cần. Cần lưu ý, đây là hai bước quan trọng, chiếm nhiều thời gian và công sức nhất của quá trình xây dựng ứng dụng Học máy. Hai bước này có thể phải thực hiện lặp đi lặp lại cho tới khi thu được bộ dữ liệu như mong muốn. Tập dữ liệu thu được thường được chia thành hai phần: dữ liệu huấn luyện (thường chiếm khoảng 70% đến 80%) và dữ liệu kiểm thử. Dữ liệu huấn luyện được dùng để huấn luyện mô hình, dữ liệu kiểm thử được dùng để đánh giá mô hình.
 Tiếp theo, cần chọn thuật toán học máy phù hợp với loại bài toán và dữ liệu thu thập được. Các loại thuật toán này khá đa dạng như hồi quy tuyến tính, cây quyết định, mạng nơron,… Về mặt bản chất, thuật toán Học máy sử dụng các mô hình toán học để kết nối các đặc trưng và thông tin liên quan tới cấp dữ liệu. Thực hiện thuật toán Học máy trên tập dữ liệu huấn luyện, thường được gọi là huấn luyện mô hình, giúp máy tính học cách phân biệt giữa các mẫu thuộc các lớp dữ liệu khác nhau. Kết quả của quá trình này sẽ là một mô hình Học máy để giải quyết một bài toán cụ thể. Áp dụng mô hình đó trên tập dữ liệu kiểm thử để đánh giá hiệu suất của mô hình trong việc dự đoán dữ liệu mới. Dựa trên kết quả đánh giá, mô hình có thể cần được cải thiện, bằng cách bổ sung thêm dữ liệu huấn luyện mới, điều chỉnh các tham số của thuật toán Học máy hoặc sử dụng các thuật toán Học máy khác. Các công việc này được gọi chung là bước đánh giá mô hình. Hai bước huấn luyện và đánh giá có thể được thực hiện lặp đi lặp lại cho tới khi thu được mô hình Học máy như mong muốn. Cuối cùng, sử dụng mô hình thu được để giải quyết vấn đề đặt ra, thực hiện dự đoán hay phân cụm trên dữ liệu mới.
 Trong học máy, tập dữ liệu đầu vào gồm hai loại chính: dữ liệu có nhãndữ liệu không có nhãn. Dữ liệu được gắn kết với một nhãn hoặc một giá trị đích cụ thể được gọi là dữ liệu có nhãn, trường hợp ngược lại, là dữ liệu không có nhãn. Nhãn hoặc giá trị đích này thường chỉ ra thông tin quan trọng về đối tượng, thuộc tính hoặc phân loại mà mẫu dữ liệu đó đại diện. Việc gán nhãn dữ liệu thường được thực hiện bằng cách thủ công. Dữ liệu có nhãn đóng vai trò rất quan trọng trong quá trình huấn luyện mô hình Học máy, vì nó cung cấp thông tin cần thiết cho mô hình để học và đưa ra dự đoán chính xác trên các dữ liệu mới. Việc có dữ liệu được gán nhãn đúng và đa dạng là một yếu tố quyết định để xây dựng mô hình học máy hiệu quả và đáng tin cậy.
 Tương ứng với hai loại dữ liệu đầu vào nêu trên là hai phương pháp học máy cơ bản: học có giám sáthọc không giám sát. Đây cũng là hai phương pháp học máy được sử dụng nhiều nhất trong thực tế để giải quyết các bài toán phân loại và phân cụm dữ liệu.
Học có giám sát
Học có giám sát là phương pháp học máy trong đó tập dữ liệu đầu vào là dữ liệu đã được gán nhãn. Trên cơ sở được “học” từ dữ liệu loại này, máy tính có khả năng mô hình hóa mối quan hệ giữa dữ liệu đầu vào với đầu ra tương ứng (pha huấn luyện mô hình). Khi đưa một dữ liệu mới chưa biết vào, máy tính sẽ thực hiện việc xác định các đặc trưng dữ liệu, từ đó đưa ra phản hồi (dự đoán) dữ liệu đó cùng loại với dữ liệu nào được gán nhãn (pha sử dụng mô hình). Hình 25.3 mô tả một hệ thống học có giám sát, với dữ liệu là các hình ảnh được gán nhãn (Con ngựa hay không phải ngựa), để xác định xem dữ liệu mới được đưa vào là một con ngựa hay là một loài động vật khác.
 Học có giám sát là phương pháp học máy được sử dụng rộng rãi nhất. Nó có nhiều ứng dụng trong thực tế như xây dựng bộ lọc thư rác, nhận dạng hình ảnh, nhận dạng chữ viết tay, nhận dạng tiếng nói,...
Học không giám sát
Học không giám sát là phương pháp học máy sử dụng dữ liệu không có nhãn. Sử dụng thông tin về mối quan hệ tương tự hay khác biệt, cũng như dựa trên xác suất đồng xuất hiện của các đối tượng hoặc các biến có trong dữ liệu, các thuật toán và mô hình học trong phương pháp này sẽ thực hiện việc mô hình hóa cấu trúc hoặc mô tả các thông tin ẩn chứa trong dữ liệu.
 Học không giám sát thường được ứng dụng để phân chia dữ liệu thành các nhóm dựa trên sự tương đồng của các mẫu dữ liệu. Ví dụ, trong Hình 25.4, mô hình học không giám sát thực hiện việc phân nhóm các con vật dựa trên hình ảnh của chúng. Có thể chỉ ra một số bài toán khác có thể áp dụng học không giám sát, chẳng hạn như xác định các phân khúc khách hàng dựa trên lịch sử mua hàng của họ; phát hiện bất thường trong các giao dịch thẻ tín dụng để xác định gian lận; xác định các chủ đề khác nhau hoặc xác định chủ đề chính được thảo luận trong một tập hợp các bài báo,...
 Học máy có vai trò quan trọng trong nhiều công việc và ứng dụng thực tế. Nó hỗ trợ khai phá các loại dữ liệu đa dạng, có mô hình lớn, bao gồm cả các dữ liệu không ngừng thay đổi theo thời gian, để trích xuất được những thông tin và tri thức hữu ích. Dưới đây là một vài ví dụ cụ thể:
Lọc thư rác: Trong trường hợp này, Học máy giúp xây dựng mô hình có khả năng phân loại thư điện tử là thư rác hoặc thư thường dựa trên các đặc điểm của thư gửi tới, như từ khóa, cấu trúc thư và nhiều yếu tố khác. Học máy giúp giảm thời gian và công sức của người dùng trong việc đánh dấu thư rác, đồng thời cải thiện hiệu suất lọc hư theo thời gian bằng cách học hỏi từ dữ liệu và cập nhật mô hình.
Chẩn đoán bệnh: Hoặc máy sử dụng dữ liệu về tình trạng sức khỏe của bệnh nhân cùng kết quả xét nghiệm và các cơ sở dữ liệu bệnh lí khác để xây dựng mô hình chẩn đoán bệnh. Mô hình này còn có thể dự báo tình trạng sức khỏe và đề xuất phương án điều trị phù hợp cho bệnh nhân. Mô hình Học máy có thể học từ hàng ngàn lần chẩn đoán cho nhiều bệnh nhân khác nhau trước đó, giúp bác sĩ đưa ra quyết định dựa trên dữ liệu một cách chính xác và nhanh chóng hơn.
Phân tích thị trường: Học máy có thể phân tích dữ liệu thị trường từ nhiều nguồn khác nhau để xác định xu hướng, dự báo biến động giá cả, trợ giúp hình thành các chiến lược kinh doanh dựa trên các mô hình dự đoán. Nó giúp người đầu tư và nhà kinh doanh hiểu rõ hơn về thị trường, tăng khả năng đưa ra quyết định đầu tư dựa trên thông tin và các phân tích kĩ thuật.
Nhận dạng tiếng nói: Học máy giúp xây dựng các mô hình âm thanh để biểu diễn những đặc trưng của tiếng nói, giúp máy tính có thể học và nhận dạng các biểu hiện âm thanh của từng đơn vị tiếng (phoneme), từ đó tạo ra biểu diễn số hóa của âm thanh. Những đặc điểm âm thanh cá nhân trong các mô hình âm thanh còn giúp cải thiện khả năng nhận dạng và phân biệt tiếng nói của những người nói khác nhau.
Nhận dạng chữ viết: Học máy giúp xây dựng mô hình hình học cho phép xác định hình dạng, kích thước, góc xoay của các kí tự trong hình ảnh chữ viết tay. Những năm gần đây, sự phát triển của học sâu (một lĩnh vực của Học máy) cho phép học và trích xuất các đặc trưng phức tạp từ hình ảnh chữ viết tay, giúp cải thiện đáng kể khả năng nhận dạng chữ viết tay.
Dịch tự động: Học máy sử dụng dữ liệu về bản dịch và bản gốc trong các ngôn ngữ khác nhau để xây dựng mô hình dịch tự động. Mô hình này có khả năng dịch văn bản, tiếng nói từ ngôn ngữ này sang ngôn ngữ khác. Khả năng dịch tự động của máy tính giúp hạn chế rào cản ngôn ngữ trong giao tiếp, phát triển hợp tác và trao đổi thông tin mọi lĩnh vực, đặc biệt trong giáo dục, đào tạo và nghiên cứu khoa học.
 Trong các công việc trên, cũng như trong nhiều lĩnh vực khác, vai trò quan trọng của Học máy được thể hiện ở nhiều góc độ khác nhau: giúp xử lí một lượng lớn dữ liệu trong thời gian thực một cách nhanh chóng và hiệu quả để xác định các mẫu và xu hướng quan trọng có trong dữ liệu, tự động hóa các nhiệm vụ phức tạp mà trước đây cần sự can thiệp của con người,… Do có khả năng học từ dữ liệu, Học máy có thể giúp các chuyên gia và các nhà nghiên cứu từng bước xây dựng và bổ sung tri thức. Hơn thế nữa, nhờ khả năng không ngừng bổ sung dữ liệu và tự động cập nhật mô hình đã được huấn luyện, Học máy ngày càng có vai trò không thể thiếu trong các ứng dụng mà dữ liệu có quy mô và chủng loại đa dạng, không ngừng thay đổi theo thời gian, như sự xuất hiện các mẫu thư rác mới, các triệu chứng bệnh mới hay các bản dịch ngôn ngữ mới.
CÙNG CHUYÊN MỤC:

PHẦN I. KIẾN THỨC CỐT LÕI CHUNG CHO CẢ HAI ĐỊNH HƯỚNG (CS) VÀ (ICT) - 21 bài.
CHỦ ĐỀ 1. MÁY TÍNH VÀ XÃ HỘI TRI THỨC
CHỦ ĐỀ 2. MẠNG MÁY TÍNH VÀ INTERNET
CHỦ ĐỀ 3. ĐẠO ĐỨC, PHÁP LUẬT VÀ VĂN HÓA TRONG MÔI TRƯỜNG SỐ
CHỦ ĐỀ 4. GIẢI QUYẾT VẤN ĐỀ VỚI SỰ TRỢ GIÚP CỦA MÁY TÍNH
CHỦ ĐỀ 5. HƯỚNG NGHIỆP VỚI TIN HỌC

PHẦN II. ĐỊNH HƯỚNG KHOA HỌC MÁY TÍNH (CS) - 9 bài.
CHỦ ĐỀ 6. MẠNG MÁY TÍNH VÀ INTERNET
CHỦ ĐỀ 7. GIẢI QUYẾT VẤN ĐỀ VỚI SỰ TRỢ GIÚP CỦA MÁY TÍNH

PHẦN III. ĐỊNH HƯỚNG TIN HỌC ỨNG DỤNG (ICT) - 7 bài.
CHỦ ĐỀ 6. MÁY TÍNH VÀ XÃ HỘI TRI THỨC
CHỦ ĐỀ 7. ỨNG DỤNG TIN HỌC

CÁC CHUYÊN MỤC LIÊN QUAN:
☎ TIN HỌC 10-KẾT NỐI TRI THỨC
☎ TIN HỌC 11-KẾT NỐI TRI THỨC
☎ TIN HỌC 12-KẾT NỐI TRI THỨC

Tổng số lượt xem

Chăm chỉ chiến thắng tài năng
khi tài năng không chịu chăm chỉ.

- Tim Notke -

Bản quyền
Liên hệ
Chat Zalo
Chat Facebook