Lời Phật dạy

"Không làm các việc ác, Siêng làm các điều lành, Giữ tâm ý trong sạch, Đó là lời Phật dạy!" (Kinh Pháp Cú)
Showing posts with label datascientist. Show all posts
Showing posts with label datascientist. Show all posts

Sunday, January 5, 2025

Ra Quyết Định Dựa Trên Máy Móc, Nhưng Đừng Máy Móc

 

Ra Quyết Định Dựa Trên Máy Móc, Nhưng Đừng Máy Móc

Trong thời đại số hóa và công nghiệp 4.0 hiện nay, việc ra quyết định dựa trên dữ liệu và thuật toán đã trở thành một yếu tố thiết yếu trong nhiều lĩnh vực, từ kinh doanh, y tế đến giáo dục. Tuy nhiên, trong khi công nghệ mang lại sự chính xác và hiệu quả trong phần lớn trường hợp, nhưng nó vẫn phạm sai sót trong một số trường hợp. Vì vậy, điều quan trọng không kém là con người cần phải thận trọng và linh hoạt trong việc ra quyết định dựa trên máy móc, mà không nên quá phụ thuộc và cứng nhắc trong việc sử dụng công cụ này. Hãy ra quyết định dựa trên máy móc, nhưng đừng máy móc! Một số ví dụ gần đây mà chúng ta thường nghe thấy trên báo đài như: việc phạt người lái xe vượt đèn đỏ nhưng hệ thống đèn xanh đèn đỏ ở một số giao lộ lại nhảy lung tung khiến người tham gia giao thông có thể bị phạt oan, việc phạt nồng độ cồn dựa trên máy thổi độ cồn, đôi khi người bị phạt không uống rượu bia, nhưng thổi vào máy vẫn nhảy ra số…

Các hệ thống trí tuệ nhân tạo (AI) và học máy (machine learning) đã chứng tỏ khả năng vượt trội trong việc phân tích dữ liệu khổng lồ và đưa ra những dự đoán chính xác. Chúng giúp loại bỏ sự thiên vị và sai sót của con người, mang lại những quyết định hiệu quả hơn và tối ưu hóa quy trình làm việc. Mặc dù công nghệ có thể hỗ trợ, nhưng việc ra quyết định cuối cùng vẫn cần sự tham gia của con người. Chúng ta có khả năng cảm nhận, phân tích từ góc độ đạo đức, và hiểu được những yếu tố phi logic mà máy móc không thể nào nắm bắt. Điều này đặc biệt quan trọng trong những tình huống đòi hỏi sự linh hoạt và sáng tạo. Hãy nhìn vào hệ thống chấm điểm công dân của Trung Quốc như là một ví dụ. Rất nhiều nhà khoa học đã chỉ trích hệ thống này vi phạm nhân quyền và tạo ra sự bất bình đẳng trong đối xử với người dân. Có lẽ chính phủ Trung Quốc vì quá hào hứng với các hệ thống ra quyết định tự động, như hệ thống nhận dạng khuôn mặt, đã sử dụng các cỗ máy dựa trên các con số tính toán của giải thuật để phân loại người dân, và từ đó áp dụng các chính sách khác nhau với những nhóm người khác nhau. Điều này giúp phần nào hạn chế tội phạm và tăng cường an ninh quốc gia nhưng lại gây ra nhiều vấn đề liên quan đến quản trị xã hội. Đứng ở góc độ người công dân bị xếp hạng và bị áp đặt các chính sách phân biệt đối xử dựa trên phân loại của máy móc (nhiều khi rất sai), thì bạn nghĩ sao? Quyền con người của bạn có được tôn trọng không? Bạn có được đối xử bình đẳng không? Rất có khả năng bạn bị hạn chế quyền đi lại hoặc xuất cảnh chỉ vì hệ thống nhận dạng khuôn mặt của bạn trông giống với một tội phạm nào đó. Thực tế, điều tương tự cũng xảy ra ở các nước khác. Chẳng hạn, ở Mỹ, khi nhà nước áp dụng một số bộ lọc để hạn chế sự nhập cư từ các nước Hồi giáo, một người có thể bị cấm nhận cư bởi vì trong tên của họ có chữ “Ali” hay “Mohamed” khá giống với tên một số phần tử khủng bố mà Mỹ đang truy nã toàn cầu, nhưng thực tế họ hoàn toàn không liên quan.

Việc quá phụ thuộc vào các thuật toán mà không có sự xem xét từ con người có thể dẫn đến những quyết định sai lầm. Ví dụ, trong y tế, một hệ thống AI có thể chẩn đoán bệnh dựa trên các triệu chứng và dữ liệu lịch sử, nhưng bác sĩ vẫn cần đánh giá tình trạng bệnh nhân từ nhiều khía cạnh khác nhau. Hơn nữa, các thuật toán có thể bị sai lệch hoặc không cập nhật với những biến động mới. Chúng ta đã thấy một ví dụ rất gần đây là việc sử dụng Test Kit trong đợt dịch Covid-19 để phát hiện dương tính với virus (trong khi kết quả xét nghiệm bị chứng minh là tỷ lệ dương tính giả rất nhiều), từ kết quả đó, nhiều người bị nghi nhiễm đã bị đưa vào các khu cách ly tập trung, gây ra rất nhiều tổn thất về người và của.

Điều quan trọng là chúng ta cần biết cách kết hợp giữa công nghệ và yếu tố con người. Công nghệ chỉ nên được xem là công cụ hỗ trợ, giúp chúng ta có thêm thông tin và lựa chọn thông minh hơn, nhưng không nên thay thế hoàn toàn vai trò của con người. Sự phối hợp này giúp đảm bảo quyết định cuối cùng vừa chính xác vừa mang tính nhân văn. Trong thực tế, để áp dụng công nghệ, máy móc trong việc ra quyết định, con người cần ứng dụng lý thuyết logic mờ thay vì lý thuyết chính xác logic 0-1 của toán học. Lý thuyết mờ yêu cầu nhà khoa học cần xác định lằn ranh mờ, đó thường là một số thập phần nằm giữa 0 và 1, để có thể ra quyết định linh hoạt dựa trên thực tế. Phần rõ 0 hoặc 1 có thể nhờ máy tính ra quyết định, tuy nhiên, phần mờ cần phải có sự can thiệp của con người. Ví dụ: trong giao thông thay vì chỉ có đèn xanh đỏ, chúng ta còn phải có đèn vàng, ở đó báo hiệu cho người tham gia giao thông giảm tốc hoặc tăng tốc nếu ở gần, vượt đèn vàng sẽ không phải là vi phạm, hoặc trong xét nghiệm nếu chỉ số dương tính thấp ở dưới 1 ngưỡng nào đó, cần phải làm xét nghiệm thêm trước khi quyết định có bị nhiễm hay không.

Mỗi quyết định của chúng ta trong thực tế sẽ ảnh hưởng đến rất nhiều người và có thể gây ra thiệt hại đáng kể cho các bên liên quan. Vì vậy, cần phải rất thận trọng và linh hoạt trong việc ra quyết định và đưa ra chính sách dựa trên máy móc. Thay vì chỉ dựa vào những con số khô cứng khi ra quyết định, chúng ta nên xác định phần ranh mờ mà quyết định có khả năng sai sót nhiều hoặc cần phải có sự tham gia nhiều hơn của con người. Lấy ví dụ như thủ tục thông quan ở Nhật Bản, hải quan Nhật đã làm rất tốt việc này. Đối với doanh nghiệp xuất nhập khẩu, nếu một lô hàng bị chặn lại sẽ gây thiệt hại rất lớn cho cả bên xuất và bên nhập khẩu. Trong trường hợp khi xét nghiệm 1 lô nông sản mà tỷ lệ chất cấm bị phát hiện nhưng ở một nồng độ thấp, phía Hải quan Nhật thường không đưa ra quyết định cấm hoặc tiêu hủy lô hàng ngay, mà họ sẽ phải lấy mẫu để xét nghiệm lại. Nếu kết quả xét nghiệm lại cho thấy mức độ vi phạm nằm trong ngưỡng cho phép thì lô hàng đó sẽ vẫn được thông quan bình thường, còn nếu trên ngưỡng cho phép thì lô hàng sẽ bị cấm. Điều này vừa giúp bảo vệ doanh nghiệp, vừa giúp bảo vệ người tiêu dùng, và phản ánh sự linh hoạt của những người ra quyết định.

Tóm lại, trong thời đại số, chúng ta ủng hộ việc ra quyết định dựa trên máy móc, nhưng hãy nhớ đừng quá máy móc. Cần phải biết sử dụng công nghệ một cách thông minh và linh hoạt trong sử dụng kết quả trả ra từ máy móc để ra quyết định đúng đắn. Bằng cách tận dụng tối đa sức mạnh của dữ liệu và thuật toán, đồng thời không quên giá trị của sự khôn ngoan và nhân văn, chúng ta có thể đạt được những thành tựu vượt bậc mà vẫn giữ được bản chất con người trong mọi quyết định. Nên đưa logic mờ vào các hệ thống ra quyết định hiện nay, để con người có thể can thiệp khi cần và phối hợp với máy tính một cách hiệu quả.

PGS.TS. Phạm Quốc Trung,
Khoa Quản lý Công nghiệp, Trường Đại học Bách khoa TP.HCM

Wednesday, March 13, 2024

KNIME: Công cụ hỗ trợ đắc lực cho Data Scientist

 

KNIME: Công cụ hỗ trợ đắc lực cho Data Scientist

PGS.TS. Phạm Quốc Trung (viết với sự hỗ trợ của Gemini tool)

Là một nhà khoa học dữ liệu (Data Scientist), việc khai phá dữ liệu (Data Mining) đóng vai trò quan trọng trong việc thu thập thông tin, kiến thức từ dữ liệu thô. Tuy nhiên, quá trình này đòi hỏi nhiều kỹ năng và công cụ chuyên dụng. Trong số đó, KNIME nổi bật như một lựa chọn tối ưu cho các Data Scientist bởi tính tiện lợi, dễ học và dễ sử dụng, không yêu cầu kiến thức lập trình phức tạp. Bài viết này xin giới thiệu về công cụ KNIME hỗ trợ cho việc thực hiện các nhiệm vụ của nhà khoa học dữ liệu, nó thích hợp cho cả người mới học và những chuyên gia sử dụng các thao tác phân tích dữ liệu nâng cao.

KNIME là gì?

KNIME (Konstanz Information Miner) là nền tảng mã nguồn mở hỗ trợ toàn diện cho các tác vụ Data Mining, từ tiền xử lý dữ liệu, phân tích thống kê, học máy cho đến trực quan hóa kết quả. Nền tảng này cung cấp giao diện trực quan, cho phép người dùng thao tác bằng cách kéo thả các node (nút) tương ứng với từng bước trong quy trình Data Mining.

Ưu điểm của KNIME:

  • Dễ sử dụng: KNIME sử dụng giao diện trực quan, không yêu cầu kiến thức lập trình. Người dùng chỉ cần kéo thả các node và cấu hình thông số đơn giản cho các node để thực hiện các tác vụ phân tích dữ liệu trong Data Mining.
  • Học tập nhanh: KNIME cung cấp nhiều tài liệu hướng dẫn, ví dụ thực tế và cộng đồng hỗ trợ nhiệt tình, giúp người dùng dễ dàng tiếp cận, học hỏi và sử dụng công cụ cho công việc của mình.
  • Tính linh hoạt: KNIME hỗ trợ đa dạng các node, cho phép thực hiện hầu hết các tác vụ Data Mining một cách linh hoạt và hiệu quả.
  • Mã nguồn mở: KNIME là nền tảng mã nguồn mở, cho phép người dùng tùy chỉnh, mở rộng và phát triển các node mới theo nhu cầu cụ thể.
  • Cộng đồng lớn: KNIME sở hữu cộng đồng người dùng và nhà phát triển đông đảo, luôn sẵn sàng hỗ trợ và chia sẻ kiến thức.

Tuy nhiên, KNIME còn có một số hạn chế như:

  • Khả năng xử lý dữ liệu lớn chưa mạnh mẽ như một số công cụ khác.
  • Một số node nâng cao có thể yêu cầu kiến thức lập trình để cấu hình.

KNIME hỗ trợ các tác vụ Data Mining như sau:

  • Tiền xử lý dữ liệu: KNIME cung cấp nhiều node để thực hiện các thao tác như lọc dữ liệu, loại bỏ giá trị thiếu, chuẩn hóa dữ liệu, gom nhóm…
  • Phân tích thống kê: KNIME hỗ trợ đa dạng các phương pháp thống kê như tóm tắt dữ liệu, vẽ biểu đồ, phân tích hồi quy, phân tích tương quan, …
  • Học máy: KNIME tích hợp nhiều thuật toán học máy phổ biến như K-Nearest Neighbors, Support Vector Machine, Random Forest, …
  • Trực quan hóa dữ liệu: KNIME cung cấp nhiều biểu đồ trực quan sinh động giúp người dùng dễ dàng hiểu và phân tích kết quả, xây dựng các dashboard.

KNIME phù hợp với ai? KNIME là công cụ phù hợp cho:

  • Data Scientist: KNIME giúp Data Scientist tối ưu hóa quy trình Data Mining, tiết kiệm thời gian và tập trung vào việc phân tích dữ liệu.
  • Chuyên viên phân tích dữ liệu: KNIME hỗ trợ các chuyên viên phân tích dữ liệu thực hiện các tác vụ Data Mining một cách hiệu quả và dễ dàng.
  • Sinh viên ngành khoa học dữ liệu: KNIME là công cụ học tập hữu ích giúp sinh viên tiếp cận và thực hành các kỹ thuật Data Mining.

Tóm lại, KNIME là công cụ hỗ trợ đắc lực cho Data Scientist trong các tác vụ Data Mining. Với ưu điểm dễ sử dụng, học tập nhanh, linh hoạt và mã nguồn mở, KNIME là lựa chọn phù hợp cho mọi đối tượng, từ người mới bắt đầu đến chuyên gia dày dặn kinh nghiệm. Với những ưu điểm vượt trội về tính năng và chi phí, KNIME là công cụ Data Mining hiệu quả và dễ sử dụng, xứng đáng là người bạn đồng hành của Data Scientist trong hành trình khai phá dữ liệu. Bài viết này chỉ giới thiệu sơ lược về KNIME. Để tìm hiểu chi tiết hơn, bạn có thể tham khảo tài liệu hướng dẫn, các video, và trang cộng đồng KNIME trong các link bên dưới. Chúc các bạn sớm làm chủ được công cụ tiện lợi này và có thể trở thành nhà khoa học dữ liệu chuyên nghiệp trong thời gian ngắn.

Tài liệu tham khảo: