Federated Learning là gì? Kỷ nguyên mới của trí tuệ nhân tạo

Thời gian đọc: 13 mins

10/01/23 12:00:01 | Lượt xem: 1976

Federated Learning là gì? Kỷ nguyên mới của trí tuệ nhân tạo

Federated learning, hay học tập liên kết, là một cách để đào tạo các mô hình AI mà vẫn đảm bảo dữ liệu của bạn không bị ai nhìn thấy hay chạm vào, cung cấp một phương pháp để mở khóa thông tin cho các ứng dụng AI mới.
Để hiểu rõ hơn về thuật ngữ này, mời bạn đọc tiếp nội dung bài viết bên dưới.

Nội dung bài viết

1. Federated learning là gì?
2. Một cách diễn giải khác của federated learning
3. Federated learning hoạt động như thế nào?
4. Lợi ích của federated learning trong thực tế
5. Cân bằng sự đánh đổi giữa quyền riêng tư và độ chính xác
6. Những thách thức khác: hiệu quả, minh bạch và khuyến khích hành vi tốt
7. Một số thắc mắc liên quan đến Federated Learning
8. Lời kết

Federated learning là gì?

Federated Learning là một phương pháp nhằm đào tạo các mô hình AI mà không cần bất kỳ ai nhìn thấy hoặc tác động vào dữ liệu của bạn. Điều này giúp bạn có thể sử dụng thông tin mà không cần chia sẻ dữ liệu thật sự, để phục vụ cho các ứng dụng AI mới. (IBM)

Một cách diễn giải khác của federated learning

Các bộ lọc thư rác, chatbot và công cụ đề xuất đã biến trí tuệ nhân tạo trở thành một thứ không thể thay thế của cuộc sống hiện đại. Hàng trăm ví dụ đào tạo được lấy từ web hoặc do người tiêu dùng đóng góp để đổi lấy email, âm nhạc miễn phí và các đặc quyền khác.

Nhiều ứng dụng AI trong số này đã được đào tạo dựa trên dữ liệu được thu thập và xử lý ở một nơi (thường là trên đám mây). Tuy nhiên ngày nay hoạt động này đang dần chuyển sang cách tiếp cận phi tập trung (decentralized approach). Các mô hình AI mới đang được đào tạo cộng tác ở rìa (on the edge), và dữ liệu vẫn nằm nguyên ở điện thoại di động, máy tính xách tay hoặc máy chủ riêng của từng cá nhân, thay vì gom tất cả dữ liệu lên cùng một máy tổng như trước.

Hình thức đào tạo AI mới này được gọi là học tập liên kết (federated learning), và nó đang trở thành tiêu chuẩn để đáp ứng một loạt các quy định mới về xử lý và lưu trữ dữ liệu riêng tư. Bằng cách xử lý dữ liệu ngay tại nguồn, federated learning còn cung cấp một cách khác để khai thác luồng dữ liệu thô từ các cảm biến vệ tinh, cầu, máy móc và ngày càng nhiều thiết bị thông minh khác ở nhà và trên cơ thể chúng ta.

Federated learning hoạt động như thế nào?

Trong mô hình học tập liên kết, nhiều người chia sẻ dữ liệu của họ từ xa và cùng cộng tác đào tạo một mô hình học chung, giống như việc cùng chỉnh sửa bản thuyết trình hoặc báo cáo của nhóm.

Mỗi bên tải xuống mô hình từ trung tâm dữ liệu trên đám mây, thường là mô hình nền tảng được đào tạo trước. Họ đào tạo nó trên dữ liệu riêng tư của họ, sau đó tổng hợp lại và mã hóa cấu hình mới. Các bản cập nhật của mô hình cuối cùng được gửi trở lại đám mây, được giải mã, tính trung bình và tích hợp vào mô hình tập trung. Quá trình này lặp đi lặp lại cho đến khi mô hình được đào tạo đầy đủ.

Quá trình đào tạo phi tập trung (phân tán) này có ba loại:

Trong học tập liên kết ngang (horizontal federated learning), mô hình trung tâm được đào tạo trên các bộ dữ liệu tương tự.
Trong học tập liên kết dọc (vertical federated learning), dữ liệu bổ sung cho nhau; ví dụ: các bài review phim và sách được kết hợp để dự đoán sở thích âm nhạc của ai đó.
Cuối cùng, trong phương pháp học tập liên kết chuyển giao (federated transfer learning), một mô hình nền tảng được đào tạo trước ban đầu được thiết kế để thực hiện một nhiệm vụ, chẳng hạn như phát hiện ô tô, sau đó được đào tạo lại trên một tập dữ liệu khác để thực hiện một nhiệm vụ khác, chẳng hạn như xác định vị trí của mèo. Với tiềm năng như vậy, các ngân hàng có thể đào tạo một mô hình AI để phát hiện lừa đảo, sau đó vẫn có thể tái sử dụng nó cho các trường hợp khác.

Xem thêm cùng chủ đề:
1. 10 chỉ số đo lường hiệu quả chuyển đổi số của doanh nghiệp
2. Chiến thuật ứng dụng AI trong công việc và kinh doanh

Lợi ích của federated learning trong thực tế

Để đưa ra những dự đoán hữu ích, các mô hình học sâu cần rất nhiều dữ liệu đào tạo. Nhưng các công ty trong các ngành được quản lý chặt chẽ thường do dự trong việc chấp nhận rủi ro khi sử dụng hoặc chia sẻ những dữ liệu nhạy cảm để xây dựng mô hình AI, với lời hứa về những phần thưởng không chắc chắn.

Trong lĩnh vực chăm sóc sức khỏe, luật về quyền riêng tư và thị trường bị phân mảnh đã khiến ngành này không thể khai thác hết tiềm năng của AI. Federated learning có thể cho phép các công ty hợp tác đào tạo một mô hình phi tập trung mà không cần chia sẻ hồ sơ y tế bí mật. Từ chụp CT đến chụp cộng hưởng từ, tổng hợp dữ liệu y tế và phân tích chúng ở quy mô lớn có thể dẫn đến những cách mới để phát hiện và điều trị ung thư trong tương lai.

Federated learning cũng có thể giúp ích trong một loạt các ngành công nghiệp khác. Tổng hợp hồ sơ tài chính của khách hàng có thể cho phép các ngân hàng tạo ra điểm tín dụng của khách hàng chính xác hơn hoặc cải thiện khả năng phát hiện lừa đảo. Tập hợp các yêu cầu bảo hiểm xe hơi có thể dẫn đến những ý tưởng mới để cải thiện an toàn cho người lái xe; đồng thời tổng hợp dữ liệu âm thanh và hình ảnh từ các dây chuyền lắp ráp của nhà máy có thể giúp phát hiện sự cố máy móc hoặc sản phẩm bị lỗi.

Khi con người ngày càng ưa chuộng điện thoại di động và các thiết bị tiên tiến khác, học tập liên kết cũng cung cấp một cách khai thác vòi truyền dữ liệu từng phút (the firehose of data streaming minute-by-minute) từ các cảm biến trên đất liền, trên biển và trong không gian. Việc tổng hợp các hình ảnh vệ tinh giữa các quốc gia có thể dẫn đến những dự đoán tốt hơn về khí hậu và mực nước biển dâng ở quy mô khu vực. Dữ liệu cục bộ từ hàng tỷ thiết bị được kết nối internet có thể cho chúng ta biết những điều mà chúng ta chưa nghĩ đến.

Cân bằng sự đánh đổi giữa quyền riêng tư và độ chính xác

Những kẻ tấn công sẽ luôn tìm cách đánh cắp dữ liệu người dùng hoặc chiếm quyền điều khiển mô hình AI, bất kể nó được đào tạo theo phương pháp nào. Trong federated learning, liên kết yếu nhất xảy ra khi máy chủ lưu trữ dữ liệu trao đổi mô hình làm việc của họ với máy chủ trung tâm. Mỗi lần trao đổi là một lần mô hình được cải thiện, nhưng sẽ để lại dữ liệu có khả năng bị tấn công.

Khi đang xử lý dữ liệu được quản lý và có độ nhạy cảm cao, bạn không thể xem nhẹ những rủi ro này. Bạn càng trao đổi qua nhiều vòng thì thông tin càng dễ bị suy luận, đặc biệt khi thông tin cơ bản không thay đổi nhiều.

Các nhóm pháp lý và công nghệ cần cân bằng sự đánh đổi giữa quyền riêng tư và độ chính xác. Để đào tạo một mô hình phân tán, bạn phải chia sẻ thứ gì đó. Nhưng làm cách nào để đảm bảo rằng những gì bạn đang chia sẻ sẽ không vi phạm các quy tắc về quyền riêng tư? Điều đó phụ thuộc vào ứng dụng.

Phần lớn các nghiên cứu hiện tại về học tập liên kết tập trung vào việc giảm thiểu và vô hiệu hóa các mối đe dọa về quyền riêng tư. Tính toán an toàn của nhiều bên (Secure multi-party computation) ẩn các bản cập nhật mô hình thông qua các sơ đồ mã hóa khác nhau để giảm tỷ lệ rò rỉ dữ liệu hoặc tấn công suy luận; quyền riêng tư khác biệt làm thay đổi giá trị chính xác của một số điểm dữ liệu để tạo ra tiếng ồn nhằm làm mất phương hướng của kẻ tấn công.

Những thách thức khác: hiệu quả, minh bạch và khuyến khích hành vi tốt

Cộng tác đào tạo các mô hình AI ở nhiều nơi cùng một lúc đòi hỏi nhiều tính toán. Nó cũng đòi hỏi băng thông truyền thông cao. Điều đó đặc biệt đúng nếu máy chủ lưu trữ dữ liệu đang huấn luyện các mô hình cục bộ của họ trên thiết bị.

Một số biện pháp hiệu quả để xử lý các hạn chế về băng thông và điện toán của federated learning bao gồm cắt tỉa và nén mô hình được đào tạo cục bộ trước khi chuyển đến máy chủ trung tâm.

Tính minh bạch là một thách thức khác đối với học tập liên kết. Vì dữ liệu đào tạo được giữ kín nên cần phải có một hệ thống để kiểm tra tính chính xác, công bằng và các sai lệch tiềm ẩn trong kết quả đầu ra của mô hình. IBM đã đề xuất một khung mã hóa có tên là DeTrust yêu cầu tất cả các bên đạt được sự đồng thuận về các khóa mật mã trước khi các bản cập nhật mô hình của họ được tổng hợp.

Một thách thức khác đối với federated learning là kiểm soát dữ liệu nào được đưa vào mô hình và cách xóa chúng khi máy chủ rời khỏi liên kết. Vì các mô hình học sâu không rõ ràng nên vấn đề này có hai phần: tìm dữ liệu của máy chủ lưu trữ và sau đó xóa ảnh hưởng của chúng đối với mô hình trung tâm.Hiện tại, nếu dữ liệu bị xóa, các bên có nghĩa vụ phải đào tạo lại mô hình từ đầu. Để tiết kiệm thời gian tính toán, IBM đã đề xuất một phương pháp chỉ giải phóng mô hình đến điểm mà tại đó dữ liệu hiện đã bị xóa được thêm vào.

Thách thức cuối cùng đối với federated learning là sự tin tưởng. Không phải tất cả những người đóng góp cho mô hình đều có mục đích tốt. Các nhà nghiên cứu đang xem xét các biện pháp khuyến khích để ngăn cản các bên đóng góp dữ liệu giả để phá hoại mô hình hoặc để gặt hái lợi ích của mô hình mà không gây rủi ro cho dữ liệu của chính họ.

Một số thắc mắc liên quan đến Federated Learning

Transfer Learning là gì?

Transfer Learning là một kỹ thuật học máy giúp các mô hình học máy tận dụng kiến thức đã học được từ các nhiệm vụ khác. Điều này có thể làm giảm thời gian và chi phí cần thiết để đào tạo một mô hình mới.

Ví dụ: Google sử dụng transfer learning để cải thiện hiệu suất của các mô hình nhận dạng hình ảnh của họ. Google sử dụng một mô hình được đào tạo trên một tập dữ liệu khổng lồ của hình ảnh để đào tạo các mô hình mới để nhận dạng các loại hình ảnh khác nhau. Điều này giúp Google cải thiện hiệu suất của các mô hình nhận dạng hình ảnh của họ mà không cần phải đào tạo lại các mô hình từ đầu.

Federated machine learning là gì?

Federated machine learning là một phương pháp học máy trong đó các mô hình được đào tạo trên các dữ liệu được phân tán, chẳng hạn như dữ liệu của người dùng được lưu trữ trên các thiết bị di động. Federated machine learning có thể giúp bảo vệ quyền riêng tư của người dùng, vì dữ liệu không cần được chuyển đến một máy chủ trung tâm để được đào tạo.

Federated learning framework là gì?

Federated learning framework là một tập hợp các thư viện và công cụ giúp triển khai federated machine learning hiệu quả.

Các federated learning framework phổ biến bao gồm:

TensorFlow Federated
PySyft
OpenMined

Lời kết

Thuật ngữ federated learning được giới thiệu lần đầu tiên vào năm 2016 bởi Google, vào thời điểm mà vấn đề rò rỉ dữ liệu cá nhân đang thu hút sự chú ý trên toàn cầu. Cho đến nay, mô hình này vẫn tiếp tục phát triển và được dự đoán sẽ là yếu tố quan trọng hàng đầu của trí tuệ nhân tạo. Hy vọng bài viết giúp bạn hiểu rõ hơn Federated learning là gì cùng cách chúng hoạt động.

Để bắt kịp với tiến bộ công nghệ của thế giới, tốt hơn hết doanh nghiệp bạn nên tiến hành chuyển đổi số ngay từ bây giờ, mà một phần mềm quản lý doanh nghiệp là không thể thiếu. Nếu bạn quản lý một doanh nghiệp nhỏ và lo ngại về vấn đề chi phí trong quá trình áp dụng công nghệ, SlimCRM sẽ là một giải pháp phù hợp cho bạn. Một phần mềm tốt không cần phải có giá quá đắt, những tính năng trên SlimCRM đều đã được tính toán cẩn thận để cung cấp vừa đủ với nhu cầu của những doanh nghiệp nhỏ, giúp bạn chuyển đổi số dễ dàng và nhanh chóng hơn.

DÙNG THỬ MIỄN PHÍ SLIMCRM TẠI ĐÂY

Nguồn: IBM

Từ khóa:

federated learning