Tạo dữ liệu tổng hợp: Loại, Kỹ thuật và hơn thế nữa

Mục lục[Ẩn giấu][Chỉ]

Dữ liệu tổng hợp là gì?
Tầm quan trọng của dữ liệu tổng hợp
Các loại dữ liệu tổng hợp+-
Kỹ thuật tạo dữ liệu tổng hợp+-
Nhà cung cấp dữ liệu tổng hợp+-
- Dữ liệu có cấu trúc
- Dữ liệu phi cấu trúc
Những thách thức
Kết luận

Các nhà nghiên cứu và nhà khoa học dữ liệu thường gặp phải những trường hợp mà họ không có dữ liệu thực tế hoặc không thể sử dụng dữ liệu đó do các cân nhắc về tính bảo mật hoặc quyền riêng tư.

Để giải quyết vấn đề này, sản xuất dữ liệu tổng hợp được sử dụng để tạo ra dữ liệu thay thế cho dữ liệu chính hãng.

Cần phải có sự thay thế thích hợp của dữ liệu chính hãng để thuật toán hoạt động bình thường, điều này cũng phải mang tính thực tế. Bạn có thể sử dụng dữ liệu đó để duy trì quyền riêng tư, hệ thống thử nghiệm hoặc sản xuất dữ liệu đào tạo cho các thuật toán học máy.

Hãy cùng khám phá chi tiết việc tạo dữ liệu tổng hợp và xem tại sao chúng lại quan trọng trong thời đại AI.

Dữ liệu tổng hợp là gì?

Dữ liệu tổng hợp là dữ liệu được chú thích được tạo ra bởi các mô phỏng máy tính hoặc các thuật toán để thay thế cho dữ liệu trong thế giới thực. Nó là một bản sao dữ liệu thực tế do trí tuệ nhân tạo tạo ra.

Người ta có thể sử dụng các mẫu và kích thước dữ liệu bằng cách sử dụng các thuật toán AI nâng cao. Họ có thể tạo ra một lượng vô hạn dữ liệu tổng hợp đại diện về mặt thống kê cho dữ liệu đào tạo ban đầu sau khi được đào tạo.

Có nhiều cách tiếp cận và công nghệ có thể giúp chúng tôi tạo dữ liệu tổng hợp và bạn có thể sử dụng trong nhiều ứng dụng khác nhau.

Phần mềm tạo dữ liệu thường yêu cầu:

Siêu dữ liệu của kho dữ liệu, nơi dữ liệu tổng hợp phải được tạo.
Kỹ thuật tạo ra các giá trị hợp lý nhưng hư cấu. Ví dụ bao gồm danh sách giá trị và biểu thức chính quy.
Nhận thức toàn diện về tất cả các mối quan hệ dữ liệu, những mối quan hệ được khai báo ở cấp cơ sở dữ liệu cũng như những mối quan hệ được kiểm soát ở cấp mã ứng dụng.

Việc xác nhận mô hình và so sánh các khía cạnh hành vi của dữ liệu thực với những khía cạnh do mô hình tạo ra cũng cần thiết như nhau.

Những tập dữ liệu hư cấu này có tất cả giá trị của sự thật, nhưng không có dữ liệu nhạy cảm nào. Nó giống như một chiếc bánh thơm ngon, không chứa calo. Nó mô tả chính xác thế giới thực tế.

Do đó, bạn có thể sử dụng nó để thay thế dữ liệu trong thế giới thực.

Tầm quan trọng của dữ liệu tổng hợp

Dữ liệu tổng hợp có các đặc điểm để phù hợp với các nhu cầu hoặc tình huống nhất định mà nếu không thì dữ liệu trong thế giới thực không có sẵn. Khi có một lượng nhỏ dữ liệu để thử nghiệm hoặc khi quyền riêng tư là yếu tố được xem xét hàng đầu, thì đó là cách giải cứu.

Bộ dữ liệu do AI tạo có thể thích ứng, an toàn và dễ dàng lưu trữ, trao đổi và loại bỏ. Kỹ thuật tổng hợp dữ liệu thích hợp để tập hợp con và cải thiện dữ liệu gốc.

Do đó, nó lý tưởng để sử dụng làm dữ liệu thử nghiệm và dữ liệu đào tạo AI.

Để dạy Uber dựa trên ML và Ô tô tự lái của Tesla.
Trong ngành y tế và chăm sóc sức khỏe, để đánh giá các bệnh tật và trường hợp cụ thể mà dữ liệu chính hãng không tồn tại.
Phát hiện và bảo vệ gian lận là rất quan trọng trong lĩnh vực tài chính. Bằng cách sử dụng nó, bạn có thể điều tra các trường hợp gian lận mới.
Amazon đang đào tạo hệ thống ngôn ngữ của Alexa bằng cách sử dụng dữ liệu tổng hợp.
American Express đang sử dụng dữ liệu tài chính tổng hợp để cải thiện khả năng phát hiện gian lận.

Các loại dữ liệu tổng hợp

Dữ liệu tổng hợp được tạo ngẫu nhiên với mục đích che giấu thông tin nhạy cảm riêng tư trong khi vẫn giữ thông tin thống kê về các đặc điểm trong dữ liệu gốc.

Nó chủ yếu có ba loại:

Dữ liệu tổng hợp đầy đủ
Dữ liệu tổng hợp một phần
Dữ liệu tổng hợp kết hợp

1. Dữ liệu tổng hợp đầy đủ

Dữ liệu này được tạo hoàn toàn và không chứa dữ liệu gốc.

Thông thường, trình tạo dữ liệu cho loại này sẽ xác định các hàm mật độ của các đối tượng trong dữ liệu thực và ước tính các tham số của chúng. Sau đó, từ các chức năng mật độ dự đoán, các chuỗi được bảo vệ quyền riêng tư được tạo ngẫu nhiên cho từng tính năng.

Nếu chỉ một vài đặc điểm của dữ liệu thực tế được chọn để thay thế bằng nó, chuỗi được bảo vệ của các tính năng này sẽ được ánh xạ tới các đặc điểm còn lại của dữ liệu thực để xếp hạng chuỗi được bảo vệ và thực theo cùng một thứ tự.

Kỹ thuật Bootstrap và nhiều lần áp đặt là hai phương pháp truyền thống để tạo ra dữ liệu tổng hợp hoàn toàn.

Bởi vì dữ liệu hoàn toàn là tổng hợp và không có dữ liệu thực nào tồn tại, chiến lược này cung cấp khả năng bảo vệ quyền riêng tư tuyệt vời với sự phụ thuộc vào tính trung thực của dữ liệu.

2. Dữ liệu tổng hợp một phần

Dữ liệu này chỉ sử dụng các giá trị tổng hợp để thay thế các giá trị của một vài đối tượng địa lý nhạy cảm.

Trong trường hợp này, các giá trị chính hãng chỉ bị thay đổi nếu có nguy cơ đáng kể khi tiếp xúc. Thay đổi này được thực hiện để bảo vệ quyền riêng tư của dữ liệu mới được tạo.

Nhiều phương pháp tiếp cận dựa trên mô hình và áp đặt được sử dụng để tạo ra dữ liệu tổng hợp một phần. Các phương pháp này cũng có thể được sử dụng để điền vào các giá trị còn thiếu trong dữ liệu trong thế giới thực.

3. Dữ liệu tổng hợp kết hợp

Dữ liệu tổng hợp lai bao gồm cả dữ liệu thực và dữ liệu giả.

Một bản ghi gần trong đó được chọn cho mỗi bản ghi ngẫu nhiên của dữ liệu thực, và hai bản ghi này sau đó được kết hợp để tạo ra dữ liệu kết hợp. Nó có những lợi ích của cả dữ liệu tổng hợp hoàn toàn và dữ liệu tổng hợp một phần.

Do đó, nó cung cấp khả năng bảo vệ quyền riêng tư mạnh mẽ với tiện ích cao khi so sánh với hai loại kia, nhưng với chi phí bộ nhớ và thời gian xử lý nhiều hơn.

Kỹ thuật tạo dữ liệu tổng hợp

Trong nhiều năm, khái niệm dữ liệu do máy móc tạo ra đã trở nên phổ biến. Bây giờ nó đang trưởng thành.

Dưới đây là một số kỹ thuật được sử dụng để tạo dữ liệu tổng hợp:

1. Dựa trên sự phân phối

Trong trường hợp không có dữ liệu thực nào tồn tại, nhưng nhà phân tích dữ liệu có một ý tưởng kỹ lưỡng về cách phân phối tập dữ liệu sẽ xuất hiện; chúng có thể tạo ra một mẫu ngẫu nhiên của bất kỳ phân phối nào, bao gồm Bình thường, Hàm mũ, Chi-square, t, lognormal và Uniform.

Giá trị của dữ liệu tổng hợp trong phương pháp này thay đổi tùy thuộc vào mức độ hiểu biết của người phân tích về một môi trường dữ liệu nhất định.

2. Dữ liệu trong thế giới thực vào phân phối đã biết

Các doanh nghiệp có thể tạo ra nó bằng cách xác định các phân phối phù hợp nhất cho dữ liệu thực đã cho nếu có dữ liệu thực.

Các doanh nghiệp có thể sử dụng phương pháp Monte Carlo để tạo ra nó nếu họ muốn đưa dữ liệu thực vào một phân phối đã biết và biết các tham số phân phối.

Mặc dù cách tiếp cận Monte Carlo có thể giúp các doanh nghiệp xác định vị trí phù hợp nhất hiện có, nhưng cách phù hợp nhất có thể không đủ sử dụng cho nhu cầu dữ liệu tổng hợp của công ty.

Các doanh nghiệp có thể khám phá việc sử dụng các mô hình học máy để phù hợp với các bản phân phối trong những trường hợp này.

Các kỹ thuật học máy, chẳng hạn như cây quyết định, cho phép các tổ chức lập mô hình các bản phân phối không cổ điển, có thể là đa phương thức và thiếu các thuộc tính chung của các bản phân phối được công nhận.

Các doanh nghiệp có thể tạo ra dữ liệu tổng hợp kết nối với dữ liệu chính hãng bằng cách sử dụng phân phối phù hợp với máy học này.

Tuy vậy, mô hình học máy dễ bị trang bị quá mức, khiến chúng không khớp với dữ liệu mới hoặc dự đoán các quan sát trong tương lai.

3. Học sâu

Các mô hình tổng hợp sâu như Bộ mã tự động biến đổi (VAE) và Mạng đối phương chung (GAN) có thể tạo ra dữ liệu tổng hợp.

Trình mã tự động biến thể

VAE là một cách tiếp cận không được giám sát, trong đó bộ mã hóa nén tập dữ liệu gốc và gửi dữ liệu đến bộ giải mã.

Sau đó, bộ giải mã tạo ra kết quả đại diện cho tập dữ liệu gốc.

Việc giảng dạy hệ thống liên quan đến việc tối đa hóa mối tương quan giữa dữ liệu đầu vào và đầu ra.

Vae

Mạng đối thủ sáng tạo

Mô hình GAN đào tạo mô hình lặp đi lặp lại bằng cách sử dụng hai mạng, bộ tạo và bộ phân biệt.

Trình tạo tạo một tập dữ liệu tổng hợp từ một tập hợp dữ liệu mẫu ngẫu nhiên.

Bộ phân biệt so sánh dữ liệu được tạo tổng hợp với một tập dữ liệu thực bằng cách sử dụng các điều kiện được xác định trước.

Gan

Nhà cung cấp dữ liệu tổng hợp

Dữ liệu có cấu trúc

Các nền tảng được đề cập bên dưới cung cấp dữ liệu tổng hợp lấy từ dữ liệu dạng bảng.

Nó sao chép dữ liệu trong thế giới thực được lưu trong các bảng và có thể được sử dụng để phân tích hành vi, dự đoán hoặc giao dịch.

Thấm nhuần AI: Đây là nhà cung cấp hệ thống tạo dữ liệu tổng hợp sử dụng Mạng đối thủ chung và quyền riêng tư khác biệt.
dữ liệu tốt hơn: Đây là nhà cung cấp giải pháp dữ liệu tổng hợp bảo vệ quyền riêng tư cho AI, chia sẻ dữ liệu và phát triển sản phẩm.
lặn xuống: Đây là nhà cung cấp Geminai, một hệ thống tạo bộ dữ liệu 'song sinh' với các tính năng thống kê giống như dữ liệu gốc.

Dữ liệu phi cấu trúc

Các nền tảng được đề cập bên dưới hoạt động với dữ liệu phi cấu trúc, cung cấp hàng hóa và dịch vụ dữ liệu tổng hợp để đào tạo các thuật toán tầm nhìn và trinh sát.

dữ liệu: Nó cung cấp dữ liệu đào tạo mô phỏng 3D để học tập và phát triển Visual AI.
phòng thí nghiệm thần kinh: Neurolabs là nhà cung cấp nền tảng dữ liệu tổng hợp thị giác máy tính.
Miền song song: Nó là nhà cung cấp nền tảng dữ liệu tổng hợp cho các trường hợp sử dụng đào tạo và thử nghiệm hệ thống tự trị.
nhận thức: Đây là nhà cung cấp mô phỏng cho ADAS và các nhà phát triển xe tự hành.
Bifrost: Nó cung cấp các API dữ liệu tổng hợp để tạo môi trường 3D.

3 2

Những thách thức

Nó có một lịch sử lâu đời trong Trí tuệ nhân tạo, và trong khi nó có nhiều ưu điểm, nó cũng có những nhược điểm đáng kể mà bạn cần giải quyết khi làm việc với dữ liệu tổng hợp.

Dưới đây là một số trong số họ:

Rất nhiều lỗi có thể có trong khi sao chép độ phức tạp từ dữ liệu thực tế sang dữ liệu tổng hợp.
Bản chất dễ uốn nắn của nó dẫn đến những thành kiến trong hành vi của nó.
Có thể có một số lỗ hổng ẩn trong hiệu suất của các thuật toán được đào tạo bằng cách sử dụng các biểu diễn đơn giản của dữ liệu tổng hợp đã xuất hiện gần đây trong khi xử lý dữ liệu thực tế.
Việc sao chép tất cả các thuộc tính có liên quan từ dữ liệu trong thế giới thực có thể trở nên phức tạp. Cũng có thể một số khía cạnh thiết yếu có thể bị bỏ qua trong suốt hoạt động này.

Kết luận

Việc sản xuất dữ liệu tổng hợp rõ ràng đang thu hút sự chú ý của mọi người.

Phương pháp này có thể không phải là một câu trả lời phù hợp cho tất cả các trường hợp tạo dữ liệu.

Bên cạnh đó, kỹ thuật này có thể yêu cầu trí thông minh thông qua AI / ML và có thể xử lý các tình huống phức tạp trong thế giới thực để tạo dữ liệu liên quan đến nhau, lý tưởng là dữ liệu phù hợp với một miền nhất định.

Tuy nhiên, nó là một công nghệ tiên tiến lấp đầy khoảng trống mà các công nghệ hỗ trợ quyền riêng tư khác còn thiếu sót.

Ngày nay, tổng hợp sản xuất dữ liệu có thể cần sự cùng tồn tại của mặt nạ dữ liệu.

Trong tương lai, có thể có sự hội tụ lớn hơn giữa hai yếu tố này, dẫn đến một giải pháp tạo dữ liệu toàn diện hơn.

Chia sẻ quan điểm của bạn trong các bình luận!

Tạo dữ liệu tổng hợp: Các loại, Kỹ thuật và hơn thế nữa

Dữ liệu tổng hợp là gì?

Tầm quan trọng của dữ liệu tổng hợp