Syntetická data mají chránit soukromí, přesto existuje teoretické riziko odhalení původních osob

Syntetická data mají chránit soukromí, přesto existuje teoretické riziko odhalení původních osob

Rozvoj umělé inteligence (AI) je neoddělitelně spjat s přístupem k rozsáhlým datovým souborům, které slouží k trénování algoritmů. V kontextu stále se zpřísňujících požadavků na ochranu osobních údajů, se syntetická data jeví jako perspektivní řešení. Jedná se o uměle generovaná data, která statisticky napodobují vlastnosti reálných datových sad, aniž by obsahovala konkrétní osobní údaje skutečných jedinců. Jejich využití tak může významně snížit rizika spojená se zpracováním citlivých informací a zároveň umožnit efektivní vývoj AI modelů.

Zásadní výhodou syntetických dat z pohledu GDPR je skutečnost, že pokud jsou tato data vytvořena tak, že neumožňují identifikaci žádné fyzické osoby (jsou tedy plně anonymizovaná), nepovažují se za osobní údaje. Na takto vytvořené datasety se pak GDPR přímo nevztahuje, což organizacím usnadňuje jejich sdílení, zpracování a využití pro trénink AI. Přesto samotný proces generování syntetických dat, pokud vychází z reálných osobních údajů, musí být v souladu s GDPR. To znamená, že pro původní sběr a použití reálných dat pro účely vytvoření syntetického datasetu musí existovat platný právní základ, jako je souhlas subjektu údajů nebo oprávněný zájem správce, a musí být dodrženy všechny principy zpracování osobních údajů, včetně minimalizace dat a omezení účelu.

Legislativní požadavky se však neomezují pouze na GDPR. Připravovaný Akt o umělé inteligenci (AI Act) klade důraz na robustnost, bezpečnost a transparentnost AI systémů, zejména těch vysoce rizikových. Syntetická data mohou přispět k naplnění těchto požadavků tím, že umožní vytvářet rozmanitější a vyváženější datasety, které mohou pomoci redukovat zkreslení (bias) v AI modelech. Dále mohou sloužit k testování a validaci AI systémů v kontrolovaném prostředí bez rizika úniku reálných citlivých informací.

Je nutné zajistit, aby generovaná data byla dostatečně kvalitní a reprezentativní, aby nedocházelo k trénování chybných nebo zkreslených modelů. Existuje také teoretické riziko, že by i ze syntetických dat mohlo být za určitých okolností možné odvodit informace o původních reálných datech, pokud by proces anonymizace a generování nebyl proveden dostatečně pečlivě. Proto je nezbytné investovat do pokročilých technik generování a validace syntetických dat a neustále monitorovat jejich kvalitu a bezpečnost.

#EVENT #KONFERENCE

09Zář2025

Digitální Transformace Univerzit

v aule Arnošta z Pardubic Univerzity Pardubice

Zobrazit více...

01Říj2025

Privacy Days Praha 2025

Od 9:00 Do 18:30

Konferenční centrum Microsoft / Grandium Hotel Prague

Zobrazit více...

16Říj2025

Finanční konference SMS ČR

Od 9:00 Do 17:00

v konferenčních prostorách Hotelu DUO

Zobrazit více...

ÚOOÚ Cílené úpravy GDPR
LEGISLATIVA

ÚOOÚ: Cílené úpravy GDPR

Evropský sbor pro ochranu osobních údajů (EDPB) a Evropský inspektor ochrany údajů (EDPS) vydali Společné stanovisko k návrhu Evropské komise na Nařízení upravující určité regulace

Číst dále »