Co to jest bias w sztucznej inteligencji?

Bias (stronniczość) w AI to systematyczne odchylenie wyników modelu uczenia maszynowego, które działa na niekorzyść określonych grup — na przykład kobiet, mniejszości czy mieszkańców konkretnych regionów. Powstaje przede wszystkim wtedy, gdy model uczy się z danych odzwierciedlających historyczne nierówności lub niedoreprezentowujących część populacji. Nie należy mylić tego pojęcia z biasem jako wyrazem wolnym neuronu w sieciach neuronowych — tamten jest czysto matematycznym parametrem bez związku z dyskryminacją.

Czy bias w AI da się całkowicie usunąć?

Nie — można go jedynie mierzyć i ograniczać. Dane treningowe zawsze są odbiciem realnego, nierównego świata, wrażliwe cechy przeciekają do modelu przez zmienne proxy (np. kod pocztowy skorelowany ze statusem majątkowym), a różnych matematycznych definicji sprawiedliwości zwykle nie da się spełnić jednocześnie. Dlatego praca nad biasem to ciągły proces: audyty, metryki fairness i monitorowanie modelu po wdrożeniu.

Jakie są przykłady stronniczości AI?

Najgłośniejsze przypadki to COMPAS — system oceny ryzyka recydywy w amerykańskich sądach, którego asymetrię błędów na niekorzyść czarnoskórych oskarżonych opisało śledztwo ProPublica z 2016 roku — oraz rekrutacyjne narzędzie Amazona — porzucone, jak ujawniła w 2018 roku agencja Reuters, bo obniżało ocenę CV zawierających słowo „women's”. Badanie Gender Shades z 2018 roku wykazało z kolei, że komercyjne systemy rozpoznawania twarzy myliły się wielokrotnie częściej przy osobach o ciemniejszej karnacji niż przy jasnoskórych mężczyznach.

Co AI Act mówi o stronniczości algorytmów?

AI Act zalicza systemy używane m.in. w rekrutacji, ocenie zdolności kredytowej, edukacji czy egzekwowaniu prawa do kategorii wysokiego ryzyka i nakłada na ich dostawców konkretne obowiązki. Zbiory treningowe, walidacyjne i testowe takich systemów muszą być możliwie reprezentatywne i badane pod kątem możliwych błędów oraz stronniczości, a wykryte ryzyka — ograniczane. Do tego dochodzą wymogi dokumentacji, nadzoru człowieka i monitorowania systemu po wdrożeniu.

Bias w AI — stronniczość modeli (przykłady)

Wyobraź sobie system, który ocenia wnioski kredytowe i częściej odrzuca mieszkańców uboższych dzielnic, choć nikt nie zapisał w nim takiej reguły. Albo narzędzie rekrutacyjne, które obniża ocenę CV zawierających słowo „women's". To nie scenariusze z dystopijnej powieści, lecz udokumentowane przypadki stronniczości modeli — zjawiska znanego jako bias w AI. Wyjaśniamy, czym jest ta stronniczość, skąd się bierze, jakie szkody wyrządza i co realnie można z nią zrobić.

Czym jest bias w AI?

Bias w AI (stronniczość modeli) to systematyczne odchylenie wyników systemu uczenia maszynowego, które działa na niekorzyść określonych grup ludzi lub faworyzuje jedne grupy kosztem innych. Kluczowe jest słowo „systematyczne". Każdy model popełnia błędy — to nieuniknione. Problem zaczyna się wtedy, gdy błędy nie rozkładają się losowo, lecz konsekwentnie układają w jedną stronę: kobiety częściej dostają niższe oceny, osoby o ciemniejszej karnacji częściej są błędnie rozpoznawane, mieszkańcy pewnych dzielnic częściej słyszą odmowę.

Stronniczy model nie jest przy tym „zepsuty" w technicznym sensie. Zwykle robi dokładnie to, czego się nauczył: wiernie odtwarza wzorce obecne w danych treningowych. Właśnie dlatego bias jest tak podstępny — system może osiągać świetne wyniki w ogólnych metrykach dokładności, a jednocześnie krzywdzić konkretną podgrupę użytkowników. Z zewnątrz wygląda na obiektywny i „matematycznie neutralny", co bywa używane jako argument: przecież algorytm nie ma uprzedzeń. Ma — tyle że odziedziczone po danych i ludziach, którzy je zebrali.

Konieczna jest tu uwaga terminologiczna, bo słowo „bias" ma w uczeniu maszynowym także drugie, zupełnie inne znaczenie. W perceptronie i w każdej sieci neuronowej bias to wyraz wolny neuronu — liczba dodawana do ważonej sumy wejść, przesuwająca próg aktywacji. To niewinny parametr matematyczny, odpowiednik wyrazu wolnego „b" w równaniu prostej y = ax + b. Gdy w dokumentacji sieci neuronowych czytasz o „weights and biases", chodzi o ten techniczny bias, który z dyskryminacją nie ma nic wspólnego. Oba pojęcia bywają mylone, bo brzmią identycznie — w tym artykule zajmujemy się wyłącznie pierwszym znaczeniem: stronniczością wyników wobec ludzi.

Skąd się bierze stronniczość

Najkrótsza odpowiedź: z danych oraz z decyzji ludzi, którzy te dane zebrali, opisali i wykorzystali. Model uczenia maszynowego nie ma poglądów — uczy się korelacji z przykładów. Jeśli przykłady niosą uprzedzenia, model je przejmie, a często też wzmocni i utrwali na masową skalę. W praktyce wyróżnia się kilka typowych źródeł problemu.

Dane historyczne odzwierciedlają nierówności. Modele trenuje się na zapisach przeszłych decyzji: kto dostał kredyt, kto został zatrudniony, kto otrzymał surowszy wyrok. Jeśli te decyzje były obciążone uprzedzeniami — a dziesięciolecia praktyk dyskryminacyjnych na rynku pracy czy w bankowości są dobrze udokumentowane — model nauczy się ich jako „prawidłowego" wzorca. Algorytm nie odróżnia świata, jaki jest, od świata, jaki być powinien. Trening na danych historycznych to w gruncie rzeczy polecenie: przewiduj przyszłość tak, by wyglądała jak przeszłość.

Niedoreprezentowanie grup w zbiorach treningowych. Jeśli w zbiorze zdjęć do treningu systemu rozpoznawania twarzy dominują twarze jasnoskórych mężczyzn, model będzie radził sobie najlepiej właśnie z nimi, a na pozostałych grupach zacznie się mylić. To samo dotyczy języków, akcentów, grup wiekowych czy rzadkich schorzeń w danych medycznych. Model statystyczny optymalizuje średni błąd — a mniejszość ma, z definicji, niewielki wpływ na średnią, więc jej problemy łatwo giną w ogólnych statystykach.

Błędy i uprzedzenia w etykietach. Większość systemów uczy się z danych opisanych przez ludzi: ktoś oznaczył zdjęcie, ocenił kandydata, zaklasyfikował komentarz jako obraźliwy. Osoby etykietujące przenoszą do danych własne przekonania i kulturowe nawyki — czasem świadomie, znacznie częściej bezwiednie. Jeśli anotatorzy częściej oznaczają jako „agresywne" wypowiedzi pisane slangiem określonej grupy, klasyfikator treści nauczy się dokładnie tej samej nadgorliwości i będzie ją stosował automatycznie, miliony razy dziennie.

Zmienne proxy. Najbardziej zdradliwe źródło biasu. Nawet gdy z danych usuniemy wrażliwe cechy — płeć, pochodzenie, wiek — model może je odtworzyć z cech pozornie neutralnych, które silnie z nimi korelują. Klasyczny przykład to kod pocztowy: w wielu krajach koreluje on ze statusem majątkowym i pochodzeniem etnicznym, więc model kredytowy „nieznający rasy" potrafi dyskryminować po adresie. Podobnie działają historia zakupów, nazwa ukończonej szkoły czy słownictwo listu motywacyjnego. Usunięcie kolumny z tabeli nie usuwa informacji z danych — ona przecieka bocznymi kanałami.

Głośne przykłady

O skali problemu najlepiej świadczą przypadki, które trafiły na pierwsze strony gazet, a potem do podręczników etyki AI.

COMPAS — ocena ryzyka recydywy

COMPAS to komercyjne narzędzie używane w amerykańskich sądach do szacowania ryzyka, że oskarżony ponownie popełni przestępstwo. W 2016 roku dziennikarze śledczy ProPublica przeanalizowali wyniki systemu z jednego z hrabstw Florydy i opisali niepokojącą asymetrię błędów: wśród osób, które ostatecznie nie wróciły na drogę przestępstwa, czarnoskórzy oskarżeni znacznie częściej niż biali byli wcześniej oznaczani jako „wysokie ryzyko". Producent narzędzia kwestionował tę analizę, wskazując, że system jest jednakowo skalibrowany dla obu grup. Spór okazał się pouczający: obie strony miały rację w ramach własnej definicji sprawiedliwości, a późniejsze prace teoretyczne pokazały, że takich definicji w typowych warunkach nie da się spełnić jednocześnie. COMPAS stał się podręcznikowym dowodem na to, że „sprawiedliwy algorytm" nie jest pojęciem oczywistym — i że stawką bywają lata ludzkiego życia.

Rekrutacyjne narzędzie Amazona

Amazon przez kilka lat rozwijał eksperymentalny system do automatycznej oceny CV. Model trenowano na życiorysach, które spływały do firmy przez poprzednią dekadę — a że w branży technologicznej dominowali wówczas mężczyźni, system nauczył się, że „dobry kandydat" wygląda jak mężczyzna. Jak ujawniła w 2018 roku agencja Reuters, narzędzie obniżało ocenę CV zawierających słowo „women's" (na przykład w nazwie drużyny szachowej czy uczelni dla kobiet) i premiowało słownictwo częstsze u kandydatów płci męskiej. Inżynierowie próbowali neutralizować kolejne sygnały, ale nie potrafili zagwarantować, że model nie znajdzie następnych ukrytych wskazówek płci — i projekt porzucono. To przykład pouczający podwójnie: pokazuje mechanizm zmiennych proxy w działaniu oraz dojrzałą decyzję o wycofaniu systemu, którego nie dało się wiarygodnie naprawić.

Rozpoznawanie twarzy i badanie Gender Shades

W 2018 roku badaczki Joy Buolamwini i Timnit Gebru opublikowały badanie „Gender Shades", w którym sprawdziły, jak komercyjne systemy analizy twarzy radzą sobie z klasyfikacją płci na zdjęciach osób o różnej karnacji. Wyniki były jednoznaczne: systemy niemal bezbłędnie klasyfikowały jasnoskórych mężczyzn, natomiast przy ciemnoskórych kobietach myliły się wielokrotnie częściej — w najgorszych przypadkach błąd sięgał kilkudziesięciu procent. Wśród przyczyn wskazano niedoreprezentowanie ciemniejszych odcieni skóry w zbiorach treningowych i testowych. Badanie wywołało falę niezależnych audytów, skłoniło producentów do poprawy modeli, a część dużych firm — do czasowego wycofania technologii rozpoznawania twarzy z zastosowań policyjnych.

Jak wykrywać bias

Stronniczości nie widać w pojedynczej odpowiedzi modelu — ujawnia się dopiero w statystyce. Wykrywanie biasu polega więc na systematycznym porównywaniu, jak model traktuje różne grupy.

Audyty modeli. Audyt to ustrukturyzowane badanie systemu: na reprezentatywnych danych testowych porównuje się decyzje i błędy modelu w podziale na grupy, dokumentuje różnice i ocenia ich realne skutki. Audyty bywają wewnętrzne (zespół sprawdza model przed wdrożeniem) i zewnętrzne (niezależni badacze, regulatorzy, dziennikarze — jak w sprawie COMPAS). Coraz częściej nie są już tylko dobrą praktyką, lecz stają się wymogiem formalnym — o czym za chwilę.

Metryki fairness. Żeby porównywać grupy, trzeba najpierw zdefiniować, co znaczy „traktować jednakowo" — temu służą metryki sprawiedliwości. Dwie najczęściej przywoływane to demographic parity i equalized odds. Demographic parity (parytet demograficzny) sprawdza, czy model wydaje pozytywne decyzje — przyznaje kredyt, zaprasza na rozmowę — w zbliżonych proporcjach we wszystkich grupach. Equalized odds (wyrównane szanse) sięga głębiej: wymaga, by w każdej grupie podobne były odsetki trafnych wykryć i fałszywych alarmów, czyli by model mylił się równie często i w podobny sposób niezależnie od tego, kogo ocenia. Intuicyjnie: pierwsza metryka patrzy na rozkład decyzji, druga na rozkład błędów. Obie bywają zasadne, ale zwykle nie można spełnić ich jednocześnie — wybór metryki jest więc decyzją etyczną i biznesową, nie czysto techniczną.

Testy na podgrupach. Ogólna dokładność potrafi maskować lokalne porażki, dlatego standardem staje się liczenie metryk osobno dla każdej istotnej podgrupy (płeć, wiek, region, język) oraz dla ich przecięć. Model może działać przyzwoicie osobno dla kobiet i osobno dla seniorów, a zawodzić dla starszych kobiet — zobaczymy to dopiero na przecięciu. Jeśli pojęcia takie jak precyzja czy czułość brzmią obco, pomoże nasz przewodnik: metryki oceny modeli ML — w analizie biasu te same wskaźniki liczy się po prostu dla każdej grupy z osobna, zamiast dla całego zbioru naraz.

Jak ograniczać

Interwencje przeciwko stronniczości dzieli się zwykle według miejsca w procesie uczenia: przed treningiem, w jego trakcie i po nim — plus warstwa organizacyjna, czyli ludzie nadzorujący system.

Warstwa	Przykładowe techniki	Na czym polegają
Dane	balansowanie, augmentacja	uzupełnianie przykładów z niedoreprezentowanych grup
Trening	reweighting	większa waga błędów popełnianych na mniejszościach
Po treningu	korekta progów per grupa	osobne progi decyzyjne wyrównujące odsetki błędów
Proces	human-in-the-loop	człowiek zatwierdza decyzje graniczne i o wysokiej stawce

Warstwa danych. Najwięcej można ugrać jeszcze przed treningiem. Balansowanie zbioru wyrównuje liczebność grup (przez dobieranie lub redukcję przykładów), a augmentacja generuje dodatkowe warianty istniejących danych — na przykład zdjęcia w innym oświetleniu czy tłumaczenia na rzadsze odmiany języka — tak, by niedoreprezentowane grupy przestały być statystycznie niewidoczne. Do tego dochodzi higiena etykietowania: jasne wytyczne dla anotatorów, niezależna weryfikacja spornych przypadków i pomiar zgodności ocen.

Interwencje w trening. Można też zmienić sam proces uczenia. Najprostsza technika to reweighting: przykłady z grup niedoreprezentowanych lub częściej błędnie klasyfikowanych dostają większą wagę w funkcji straty, więc model „bardziej się stara" właśnie na nich. Bardziej zaawansowane podejścia dokładają do optymalizacji jawne warunki sprawiedliwości — model ma minimalizować błąd, utrzymując różnice między grupami w zadanych granicach.

Post-processing. Gdy model jest już wytrenowany, można korygować jego decyzje. Typowy zabieg to osobne progi decyzyjne dla poszczególnych grup: skoro system systematycznie zaniża ocenę pewnej populacji, próg akceptacji dla niej zostaje przesunięty tak, by wyrównać odsetki błędów. To rozwiązanie tanie i skuteczne, choć bywa kontrowersyjne, bo jawnie różnicuje traktowanie grup — kolejny dowód, że sprawiedliwość algorytmiczna to nie tylko matematyka, ale i decyzje wartościujące.

Człowiek w pętli. W zastosowaniach o wysokiej stawce ostatnie słowo powinno należeć do człowieka: model podpowiada, człowiek decyduje, a przypadki graniczne trafiają do ręcznej weryfikacji. Ludzka ocena bywa też wbudowywana w sam trening — technika RLHF, stosowana przy dostrajaniu dużych modeli językowych, uczy model preferencji na podstawie ocen wystawianych przez ludzi, między innymi po to, by ograniczyć szkodliwe i stereotypowe odpowiedzi. Trzeba jednak pamiętać, że oceniający również mają uprzedzenia — human-in-the-loop przesuwa problem, ale go nie likwiduje.

Na koniec rzecz najważniejsza, choć niewygodna: biasu nie da się „usunąć" raz na zawsze. Dane zawsze będą odbiciem nierównego świata, wrażliwe informacje zawsze będą przeciekać przez zmienne proxy, a różnych definicji sprawiedliwości nie sposób spełnić naraz. Realistyczny cel to nie sterylna neutralność, lecz proces: mierzyć, ograniczać, monitorować po wdrożeniu i reagować, gdy metryki zaczynają się pogarszać. Pod tym względem stronniczość przypomina bezpieczeństwo systemów — nie jest stanem, który się osiąga, lecz praktyką, którą trzeba utrzymywać.

Bias a prawo: AI Act

Stronniczość algorytmów przestała być wyłącznie zmartwieniem inżynierów — zajęło się nią prawo. Unijne rozporządzenie AI Act klasyfikuje systemy AI według poziomu ryzyka, a do kategorii wysokiego ryzyka zalicza między innymi systemy używane w rekrutacji, ocenie zdolności kredytowej, edukacji, dostępie do usług publicznych i egzekwowaniu prawa — a więc dokładnie te obszary, w których stronniczość wyrządza najwięcej szkód. Dostawcy takich systemów muszą prowadzić zarządzanie ryzykiem, dokumentować działanie modelu, zapewnić nadzór człowieka i monitorować system również po wdrożeniu.

Z perspektywy tego artykułu najistotniejszy jest wymóg jakości danych. Zbiory treningowe, walidacyjne i testowe systemów wysokiego ryzyka mają być adekwatne do celu, możliwie reprezentatywne dla osób, których dotyczą decyzje, oraz badane pod kątem możliwych błędów i stronniczości — a wykryte ryzyka należy ograniczać. Innymi słowy: audyt danych pod kątem biasu, dotąd dobra praktyka świadomych zespołów, staje się w Unii Europejskiej obowiązkiem prawnym, obwarowanym karami finansowymi. Można spierać się o szczegóły, ale kierunek jest czytelny: za decyzje algorytmu odpowiada ten, kto go wdraża — i nie zasłoni się tłumaczeniem, że „tak wyszło z danych".

Bias w AI — skąd się bierze stronniczość modeli i jak ją ograniczać

Czym jest bias w AI?

Skąd się bierze stronniczość

Głośne przykłady

COMPAS — ocena ryzyka recydywy

Rekrutacyjne narzędzie Amazona

Rozpoznawanie twarzy i badanie Gender Shades

Jak wykrywać bias

Jak ograniczać

Bias a prawo: AI Act

Najczęściej zadawane pytania

Co to jest bias w sztucznej inteligencji?

Czy bias w AI da się całkowicie usunąć?

Jakie są przykłady stronniczości AI?

Co AI Act mówi o stronniczości algorytmów?

Czym jest bias w AI?

Skąd się bierze stronniczość

Głośne przykłady

COMPAS — ocena ryzyka recydywy

Rekrutacyjne narzędzie Amazona

Rozpoznawanie twarzy i badanie Gender Shades

Jak wykrywać bias

Jak ograniczać

Bias a prawo: AI Act

Najczęściej zadawane pytania

Co to jest bias w sztucznej inteligencji?

Czy bias w AI da się całkowicie usunąć?

Jakie są przykłady stronniczości AI?

Co AI Act mówi o stronniczości algorytmów?

Powiązane artykuły