Wyobraź sobie system, który ocenia wnioski kredytowe i częściej odrzuca mieszkańców uboższych dzielnic, choć nikt nie zapisał w nim takiej reguły. Albo narzędzie rekrutacyjne, które obniża ocenę CV zawierających słowo „women's". To nie scenariusze z dystopijnej powieści, lecz udokumentowane przypadki stronniczości modeli — zjawiska znanego jako bias w AI. Wyjaśniamy, czym jest ta stronniczość, skąd się bierze, jakie szkody wyrządza i co realnie można z nią zrobić.
Czym jest bias w AI?
Bias w AI (stronniczość modeli) to systematyczne odchylenie wyników systemu uczenia maszynowego, które działa na niekorzyść określonych grup ludzi lub faworyzuje jedne grupy kosztem innych. Kluczowe jest słowo „systematyczne". Każdy model popełnia błędy — to nieuniknione. Problem zaczyna się wtedy, gdy błędy nie rozkładają się losowo, lecz konsekwentnie układają w jedną stronę: kobiety częściej dostają niższe oceny, osoby o ciemniejszej karnacji częściej są błędnie rozpoznawane, mieszkańcy pewnych dzielnic częściej słyszą odmowę.
Stronniczy model nie jest przy tym „zepsuty" w technicznym sensie. Zwykle robi dokładnie to, czego się nauczył: wiernie odtwarza wzorce obecne w danych treningowych. Właśnie dlatego bias jest tak podstępny — system może osiągać świetne wyniki w ogólnych metrykach dokładności, a jednocześnie krzywdzić konkretną podgrupę użytkowników. Z zewnątrz wygląda na obiektywny i „matematycznie neutralny", co bywa używane jako argument: przecież algorytm nie ma uprzedzeń. Ma — tyle że odziedziczone po danych i ludziach, którzy je zebrali.
Konieczna jest tu uwaga terminologiczna, bo słowo „bias" ma w uczeniu maszynowym także drugie, zupełnie inne znaczenie. W perceptronie i w każdej sieci neuronowej bias to wyraz wolny neuronu — liczba dodawana do ważonej sumy wejść, przesuwająca próg aktywacji. To niewinny parametr matematyczny, odpowiednik wyrazu wolnego „b" w równaniu prostej y = ax + b. Gdy w dokumentacji sieci neuronowych czytasz o „weights and biases", chodzi o ten techniczny bias, który z dyskryminacją nie ma nic wspólnego. Oba pojęcia bywają mylone, bo brzmią identycznie — w tym artykule zajmujemy się wyłącznie pierwszym znaczeniem: stronniczością wyników wobec ludzi.
Skąd się bierze stronniczość
Najkrótsza odpowiedź: z danych oraz z decyzji ludzi, którzy te dane zebrali, opisali i wykorzystali. Model uczenia maszynowego nie ma poglądów — uczy się korelacji z przykładów. Jeśli przykłady niosą uprzedzenia, model je przejmie, a często też wzmocni i utrwali na masową skalę. W praktyce wyróżnia się kilka typowych źródeł problemu.
Dane historyczne odzwierciedlają nierówności. Modele trenuje się na zapisach przeszłych decyzji: kto dostał kredyt, kto został zatrudniony, kto otrzymał surowszy wyrok. Jeśli te decyzje były obciążone uprzedzeniami — a dziesięciolecia praktyk dyskryminacyjnych na rynku pracy czy w bankowości są dobrze udokumentowane — model nauczy się ich jako „prawidłowego" wzorca. Algorytm nie odróżnia świata, jaki jest, od świata, jaki być powinien. Trening na danych historycznych to w gruncie rzeczy polecenie: przewiduj przyszłość tak, by wyglądała jak przeszłość.
Niedoreprezentowanie grup w zbiorach treningowych. Jeśli w zbiorze zdjęć do treningu systemu rozpoznawania twarzy dominują twarze jasnoskórych mężczyzn, model będzie radził sobie najlepiej właśnie z nimi, a na pozostałych grupach zacznie się mylić. To samo dotyczy języków, akcentów, grup wiekowych czy rzadkich schorzeń w danych medycznych. Model statystyczny optymalizuje średni błąd — a mniejszość ma, z definicji, niewielki wpływ na średnią, więc jej problemy łatwo giną w ogólnych statystykach.
Błędy i uprzedzenia w etykietach. Większość systemów uczy się z danych opisanych przez ludzi: ktoś oznaczył zdjęcie, ocenił kandydata, zaklasyfikował komentarz jako obraźliwy. Osoby etykietujące przenoszą do danych własne przekonania i kulturowe nawyki — czasem świadomie, znacznie częściej bezwiednie. Jeśli anotatorzy częściej oznaczają jako „agresywne" wypowiedzi pisane slangiem określonej grupy, klasyfikator treści nauczy się dokładnie tej samej nadgorliwości i będzie ją stosował automatycznie, miliony razy dziennie.
Zmienne proxy. Najbardziej zdradliwe źródło biasu. Nawet gdy z danych usuniemy wrażliwe cechy — płeć, pochodzenie, wiek — model może je odtworzyć z cech pozornie neutralnych, które silnie z nimi korelują. Klasyczny przykład to kod pocztowy: w wielu krajach koreluje on ze statusem majątkowym i pochodzeniem etnicznym, więc model kredytowy „nieznający rasy" potrafi dyskryminować po adresie. Podobnie działają historia zakupów, nazwa ukończonej szkoły czy słownictwo listu motywacyjnego. Usunięcie kolumny z tabeli nie usuwa informacji z danych — ona przecieka bocznymi kanałami.
Głośne przykłady
O skali problemu najlepiej świadczą przypadki, które trafiły na pierwsze strony gazet, a potem do podręczników etyki AI.
COMPAS — ocena ryzyka recydywy
COMPAS to komercyjne narzędzie używane w amerykańskich sądach do szacowania ryzyka, że oskarżony ponownie popełni przestępstwo. W 2016 roku dziennikarze śledczy ProPublica przeanalizowali wyniki systemu z jednego z hrabstw Florydy i opisali niepokojącą asymetrię błędów: wśród osób, które ostatecznie nie wróciły na drogę przestępstwa, czarnoskórzy oskarżeni znacznie częściej niż biali byli wcześniej oznaczani jako „wysokie ryzyko". Producent narzędzia kwestionował tę analizę, wskazując, że system jest jednakowo skalibrowany dla obu grup. Spór okazał się pouczający: obie strony miały rację w ramach własnej definicji sprawiedliwości, a późniejsze prace teoretyczne pokazały, że takich definicji w typowych warunkach nie da się spełnić jednocześnie. COMPAS stał się podręcznikowym dowodem na to, że „sprawiedliwy algorytm" nie jest pojęciem oczywistym — i że stawką bywają lata ludzkiego życia.
Rekrutacyjne narzędzie Amazona
Amazon przez kilka lat rozwijał eksperymentalny system do automatycznej oceny CV. Model trenowano na życiorysach, które spływały do firmy przez poprzednią dekadę — a że w branży technologicznej dominowali wówczas mężczyźni, system nauczył się, że „dobry kandydat" wygląda jak mężczyzna. Jak ujawniła w 2018 roku agencja Reuters, narzędzie obniżało ocenę CV zawierających słowo „women's" (na przykład w nazwie drużyny szachowej czy uczelni dla kobiet) i premiowało słownictwo częstsze u kandydatów płci męskiej. Inżynierowie próbowali neutralizować kolejne sygnały, ale nie potrafili zagwarantować, że model nie znajdzie następnych ukrytych wskazówek płci — i projekt porzucono. To przykład pouczający podwójnie: pokazuje mechanizm zmiennych proxy w działaniu oraz dojrzałą decyzję o wycofaniu systemu, którego nie dało się wiarygodnie naprawić.
Rozpoznawanie twarzy i badanie Gender Shades
W 2018 roku badaczki Joy Buolamwini i Timnit Gebru opublikowały badanie „Gender Shades", w którym sprawdziły, jak komercyjne systemy analizy twarzy radzą sobie z klasyfikacją płci na zdjęciach osób o różnej karnacji. Wyniki były jednoznaczne: systemy niemal bezbłędnie klasyfikowały jasnoskórych mężczyzn, natomiast przy ciemnoskórych kobietach myliły się wielokrotnie częściej — w najgorszych przypadkach błąd sięgał kilkudziesięciu procent. Wśród przyczyn wskazano niedoreprezentowanie ciemniejszych odcieni skóry w zbiorach treningowych i testowych. Badanie wywołało falę niezależnych audytów, skłoniło producentów do poprawy modeli, a część dużych firm — do czasowego wycofania technologii rozpoznawania twarzy z zastosowań policyjnych.
Jak wykrywać bias
Stronniczości nie widać w pojedynczej odpowiedzi modelu — ujawnia się dopiero w statystyce. Wykrywanie biasu polega więc na systematycznym porównywaniu, jak model traktuje różne grupy.
Audyty modeli. Audyt to ustrukturyzowane badanie systemu: na reprezentatywnych danych testowych porównuje się decyzje i błędy modelu w podziale na grupy, dokumentuje różnice i ocenia ich realne skutki. Audyty bywają wewnętrzne (zespół sprawdza model przed wdrożeniem) i zewnętrzne (niezależni badacze, regulatorzy, dziennikarze — jak w sprawie COMPAS). Coraz częściej nie są już tylko dobrą praktyką, lecz stają się wymogiem formalnym — o czym za chwilę.
Metryki fairness. Żeby porównywać grupy, trzeba najpierw zdefiniować, co znaczy „traktować jednakowo" — temu służą metryki sprawiedliwości. Dwie najczęściej przywoływane to demographic parity i equalized odds. Demographic parity (parytet demograficzny) sprawdza, czy model wydaje pozytywne decyzje — przyznaje kredyt, zaprasza na rozmowę — w zbliżonych proporcjach we wszystkich grupach. Equalized odds (wyrównane szanse) sięga głębiej: wymaga, by w każdej grupie podobne były odsetki trafnych wykryć i fałszywych alarmów, czyli by model mylił się równie często i w podobny sposób niezależnie od tego, kogo ocenia. Intuicyjnie: pierwsza metryka patrzy na rozkład decyzji, druga na rozkład błędów. Obie bywają zasadne, ale zwykle nie można spełnić ich jednocześnie — wybór metryki jest więc decyzją etyczną i biznesową, nie czysto techniczną.
Testy na podgrupach. Ogólna dokładność potrafi maskować lokalne porażki, dlatego standardem staje się liczenie metryk osobno dla każdej istotnej podgrupy (płeć, wiek, region, język) oraz dla ich przecięć. Model może działać przyzwoicie osobno dla kobiet i osobno dla seniorów, a zawodzić dla starszych kobiet — zobaczymy to dopiero na przecięciu. Jeśli pojęcia takie jak precyzja czy czułość brzmią obco, pomoże nasz przewodnik: metryki oceny modeli ML — w analizie biasu te same wskaźniki liczy się po prostu dla każdej grupy z osobna, zamiast dla całego zbioru naraz.
Jak ograniczać
Interwencje przeciwko stronniczości dzieli się zwykle według miejsca w procesie uczenia: przed treningiem, w jego trakcie i po nim — plus warstwa organizacyjna, czyli ludzie nadzorujący system.
| Warstwa | Przykładowe techniki | Na czym polegają |
|---|---|---|
| Dane | balansowanie, augmentacja | uzupełnianie przykładów z niedoreprezentowanych grup |
| Trening | reweighting | większa waga błędów popełnianych na mniejszościach |
| Po treningu | korekta progów per grupa | osobne progi decyzyjne wyrównujące odsetki błędów |
| Proces | human-in-the-loop | człowiek zatwierdza decyzje graniczne i o wysokiej stawce |
Warstwa danych. Najwięcej można ugrać jeszcze przed treningiem. Balansowanie zbioru wyrównuje liczebność grup (przez dobieranie lub redukcję przykładów), a augmentacja generuje dodatkowe warianty istniejących danych — na przykład zdjęcia w innym oświetleniu czy tłumaczenia na rzadsze odmiany języka — tak, by niedoreprezentowane grupy przestały być statystycznie niewidoczne. Do tego dochodzi higiena etykietowania: jasne wytyczne dla anotatorów, niezależna weryfikacja spornych przypadków i pomiar zgodności ocen.
Interwencje w trening. Można też zmienić sam proces uczenia. Najprostsza technika to reweighting: przykłady z grup niedoreprezentowanych lub częściej błędnie klasyfikowanych dostają większą wagę w funkcji straty, więc model „bardziej się stara" właśnie na nich. Bardziej zaawansowane podejścia dokładają do optymalizacji jawne warunki sprawiedliwości — model ma minimalizować błąd, utrzymując różnice między grupami w zadanych granicach.
Post-processing. Gdy model jest już wytrenowany, można korygować jego decyzje. Typowy zabieg to osobne progi decyzyjne dla poszczególnych grup: skoro system systematycznie zaniża ocenę pewnej populacji, próg akceptacji dla niej zostaje przesunięty tak, by wyrównać odsetki błędów. To rozwiązanie tanie i skuteczne, choć bywa kontrowersyjne, bo jawnie różnicuje traktowanie grup — kolejny dowód, że sprawiedliwość algorytmiczna to nie tylko matematyka, ale i decyzje wartościujące.
Człowiek w pętli. W zastosowaniach o wysokiej stawce ostatnie słowo powinno należeć do człowieka: model podpowiada, człowiek decyduje, a przypadki graniczne trafiają do ręcznej weryfikacji. Ludzka ocena bywa też wbudowywana w sam trening — technika RLHF, stosowana przy dostrajaniu dużych modeli językowych, uczy model preferencji na podstawie ocen wystawianych przez ludzi, między innymi po to, by ograniczyć szkodliwe i stereotypowe odpowiedzi. Trzeba jednak pamiętać, że oceniający również mają uprzedzenia — human-in-the-loop przesuwa problem, ale go nie likwiduje.
Na koniec rzecz najważniejsza, choć niewygodna: biasu nie da się „usunąć" raz na zawsze. Dane zawsze będą odbiciem nierównego świata, wrażliwe informacje zawsze będą przeciekać przez zmienne proxy, a różnych definicji sprawiedliwości nie sposób spełnić naraz. Realistyczny cel to nie sterylna neutralność, lecz proces: mierzyć, ograniczać, monitorować po wdrożeniu i reagować, gdy metryki zaczynają się pogarszać. Pod tym względem stronniczość przypomina bezpieczeństwo systemów — nie jest stanem, który się osiąga, lecz praktyką, którą trzeba utrzymywać.
Bias a prawo: AI Act
Stronniczość algorytmów przestała być wyłącznie zmartwieniem inżynierów — zajęło się nią prawo. Unijne rozporządzenie AI Act klasyfikuje systemy AI według poziomu ryzyka, a do kategorii wysokiego ryzyka zalicza między innymi systemy używane w rekrutacji, ocenie zdolności kredytowej, edukacji, dostępie do usług publicznych i egzekwowaniu prawa — a więc dokładnie te obszary, w których stronniczość wyrządza najwięcej szkód. Dostawcy takich systemów muszą prowadzić zarządzanie ryzykiem, dokumentować działanie modelu, zapewnić nadzór człowieka i monitorować system również po wdrożeniu.
Z perspektywy tego artykułu najistotniejszy jest wymóg jakości danych. Zbiory treningowe, walidacyjne i testowe systemów wysokiego ryzyka mają być adekwatne do celu, możliwie reprezentatywne dla osób, których dotyczą decyzje, oraz badane pod kątem możliwych błędów i stronniczości — a wykryte ryzyka należy ograniczać. Innymi słowy: audyt danych pod kątem biasu, dotąd dobra praktyka świadomych zespołów, staje się w Unii Europejskiej obowiązkiem prawnym, obwarowanym karami finansowymi. Można spierać się o szczegóły, ale kierunek jest czytelny: za decyzje algorytmu odpowiada ten, kto go wdraża — i nie zasłoni się tłumaczeniem, że „tak wyszło z danych".