Gdy szef dzwoni… ale jednak nie: o co chodzi z voice phishingiem i deepfake’ami
Scena z życia: pilny telefon od prezesa
Końcówka dnia, skrzynka zapchana mailami, myślami jesteś już w drodze do domu. Dzwoni telefon służbowy. Na wyświetlaczu – numer prezesa. Odbierasz.
W słuchawce dobrze znany głos, charakterystyczny sposób mówienia, ten sam akcent. „Słuchaj, mamy mega pilną sprawę. Nie ma czasu na formalności, kontrahent czeka. Zaraz wyślę ci numer konta, trzeba od razu puścić przelew. Nie mów na razie nikomu, bo negocjacje są tajne”. Brzmi znajomo? Brzmi jak klasyczny dzień w pracy w dynamicznej firmie. Tylko że… ten prezes właśnie siedzi w samolocie w trybie offline.
To właśnie typowy scenariusz phishingu głosowego (vishingu) w połączeniu z deepfake’iem głosowym. Oszuści podszywają się pod kogoś, komu ufasz – często przełożonego – wykorzystując sztuczną inteligencję do imitacji jego głosu, a coraz częściej także twarzy w rozmowach wideo.
Czym jest phishing głosowy (vishing) i czym różni się od mailowego
Phishing głosowy (vishing) to atak, w którym przestępca zamiast maila wykorzystuje rozmowę telefoniczną lub nagraną wiadomość głosową, żeby wyłudzić pieniądze, dane lub dostęp do systemów. Konstrukcja jest podobna jak w klasycznym phishingu mailowym:
- podszywanie się pod zaufaną osobę lub instytucję,
- stworzenie poczucia pilności lub zagrożenia,
- nakłonienie ofiary do szybkiego działania bez zastanowienia.
Różnica polega na kanale: zamiast podejrzanego maila z podejrzanym linkiem, pojawia się głos w słuchawce. A głos to coś, co kojarzymy z prawdziwym człowiekiem. Trudniej powiedzieć „to na pewno automat” niż „to tylko email, pewnie spam”.
Vishing często łączy się z innymi formami ataku. Oszust może wysłać wcześniej SMS-a z „potwierdzeniem rozmowy”, a potem zadzwonić. Może też równocześnie pisać na komunikatorze, żeby zwiększyć presję: „Proszę, odbierz, to bardzo pilne”. Im więcej kanałów, tym bardziej ofiara ma wrażenie, że to faktycznie coś ważnego.
Deepfake głosowy i wideo – wyjaśnienie bez technicznego żargonu
Deepfake głosowy to nagranie, w którym głos brzmi jak konkretna osoba, ale wcale nią nie jest. Sztuczna inteligencja uczy się, jak mówisz: jak brzmi twoja barwa głosu, jakie robisz przerwy, jakie masz charakterystyczne powiedzonka. Potem może tym twoim „głosem” przeczytać dowolny tekst.
Deepfake wideo działa bardzo podobnie, ale na obrazie:
- na czyjąś twarz nakłada się twarz innej osoby,
- program sztucznie dopasowuje ruch ust do mówionych słów,
- powstaje wideo, w którym „ty” mówisz coś, czego nigdy nie powiedziałeś.
Dla laika efekt bywa zaskakująco realistyczny, zwłaszcza przy krótkich nagraniach, słabej jakości połączeniu czy rozmowie „w biegu” na smartfonie. Drobne nieścisłości giną w szumie, a w głowie zostaje tylko jedno: „przecież to on/ona”.
Dlaczego połączenie vishingu i deepfake’ów jest tak groźne
Sam vishing już jest kłopotliwy, bo w rozmowie trudniej się zdystansować niż przy mailu. Głos „żywego” człowieka budzi współczucie, respekt albo po prostu automatyczną chęć pomocy. Gdy dodamy do tego deepfake głosowy lub wideo, dostajemy mieszankę idealną z punktu widzenia przestępców:
- atak wykorzystuje zaufanie do konkretnej osoby,
- wykorzystuje naturalne odruchy (słucham szefa, pomagam koledze, odbieram z banku),
- mocno utrudnia racjonalną ocenę sytuacji („przecież słyszę jego głos!”).
Do tego dochodzi jeszcze jeden element: wstyd. Ofiary takich ataków często długo ukrywają błąd, bo trudno im przyznać, że „dały się nabrać na głos szefa”. To opóźnia reakcję firmy i czasem zamyka drogę do odzyskania pieniędzy. Dla oszustów to idealne środowisko: cisza, brak szybkiej eskalacji, długi czas na „wypranie” środków z kont pośredniczących.

Od „Nigeryjskiego księcia” do syntetycznego głosu prezesa – ewolucja ataków
Od maili i SMS-ów do scenek aktorskich w telefonie
Pierwsze znane szerzej oszustwa internetowe opierały się na prostych mailach: „jestem księciem z Nigerii, pomóż przelać miliony, dam ci procent”. Dziś brzmi to groteskowo, ale kiedyś wielu ludzi wierzyło w takie historie. Potem pojawiły się:
- maile podszywające się pod banki i kurierów,
- SMS-y z fałszywymi linkami do „dopłaty do paczki” czy „blokady konta”,
- telefoniczne oszustwa „na wnuczka”, „na policjanta”, „na pracownika ZUS”.
Wspólny mianownik: atakujący udaje autorytet i wymusza szybką reakcję. Z czasem zaczęli łączyć kanały – SMS potwierdza telefon, email poprzedza rozmowę. Naturalnym kolejnym krokiem stało się wykorzystanie możliwości, jakie daje sztuczna inteligencja.
Dlaczego oszuści przenieśli się w stronę głosu i obrazu
Skuteczność klasycznego phishingu mailowego stopniowo spada, bo:
- filtry antyspamowe są coraz lepsze,
- użytkownicy są bardziej wyczuleni na podejrzane linki,
- wiele firm wprowadziło obowiązkowe szkolenia z phishingu.
Za to telefon i wideo nadal kojarzą się z „prawdziwym kontaktem”. Jeśli ktoś dzwoni z numeru naszego przełożonego, a do tego słyszymy znajomy głos lub widzimy jego podobiznę na ekranie, naturalnie zakładamy, że mamy do czynienia z autentyczną osobą. Przeskok z „tekst na ekranie” do „człowiek w słuchawce” radykalnie podnosi szansę, że zareagujemy emocjonalnie, a nie analitycznie.
Przestępcy to widzą. Tam, gdzie maile zaczęły zawodzić, głos i wideo otwierają nowe „okno” na ludzką podatność. I – co ważne – to okno jest szeroko otwarte nawet w firmach, które w zakresie mailowego phishingu są już nieźle przygotowane.
Spadek zaufania do maili wypchnął przestępców do „bardziej ludzkich” kanałów
W wielu organizacjach panuje zasada: „nie klikaj w linki w mailach, nawet od znanych nadawców”. Pracownicy zgłaszają podejrzane wiadomości do IT, przechodzą testy phishingowe, uczą się sprawdzać domeny i poprawność adresów. Efekt uboczny? Gdy pojawia się połączenie telefoniczne z pilną prośbą, czują się dużo mniej przygotowani. Nie ma tu przycisku „zgłoś phishing”. Jest tylko „odebrać – nie odebrać” i szybka decyzja w trakcie rozmowy.
Oszuści to wykorzystują. W wielu głośnych przypadkach atak BEC (Business Email Compromise) – czyli wyłudzenie środków przez podszycie się pod kadrę zarządzającą – został przeniesiony z maila na telefon i wideo. Zamiast „prezes napisał maila”, mamy „prezes zadzwonił” albo „prezes był na wideo i mówił”. A to już zupełnie inna waga dla pracownika.
Przykład ataku z użyciem syntetycznego głosu „szefa”
Jeden z głośnych przypadków, który obiegł media branżowe, dotyczył firmy, w której dyrektor finansowy odebrał telefon od swojego „szefa” z centrali zagranicznej. Głos, akcent, sposób mówienia – wszystko pasowało. „Szef” poprosił o natychmiastowy przelew środków do nowego dostawcy, tłumacząc sytuację jako „bardzo wrażliwą biznesowo, tajne przejęcie”.
Procedury zostały złamane, bo przecież „sam szef” zadzwonił i zapewniał, że bierze odpowiedzialność. Przelew poszedł. Dopiero po kilku godzinach okazało się, że prawdziwy szef nie dzwonił, a jego głos został sklonowany na podstawie publicznie dostępnych wystąpień w internecie.
Tego typu scenariusze niestety przestają być wyjątkiem. Łatwy dostęp do zaawansowanych narzędzi audio i wideo sprawia, że oszuści nie muszą mieć zaplecza rodem z filmów o hakerach – wystarczy kilka minut nagrania z konferencji, podcastu czy firmowego webinarium.
Jak tworzy się deepfake głosowy i wideo – w wersji dla niefachowców
Skąd przestępcy biorą próbki głosu i obrazu
Do stworzenia wiarygodnego deepfake’a głosowego lub wideo przestępcom zwykle wystarczy kilka minut nagrania. To nie musi być nic tajnego:
- nagrania z konferencji i webinarów (YouTube, Vimeo, firmowa strona),
- wywiady w mediach, podcasty, prezentacje sprzedażowe,
- materiały marketingowe z udziałem kadry zarządzającej,
- nagrania w social mediach (LinkedIn, Facebook, Instagram, TikTok).
W przypadku pracowników niższego szczebla przestępcy korzystają często z tego, co uda im się nagrać w trakcie pierwszego kontaktu. Potrafią celowo prowadzić dłuższą, „niewinną” rozmowę, tylko po to, by zebrać materiał do późniejszego sklonowania głosu i użycia go w kolejnym etapie ataku.
Jak działa klonowanie głosu – bez wzorów i równań
Klonowanie głosu (voice cloning) można porównać do nauki naśladowania czyjegoś akcentu przez aktora, tylko że robi to program. W skrócie wygląda to tak:
- Program „słucha” nagrań i analizuje cechy głosu – wysokość, tempo, intonację, barwę.
- Tworzy matematyczny model tego, „jak brzmi ta osoba”.
- Na podstawie tego modelu generuje nowe nagrania, czytając dowolnie napisany tekst.
Efekt końcowy to audio, które dla większości ludzi brzmi jak nagranie prawdziwej osoby, choć często przy dłuższej wypowiedzi słychać subtelne niedoskonałości: nienaturalne pauzy, brak prawdziwych emocji, trochę „płaskie” brzmienie.
Warto jednak zaznaczyć: nie trzeba już mieć wielkiego budżetu, by uzyskać taki efekt. W sieci istnieją narzędzia, które w kilka minut potrafią wygenerować zaskakująco dobry klon głosu – często bezpłatnie lub za niewielką opłatą.
Deepfake wideo: jak podmienia się twarz i ruch ust
Deepfake wideo to bardziej skomplikowana układanka, ale zasada jest podobna. Program analizuje:
- kształt twarzy,
- mimikę,
- ruch ust podczas mówienia,
- kąt ujęć, oświetlenie, kolory.
Na tej podstawie potrafi „nałożyć” twarz jednej osoby na ciało innej oraz zsynchronizować ruch ust z mówionym tekstem (często generowanym równolegle przez klonowany głos). Przy krótkich nagraniach, niskiej jakości połączenia czy niewielkim oknie rozmowy (np. mała ramka w komunikatorze) artefakty są trudne do zauważenia dla niewprawnego oka.
Na szczęście wciąż istnieją ograniczenia. Przy dłuższych nagraniach, dobrej jakości obrazu i dynamicznych ruchach postaci programom „rozsypuje się” spójność: widać drobne przesunięcia twarzy, nienaturalne mruganie, dziwne przejścia między klatkami. Problem w tym, że przestępcy nie potrzebują 40-minutowego spotkania – wystarczy im krótkie, „pilne” połączenie na kilka minut.
Co da się już dziś zrobić z łatwo dostępnymi narzędziami
Darmowe i półprofesjonalne narzędzia pozwalają już na:
- szybkie sklonowanie głosu na podstawie kilkudziesięciu sekund nagrania,
- generowanie wypowiedzi „szefa” w wielu językach,
- podmianę twarzy w krótkim nagraniu wideo,
- tworzenie całych „awatarów” mówiących dowolne treści.
Większych zasobów (czas, lepszy sprzęt, umiejętności) wymagają długie nagrania w wysokiej rozdzielczości, realistyczne ruchy całego ciała i dopasowanie do bardzo specyficznych warunków oświetleniowych. Ale do oszustw BEC z deepfake przestępcom spokojnie wystarczają obecne, łatwo dostępne narzędzia.

Schemat ataku: od zdobycia danych po „proszę szybko zrobić przelew”
Jak przestępcy wybierają ofiarę i zbierają informacje
Ataki z wykorzystaniem phishingu głosowego i deepfake’ów rzadko są zupełnie przypadkowe. Przestępcy często inwestują czas w profilowanie firmy i konkretnych osób. Robią to, korzystając z publicznie dostępnych źródeł:
- strona „O nas” na stronie firmowej: kto za co odpowiada, struktura organizacyjna,
- LinkedIn: stanowiska, powiązania, zmiany kadrowe,
Jak wygląda przygotowanie scenariusza oszustwa
Kiedy przestępcy zbiorą już podstawowe informacje, zaczyna się etap „scenopisarstwa”. Chodzi o ułożenie historii, która:
- brzmi wiarygodnie w realiach danej firmy,
- tłumaczy konieczność złamania standardowych procedur („tym razem zróbmy wyjątek”),
- uzasadnia pośpiech i brak czasu na konsultacje.
Na tym etapie analizują m.in.:
- typowe kwoty przelewów i częstotliwość płatności,
- bieżące projekty (np. „tajne przejęcie”, „nowy inwestor”, „wejście na nowy rynek”),
- charakter przełożonego – czy mówi bardziej „po korpo”, czy „po ludzku”, czy używa anglicyzmów.
Często powstaje kilka wariantów scenariusza: wersja A – prezes prosi o przelew, wersja B – dzwoni „prawnik firmy”, wersja C – wątek audytu, policji albo „nagłej kontroli regulatora”. Podczas rozmowy oszust wybiera tę ścieżkę, która lepiej „chwyci” u konkretnej osoby.
Przejęcie kanałów komunikacji i przygotowanie techniczne
Żeby głosowy lub wideo deepfake był skuteczny, sam syntetyczny głos nie wystarczy. Potrzebne są wiarygodne kanały kontaktu. Przestępcy przygotowują więc:
- podszyte numery telefonów (tzw. spoofing) – na wyświetlaczu widać numer szefa albo centrali,
- fałszywe konta w komunikatorach (Teams, WhatsApp, Signal) z tym samym zdjęciem i opisem,
- adresy email łudząco podobne do prawdziwych, które będą „otoczką” ataku (np. potwierdzenie dokumentów).
Do tego dochodzi test techniczny: krótkie nagrania próbne z wygenerowanym głosem lub awatarem, sprawdzenie jakości połączenia, dopasowanie głośności, tła, nawet echa. Im bardziej rozmowa przypomina typowe spotkanie w firmie (np. szef w samochodzie, jak zwykle między lotami), tym mniejsza czujność ofiary.
Moment uderzenia: pierwszy kontakt i budowanie wiarygodności
Atak rzadko zaczyna się od „Dzień dobry, proszę pilnie zrobić przelew na milion”. Typowy schemat ma dwa lub trzy kroki.
Najpierw pojawia się nieinwazyjny kontakt:
- krótki mail lub wiadomość na komunikatorze z informacją, że „będzie ważny telefon”,
- prośba o numer prywatny, bo „zaraz będę w podróży i mogę mieć słaby internet”,
- zaproszenie na krótką rozmowę wideo w nietypowych godzinach – np. „wiem, że późno, ale to sprawa, której nie mogę wysłać mailem”.
Dopiero potem wchodzi głos lub wideo deepfake. Oszust naśladuje styl rozmowy szefa: nawiązuje do poprzednich projektów (często wyciągniętych z LinkedIna lub wewnętrznego newslettera), żartuje „jak zawsze”, potwierdza, że „wie, że to trochę niestandardowe”, ale jednocześnie buduje presję czasu.
Faza presji i łamania procedur
Kiedy ofiara „kupuje” już tożsamość rozmówcy, pojawia się właściwa prośba – najczęściej związana z przelewem lub udostępnieniem wrażliwych danych. Scenariusz zwykle zawiera kilka stałych elementów:
- pośpiech – „mamy deadline dziś do 15:00, inaczej stracimy kontrakt”,
- tajemnica – „jeszcze nikomu o tym nie mówiliśmy, nawet dział prawny nie jest w pełni poinformowany”,
- odwołanie do autorytetu – „uzgodniłem to już z zarządem, biorę odpowiedzialność”,
- usprawiedliwienie obejścia zasad – „wiem, że procedura mówi co innego, ale tu po prostu nie mamy czasu”.
Jeśli ofiara wspomni o konieczności dodatkowej autoryzacji, oszust może użyć argumentu typu: „porozmawiam z nim później, teraz po prostu to zrób, ja to firmuję swoim nazwiskiem”. To zdanie potrafi rozbroić niejedną, całkiem rozsądną osobę.
Domknięcie ataku: przelew, dane, dostęp
Cel nie zawsze sprowadza się do jednorazowego przelewu. W praktyce spotyka się trzy główne warianty końcówki:
- Przelew środków – ofiara wprowadza dane „nowego kontrahenta” i autoryzuje płatność, czasem kilka mniejszych przelewów zamiast jednego dużego, by „nie robić szumu w systemie”.
- Udostępnienie dostępu – przekazanie kodu SMS, zalogowanie się na podstawiony portal VPN, podanie danych logowania „dla zewnętrznych audytorów”. To otwiera przestępcom drzwi do dalszych ataków już z wnętrza organizacji.
- Przekazanie informacji – np. plików z danymi klientów, cenników, dokumentów transakcyjnych, które potem posłużą do kolejnych szantaży albo precyzyjniejszych oszustw.
Po „domknięciu” sprawy atakujący zwykle znikają. Numer telefonu przestaje istnieć, konto komunikatora zostaje skasowane, ewentualne maile kasowane są z serwera po stronie atakującego. Często dopiero księgowość lub prawdziwy przełożony, po kilku godzinach lub dniach, zauważa, że coś nie gra.
Czerwone flagi w głosie i obrazie: jak „usłyszeć” i „zobaczyć”, że coś nie gra
Nietypowe zachowanie „znanej” osoby
Zanim zaczniemy analizować artefakty dźwiękowe i piksele, najprostszą wskazówką jest sama zmiana zachowania osoby, którą rzekomo znamy. Zwracaj uwagę na sytuacje, gdy:
- ktoś, kto zwykle pisze maile, nagle zaczyna dzwonić i nalega na rozmowę telefoniczną,
- przełożony, który lubi dyskutować, tym razem nie dopuszcza sprzeciwu, tylko naciska na działanie „tu i teraz”,
- w komunikacji pojawia się inny styl językowy: więcej oficjalnych zwrotów albo przeciwnie – nagła „kumpelskość”, której wcześniej nie było.
Zmiana tonu rozmowy bywa subtelna, ale jeśli w głowie zapala się lampka „dziwnie się dziś zachowuje”, to często już wystarczający sygnał, żeby wcisnąć hamulec awaryjny i zastosować dodatkowe sprawdzenie.
Sygnały w głosie: gdzie deepfake się „wykłada”
Nowoczesne klony głosu są coraz lepsze, ale wciąż często zdradzają się drobiazgami. Podczas rozmowy zwróć uwagę na:
- dźwięk w tle – nagranie brzmi jak ze studia, a „szef” twierdzi, że jest na lotnisku, w aucie albo na hali produkcyjnej,
- dziwne pauzy – nienaturalne przerwy między słowami, jakby ktoś „składał” zdanie z klocków,
- płaskie emocje – głos jest zaskakująco równy, pozbawiony typowych dla tej osoby zająknięć, westchnięć, śmiechu,
- problemy z nazwami własnymi – narzędzia miewają kłopot z wymową specyficznych nazw produktów, nazwisk czy skrótów.
Dobrym testem jest mała zmiana tematu. Zadaj pytanie, które wymaga spontanicznej reakcji, np. o niedawne wspólne spotkanie albo wewnętrzny żart zespołu. Deepfake’owi trudniej utrzymać płynność, jeśli musi wyjść poza zaplanowany wcześniej scenariusz.
Artefakty w obrazie: na co patrzeć podczas rozmowy wideo
Podczas rozmowy wideo najwięcej mówi twarz – a dokładniej to, co z nią „nie do końca gra”. Jeśli masz choć chwilę, żeby się skupić, sprawdź:
- obszar wokół ust – czy ruch warg jest zsynchronizowany ze słowami, czy czasem nie powstaje wrażenie lekkiego „poślizgu”,
- mruganie i ruch brwi – zbyt rzadkie mruganie, sztywna mimika, powtarzające się „szablonowe” ruchy,
- krawędź twarzy – delikatne migotanie przy linii włosów, uszu, szyi, szczególnie przy szybszych ruchach,
- światło – inne oświetlenie twarzy niż tło (np. twarz „jak z lampy pierścieniowej”, a otoczenie ciemne i ziarniste).
Jeśli okno rozmowy jest małe albo jakość połączenia słaba, przestępcom to pomaga. Dlatego przy nietypowych poleceniach poproś o pełnoekranowe wideo lub przełącz się na lepsze połączenie. Z punktu widzenia oszusta im mniej wyraźny obraz, tym lepiej – im wyraźniejszy dla ciebie, tym większa szansa, że zauważysz szczegóły.
Rozjechane szczegóły: otoczenie, strój, pora
Często to nie sama twarz, a detale w tle zdradzają, że coś jest nie tak. Zastanów się:
- czy miejsce, z którego rzekomo dzwoni dana osoba, jest spójne z jej planem dnia (np. ma zaplanowane szkolenie w innym mieście),
- czy ubiór pasuje do okoliczności – jeśli prezes, który na co dzień ubiera się bardzo formalnie, nagle dzwoni w tshircie z wakacyjnym motywem w środku dnia roboczego i z prośbą o poufny przelew, coś zgrzyta,
- czy w tle nie pojawiają się „zapętlone” elementy – identyczne ruchy przechodniów, powtarzający się samochód za oknem, ten sam gest współpracownika.
W jednym z realnych przypadków fałszywy „dyrektor” zadzwonił na Teams w sprawie pilnego przelewu, siedząc rzekomo w tym samym biurze co zwykle. Problem w tym, że za jego plecami na ścianie wisiał plakat, który zniknął z tego pokoju kilka miesięcy wcześniej. Pracownik to skojarzył – i to wystarczyło, by zatrzymać całą akcję.
„Techniczne” czerwone flagi rozmowy
Oprócz głosu i obrazu da się wyłapać kilka typowych wskazówek technicznych. Zwróć uwagę na sytuacje, gdy:
- rozmówca uparcie odmawia przejścia na inny kanał („nie mogę teraz pisać, tylko mówmy przez telefon”),
- jakość połączenia nagle „dziwnie” się poprawia lub pogarsza w momencie przejścia do trudniejszego tematu,
- połączenie przychodzi z zagranicznego numeru, ale ID użytkownika w komunikatorze sugeruje lokalizację krajową,
- nie działa funkcja „oddzwoń” na ten sam numer – połączenie można odebrać, ale nie można do niego wrócić.
Takie sygnały same w sobie nie przesądzają o ataku, ale w połączeniu z presją czasu i nietypową prośbą powinny z automatu uruchamiać zasadę dodatkowej weryfikacji.

Psychologia manipulacji: dlaczego inteligentni ludzie dają się nabrać
Autorytet i hierarchia służbowa
W organizacjach działa bardzo silny mechanizm: robimy to, o co prosi przełożony. Szczególnie gdy chodzi o prezesa, dyrektora finansowego czy partnera w firmie. To nie jest kwestia „naiwności”, tylko lat socjalizacji i kultury organizacyjnej.
Kiedy dzwoni ktoś z samej góry hierarchii, wiele osób automatycznie przechodzi w tryb „wykonawczy”. Pojawiają się myśli typu:
- „Skoro on mówi, że to ważne, to nie będę dyskutować”,
- „Nie będę robić problemów, jeszcze wyjdę na kogoś, kto blokuje biznes”,
- „Na pewno wie lepiej, ja widzę tylko swój kawałek układanki”.
Deepfake tylko wzmacnia ten efekt, bo dodaje „ciało” i „głos” do samego autorytetu funkcji. To nie jest już suchy mail, ale „żywa” osoba, której trudno odmówić – nawet jeśli coś podskórnie nie gra.
Presja czasu i strach przed konsekwencjami
Każdy, kto kiedykolwiek pracował w finansach, sprzedaży czy obsłudze kluczowych klientów, zna sytuacje „na już”. Przestępcy tę kulturę bardzo świadomie wykorzystują. Dodają wątki:
- utraconej szansy biznesowej („konkurencja tylko czeka, żeby przejąć ten kontrakt”),
- osobistych konsekwencji („to wisi na twoim dziale, nie chcę, żeby ktoś potem szukał winnych”),
- presji grupy („wszyscy już się zgodzili, tylko twój podpis/przelew blokuje proces”).
W takim klimacie mózg przełącza się w tryb reaktywny, a nie analityczny. Zamiast zadawać więcej pytań, szuka najszybszego wyjścia z dyskomfortu – czyli wykonania polecenia. Paradoksalnie, im bardziej odpowiedzialna i zaangażowana osoba, tym mocniej może odczuwać tę presję.
Efekt „to się dzieje naprawdę”
Głos i obraz mają jedną przewagę nad mailem: tworzą wrażenie bezpośredniego kontaktu. Mózg jest przyzwyczajony, że przez tysiące lat rozmowa twarzą w twarz oznaczała prawdziwego człowieka, a nie algorytm. Ta „wbudowana” wiara w to, co widzimy i słyszymy, nadal działa.
Iluzja kontroli i nadmierna pewność siebie
Spora część specjalistów, menedżerów czy osób technicznych szczerze wierzy, że „mnie to nie dotyczy”. Skoro ktoś zna się na procedurach, rozumie phishing mailowy i szyfruje dyski, to czuje się odporny z definicji. To z kolei prosta droga do iluzji kontroli.
Kiedy pojawia się dziwny telefon od „szefa”, łatwiej zinterpretować sygnały ostrzegawcze jako drobne wyjątki od normy, a nie powody do zatrzymania procesu. W głowie pojawiają się racjonalizacje:
- „Jestem ogarnięty, jakby coś było naprawdę nie tak, na pewno bym to wychwycił”,
- „Głos brzmi trochę inaczej, ale może ma gorszy dzień / inne słuchawki”,
- „Tyle się mówi o tych oszustwach, więc przecież właśnie ja się na nie nie nabiorę”.
Problem w tym, że manipulacja działa nie dlatego, że ktoś jest naiwny, tylko dlatego, że w danym momencie jest zajęty, zmęczony albo rozproszony. Do tego dochodzi zaufanie do własnych kompetencji – i nagle zamiast „sprawdzę to jeszcze raz”, pojawia się „dobra, ogarnę, szkoda czasu na formalności”.
Zmęczenie decyzyjne i wielozadaniowość
Vishing i deepfake bardzo często uderzają w godziny, gdy ludzie są najbardziej „zużyci decyzyjnie”: późne popołudnie, koniec miesiąca, okres zamykania kwartału. Wtedy lista zadań jest już długa, skrzynka pęka, a kalendarz nie widział wolnego okienka od tygodnia.
W takim stanie łatwo zareagować schematem: ktoś dzwoni, coś mówi, brzmi poważnie – robimy. Mózg nie ma przestrzeni, żeby zatrzymać się i świadomie porównać sytuację z procedurą bezpieczeństwa. Do gry wchodzi autopilot.
Dodaj do tego klasyczną wielozadaniowość: odebrany telefon w trakcie odpowiadania na maila, ktoś stoi w drzwiach biura, komunikator miga jak choinka. Oszustom to pasuje idealnie, bo wtedy spada zdolność do zauważania nieścisłości. Jedno niepasujące słowo, lekko nienaturalna pauza, dziwne tło w kadrze – wszystko to ginie w chaosie dnia.
Mechanizm „wszyscy są uczciwi”
Większość ludzi na co dzień zakłada, że inni grają fair. To zdrowe założenie, bo bez niego trudno byłoby komukolwiek zaufać i zrobić wspólnie choćby prosty projekt. Niestety, w kontekście ataków głosowych i wideo to domyślne nastawienie działa jak miękka poduszka dla przestępców.
Gdy ktoś zaufany mówi: „To poufna sprawa, nie mów nikomu, bo to zmiana właścicielska firmy”, wiele osób nie odbiera tego jako czerwonej flagi, tylko jako zaszczyt: „wow, wtajemniczają mnie”. Zamiast pytania „czy to ma sens?”, uruchamia się chęć bycia lojalnym wobec rozmówcy i „grania w jednej drużynie”.
Vishing i deepfake w firmie: scenariusze, na które warto być gotowym
„Prezes” i pilny przelew – klasyk w nowej odsłonie
Najczęściej omawiany scenariusz nadal krąży wokół fałszywego przelewu. Tyle że zamiast suchego maila typu „zrób przelew na załączony numer”, mamy teraz:
- telefon z głosem łudząco podobnym do prezesa lub CFO,
- krótkie spotkanie na Teams/Zoom z twarzą „szefa” w okienku,
- wiadomość głosową na komunikatorze z dokładną instrukcją.
Nagranie bywa poprzedzone prawdziwym wątkiem: np. dzień wcześniej mailem rozsyłane są informacje o potencjalnej akwizycji, strategii wejścia na nowy rynek czy rozmowach z inwestorem. Gdy następnego dnia pojawia się telefon z prośbą o „tymczasowy przelew na rachunek kancelarii / doradcy”, całość wygląda spójnie z szerszym kontekstem biznesowym.
Podszyty „kluczowy klient” i wymuszenie zmian w umowach
Drugi, coraz częstszy scenariusz: podszywanie się pod dużego kontrahenta. Z perspektywy przestępców to złoto – wystarczy podszycie pod jedną stronę, by uderzyć finansowo w obie.
Może wyglądać to tak: do opiekuna klienta dzwoni „dyrektor finansowy kluczowego partnera” (głos i twarz zebrane z nagrań z konferencji czy webinarów). W rozmowie:
- prosi o pilną zmianę numeru rachunku na fakturach „ze względów operacyjnych”,
- proponuje przyspieszenie kilku płatności w zamian za drobny rabat,
- naciska na szybką decyzję, bo „jutro zamykamy rok podatkowy w innym kraju”.
Jeśli dział sprzedaży widzi w tym szansę na lepsze relacje z klientem, presja, by „pomóc” rośnie. A wystarczyłby jeden niezależny telefon do znanego kontaktu po stronie klienta – oczywiście na numer z książki adresowej, a nie z maila czy czatu.
Wewnętrzny „helpdesk” i przejęcie kont pracowników
Deepfake głosowy nie zawsze służy wyciąganiu pieniędzy. Często celem jest przejęcie dostępu. Scenariusz jest pozornie prozaiczny: dzwoni „admin” lub „helpdesk” i zgłasza, że wykryto nietypową aktywność na koncie pracownika.
Rozmowa przebiega szybko, ton jest profesjonalny, słychać gwar open space w tle, padają znajome nazwy systemów. Pojawiają się prośby o:
- podanie jednorazowego kodu z aplikacji 2FA „bo trzeba potwierdzić, że to ty”,
- chwilową zmianę hasła na podany ciąg znaków „do celów diagnostycznych”,
- udzielenie zdalnego dostępu do komputera przez wskazane narzędzie.
Jeśli głos brzmi jak znany administrator, a w tle da się rozpoznać nazwy kilku osób z działu IT (wcześniej wyciągnięte np. z LinkedIna), pracownik bardzo łatwo rezygnuje z czujności. Systemy bezpieczeństwa stają się wtedy atrakcyjnymi drzwiami – tyle że ktoś z wewnątrz je dla atakującego uprzejmie otwiera.
Fałszywy rekruter lub „head hunter” z ofertą nie do odrzucenia
Scenariusz mniej oczywisty, ale bardzo opłacalny: atak przez rekrutację. Do specjalisty z dostępem do wrażliwych systemów zgłasza się „headhunter” z renomowanej firmy. Ma świetny pitch, zna szczegóły CV, powołuje się na realne projekty. Rozmowa odbywa się telefonicznie lub przez wideokonferencję, głos i wizerunek rekrutera są złożone z publicznie dostępnych materiałów.
Po kilku rozmowach pada prośba o:
- wypełnienie „szczegółowej ankiety” z pytaniami o używane narzędzia, konfiguracje, poziom uprawnień,
- odesłanie fragmentów kodu czy zrzutów ekranu „jako próbka umiejętności”,
- zainstalowanie testowego narzędzia „do oceny wydajności systemu na twoim sprzęcie”.
Formalnie to „tylko rekrutacja”, w praktyce – doskonałe źródło wiedzy o architekturze bezpieczeństwa firmy, która nawet nie wie, że właśnie ją rozbierają na części pierwsze.
Sabotaż wizerunkowy i wymuszenia na kadrze zarządzającej
Deepfake wideo nie musi od razu dotykać przelewów czy haseł. Coraz więcej mówi się o szantażu reputacyjnym. Technicznie da się wygenerować materiał, w którym osoba z zarządu:
- wypowiada się lekceważąco o pracownikach lub klientach,
- ujawnia „poufne” informacje o planach zwolnień,
- komentuje w kontrowersyjny sposób bieżące wydarzenia polityczne.
Nawet jeśli nagranie jest średniej jakości, samo jego istnienie daje napastnikom kartę przetargową: albo zapłacicie / zrobicie X, albo materiał trafi do mediów lub na firmowe forum. Im delikatniejsza branża (finanse, zdrowie, sektor publiczny), tym łatwiej wywołać panikę i presję na szybkie „załatwienie sprawy po cichu”.
Podszycie się pod przełożonego wobec nowego pracownika
Nowi pracownicy są szczególnie narażeni. Nie znają jeszcze dobrze ludzi, stylu komunikacji ani niepisanych zasad. Gdy na służbowym komunikatorze pojawia się wiadomość od „szefa działu”, a po chwili przychodzi telefon z numeru podpisanego jego imieniem (np. dzięki sprytnej manipulacji w systemie telefonicznym), sytuacja wygląda zupełnie naturalnie.
W takim scenariuszu „przełożony” może:
- poprosić o przesłanie pakietu danych klientów „do szybkiego zestawienia dla zarządu”,
- zasugerować obejście pewnych formalności („wiem, że procedura mówi co innego, ale szkoda czasu, zrobimy to wyjątkowo inaczej”),
- poprosić o tymczasowe udostępnienie swojego loginu „do sprawdzenia, czy widzisz to samo co ja”.
Dla nowej osoby to test lojalności i szansa, by „dobrze wypaść”. Dla przestępcy – prosty sposób, by ominąć oporne, świadome zagrożeń stare wygi i wejść do systemu bocznymi drzwiami.
„Szybki stand-up” lub spotkanie projektowe jako przykrywka
Na popularności zyskuje też inny wariant: krótkie, spontaniczne spotkanie online, podszywające się pod codzienny rytuał zespołu. Dzwoni „project manager”, rozsyła link na Slacku lub w kalendarzu na kilka minut przed czasem: „wejdźcie na chwilę, jest temat do domknięcia przed demo”.
W trakcie 5–10 minut rozmowy:
- pada prośba o szybkie udostępnienie ekranu z dostępem do konkretnego systemu,
- ktoś jest proszony o pokazanie procesu resetu haseł „bo klient nie widzi tego samego”,
- padają wprost dane dostępowe „bo demo stoi i trzeba kogoś podmienić na produkcji na chwilę”.
W gąszczu zadań ludzie często nie weryfikują dokładnie zaproszenia: czy link rzeczywiście prowadzi do firmowego konta, czy nazwa użytkownika hosta spotkania jest idealnie zgodna z prawdziwą, czy ikonka profilu nie ma drobnej różnicy. Deepfake wideo, nawet nieidealny, dopełnia iluzji: „przecież go widzę, więc wszystko w porządku”.
Usankcjonowanie błędu: „Skoro to było na wideo, to na pewno prawdziwe”
Na koniec praktyczny, choć mało wygodny wniosek dla firm: materiał audio/wideo przestaje być dowodem nie do podważenia. To oznacza konkretną zmianę w procedurach:
- nie wystarczy już nagranie „szefa” wydającego polecenie jako argument „przecież jest na wideo”,
- konieczne są drugie kanały potwierdzenia przy nietypowych dyspozycjach (np. SMS z numeru z książki, wewnętrzny ticket, osobne zatwierdzenie w systemie finansowym),
- trzeba wprost powiedzieć pracownikom: masz prawo, a wręcz obowiązek zakwestionować nawet autentycznie wyglądające wideo, jeśli treść polecenia narusza procedury.
Brzmi to trochę jak herezja w kulturze „video or it didn’t happen”, ale realia są takie, że dziś „video” coraz częściej może być po prostu sprytną animacją ze sztucznie wygenerowanym głosem. I lepiej, żeby ludzie mieli to z tyłu głowy, zanim klikną „wyślij przelew”.






