Określanie czy tweet jest fake newsem

Technologia przetwarzania języka naturalnego (NLP) w starciu z Fake News'ami

Naszym projektem jest zastosowanie technologii przetwarzania języka naturalnego (NLP) do wykrywania fałszywych wiadomości. Cel jest prosty, ale ambitny: chcemy nauczyć nasz model rozpoznawania, czy prezentowana wiadomość jest prawdziwa, czy fałszywa. Zdecydowaliśmy się na analizę tweetów - krótkich, ale często wpływowych wiadomości, które mogą mieć ogromny wpływ na opinię publiczną. Wykorzystaliśmy zbiór danych składający się z 40 000 tweetów, dostarczający bogatego materiału do nauki dla naszego modelu. Przy czym połowa z nich była fake newsami, a połowa była prawdą

Przykładowy tweet


WASHINGTON (Reuters) - Trump campaign adviser George Papadopoulos told an Australian diplomat in May 2016 that Russia had political dirt on Democratic presidential candidate Hillary Clinton, the New York Times reported on Saturday. The conversation between Papadopoulos and the diplomat, Alexander Downer, in London was a driving factor behind the FBI’s decision to open a counter-intelligence investigation of Moscow’s contacts with the Trump campaign, the Times reported. Two months after the meeting, Australian officials passed the information that came from Papadopoulos to their American counterparts when leaked Democratic emails began appearing online, according to the newspaper, which cited four current and former U.S. and foreign officials. Besides the information from the Australians, the probe by the Federal Bureau of Investigation was also propelled by intelligence from other friendly governments, including the British and Dutch, the Times said. Papadopoulos, a Chicago-based international energy lawyer, pleaded guilty on Oct. 30 to lying to FBI agents about contacts with people who claimed to have ties to top Russian officials. It was the first criminal charge alleging links between the Trump campaign and Russia. The White House has played down the former aide’s campaign role, saying it was “extremely limited” and that any actions he took would have been on his own. The New York Times, however, reported that Papadopoulos helped set up a meeting between then-candidate Donald Trump and Egyptian President Abdel Fattah al-Sisi and edited the outline of Trump’s first major foreign policy speech in April 2016. The federal investigation, which is now being led by Special Counsel Robert Mueller, has hung over Trump’s White House since he took office almost a year ago. Some Trump allies have recently accused Mueller’s team of being biased against the Republican president. Lawyers for Papadopoulos did not immediately respond to requests by Reuters for comment. Mueller’s office declined to comment. Trump’s White House attorney, Ty Cobb, declined to comment on the New York Times report. “Out of respect for the special counsel and his process, we are not commenting on matters such as this,” he said in a statement. Mueller has charged four Trump associates, including Papadopoulos, in his investigation. Russia has denied interfering in the U.S. election and Trump has said there was no collusion between his campaign and Moscow.

Rozwiązania techniczne

1. Czyszczenie danych

Pierwszym krokiem była eliminacja tzw. "Stopwords", czyli słów, które nie dodają wiele znaczenia do zdania (na przykład: "the", "he", "have"). Usunęliśmy również znaki interpunkcyjne i szum w tekście, takie jak znaki specjalne i linki, aby skupić się na najważniejszych słowach.

2. Przetwarzanie tekstu

Następnie przeprowadziliśmy procesy tokenizacji, wektoryzacji oraz dodania paddingu tekstu. Zadaniem tych procesów było przekształcenie słów w liczby - język, którym posługuje się komputer.

3. Zastosowanie embeddingów

Na koniec skorzystaliśmy z "embeddingów" z modelu GloVe. To rodzaj mapy, gdzie blisko siebie umieszczone są słowa o podobnym znaczeniu. Dzięki tej mapie, komputer "rozumie" słowa poprzez przypisane im liczby, które reprezentują ich położenie na mapie. Użycie GloVe pomaga komputerowi lepiej zrozumieć kontekst słów, co przekłada się na dokładniejszą analizę tekstu.

Analiza częstości ystępoania słów i fraz w tweetach z 2017 roku wskazuje na zdecydowaną dominację tematyki politycznej, szczególnie związanej z postacią Donalda Trumpa. Wykresy ilustrują, że główne dyskusje dotyczyły działań prezydenckich oraz polityki USA. W obliczu intensywnych dialogów wyborczych oraz wyrażanej poprzez słowa wsparcia, krytyki lub satyry, istotne jest podkreślenie, że dyskusje te były również polem do szerzenia manipulacji informacyjnej i potencjalnych fake newsów, wpływając na opinię publiczną i kształtowanie narracji politycznej.

Analiza dystrybucji ilości słów w tweetach uwydatnia interesujące różnice między przekazami autentycznymi a fałszywymi. Wykresy demonstrują, że wiadomości uznane za "fake newsy" charakteryzują się relatywnie stałą, skoncentrowaną ilością słów, co może sugerować zastosowanie pewnego rodzaju szablonu lub ograniczonej różnorodności w budowie przekazów. Natomiast autentyczne wiadomości prezentują znacznie większe rozproszenie w zakresie używanej liczby słów, co może być odbiciem bardziej zróżnicowanego i dynamicznego charakteru prawdziwych dyskusji i informacji. Ta obserwacja może wskazywać na to, że mechanizmy generujące fałszywe informacje mogą posiadać pewne charakterystyczne wzorce językowe i stylistyczne, które odróżniają je od prawdziwych komunikatów.

Skuteczność modelu

Po zastosowaniu powyższych działań model osiąga imponujący wynik skuteczności 99,7%, co pokazuje jego zdolność do precyzyjnego rozróżniania prawdziwych i fałszywych wiadomości.

Jak czytać wykres?

- Przekątna od strony lewej górnej do prawej dolnej pokazuje poprawne prognozy
- Wartości poza przekątną pokazują błedne prognozy

Wnioski

Nasz projekt, skoncentrowany na wykrywaniu fałszywych informacji, zyskuje szczególnie na znaczeniu w obliczu współczesnych wyzwań i problemów społecznych. Fałszywe informacje, czyli tzw. "fake newsy", stanowią poważne zagrożenie dla stabilności demokratycznych społeczeństw, manipulując opinią publiczną i zniekształcając debatę publiczną.

Znaczenie prawdziwości informacji, zwłaszcza w kontekście polityki, jest nie do przecenienia. Poprawna, rzetelna informacja jest fundamentem, na którym budowane są świadome decyzje obywateli oraz kierunki rozwoju społeczeństwa. Biorąc pod uwagę, jak wpływają one na opinie publiczną i decyzje wyborcze, jesteśmy przekonani, że narzędzia umożliwiające szybką i precyzyjną weryfikację prawdziwości treści są kluczowe.

Skontaktuj się i zacznij podejmować skuteczniejsze decyzje na podstawie analizy danych