Spämmifiltterin suunnittelua

April 26th, 2024

En tiedä, mitä olen tehnyt väärin, mutta Facebook-feedini on viime aikoina ollut aivan täynnä bottien kaapatuilta tai valetileiltä postittamaa roskaa. Ensin tuli sadoittain Jennifer Anistonia ja Sandra Bullockia, sitten feikki-intiaania ja nyt viime aikoina aivan loputtomasti lammikossa jäkittäviä, tekoälyn luomia lapsi- ja koiraparkoja sekä hurskaita, kuulemma kauniita lentoemäntiä. Seassa silloin tällöin jotain oikeaakin sisältöä, mutta tuskaisen vähän. Suuri virheeni on varmaan ollut skeidan raportointi, jonka algoritmi on tulkinnut mielenkiinnoksi aihetta kohtaan.

Plessetään nyt sitä peukkua, niin saa terminaattoriressukka korjaamolta paremmat jalat.

En ole ihan tarkalleen edes perillä siitä, mitä näillä kaikilla feikeillä haetaan. Veikkaisin, että pornon mainostusta, tilien kaappaamista, hyväuskoisten rahojen kuppaamista ja muuta sellaista pyyteetöntä. Internetissä eläneelle spämmi ja khalastelu ovat tuttu ja arkipäiväinen juttu, mutta mitä en ymmärrä on Facebookin täysi toimettomuus ongelman suhteen. Itse olen pariinkin kertaan joutunut jäähylle ihan normaaleista postauksista, mutta spämmin raportoiminen ei tunnu johtavan yhtään mihinkään. Jos vaivautuisivat filtteröimään edes kaiken roskan, jossa on sanat “beautiful cabin crew” ja #scarlettjohansson, niin kökön määrä putoaisi murto-osaan. Näin ei kuitenkaan tapahdu, joten ainoa selitys on, että Fese haluaa tuota jöötiä palveluunsa. Dollarit on epäilemättä laskettu.

Beautiful cabin crew ja joku näistä varmaankin on Scarlett Johansson. Veikkaisin, että tuossa oikealla.

Koodarina rupesin miettimään käytännöllistä algoritmia, joka nappaisi automaattisesti suurimman osan roskasisällöstä. Optimoitavia ominaisuuksia ovat ainakin toteutuksen helppous, laskennallinen keveys, pieni muistinkäyttö, osumatarkkuus ja skaalautuvuus, sillä onhan käsiteltävä datamäärä valtava. Hetken pähkäilyn jälkeen välähti ja keksin lupaavan ratkaisun, jonka eri vaiheet näyttävät tältä:

  1. Merkitse kaikki uudet postaukset spämmiksi ja poista ne

Osumatarkkuus tulee olemaan helposti ainakin 99 %, mitä parempaan tuskin pystyvät sen enempää neuroverkot kuin tilastolliset menetelmätkään. Pienenä puutteena hivenen oikeaakin sisältöä saattaa mennä mukana, mutta se vaarahan on joka tapauksessa olemassa. Toteutus on lisäksi erittäin helppo, vaaditun laskentatehon sekä muistinkulutuksen suhteen kevyt ja – mikä parasta – skaalautuu täysin lineaarisesti annetun syötteen mukana O(n). Keksikääpä itse parempi!

Filed under: sekalaista,softat

Kommentin kirjoitus

You must be logged in to post a comment.

RSS feed for comments on this post.


Kommenttien virta

Aiheet