Tämä laaja kielimalli on koulutettu pimeässä verkossa arvioimaan kyberturvallisuusuhkia. Tässä on mitä sinun on tiedettävä.

Suurten kielimallien (LLM) suosio on huimassa kasvussa, ja uusia tulee jatkuvasti näyttämölle. Näitä malleja, kuten ChatGPT: tä, koulutetaan yleensä useissa Internet-lähteissä, mukaan lukien artikkelit, verkkosivustot, kirjat ja sosiaalinen media.

Etelä-Korean tutkijaryhmä kehitti ennennäkemättömällä tavalla DarkBERTin, LLM: n, joka on koulutettu yksinomaan pimeästä verkosta otettuihin tietokokonaisuuksiin. Heidän tavoitteenaan oli luoda tekoälytyökalu, joka ylittää olemassa olevat kielimallit ja auttaa uhkien tutkijoita, lainvalvontaviranomaisia ​​ja kyberturvallisuuden ammattilaisia ​​torjumaan kyberuhkia.

Mikä on DarkBERT?

DarkBERT on muuntajapohjainen enkooderimalli, joka perustuu RoBERTa-arkkitehtuuriin. LLM koulutettiin miljoonien tummien verkkosivujen suhteen, mukaan lukien tiedot hakkerointifoorumeilta, huijaussivustoilta ja muista laittomaan toimintaan liittyvistä verkkolähteistä.

instagram viewer

Termi "tumma verkko" viittaa piilotettuun Internet-osaan ei ole käytettävissä tavallisten verkkoselaimien kautta. Alaosasto tunnetaan anonyymeistä verkkosivustoista ja markkinapaikoista, jotka ovat kuuluisia laittomasta toiminnasta, kuten varastettujen tietojen, huumeiden ja aseiden kaupasta.

DarkBERTin kouluttamiseen tutkijat saivat pääsy pimeään verkkoon Tor-verkon kautta ja keräsi raakadataa. He suodattivat nämä tiedot huolellisesti käyttämällä tekniikoita, kuten duplikoinnin poistamista, kategorioiden tasapainottamista ja esikäsittelyä luoda hienostunut tumma verkkotietokanta, joka syötettiin sitten RoBERTalle noin 15 päivän aikana luomaan DarkBERT.

DarkBERTin mahdolliset käyttötavat kyberturvallisuudessa

DarkBERTillä on huomattava ymmärrys kyberrikollisten kielenkäytöstä ja se on erinomainen havaitsemaan tiettyjä mahdollisia uhkia. Se voi tutkia pimeää verkkoa ja onnistuneesti tunnistaa ja ilmoittaa kyberturvallisuusuhkista, kuten tietovuodoista ja kiristysohjelmista, mikä tekee siitä mahdollisesti hyödyllisen työkalun kyberuhkien torjunnassa.

Arvioidakseen DarkBERTin tehokkuutta tutkijat vertasivat sitä kahteen tunnettuun NLP-malliin, BERT ja RoBERTa arvioi heidän suorituskykyään kolmessa keskeisessä kyberturvallisuuteen liittyvässä käyttötapauksessa. lähetetty arxiv.org, osoittaa.

1. Tarkkaile tummia verkkofoorumeita mahdollisesti haitallisten viestiketjujen varalta

Pimeän verkkofoorumien seuranta, joita käytetään yleisesti laittomien tietojen vaihtamiseen, on ratkaisevan tärkeää mahdollisesti vaarallisten viestiketjujen tunnistamisessa. Näiden manuaalinen tarkistaminen voi kuitenkin viedä aikaa, mikä tekee prosessin automatisoinnista hyödyllistä tietoturva-asiantuntijoille.

Tutkijat keskittyivät mahdollisesti haitallisiin toimiin hakkerointifoorumeilla ja laativat huomautusohjeita huomionarvoisille säikeille, mukaan lukien luottamuksellisten tietojen jakaminen ja kriittisten haittaohjelmien levittäminen tai haavoittuvuuksia.

DarkBERT suoritti muita kielimalleja tarkkuuden, muistamisen ja F1-pisteiden suhteen, ja siitä tuli ylivoimainen valinta huomionarvoisten ketjujen tunnistamiseen pimeässä verkossa.

2. Tunnista sivustot, joissa on luottamuksellisia tietoja

Hakkerit ja lunnasohjelmaryhmät käyttävät pimeää verkkoa vuotosivustojen luomiseen, joissa he julkaisevat lunastustietoja, jotka on varastettu organisaatioilta, jotka kieltäytyvät noudattamasta lunnaita koskevia vaatimuksia. Muut kyberrikolliset lataavat vain vuotaneita arkaluonteisia tietoja, kuten salasanoja ja taloustietoja, pimeään verkkoon aikomuksenaan myydä ne.

Tutkimuksessaan tutkijat keräsivät tietoja mm pahamaineisia lunnasohjelmaryhmiä ja analysoi ransomware-vuotosivustoja, jotka julkaisevat organisaatioiden yksityisiä tietoja. DarkBERT suoritti muita kielimalleja tällaisten sivustojen tunnistamisessa ja luokittelussa, mikä osoitti ymmärtävänsä pimeän verkon maanalaisilla hakkerointifoorumeilla käytetyn kielen.

DarkBERT hyödyntää täyttömaskitoimintoa, joka on BERT-perhekielimallien luontainen ominaisuus, tunnistaakseen tarkasti laittomaan toimintaan liittyvät avainsanat, mukaan lukien huumeiden myynti pimeässä verkossa.

Kun sana "MDMA" peitettiin huumemyyntisivulla, DarkBERT loi huumeisiin liittyviä sanoja, kun taas muut mallit ehdottivat yleisiä sanoja ja termejä, jotka eivät liity huumeisiin, kuten eri ammatteihin.

DarkBERTin kyky tunnistaa laittomaan toimintaan liittyviä avainsanoja voi olla arvokasta uusien kyberuhkien seurannassa ja torjumisessa.

Onko DarkBERT suuren yleisön saatavilla?

DarkBERT ei ole tällä hetkellä yleisön saatavilla, mutta tutkijat ovat avoimia pyyntöille käyttää sitä akateemisiin tarkoituksiin.

Hyödynnä tekoälyn teho uhkien havaitsemiseen ja ehkäisyyn

DarkBERT on valmiiksi koulutettu pimeän verkon tietoihin, ja se ylittää olemassa olevat kielimallit useissa kyberturvallisuuden käyttötapauksissa ja asettuu keskeiseksi työkaluksi pimeän verkon tutkimuksen edistämiseen.

Dark web-koulutettua tekoälyä voidaan käyttää erilaisiin kyberturvallisuustehtäviin, mukaan lukien vuotaneita sivustoja myyvien verkkosivustojen tunnistamiseen. luottamukselliset tiedot, pimeän verkkofoorumien seuranta laittoman tiedon jakamisen havaitsemiseksi ja kyberiin liittyvien avainsanojen tunnistaminen uhkauksia.

Mutta sinun tulee aina muistaa, että kuten muutkin LLM: t, DarkBERT on työn alla, ja sen suorituskykyä voidaan parantaa jatkuvalla harjoittelulla ja hienosäädöllä.