Existuje množství společností, které se zabývají hodnocením nástrojů pro ochranu koncových stanic. Jednou takovou je i MITRE Engenuity, která tento rok zveřejnila již třetí srovnání ATT&CK Evaluations. V čem je tohle srovnání jiné oproti ostatním? Proč není vhodné posuzovat výsledky podle toho, co jednotliví účastníci píšou na svých webových stránkách? A jak opravdu porozumět výsledkům?
MITRE ATT&CK Evaluations malware Endpoint Detection and Response srovnání
Antiviry jsou bezpochyby základním nástrojem pro zajištění bezpečnosti našich počítačů a jsou tu s námi již déle než 20 let. Za tu dobu se značně posunula nejen schopnost útočníků vyvíjet stále dokonalejší malware, který je čím dál těžší detekovat, ale samozřejmě podobným způsobem se vyvíjely i produkty pro ochranu koncových stanic. Už se nejedná pouze o program, který analyzuje soubor a zkontroluje, zda se nepodobá něčemu, co má již uloženo v databázi. Antivirové produkty dnes disponují behaviorální analýzou, algoritmy strojového učení nebo umělé inteligence a chrání před daleko více hrozbami než pouze před běžnými viry. Někteří je nazývají Next-Gen antiviry, jiní Endpoint Detection & Response, ale jedná se stále o ty stejné programy, jen s novými funkcemi. V tomto článku je budeme označovat genericky jako produkty pro ochranu koncových stanic nebo endpoint security. Novinkám, které EDR nástroje přinášejí oproti běžným antivirům, se věnoval Pavel Krátký v článku „Když prevence nestačí aneb co se skrývá pod zkratkou EDR?“ v čísle 2018/01.
Moderní endpoint security řešení musí obstát před spoustou nových výzev. Může se jednat o již spoustu let známý ransomware, moderní typy bezsouborových útoků nebo pokročilé hrozby, tzv. Advanced Persistent Threats (APT), které jsou popsané v Boxu 1.
Endpoint security na koncové stanici nebo serveru by měl být schopen aktivity takových útočníků detekovat a ideálně také zablokovat. Jak ale poznat, které řešení pro ochranu koncové stanice je v tomto ohledu nejlepší?
Srovnání podle MITRE
Při výběru kvalitního endpoint security nástroje je jednoznačně nutné posuzovat produkty na základě kvality detekce. Na internetu lze dohledat spoustu testů, ve kterých různé společnosti hodnotí kvalitu detekce vybraných produktů,
namátkově AV-TEST, AV-Comparatives, SE Labs a další. Mezi odborníky má ale pravděpodobně pověst nejlepšího srovnávacího testu hodnocení MITRE ATT&CK Evaluations, které se zaměřuje na kvalitu detekce technik používaných v různých dříve analyzovaných APT útocích. Společnost MITRE Engenuity vydala tento rok již třetí takové srovnání, kterého se zúčastnilo 29 různých výrobců se svými produkty [2].
Na rozdíl od jiných společností a jejich testů MITRE nehodnotí zúčastněné produkty skórem ani nestanovuje žádné pořadí. Cílem těchto testů je poskytnout faktické výsledky, jak si jednotliví účastníci vedli, jakým způsobem dokázali nebo naopak nedokázali detekovat simulované aktivity útočníků a na jaké úrovni byla kvalita detekce. Čtenář si má z poskytnutých dat udělat obrázek a srovnání sám. Pojďme se tedy podívat, co MITRE ve svém srovnání testuje.
Společnost MITRE kromě výše uvedeného srovnání sdílí také znalosti o taktikách a technikách, které útočníci používají, na základě analýzy dříve provedených reálných útoků. [3] Tyto informace využívají bezpečnostní experti a SOC analytici při investigaci incidentů. A právě na základě těchto technik a taktik společnost vyhodnocuje účastníky srovnání MITRE ATT&CK Evaluations.
Než se ale pustíme do analýzy letošních výsledků, je vhodné si na začátek sjednotit používané termíny a vysvětlit, co vlastně hodnocení taktiky a techniky znamená. Tento popis najdete v Boxu 2.
APT Carbanak a FIN7
V letošním srovnání testované produkty podstoupily dva testy založené na reálných útocích prováděných APT skupinami Carbanak a FIN7. Prvně jmenovaná skupina se zaměřovala ve své době převážně na bankovní společnosti. Ke svým útokům často využívala stejnojmenný malware Carbanak.[4] Druhá zmíněná skupina FIN7 byla hlavně finančně motivovaná a cílila na americké restaurační, ubytovací a maloobchodní společnosti. [5]
První testovací scénář Carbanak začínal spuštěním škodlivého payloadu uživatelem, který byl doručen pomocí phishingového e-mailu. Cílem malwaru Carbanak bylo rozšířit se na co největší počet systémů a kompromitovat potenciálně cenné systémy, které zpracovávají platby nebo ze kterých je přístup k bankovním účtům. Po této kompromitaci došlo k zajištění perzistence a získávání informací, které následně umožnily provést nelegitimní převody peněz. Druhý scénář zaměřený na techniky používané skupinou FIN7 spočíval v získání přístupu k účetnímu systému a následně došlo k rozšíření malwaru a odcizení informací o kreditních kartách.
Není detekce jako detekce
Aby byly výsledky srovnatelné napříč všemi účastníky, definovala společnost MITRE pro účely tohoto srovnání šest kategorií detekce, které jsou společně s jejich vysvětlením uvedeny níže:
- Not Applicable: produkt v rámci testu nedisponoval senzorem pro daný typ systému.
- None: produkt nedokázal simulované kroky útočníka detekovat (nebyly splněny detekční kritéria).
- Telemetry: aktivita byla zaznamenána, ale není hodnocena jako detekce.
- General: aktivita byla zaznamenána a detekována jako podezřelá nebo škodlivá bez dalších detailních informací
- Tactic: aktivita byla zaznamenána a detekována jako podezřelá nebo škodlivá s odkazem na související MITRE taktiku.
- Technique: aktivita byla zaznamenána a detekována jako podezřelá nebo škodlivá s odkazem na konkrétní MITRE techniku, k aktivitě jsou dostupné další informace o jejím průběhu
Z výše uvedeného vyplývá, že nejlepší řešení by bylo takové, které by u každého simulovaného kroku dokázalo aktivitu detekovat na úrovni Technique, tedy na nejvyšší možné úrovni detekce.
Problémy různých interpretací výsledků
Jak již bylo uvedeno, společnost MITRE nestanovuje žádné skóre u jednotlivých účastníků ani jinak nehodnotí dosažené výsledky. Poskytuje data bez stanovení pořadí účastníků. Právě to je kamenem úrazu, protože neznalý čtenář se může nechat zmást různými interpretacemi výsledků. Pokud se podíváte na vyjádření různých výrobců, kteří se testování zúčastnili, mimořádně nápadné je, že se většina z nich umístila na prvním místě. Alespoň to lze vyčíst z grafů, které někteří z účastníků prezentují na svých webových stránkách. Jak je to ale možné, když MITRE pořadí nestanovuje a první místo může patřit přece jen jednomu?
Protože MITRE nestanovuje pořadí ani jinak nehodnotí účastníky, každý může výsledky srovnání interpretovat po svém. U některého z výrobců tak uvidíte graf, na kterém se umístil na první příčce, ale data vycházejí pouze z výsledků testování na operačním systému Linux. Jiný výrobce se staví na první místo v grafu, který ale ukazuje celkový počet detekcí, což vůbec nemusí souviset s množstvím detekovaných kroků útočníka (jeden krok může být analyzován jako tři různé detekce, ale jiný krok nemusí být identifikován vůbec).
Pokud jste společnost, která se zabývá implementací endpoint security nástrojů, možná se vám stalo, že se vás zákazník zeptal, proč mu nedoporučujete řešení, které je první v MITRE srovnání. Ono být první ve srovnání, které si interpretujete po svém, není tak úplně vítězstvím.
Jak tedy výsledkům porozumět
Pokud budete procházet výsledky srovnání, vždy se zaměřte na kategorie detekce General, Tactic nebo Technique. Tyto kategorie detekce hodnotí aktivitu jako podezřelou nebo škodlivou a vygenerují příslušný alert. Nejdetailnější informace o aktivitě útočníka dostanete samozřejmě z kategorie detekce Technique, proto základní poučka by mohla znít, že čím více takových detekcí, tím lépe.
Telemetrická data, tedy detekční kategorie Telemetry, jsou důležitá pro bezpečnostního nebo SOC analytika, ale negenerují alerty. Proto bez důkladné analýzy takových dat nedokážete identifikovat škodlivé aktivity útočníka. Samotný nástroj na takové aktivity neupozorní, ačkoli je samozřejmě dokáže „zalogovat“. Dalším důležitým parametrem je počet kroků, které vůbec detekovány nebyly, tedy kategorie detekce None. Pokud je u některého z kroků ve výsledcích srovnání uvedeno None, znamená to, že nástroj nebyl schopný takovou aktivitu nejen identifikovat jako podezřelou nebo škodlivou, ale vůbec ji nezaznamenal, a taková aktivita tedy není dostupná ani v rámci telemetrických dat.
Pro jednodušší srovnání jednotlivých zúčastněných výrobců MITRE vyjadřuje jejich úspěšnost pomocí čtyř parametrů:
- Detection Count
- Visibility
- Telemetry Coverage
- Analytic Coverage
První zmíněný parametr Detection Count určuje počet jednotlivých detekcí v rámci celého testování daného produktu. Z praktického hlediska ale není moc přínosný, protože jeden útočníkův krok může vyvolat více detekcí. Ostatně to se i v rámci testování několikrát stalo. Na Obr. 1 je vidět, že jeden konkrétní krok útočníka způsobil pět různých detekcí. Nejvyšší úrovně detekce Technique nástroj sice dosáhl, mimo jiné však simulovanou aktivitu útočníka identifikoval v rámci čtyř dalších detekcí.
Dalším parametrem je Visibility, tedy schopnost endpoint security řešení identifikovat kroky útočníka ať už v rámci telemetrických dat, nebo formou detekce podezřelé či škodlivé aktivity. Parametr Visibility tedy říká, kolik kroků bylo identifikováno v kategorii Telemetry nebo vyšší, tedy General, Tactic nebo Technique. Tento parametr je pro vyhodnocení výsledků velmi vhodný, ne však nejlepší. Ačkoli reflektuje počet identifikovaných kroků útočníka, neukazuje, jaký je poměr mezi telemetrickými daty a detekcemi kategorie General a vyšší.
Třetím parametrem jsou zmíněná telemetrická data, tedy Telemetry Coverage. Tento ukazatel reflektuje počet kroků, které endpoint security řešení dokázalo zaznamenat v detekční kategorii Telemetry. Jak je uvedeno výše v popisu jednotlivých kategorií, nejedná se však o detekce, které by indikovaly podezřelou nebo škodlivou aktivitu, pouze dochází k zaznamenání takové aktivity (příkladem může být detekce spuštění powershellového příkazu bez vyhodnocení jeho rizikovosti nebo škodlivosti). Tato data jsou však vhodná pro bezpečnostního analytika, který na jejich základě dokáže analyzovat bezpečnostní incident a případně zpětně sestavit útočníkovy kroky. Obecně čím více aktivit dokáže nástroj logovat, tím více dat má analytik k dispozici pro pozdější investigaci incidentu.
Poslední parametr Analytic Coverage už je pro praktické srovnání nejvhodnější. Vyjadřuje, kolik kroků útočníka z celkového množství bylo úspěšně detekováno jako podezřelá nebo škodlivá aktivita, případně u kterých kroků jsou dostupné detailnější informace. Jedná se tedy o detekce kategorie General, resp. Tactic nebo Technique. Obecně můžeme říct, že čím vyšší tohle číslo je, tím kvalitnější detekce nástroj poskytuje. Pokud bychom měli vybrat jeden parametr a na jeho základě výrobce seřadit dle úspěšnosti, byl by to právě tento (viz Obr. 2).
Ideální srovnání všech zúčastněných výrobců je založeno na hodnocení jak parametru Analytic Coverage, tak Telemetry Coverage. Tím nejlepším endpoint security produktem je ten, který má v obou těchto kategoriích nejvyšší hodnocení. Pokud se tedy na zveřejněné výsledky podíváme z tohoto pohledu, můžeme dostat vizuální srovnání, které známe např. od společnosti Gartner. Na horizontální ose jsou hodnoty parametru Telemetry Coverage, na vertikální ose hodnoty parametru Analytic Coverage.
Společnost MITRE prováděla srovnání jak na platformě Windows, tak Linux. Někteří účastníci však pro Linux platformu agenta nemají. Proto na Obr. 3 a 4 najdete srovnání nezávisle za obě platformy.
Pouze kvalita detekce nerozhoduje
Kvalita detekce není vždy tím jediným parametrem, na základě kterého se společnost rozhoduje, jaké řešení pořídí. Důležité jsou i technické vlastnosti řešení, jednoduchost analýzy, různé funkcionality, které nemusejí souviset s detekcí, integrovatelnost do stávající infrastruktury a možnost provázání s dalšími bezpečnostními nástroji. Podstatnou roli při rozhodování hraje také cena. Tyto parametry společnost MITRE nehodnotí.
This email address is being protected from spambots. You need JavaScript enabled to view it.