شما هم اکنون در حال مشاهده مطلب استفاده از مدل N-GRAM | الگوریتم |تشخیص پست های الکترونیکی مخرب از استار سکوریتی می باشید

این صفحه تاکنون 39 بار بازدید داشته است
چکیده مطلب

استفاده از مدل N-GRAM | الگوریتم |تشخیص پست های الکترونیکی مخرب M. Darling و همکارانش یک مدل n gram برای کلاس بندی آدرس­های مخرب URL در حملات فیشینگ توسعه دادند. وبه میزان دقت ۹۹٫۱ درصد و نرخ مثبت کاذب به میزان۰٫۴درصد رسیدند. به عبارتی دیگر از مدل n gram برای محاسبه رخداد کاراکتر­ها در آدرس­های URL استفاده کرده ­اند […]

استفاده از مدل N-GRAM | الگوریتم |تشخیص پست های الکترونیکی مخرب
آموزش ، ابزار تست و نفوذ ، دسته‌بندی نشده ۲۶ آبان ۹۷ 39 بازدید

استفاده از مدل N-GRAM | الگوریتم |تشخیص پست های الکترونیکی مخرب

M. Darling و همکارانش یک مدل n gram برای کلاس بندی آدرس­های مخرب URL در حملات فیشینگ توسعه دادند. وبه میزان دقت ۹۹٫۱ درصد و نرخ مثبت کاذب به میزان۰٫۴درصد رسیدند. به عبارتی دیگر از مدل n gram برای محاسبه رخداد کاراکتر­ها در آدرس­های URL استفاده کرده ­اند و آنها از ۸۷ ویژگی URL برای کلاس بندی استفاده کرده و به گروه­های lengths, counts, binaries, ratios تقسیم بندی کرده ­اند و برای کلاس بندی از الگوریتم درخت تصمیم ­گیری استفاده کرده ­اند.

 

در روش استاتیک براساس آدرس URL و محتوا وب سایت بدون اجرا کردن آن به کلاس بندی می­ پردازد اما ­این روش موفقیت محدودی دارد و نتایج  پیچیده ­ای را در برخواهد داشت. الگوریتم یاد گیری ماشین به تنهایی قادر است بالاترین میزان دقت یا accuracy را داشته باشد و با آنالیز آدرس URL به شناسایی محتوای مخرب بپردازد. در­این کار تحقیقاتی آنها از ویژگی­های lexical به همراه یک مدل bag-of-word استفاده کرده ­اند که نتیجه آن یک بردار ویژگی بزرگ می­ باشد به عبارتی دیگر در­این پژوهش از ویژگی­های آدرسURL به همراه اطلاعات hosting استفاده شده است که با مراجعه به remote server به دست می ­آید.

آنها در­این کار پژوهشی راه حلی را ارائه داده ­اند که بر اساس مدل n-gram عمل خواهد کرد و یک سیستم کلاس بندی جدیدی را ارائه می­ دهد. آنها از الگوریتم درخت تصمیم J48 برای کلاس بندی ویژگی­های استخراج شده از مدل n-gram استفاده کرده ­اند.

 

الگوریتم J48 یک اجرا open source از الگوریتم C4.5 می­ باشد و در برابر الگوریتم­ هایی نظیر Naïve Bayes، Bayesian Logistic Regression ، Logistic Regression، Knn دارای میزان دقت ۹۹ درصد برای مدل n-gram دارد. کلاس بندی که بر اساس آدرس URL انجام داده ­اند قادر است­  پست­های الکترونیکی فیشینگ و malware را شناسایی کند. مجموعه داده­ ها یا data set­ای که در نظر گرفته­ اند شامل ۱۳۱۴۰۲ آدرسURL است که ۵۰ درصد از آنها بی ضرر و ۵۰درصد دیگر مخرب می­ باشد.

در واقع هدف کلی آنها­ این است که چگونه سریع و با دقت بالا بر اساس آدرس URL به کلاس بندی وب سایت­ها بپردازند. بیشتر ویژگی­ها از کاراکتر­های داخل URL استخراج می­ شوند بنابراین آنها به جمع آوری آدرس­هایURL از لیست­های سیاه و وب سایت­های قابل اعتماد پرداختند و آنها را بر اساس مخرب و غیر مخرب بودن برچسب گذاری کردند. آنها دو نوع از آدرس­های URL را جمع آوری کردند که فیشینگ و malware نام دارد و آدرس­های URL فیشینگ معمولا با token های مخرب پر شده ­اند.

 

آنها برای جلوگیری از هدر رفتن زمان از back-of-word استفاده کرده ­اند و برای ­افزایش کارایی سیستم  از مدل n-gram استفاده شده است.در واقع به دنبال مدل کردن زبان URL از مدل n-gram  استفاده می­ کنند تا احتمال رخداد دنباله­ای از کاراکتر­ها را در آدرس­های URL به دست آورند. هرکدام از gram­ها می­توانند معرف لغات، شماره تماس،هجا و سایر کاراکترها باشند. ومدل n-gram از طریق الگوریتم Markov chain ساخته می­شود.

Back- of-model هم برای نشانه گذاری URL استفاده می­شود.به­ این صورت که اگر هر کدام از token­های آدرس URL در back-of-model وجود داشته باشد ارزش ۱ و در غیر­این صورت ارزش ۰ را خواهد گرفت. زمانی که از  back-of-model  استفاده شد میانگین سلسله داده­ های آنها شامل ۱۲۲۰۰۰ ویژگی باینری بود. آدرس­ های URL فیشینگ از تعداد زیادی لغت و سمبل تشکیل شده اند که می­ توانند کاربر را فریب بدهند. آنها آدرس­های URL را به ۳قسمت hostname, path, parameter تقسیم کرده ­اند. هر کدام از­این قسمت­ها بهtokenهای مختلف تقسیم بندی شده­اند. شکل زیر مولفه های URL را نمایش می دهد.

 

 

 

درحالت کلی آنها۸۷ ویژگی را گسترش داده­ اند و انها را به ۵ گروه تقسیم بندی کرده­ اند که عبارتند از:  n-grams, lengths, counts, binaries, ratios.

الف) Length feature: در­اینجا از ۱۰ ویژگی طول استفاده شده است که عبارتنداز:

hostname, first-directory, URL ,path, parameters, top-level domain ,second-level domain. به همین ترتیب به محاسبه بیشترین token درhostname, path ,parameters, URL پرداختند.

 

ب) counting feature : تعداد رخ داد کاراکتر­ها را شامل می­شود برای مثال می­توانیم به @,_,?,=,., اعداد،حروف الفبا و… اشاره کرد که در­اینجا از ۲۹ ویژگی استفاده شده.

 

ج)pattern feature :شامل الگوی خاصی از آدرس URL می ­شود که تعداد رخ داد آن الگو را بررسی می­ کند. برای مثال می­توان به الگو تغییر، تعداد رخ داد پیاپی یک کاراکتر، tokenهایی که بیشتر تکرار شده­ اند، میزان شباهتی که در black list یافت شده است، میزان تکرار در black list اشاره کرده که از ۱۵ الگو استفاده شده است.

 

د)binary feature :­این ویژگی­ها شامل: com, IP address for hostname ،

 

خ)Ratio feature :­این ویژگی شامل محاسبه نسبت بین کاراکتر­های و tokenها می­ شود که عبارتند از:vowel(نسبت حروف بی صدا) ،digit(نسبت حروف الفبا)، میانگین طول بین token های آدرس URL که از ۱۲ ویژگی در­اینجا استفاده می ­شود.

 

برای مجموعه داده یا dataset از ۶ منبع استفاده کرده ­اندکه عبارتند از:

Alexa, DMOZ ,Phishtank ,OpenPhish ,MalwareDomains ,MalwareDomainList

نکته ای که وجود دارد این است که  در کلاس بندی میزان منفی کاذب بسیار مهم تر از مثبت کاذب است و بیشتر سیستم را تحت تاثیر قرار می­ دهد. و ضرر بیشتری را به همراه دارد.آنها همچنین به محاسبه information Gain پرداختند تا میزان آنتروپی را درمحاسبه الگوریتم J48 کوچک کنند. پارامتر­های مهمی­ که به محاسبه آنها پرداخته ­اند شامل:  مثبت کاذب، منفی کاذب  و دیگر معیارهای ارزیابی است. برای کاهش میزان مثبت کاذب و منفی کاذب به میزان سازی یا tuning کلاس بندی پرداختند.

مطالب پیشنهادی استار سکوریتی
آموزش تست نفوذ اکانت توییتر twitter با ابزار tweetshell

سلام خدمت تمامی کاربران عزیر وبسایت اولترا سیکوریتی توتیتر شبکه اجتماعی هست افراد مشهور و...

کلیه حقوق این وب سایت نزد استار سکوریتی محفوظ می باشد و هرگونه کپی برداری از قالب و محتوا پیگرد قانونی دارد

طراحی و توسعه توسط سرخ گرافیک