فایل word مقاله گام نخست در کاوش متون فارسي

    —         —    

ارتباط با ما     —     لیست پایان‌نامه‌ها

... دانلود ...

بخشی از متن فایل word مقاله گام نخست در کاوش متون فارسي :

محل انتشار: اولین کنفرانس داده کاوی ایران

تعداد صفحات:8

نویسنده(ها):

آذر شاهقلیان – دانشگاه آزاد اسلامی واحد نجف آباد,
محمدحسین سرایی – عضو هیأت علمی دانشگاه صنعتی اصفهان, استاد مدعو دانشگاه آزاد اسلامی و
علی شالبافزاده – دانشگاه صنعتی اصفهان

چکیده:

طبقه بندی بر مبنای فاصله برای طبقه بندی متون فارسی پیشنهاد داده شده است . طبقه بند, در فاز یادگیری, مجموعه – ای از متون آموزشی را برای استخراج ویژگیهای دستهها بررسی میکند تا خصوصیات اصلی ویژه دسته را بدست آورد . بطوریکه در فاز تست طبقهبند, این ویژگیهای مختص دسته برای طبقه بندی متون طبقهبندی نشده بهکار میرود . از stemming برای کاهش دیمانسیون بردارهای ویژگی استفاده میشود . دقت طبقهبند بوسیله اعمال الگوریتم روی مجموعه جمعآوری شدهای از متون فارسی, مورد آزمایش قرار گرفته است . نتایج حاصله نشان میدهد که طبقهبند پیشنهادی از دقت بالایی برخوردار است . مجموعهای از متون فارسی که از روی سایتهای خبری موجود در وب جمع آوری شده است, برای انجام این تحقیق بکار میرود . این متون در ابتدا بوسیله از بین بردن علائم نقطهگذاری و کلمات بیفایده, پیش پردازش میشوند . در طبقهبند برای نمایش هر متن از یک بردار ویژگی استفاده میشود که شامل کلمات شاخص و میزان تکرار آن کلمات در متن میباشد . پیشگویی طبقهبند بر پایه فرضیات آماری استوار است که متونی که در دسته یکسانی قرار میگیرند, ویژگیهای مشابهی دارند . برای طبقهبندی متن جدید, ابتدا بردار ویژگی آن متن ساخته شده, سپس با بردارهای ویژگی دستهها مقایسه میشود . دسته برنده, دستهای است که به متن جدید نزدیکتر است . این ایده طبقهبندی k-NN میباشد

لینک کمکی