مهندس وحید حیدری، دکتر سید محمود طاهری، دکتر مرتضی امینی،
دوره ۲۰، شماره ۲ - ( ۶-۱۴۰۲ )
چکیده
در این مقاله، برپایهی روش بیز گوناگونی، نشان میدهیم که روش تخصیص پنهان دیریکله که یک مدل احتمالاتی مولّد است و در پردازش زبانهای طبیعی، متنکاوی، کاهش ابعاد، و زیستدادهورزی کاربرد دارد، نسبت به روش تحلیل معنایی پنهان احتمالاتی در مدلبندی دادهها عملکرد بهتری دارد. در این باره، ابتدا یک مدل بیزی را در مدلسازی موضوعها شرح میدهیم. آنگاه با روش بیز گوناگونی و الگوریتم امیدریاضی-بیشینهسازی (EM) پارامترهای مدل را برآورد میکنیم. سپس الگوریتم ارائه شده، موسوم به الگوریتم EM گوناگونی، را برپایهی یک مجموعهدادهی نوشتاری از دادههای واقعی در زمینهی تحلیل دادههای خبری پیادهسازی میکنیم و مدلبندی زبانی را بر اساس ملاک سرگشتگی بررسی میکنیم، و دقت خوشهبندی موضوعها و کاربرد کاهش ابعاد دادههای حجیم را با کمک ماشین بردار پشتیبان میسنجیم. همچنین در مقایسهای دیگر، کاربرد الگوریتم پیشنهادی را در پالایش همکارانه بررسی میکنیم.