\documentclass[12pt,a4paper,twocolumn]{article}

\usepackage{graphicx}
\usepackage{amsmath} 
\usepackage{makeidx}
\usepackage{setspace}
\usepackage[usenames,dvipsnames]{color,xcolor}
\usepackage{colortbl}
\usepackage{breqn}
\usepackage{hyperref}
\usepackage[extrafootnotefeatures]{xepersian}
\hypersetup{colorlinks=True,
linkcolor=Blue,
citecolor=Blue
}
\paragraphfootnotes
%\settextfont{HM XNiloofar}
\setlatintextfont[Scale=1]{Linux Libertine}
\deflatinfont\titleFontEn[Scale=1.2]{Linux Libertine}
\DefaultMathsDigits


\title{استخراج اصطلاح از فایل های متنی فارسی با دامنه خاص}
\author{مهین وظیفه دان،ساناز معزی
\\*[5pt]
گروه کامپیوتر،دانشگاه آزاد اسلامی واحد مشهد،ایران
\\*[6pt]
\lr{\titleFontEn
mahinvazifehdan@ yahoo.com  $\quad \& \quad$   Sanaz-moezzi@ yahoo.com
}
}
\date{today}


\begin{document}

\twocolumn[
\begin{@twocolumnfalse}
	\maketitle
	
\begin{abstract}
سیستم های استخراج اصطلاح امروزی بیشتر بر روی فایل های متنی بزرگ که از ساختار گرامری مناسبی برخوردار هستند،تمرکز کرده اند تا قابلیت های آماری و زبانی مناسب را برای استخراج اصطلاح فراهم آورند.در این تحقیق،ما چالش های موجود در سیستم های استخراج اصطلاح امروزی را مورد بررسی قرار میدهیم و در جهت رفع آن تلاش میکنیم.راهکار پیشنهادی،ارائه یک سیستم استخراج اصطلاح جدید(EPTerm) تا حد امکان چالش های موجود در استخراج اصطلاح از متون فارسی را به حداقل رسانیده است.سیستم جدید،توانسته بر مشکل پراکندگی اصطلاحات با کشف اصطلاحات کمیاب غلبه کند.این اصطلاحات کمیاب ممکن است جزء اصطلاحات مهم دامنه خاص ما باشد.همچنین سیستم پیشنهادی جدید ما قابلیت تشخیص اطلاحات با تعداد زیادی کلمه را دارا میباشد.نتایج آزمایشات نشان میدهد که سیستم استخراج اصطلاح پیشنهادی (EPTerm) عملکرد مناسبی داشته و توانسته به خوبی اصطلاحات متون فارسی را با دقت کشف نماید.
 
\end{abstract}

\end{@twocolumnfalse}]

\section{مقدمه}  \label{section.intro}
در سال های اخیر،ما شاهد گسترش داده های متنی بدون ساختار بوده ایم.اطلاعات معنی دار در داخل حجم زیادی از متن ها دفن شده اند،اطلاعاتی مانند اصطلاحات مربوط به دامنه خاص.
به عنوان مثال اصطلاح "حسگر مجاورت" که جزئی از یک محصول حساب میشود و توسط مهندس مربوطه سرویس داده میشود.کشف چنین اصطلاحاتی از مخازن وسیعی از متن ها در بازه گسترده ای از فعالیت های شرکت بسیار کار سختی است.فارسی از راست به چپ نوشته میشود و اگرچه در اصل داراي ترتیب فاعل-مفعول-فعل است ولی مملو از استثنائات مجاز در این ترتیب میباشد.در فارسی معمولاً فعل در انتها و هسته در ابتدا قرار میگیرد. مثلاً در عبارات وصفی موصوف قبل از صفت و در عبارات اضافی مضافالیه قبل از مضاف واقع میشوند. البته این وضعیت در مورد صفات پیشین و حروف اضافه برقرار نیست.در این حالات هسته در انتها قرار میگیرد. به عبارت دیگر فارسی بهره گیر از حروف اضافه پیشین و صفات و اضافات پسین است.

در پردازش زبان طبیعی
\LTRfootnote{NLP}
چندین تکنیک برای استخراج اصطلاح از فایل های متنی بزرگ عمومی و پزشکی موجود است که اکثر این تکنیک ها از منابع دانش خارجی مانند هستان شناسی که از دقت بالایی برخوردار و برای استخراج اصطلاح بسیار مناسب هستند،استناد شده اند.سیستم های استخراج اصطلاح امروزی بیشتر بر روی فایل های متنی ای تکیه کرده اند که از ساختار نوشتاری مناسب و با قاعده ای برخوردار هستند.در صورتی که در دنیای واقعی،ما روز به روز شاهد گسترش فایل های متنی بدون ساختار هستیم در نتیجه نیاز به سیستم استخراج اصطلاحی که قابلیت استخراج اصطلاح از این منابع بدون ساختار را دارا باشد،شدیدا احساس میشده است.

ساختار مقاله بدین صورت میباشد:
در بخش 
\ref{section.back}
مروری بر کارهای گذشته و پیش زمینه ای بر استخراج اصطلاح خواهیم داشت.در بخش 
\ref{section.framework}
راهکار پیشنهادی را معرفی و مورد بررسی قرار میدهیم.
آزمایشات و ارزیابی هایمان در بخش 
\ref{section.evau}
مقاله قرار گرفته اند و در بخش 
\ref{section.canc}
جمع بندی و کارهای آینده را خواهیم داشت.
\section{پیش زمینه و کارهای مربوطه}  \label{section.back}
یکی از تحقیق های بسیار مناسب در زمینه استخراج اصطلاح \cite{frantzi1999c} میباشد.
در این مقاله یک روش مستقل از دامنه برای استخراج اصطلاحات چند کلمه ای از متن های انگلیسی ارائه شده است.روش C-value/NC-Value اطلاعات آماری و زبانی را ترکیب میکند.قسمت اول،الگوریتم C-Value برای اندازی گیری آماری فراوانی اصطلاحات استخراجی به کار میرود و قسمت دوم الگوریتم NC-Value $1$) یک روش برای استخراج اصطلاح از کلمات متن(کلماتی که تمایل دارند با اصطلاحات ظاهر شوند) ، $2$)اختلاط اطلاعات از اصطلاح کلمات متن برای استخراج اصطلاح.
به عبارت دیگر میتوان گفت که الگوریتم C-Value برای بهبود استخراج اصطلاحات چند کلمه ای تو در تو به کار میرود و الگوریتم NC-Value که اطلاعات متن را در اختیار الگوریتم C-Value میدهد تا بتواند عمل استخراج را انجام دهد.برای ارزیابی راهکار پیشنهادی از دو معیار دقت و فراخوانی مجدد(بازخوانی) استفاده شده است.
دو نتیجه میتوان گرفت: $1$)استفاده از اطلاعات آماری بیشتر از فراوانی خالص اصطلاحات کاندید،دقت اصطلاحات استخراج شده دو کلمه ای تو در تو را بهبود میبخشد.$2$)استفاده اطلاعات از اصطلاحات کاندید متن توزیع شدنان در لیست استخراجی را بهبود میبخشد به عنوان مثال،اصطلاحات واقعی تماسل دارند تا در بالای لیست ظاهر شوند در حالی که اصطلاحاتی که کمتر به اصطلاحات واقعی شبیه اند تمایل دارند در پایین لیست ظاهر شوند.همچنین باید به این نکته توجه کرد که این مقاله تنها بر روی یک مجموعه متن که متعلق به رشته پزشکی است تمرکز کرده است.نتایج این مقاله نشان داده است که عملکرد بسیار مناسبی در استخراج اصطلاح از این مجموعه متن حاصل شده است.
اطلاحات،ارائه زبانی از مفاهیم یک عنصر مهم از کتابخانه های دیجیتالی هستند.تغییرات سریع در بسیاری از حوزه دانش تخصصی به ویژه علم کامپیوتر،مهندسی و پزشکی به این معنی است که اصطلاحات جدید روز به روز در حال ایجاد شدن هستند.تکنیک های زیادی برای به رسمیت شناختن اصطلاحات خودکار چند کلمه ای (ATR) به تازگی از استفاده تنها اطلاعات زبانی منتقل شده است تا با اطلاعات آماری ترکیب شود.از دیگر کارهای انجام شده در زمینه استخراج اصطلاح \cite{romero2012using} میباشد که در این مقاله یک سیستم استخراج اصطلاحات کلیدی جدید که توانایی مدیریت شدن با خصوصیات ویژه از "اسناد پشتیبانی" میباشد را ارائه داده اند.سیستم ما مزیت هایی از رویکرد های مبتنی بر فراوانی و مبتنی بر اصطلاح نامه برای به رسمیت شناختن دو کلاس مختلف از اصطلاحات کلیدی میدهد.از طرفی دیگر سیستم ما اصطلاحات چند کلمه ای را از مجموعه اسناد ویکی پدیا به عنوان منبع دانشش به خوبی شناسایی کرده است.از طرف دیگر سیستم اصطلاحات خاص کلیدی که بسیار مرتبط با موضوع متن هستند را هم شناسایی کرده است.ما از فراوانی برای تشخیص و رتبه بندی اصطلاحات در یک زبان استفاده کرده ایم.برای اثبات اعتبار سیستم پیشنهادی ما یک مجموعه آزمایش با استفاده از یک مجموعه متن سوال های پاسخ داده شده فراوانی(FAQ) طراحی کرده ایم. از آنجا که رویکرد ما عمومی است، تغییرات جزئی ای باید انجام شود تا این سیستم را به نوع دیگری از اسناد پشتیبانی انطباق دهد.نتایج تجربی معتبر بودن رویکرد ما را نشان میدهد.ارزیابی ها نشان داده است که سیستم پیشنهادی مقاله توانسته معیار فراخوانی مجدد(Recall) را با مقدار $73/88\%$  و معیار دقت را با درصد $39.37\%$ ایجاد کند.به عنوان نتیجه،سیستم میتواند برای کمک به مدیر انسانی برای برنامه های کاربردی FAQ مفید واقع شود.ما همچنین یک آزمایش دیگر برای اثبات اعتبار سیستمان در یک دیتاست کلاسیک توسعه دادیم که در الگوریتم های انطباقی عملکرد بهتری را نشان میدهد.

\cite{hiekata2010ontology}روش ارائه شده در این مقاله استخراج دانش از گزارش به منظور بهبود کیفیت طراحی می باشد.گزارش به یک مولفه ویک نقص عملکرد و تجزیه و تحلیل آماری اعمال می شود.در نهایت داده های آماری به عنوان دانش انتزاعی برای بخش طراحی به منظور بهبود کیفیت طراحی استخراج می شود.مشکل تجزیه توسط گزارش بی قالب در متن طبیعی ایجاد می شود.با استفاده از یک سیستم پشتیبانی از ورودی تعداد زیادی از گزارشات به خوبی فرمت خواهند شد.\cite{guinaudeau2012enhancing}در این مقاله مفهوم یک گسترش الگو را معرفی کردیم.یک رسمی سازی از ایده گسترش اقدامات انجمن واژگانی برای گرفتن مجموعه ای شامل اصطلاحات بیش از دو کلمه.بسیاری از الگوهایی که در این مقاله ارائه شده اند برای اولین بار است که عنوان میشوند.ما از این الگوها برای $5$ اقدام انجمنی استفاده کرده ایم و آنها را بر روی وظیفه $4$ یا $5$کلمه مجموعه از یک متن روزنامه با هم مقایسه کردیم.نتایج آزمایشات نشان میدهد که الگوها $G_0$ و $G_6$ عملکرد بهتری نسبت به بقیه الگوها را از خود نشان میدهند.\cite{pazienza2005terminology}در این مقاله مساله وظیفه اصطلاحات شناخته شده در یک فرایند خودکار تجزیه و تحلیل می شود. این مورد نیاز به همگرایی به یک تعریف عملیاتی از اصطلاح (در یک سیستم استخراج موثر) و  نیاز به دانش زبانی و عددی برای سیستم های با چنین توانایی دارند. ما حداقل به مجموعه ای از فرایندهای زبانی برای تاکید و شرح معماری کلی برای استخراج اصطلاحات نیاز داریم.ما  یک مجموعه بزرگ از اقدامات آماری  به منظور تعیین نقش آنها در بهبود استخراج اصطلاحات استفاده کرده ایم.همچنین از یک مجموعه واقعی برای تولید کاندیدهای  اصطلاحات استفاده شده است که امکان ارزیابی دستی  توسط کارشناسان به موازات آن تولید وجود دارد. این روش قادر به شناسای اصطلاحاتی است که کارشناسان قادر به شناسایی آنها را ندارند.

\cite{yang2014keyword}در این مقاله یک استراتژی جدید برای استخراج کلمات کلیدی ارائه شده است.تفاوتی که نسبت به سیستم های استخراج قبلی ادرد این است که کلمات کلیدی را بر اساس تک داکیومنت ها شناسایی میکند.این مقاله،ویکی پدیا را به عنوان منبع دانش معرفی میکند.استخراج کلمات کلیدی به وسیله یک مدل کاتیون بندی مناسب که نه تنها از ویژگی های مبتنی بر کلمات سنتی و قدیمی بلکه از ویژگی های منبع دانش ویکی پدیا بهره برده است.به عبارت ساده تر میتوان گفت از ویژگی های کلمات برای استخراج کلمات کلیدی استفاده کرده است.برای تعریف این ویژگی ها از تمام داده های درونی و بیرونی و کاتالوگ های مقاله های  ویکی پدیا اطلاعات استخراج کرده است.آزمایشات نشان داده است که این رویکرد جدید استخراج کلمات کلیدی از مدل های دیگر عملکرد بهتری را از خود نشان میدهد همچنین گفتنی ست برای ارزیابی های خود هم از معیار های وقت و بازخوانی استفاده کرده اند.\cite{samy2012medical}در این مقاله ما دو استراتژی متفاوت استخراج اصطلاح برای اصطلاحات پزشکی به زبان عربی را مورد بررسی وتست قرار داده ایم.این آزمایشات و مجموعه متن ها در درون پروژه چند رسانه ای سازمان علم و نوآوری وزارت اسپانیایی توسعه یافته است.آزمایش اول از لیست ثابتی از اصطلاحات پزشکی استفاده کرده است.آزمایش دوم لیستی از معادل های عربی از لیست بسیار محدود شده ای از پیشوند و پسوند های رایج لاتین که در اصطلاحات پزشکی استفاده شده است،مورد استفاده قرار گرفته شده است.نتایج نشان میدهد که استفاده از معادلات لاتین پیشوندی و پسوندی از لیست ثابت بهتر عمل میکند و عملکرد بهتری را از خود نشان میدهد.\cite{heid2012term}در این مقاله یک زنجیره ابزار برای استخراج اصطلاحات خاص از متن ها ارائه داده شده است که وابسته به پروژه 
 EU-Project TTC  میباشد.کامپوننت ها شامل متن های با دامنه خاص از اینترنت،در زبان های مختلف، پیش پردازش زبانی متن های جمع آوری شده در همین راه و استخراج اصطلاحات کاندید میباشند.خروجی این کار میتواند در ماشین های ترجمه(MT) مورد استفاده قرار گیرد.متاسفانه به دلایل تازگی مطلب اطلاعات بیشتری از این مقاله در دسترس نبود.
 
 \cite{maynard2000identifying} در این مطالعه ما تکنیک های آمازی و زبانی استفاده شده در NLP برای استخراج اصطلاح را ارائه میدهیم.رویکرد ها به طور کامل معرفی میشوند.همچنین در این مقاله یک رویکرد ترکیبی از ترکیب رویکرد آماری و زبانی پیشنها داده شده است.تمام رویکرد های زبانی،آماری و راهکار پیشنهادی(ترکیبی) با هم مورد مقایسه قرار گرفته شده است. حداقل مجموعه ای از فرایند زبانی مورد نیاز است که تاکید قرار گرفته شده است و در یک معماری عمومی برای استخراج اصطلاحات شرح داده شده است.آزمایشات نشان داده که استخراج اصطلاح به وسیله راهکار پیشنهادی یعنی روش ترکیبی از رویکرد زبانی و آماری عملکرد بهتری نسبت به دو رویکرد قبلی از خود نشان داده است اما گفتنی ست که چالش های موجود در استخراج اصطلاح همچنان در این سیستم هم مشاهده میشود.



\subsection{اصطلاحات با دامنه خاص در مقابل کلمات عمومی}  \label{section.Vs}
اصطلاح در تعریفی ساده،ابزاری جهت تعریف مفاهیم یک دامنه خاص میباشد.اصطلاحات تمایل دارند تا تمامی قوانین تشکیل واژگان را رعایت کنند.به عنوان مثال ''ملاقات جمعه'' به عنوان یک عبارت عمومی شناخته میشود در حالی که ''فرکانس برد کنترل تبدیل کننده'' به عنوان یک اصطلاح مهم در سازمان های خدمات توسعه محصول مشتری شناخته میشود.

دو ویژگی در اصطلاحات باعث میشود که بین آن ها و کلمات عمومی تبعیض قائل شویم.ویژگی Unithood و Termhood که در ادامه در موردشان سخن میگوییم.


\subsection{ویژگی های اصطلاحات}  \label{section.pro}

\subsubsection{Unithood}  \label{section.unit}
 Unithood بررسی می کند که یک عبارت مناسب پایبند به یک ساختار نحوی معین است یا نه.به عبارتی دیگر به فرم نوشتاری درستی سازماندهی شده است یا نه .کاربرد این ویژگی در تشخیص اصطلاحات پیچیده بسیار مناسب است.اصطلاحات ساده اغلب دارای بالاترین نرخ میباشند به دلیل اینکه تنها از یک کلمه تشکیل شده اند 
\subsubsection{Termhood}  \label{section.term}
Termhood  بررسی می کند که یک عبارت متعلق به یک دامنه هست یا نه.برای مثال''جعبه کنترل مبدل فرکانس'' معرف دامنه خدمات توسعه محصول مشتری  است در حالی که ''ملاقات جمعه'' مربوط به این دامنه نیست و تنها یک کلمه عمومی است.


\subsection{چالش های استخراج اصطلاح فایل های با دامنه خاص}  \label{section.challenge}
در این بخش،ما چالش های موجود در استخراج اصطلاح هم در زبان انگلیسی و هم در زبان فارسی را مورد بررسی قرار داده ایم شناخت این چالش ها ما را در ساخت یک سیستم جدید استخراج اصطلاح یاری می رساند که به شرح زیر میباشد:

\subsubsection{سکوت}  \label{section.silence}
اکثر سیستم های TE
\LTRfootnote{Term Extraction}
موجود در شناسایی اصطلاحات کمیاب ناتوان هستند مانند اصطلاحاتی که فقط یک بار در کل متن دیده شده اند.این پدیده ظاهرا خیلی کمیاب است ولی در عمل باعث می شود که اصطلاحات مهم را از بین ببریم یا ردشان کنیم.شاید یک اصطلاح به تعداد کمی در متن وجود داشته باشد ولی دلیل بر بی اهمیت بودن اصطلاح ندارد.پس معیار انتخاب اصطلاح مناسب تنها فراوانی آن نیست.به این پدیده اصطلاحا،سکوت
\LTRfootnote{Silence}
گفته میشود.
\subsubsection{عدم منابع دانش}  \label{section.resouce}
يکي از گلوگاههاي پردازش زبان فارسي در دسترس نبودن منابع زباني کافي و معتبر براي فارسي است.اگرچه که این سری از منابع دانش در اکثر رشته ها بسیار کمیاب هستند و به سختی میتوان آنها را یافت.دسترس نبودن منابع دانش سختی های استخراج اصطلاح را افزایش میدهد.یک راه حل این است که از بقیه منابع در دسترس استفاده کنیم.Wikipedia یک راهکار امیدبخشی را ارائه کرده است که جزء منابع در دسترس میباشد و برای به دست آورددن آن نیاز به پرداخت هزینه گزافی نیست.همچنین از انجمن NLP توجهات زیادی دریافت نموده است.
\subsubsection{پیچیدگی اصطلاحات}  \label{section.complex}
سیستم های استخراج اصطلاح امروزی قابلیت شناسایی اصطلاحات حد
\subsubsection{نویز}  \label{section.Noise}
متن های با دامنه خاص در چهارچوب یک زبان مختصر و مفیدی بیان شده اند.به عنوان مثال ''\lr{device Is Cooling Fan}''میتواند به درستی به صورت ''\lr{the Device Is Cooling Fan}'' تفسیر شود و همچنین میتواند به اشتباه به صورت ''\lr{the Device Is Cooling the Fan}'' تفسیر شود.با تفسیر آخری،اکثر فیلترهای زبانی تنها اسم ''fan'' را به عنوان یک اصطلاح شناسایی خواهند کرد.بنابراین آنها مصدر ''cooling'' را شناسایی نکرده به دلیل اینکه سیستم آن را یک فعل زمان حال در نظر میگیرد.به عبارتی میتوان گفت فیلتر های زبانی امروزی قابلیت تشخیص مصدر را ندارد.نوع دیگری از فیلتر زبانی حدف کاراکتر ''.'' که نشان دهنده پایان عبارت است.به عنوان مثال حذف کاراکتر ''.'' بین ''\lr{customer Helpdesk}'' و ''\lr{collimetor Shutter}'' که به صورت ''\lr{customer Helpdesk Collimetor Shutter}'' استخراج میشود.همان طور که قبلا بیان شد عبارت های پیچیده و غیرصریح تمایل دارند به عنوان اصطلاحات معتبر و مناسب نمایش داده شوند،مانند عبارت اسمی و آنها حتی از فراوانی بیشتری هم برخوردار هستند.این عبارت ها توسط سیستم های استخراج اصطلاح امروزی به اشتباه به عنوان اصطلاح معتبر و مرتبط با دامنه انتخاب میشوند.شایان ذکر است که \cite{romero2012using} یک تکنیک برای استخراج اصطلاح از داکیومنت (FAQ) ارائه داده است که به ویژگی های تکنیک ما شبیه تر است.(پراکندگی و غیردستوری بودن متن).بنابراین میتوان به طور کلی بیان کرد که سیستم های قبلی چالش های موجود از قبیل سکوت،نویز،تشخیص اصطلاح با بیش از $2$ کلمه را به درستی رفع نکرده اند.کار دیگری که در این زمینه مورد بررسی قرار گرفته است،\cite{hiekata2010ontology} مباشد که برای تشخیص اصطلاح از گزارش های کشتی سازی مورد استفاده قرار گرفته است.اگرچه که آنها به یک آنتولوژیی استناد کرده اند که همیشه در دسترس نمیباشد.

راهکار پیشنهادی ما برای مقابله با سختی های استخراج اصطلاح در بخش های بعدی مورد بررسی قرار خواهد گرفت.
%\begin{figure*}[h]
%\centering
%\includegraphics[width=\textwidth]{Architecture.jpg}
%\caption{چهارچوب ExtTerm }
%\label{artich}
%\end{figure*}
%\begin{figure*}
%\centering
%\includegraphics[width=\textwidth]{1.jpg}
%\caption{نمونه ای از فعالیت های تمیز کردن }
%\label{clean}
%\end{figure*}

\section{چهارچوب ExtTerm}  \label{section.framework}
راهکار پیشنهادی ما برای استخراج اصطلاح در شکل  \ref{artich} نمایش داده شده است.فلش خالی نشان دهنده ورودی و خروجی است و فلش پر پردازش انجام شده توسط خروجی مختلف ExtTerm را شرح میدهد که مراحل آن در بخش بعدی شرح داده خواهد شد.




\subsection{پیش پردازش متن}  \label{section.preprocess}
در این فاز ورودی به یک فرمت قابل جوابگویی برای مراحل بعدی ExtTerm  تبدیل می شود که این فاز شامل دو عملیات اساسی تمیز کردن داده ها
\LTRfootnote{Data Cleaning}
و پیش پردازش زبانی
\LTRfootnote{Linguistic Pre-Processing}
می باشد.
\subsubsection{پاک کردن داده}  \label{section.cleaning}
در تمیز کردن داده ها ما همه مطالب غیر اصلی را دور می اندازیم.مطالبی که می تواند مانع کشف دقیق اصطلاحات معنی دار از مجموعه کل متن شود.مکانیزم تمیز کردن ما که به عنوان یک لفافه عبارت منظم پیاده سازی شده است،ابتدا موجودیت های نامربوط مانند نمادها،اعداد را تشخیص داده و سپس دور میاندازد.مانند کارکترهایی از قبیل '':''نمونه ای از تمیز کردن داده ها در جدول \ref{clean} نشان داده شده است.همان طور که مشاهده میکنید دو نوع تمیز کردن صورت گرفته شده در عبارت اولی تمامی نماد ها،اعداد و شناسه ها از متن حذف شده اند و تنها کلمات باقی مانده اند و در نوع دوم براکت حذف شده و عبارت داخل براکت پس از عبارت قبل عبارت قرار گرفته شده است و به عنوان ورودی برای فاز بعد فرستاده میشود.
\subsubsection{پیش پردازش زبانی}  \label{section.preprocessling}
در زبان شناسی پیش پردازش قسمتی از گفتار (POS) کلمات در متون تشخیص داده شده و با استفاده از استانفورد $ (POS-Tagging)$ بدست می آیند.در شکل شماره \ref{Postagging} ما قسمت هایی از متن را به عنوان نمونه قرار داده ایم و شما میتوانید نتیجه آن را بعد از اعمال \lr{POS-Tagging } مشاهده نمایید.ما در این فاز از استخراج اصطلاح از کاراکتر "N" به عنوان اسم و "P" به عنوان حرف اضافه و از کاراکتر "A" به عنوان صفت استفاده کرده ایم.همچنین "VBG" مشخصه افعال زمان حال میباشد.
\subsection{فیلتر زبانی}  \label{section.lingfilter}
$POS-Tagged$ اشتباه،بر کارایی فیلتر زبانی اثر می گذارد که در نهایت باعث می گردد دقت کلی دچار تنزل شود.فیلترهای زبانی \cite{frantzi2000automatic} و \cite{justeson1995technical}  کلمه \lr{"Regulating"}را حذف می کنند،چرا که معتقدند \lr{POS-Tagged} به اشتباه آن را به عنوان یک فعل در نظر گرفته است ،در نتیجه فقط کلمه \lr{"switch"} را انتخاب می کند،در صورتی که باید کلمه \lr{''Regulating Switch''} را در نظر میگرفتند.در حقیقت میتوان نتیجه گرفت که سیستم های استخراج اصطلاح موجود شناسایی تشخیص مصدر $Ing$ را نداشته و همین امر موجب حذف آن میشود.راه حل ممکن برای برخورد با اینگونه اشتباهات،اصلاح دستی عبارت های مبهم یا اموزش دوباره \lr{POS-Tagger} میباشد،هر چند که هر دوی این راه حل ها بسیار خسته کننده بوده است و احتمال خطای بالایی دارند. 
%\begin{figure}[!h]
%\centering
%\includegraphics[width=0.5\textwidth]{2.jpg}
%\caption{متن های Pos-Tagging شده }
%\label{Postagging}
%\end{figure}

\subsubsection{برخورد با خطاهای $POS-Tagging$}  \label{section.pos}
به منظور رفع چنین خطاهایی،Extterm یک فیلتر زبانی جدیدی را ارائه کرده است.این فیلتر،که ما آنرا $Filter-1 $ نامیده ایم و به صورت یک عبارت منظم بیان شده در معادله \ref{postagging} نشان داده شده است.سمبل های ؟ و + اپراتورهای کاردینالیتی عبارت منظمی هستند که به ترتیب نشان می دهد که عملوند اختیاری هستند و اینکه حداقل یک بار رخ می دهد.الگوی عبارت منظم آن در زیر نشان داده شده است:
\begin{equation}
Filter-1=~A?VBG?N
\label{postagging}‏
\end{equation}
\subsubsection{فیلتر 2 :اصطلاحات پیچیده}  \label{section.complexerror}
برای غلبه بر مشکلات موجود در تشخیص اصطلاحات پیچیده،مانند آنهایی که شامل هر تعداد از اسم،صفت و یا حروف اضافه است،برای مثال "باتری عقب کابل کواکسیال کابینه"
\LTRfootnote{rear Battery Cabinet Coaxial Cable}
ما بر این اصل اساسی فرم اصطلاح تکیه می کنیم.با توجه به این اصل،اصطلاحات پیچیده از کنار هم قرار دادن چندین اسم با صفت و یا اسم و حروف اضافه تشکیل می شود. یک نمونه از اصطلاحات اساسی، متشکل از یک جفت اسم و یا یک صفت و یک اسم است در نتیجه ، ما فیلترمان را برای تشخیص اصطلاحات پیچیده تعریف می کنیم . همانطور که در معادله \ref{comtex} نشان داده شده است.اپراتور عبارت منظم "*" نشان می دهد که عملوند آن می تواند صفر یا بیشتر از صفر، به هر تعدادی رخ دهد.
\begin{equation}
Filter-2=~A?N * P?A?N+
\label{comtex}‏
\end{equation}

ترکیب فیلتر $1$ و $2$ در زیر نشان داده شده است که به عنوان فیلتر زبانی ExtTerm به کار گرفته خواهد شد :
\begin{dmath}
Condidate-Term=~A?VBG?N*P?A?N+
\label{extterm}
\end{dmath}


این فیلتر،تعادل بین فاکتورهای دقت و بازخوانی را حداکثر می کند و به افعال با مصدر $Ing$ اجازه می دهد که بخشی از اصطلاحات به حساب بیایند.

\subsection{انتخاب اصطلاح مناسب}  \label{section.relevant}
انتخاب اصطلاح مناسب
\LTRfootnote{Relevent Term Selection}
 و مربوطه $(RTS)$ بر اساس احتمال وقوع اصطلاحات در متن، Termhood اصطلاحات انتخاب شده در قسمت قبل را تخمین می زند.یک مورد انتخاب شده،در صورتی شایستگی این را دارد که توسط سیستم یک اصطلاح باشد که در متن های با دامنه خاص بیشتر از متن های عمومی به کار رفته باشد.ما از متن های عمومی به عنوان متن های هنجاری در ارزیابی هایمان بهره خواهیم برد

\subsubsection{Wikipedia به عنوان مجموعه متن با قاعده}  \label{section.wiki}
برای اطمینان از انتخاب اصطلاح مناسب از روش مقایسه مجموعه ای از داکیومنت ها ضروری است که مجموعه هنجاری با یک دامنه خاص در تضاد قابل توجهی باشد.به طور خاصه،مجموعه هنجاری باید نماینده استفاده جهانی از یک زبان باشد.از ترکیبات متون دامنه خاص متفاوت باشد همچنین باید از مجموعه دامنه خاص بسیار بزرگتر باشد. بر اساس این ملاحظات ما از مجموعه ویکی پدیای انگلیسی به عنوان مجموعه هنجاری بهره برده ایم. همچنین ویکی پدیا در بسیاری از وظایف NLP به خوبی کار کرده است.شایان ذکر است که این مرحله از ExtTerm با مراحل کار شده در مقاله \cite{romero2012using} مشابه میباشد

روش محاسبه Termhood از اصطلاحات در شبه کد زیر آمده است. متغیر $Cand$ در این شبه کد اصطلاح انتخاب شده از فاز فیلتر زبانی را نشان می دهد.ما فرکانس اصطلاح را با $f_{DS}$ و فرکانس اصطلاح انتخاب شده در متن هنجاری مانند ویکی پدیا را با $f_{NC}$ نشان داده ایم. 

%\begin{figure}[!h]
%\centering
%\includegraphics[width=0.5\textwidth]{Termhood.jpg}
%\caption{شبه کد نمره Termhood (Cand)}
%\label{termhood}
%\end{figure}

مراحل انجام کار با توجه به شبه کد زیر:

خط $1$: با یک مجموعه خالی از کاندیدها شروع کرده ایم

خط $2$: احتمال وقوع کاندید در متن اصلی را تخمین می زنیم.

خط $3$: احتمال وقوع کاندید در ویکی پدیا را تخمین می زنیم

خط $4$: نمره Termhood کاندید را محاسبه می کنیم. آن دسته از کاندید هایی که در متن اصلی زیاد وجود دارند نمره Termhood  بیشتری خواهند داشت. 

خط $5$ و $6$: کاندیدهایی که مقدار Termhood  آنها از آستانه T بیشتر باشد کاندید مورد نظر خواهد بود و به فاز رتبه بندی اصطلاح منتقل خواهند شد.
\subsubsection{خروجی ساده}  \label{section.sample}
جدول \ref{sample} نمونه ساده ای از عملیات انتخاب اصطلاح مناسب را نشان می دهد.در این جدول $f_{DS}$ و مقدار Termhood  کاندید نمایش داده شده است. ExtTerm  توانسته اصطلاحات کمیاب را کشف و مشکل Silence را حل کند،تا بدین وسیله از یکپارچگی داده ها جلو گیری کند.برای مثال همان طور که در شکل  \ref{sample}  نشان داده شده است اصطلاح ''شبکه عصبی'' بالاترین نمره Termhoodرا به خود اختصاص داده است در صورتی که تنها $2$ بار در متن به کار رفته است.به این دلیل که احتمال وجود اصطلاحات بسیار خاص مانند اصطلاح بالا در متن های با دامنه خاص بیشتر از نسبت احتمال وجودشان در متن هایی مانند ویکی پدیا است. همچنین نتایج نشان می دهد که ExtTerm  توانسته است که مشکل Noise را هم به نوعی رفع نماید.برای مثال اصطلاح نرون با وجود اینکه بیشترین نرخ فرکانس را در متن های با دامنه خاص دارد ($12$ بار تکرار شده است) اما کمترین وابستگی را به دامنه هوش مصنوعی دارد چرا که مقدار Termhood برای آن $113.25$ می باشد،به دلیل آن که این اصطلاح یک عبارت عمومی به حساب می آید . 
%\begin{figure}[!h]
%\centering
%\includegraphics[width=0.5\textwidth]{3.jpg}
%\caption{نمره Termhood کاندیدها از فاز انتخاب اصطلاح مناسب}
%\label{sample}
%\end{figure}

\subsection{رتبه بندی اصطلاح}  \label{section.ranking}
فاز رتبه بندی اصطلاح 
\LTRfootnote{Term Ranking}
با استفاده از نمره Unithood  اصطلاحات تعیین می نماییم که اصطلاحات  قبلا شناسایی شده واحدهای منسجم و تجزیه ناپذیری هستند یا خیر. در ادامه به جای به کار بردن اصطلاح $N-کلمه$ از عبارت $N-کاندید$ استفاده خواهیم کرد.
\subsubsection{Unithood برای $2-کاندید$}  \label{section.ranking2condidate}
در EPTerm  ما از روش پیشنهادی \cite{daille1996empirical} برای تخمین مقدار Unithood برای اصطلاحات دو کلمه ای استفاده کرده ایم که به صورت زیر می باشد.
\begin{equation}
Unithood-Score=Log \frac{(\frac{f(x,Y)}{N})^3}{\frac{f(x)}{N}\times \frac{f(y)}{N}}‏
\end{equation}
اگر ما اصطلاحات دو کلمه ای را به صورت$Cand= X,Y$ در نظر بگیریم مانند
\lr{cand=''شبکه عصبی''}
در این معادله $F=(X,Y)$ نشان دهنده تعداد دفعاتی است که $X$ و $Y$ باهم در متن تکرار می شود. 
$F(x)$ نشان دهنده تعداد دفعاتی است که $X$ در متن تکرار شده است
$F(y)$نشان دهنده تعداد دفعاتی است که $Y$ در متن تکرار شده است


\subsubsection{Unithood برای N -کاندید  $N\geq2$}  \label{section.ranking2morecondidate}
به منظور غلبه بر محدودیت های LAM ها،که تنها بر روی اصطلاحات $2$کلمه ای اجرا میشوند،ما تکنیکی برای اصطلاحات بیشتر از $2$ کلمه ارائه میدهیم.اما نکته اصلی پنهان این تکنیک در فرموله کردن Unithood اصطلاحات بیشتر از $2$ کلمه به عنوان نمره Unithood های $Sub-Expression$ که شامل حداقل $2$ کلمه و حداکثر$(N-1)$ کلمه میباشد.

به عنوان مثال \lr{sub-Expression} های دو اصطلاح$4$ کلمه ای
\lr{cand=Xray Tube Window Cover}
و
\lr{candX=Customer Helpdesk Collimator Shutter}
را در شکل \ref{sub} مشاهده مینمایید.توجه نمایید که متغیر Cand نشان دهنده یک اصطلاح معتبر است در حالی که متغیر candX معتبر نمیباشد.

از شکل \ref{sub} میتوان دو نتیجه دریافت کرد:

\begin{itemize}
\item 
تمام \lr{sub-Expression } های اصطلاح Can واحدهای تجزیه ناپذیری هستند در صورتی که در مقابل،به جز عبارت های
\lr{" Collimator Shutter " " Customer Helpdisk "}
در \lr{sub-Expression}candX بقیه نامعتبر هستند و عملا معنی خاصی نمی دهند.
\item
این امکان وجود دارد تا یک اصطلاح $N-Word$ از \lr{sub-Expression} مجددا مورد بازسازی قرار گیرد به دلیل اینکه هر \lr{sub-Expression} که شامل $(N-1)$ کلمه میباشد،در یک  \lr{sub-Expression} طولانی تری از اندازه $N$ به صورت تو در تو خواهد شد.
\end{itemize}
بر اساس این نتایج،تکنیک ما برای محاسبه نمره Unithood اصطلاحات $N$کلمه ای $(N\geq2)$ روال زیر را دنبال میکنیم:
%\begin{figure}[!h]
%\centering
%\includegraphics[width=0.5\textwidth]{Unithoodscore.jpg}
%\caption{روال محاسبه نمره Unithood}
%\label{unithood}
%\end{figure}
%\begin{figure}[!H]
%\centering
%\includegraphics[width=0.5\textwidth]{Subexpression.jpg}
%\caption{زیر-عبارت تولید شده از اصطلاحات چهار کلمه ای}
%\label{sub}
%\end{figure}
%\begin{figure}[!H]
%\centering
%\includegraphics[width=0.5\textwidth]{Sampleunithood.jpg}
%\caption{اصطلاحات کاندید تولید شده از فاز رتبه بندی اصطلاح}
%\label{sampleu}
%\end{figure}
\subsubsection{خروجی ساده}  \label{section.sample1}
کاندیدهای ساده استخراج شده به وسیله فاز رتبه بندی را در شکل \ref{sampleu} مشاهده مینمایید.مشابه نمرات Termhood بازه نمرات Unithood را $0-500$ در نظر گرفته ایم.از طرفی به دلیل این که کاندیدهای ساده شامل تنها $1$کلمه هستند در نتیجه آنها دارای حداکثر مقدار Unithood هستند.چرا که به واحد کوچک تری تجزیه نمیشوند.همان طور که مشاهده می کنید ExtTerm به طور موفقیت آمیزی توانسته است سختی های موجود در کشف اصطلاحات پیچیده که بیشتر از $2$کلمه هستند را رفع کند.مشاهده میشود که قابلیت شناسایی اصطلاحات $7$کلمه ای را دارا میباشد.همچنین توانسته مشکل نویز را برطرف کند و به کاندید های نامعتبر پایین ترین نمره اختصاص داده شود که به راحتی قابل شناسایی و دور ریختن باشند و همچنین به کاندیدهای معتبر بالاترین نمره را اختصاص بدهد.
\section{ارزیابی آزمایشات} \label{section.evau}
در این بخش ما عملکرد راهکار پیشنهادی مان را مورد ارزیابی قرار می دهیم.
در بخش \ref{section.text} ما در مورد متون استفاده شده در آزمایشاتمان توصیف مختصری می دهیم.
در بخش های \ref{section.filtring} تا  \ref{section.ranking} در مور نتایج به دست آ مده در فاز های مختلف ExtTerm صحبت خواهیم کرد. 
در بخش \ref{section.evaution} عملکرد سیستم Extterm با عملکرد سیستم Baseline مقایسه میکنیم.
در قسمت \ref{section.influence} آزمایشات اضافی را به منظور ارزیابی دقت عملکرد ExtTerm در استخراج اصطلاح با هر طولی را ارائه می دهیم.
\subsection{مجموعه متن}  \label{section.text}
\subsubsection{متن های با دامنه خاص}  \label{section.spacialtext}
متن هایی که برای مقاله اصلی مورد بررسی قرار گرفته شده است شامل یک مجموعه متن  $54532$ تایی که متعلق به PD-CS می باشد.این اسناد،شکایات مشتری،عملکرد فعالیت های تعمیراتی مهندسین سرویس بر روی تجهیرات الکترومکانیکی حرفه ای که اخیرا عرضه شده اند را توصیف می کند.این اسناد متعلق به سال های $2005$ تا $2009$ می باشند که به زبان انگلیسی بیان شده اند.اما متن هایی که برای مقاله نوآوری مورد بررسی قرار گرفته شده از مجموعه متن های مربوط به دامنه هوش مصنوعی به زبان فارسی میباشد که تلاش شده اصطلاحات مربوطه تا حداکثر $2$ کلمه را استخراج نماییم.
\subsubsection{متن های هنجاری Wikipedia}  \label{section.wikipedia}
ما به مجموعه انگلیسی Wikipedia به عنوان یک مجموعه اصولی برای محاسبات Termhood متکی هستیم.برخی از آمارهای اساسی متن های با دامنه خاص و متن های هنجاری ویکی پدیا در جدول \ref{amar} ارائه شده است.
%\begin{figure}[!H]
%\centering
%\includegraphics[width=0.5\textwidth]{Amar.jpg}
%\caption{آمارهای مجموعه متن ها}
%\label{amar}
%\end{figure}
\subsection{فیلتر زبانی}  \label{section.filtring}
در این بخش فیلتر زبانی  ExtTerm که در فرمول \ref{extterm} بیان شده است را با فیلتر Baseline که در فرمول \ref{baseline} نمایش داده شده است را مورد ارزیابی قرار داده ایم. 
\begin{dmath}
Filter_{Baseline}=((A|N)*|((A|N)*(NP)?)(A|N)*)N)
\label{baseline}
\end{dmath}
نتایج آزمایشات نشان می دهند که فیلتر زبانی ExtTerm دارای گسترده ترین پوشش نسبت به Baseline می باشند. به عبارت دیگر ExtTerm عملکرد بهتری را نشان می دهد.
تعداد اصطلاحاتی که توسط ExtTerm شناسایی شده بودند تقریبا دو برابر تعداد اصطلاحاتی است که توسط Baseline شناسایی شده بودند.($85,342$ در مقابل $48,984$) 
در جدول \ref{com} ما خروجی دو روش را مورد بررسی قرار دادیم.ما همچنین در بخش \ref{section.evaution} تعداد بیشتری از اصطلاحات مربوطه که توسط ExtTerm کشف شده اند ولی توسط Baseline رد شده اند را نشان میدهیم.همان طور که مشاهده می کنید مقدار''Y'' به این معنی است که اصطلاح با موفقیت از متن استخراج شده است.در حالی که مقدار"N" به معنی استخراج ناموفقیت اصطلاح می باشد.
%\begin{figure}[!H]
%\centering
%\includegraphics[width=0.5\textwidth]{Compare.jpg}
%\caption{مقایسه اصطلاحات خروجی از فاز فیلتر زبانی}
%\label{com}
%\end{figure}
از مشاهدات بالا سه نتیجه می توان گرفت:\textbf{}
\begin{itemize}
\item 
فیلتر ExtTerm با موفقیت توانسته اصطلاحات پیچیده را از متن استخراج کند،مانند استخراج اصطلاح \lr{''coaxial Cable for Rear Battery Cabinet'' } در مقابل فیلتر Baseline تنها توانسته قسمتی از آن را استخراج کند مانند
\lr{''coaxial Cable for Rear Battery"}
\item
برخلاف فیلتر Baseline،فیلتر ExtTerm به \lr{POS-Tagged Error } حساس نبوده و توانسته اصطلاحات را کشف کند مانند اصطلاح
\lr{"regulating Switch"}
که عبارت "Regulating" را به اشتباه به عنوان فعل حال در نظر گرفته است در صورتی که چون قبل از اسم "Switch" به کار رفته است باید به عنوان اسم با مصدر $Ing$ دار شناسایی شود.
\item
هر دوی این فیلترها بعضی از کاندیدهای نادرست را به عنوان عبارات اسمی شناخته شده بودند را شناسایی کردند. مانند عبارت
\lr{''customer Helpdesk Collimator Shutter''} که مورد قبول معیارهای تصمیم گیری دو فیلتر قرار گرفته بود. آزمایشات ما به منظور رد کردن این کاندیدهای نادرست در قسمت رتبه بندی اصطلاح
بحث خواهد شد.
\end{itemize}

\subsection{انتخاب اصطلاح مناسب}  \label{section.relevent}
در فاز انتخاب اصطلاح مناسب $(RTS)$ از ExtTerm ما به وسیله مقدار Termhood کاندیدهای انتخاب شده را تخمین زدیم که درقسمت ... در مورد آن توضیح داده شد.در شکل \ref{rts} نمونه هایی از کاندید های ساده استخراج شده به همراه Termhood شان را نشان داده ایم.این کاندید های که به نظر میرسد تنها در متن هایی در دامنه خاص حضور داشتند نه در متن های Wikipedia بالاترین مقدار Termhood را به خود اختصاص داده بودند.

نتایج فوق را میتوان به $5$ دسته ظبقه بندی کرد :
\begin{itemize}
\item 
کاندید های دسته اول(مربوطه و دوست داشتنی):اشاره به کاندید هایی که هم به دامنه خاص ما مربوط می شوند هم تعداد تکرارشان در دامنه زیاد است مانند عبارت
\lr{"carm Backplane Rotation Sensor"}  که بالاترین نرخ Termhoodرا به خود اختصاص داده است.
\item
کاندید های دسته دوم(پراکنده اما مربوطه):به طور پراکنده در متن با دامنه خاص ما رخ داده اند برای مثال عبارت
\lr{"Rediation Protector Shield Arm''} که فقط $3$بار در دامنه تکرار شده اند.این عبارت های کمیاب در موضوع Silence  مسئول هستند چرا که اکثر سیستم های TE در تشخیص این عبارت ها ناتوان هستند.با این وجود آنچه که در نتایج دیده میشود این است که در سیستم ExtTerm به این کاندید ها بالاترین نمره را اختصاص داده شده است و این سیستم توانسته با موفقیت این اصطلاحات را کشف و موضوع سکوت (که یکی از چالش های اساسی در سیستم های استخراج اصطلاح امروزی است) را کاهش دهد.
\item
کاندید های دسته سوم(نامعتبر):برای مثال عبارت
\lr{"customer Helpdesk Collimator Shutter"} که بالاترین نرخ Termhood را به خود اختصاص داده است به دلیل اینکه متعلق به دامنه متن خاص ما است اما دنباله ای از کلمات بی ربط میباشد که در قسمت بعدی در مورد آن بحث خواهد شد.
\item
کاندید های دسته چهارم(دوست داشتنی در متن های با دامنه خاص):کاندیدهایی که احتمال اینکه در متن های با دامنه خاص باشند بیشتر از این است که در متن هایی مانند Wikipedia  باشند.این کاندید ها نمره Termhood به نسبت بالایی را در شکل به خود اختصاص داده اند.
\item
کاندید های در دسته آخر(نامرتبط اما دارای فراوانی زیاد):این کاندیدهای به متن با دامنه خاص (متن مورد نظر) بی ربط هستند اما تعداد تکرارشان زیاد است.این کاندیدها در موضوع نویز مسئول هستند و اکثرا توسط سیستم های TE  موجود به نادرست به عنوان اصطلاحات مربوطه نادرست استخراج میشوند که وقت سیستم را به خطر میاندازند.همان طور که در شکل \ref{rts} نشان داده شده است نمره Termhood بسیار پایینی به این دسته از اصطلاحات توسط ExtTerm اختصاص داده شده است که باعث شده است که مشکل نویز را کاهش دهد.
\end{itemize}

%\begin{figure}[!H]
%\centering
%\includegraphics[width=0.5\textwidth]{Outputrts.jpg}
%\caption{اصطلاحات کاندید استخراج شده از فاز انتخاب اصطلاح مربوطه}
%\label{rts}
%\end{figure}
\subsection{انتخاب آستانه Termhood}  \label{section.treeshold}
برای یافتن تعادل بهینه بین دقت و فراخوانی ( ایجاد بزرگترین مجموعه اصطلاحات معتبر ) ما $6$ مقدار مختلف برای آستانه Termhood را در نظر گرفته ایم.($10,100,200,300,400,500$) این مقادیر به این دلیل انتخاب شده اند که حدود 90\% از نمرات Termhood اصطلاحات بین $10$ تا $500$ بوده اند.
برای هر $6$ مقدار آستانه $T، $6 مجموعه مختلف برداشته ایم. 

\subsection{رتبه بندی اصطلاح}  \label{section.ranking}
در مرحله رتبه بندی اصطلاحات، نمرات Unithood اصطلاحات محاسبه می شود.این اصطلاحات در مرحله سوم(انتخاب اصطلاح مناسب) انتخاب شده اند و همچنین نمره Unithood برای هر مقدار آستانه به صورت جداگانه محاسبه می گردند،به عنوان مثال $6$ مقدار آستانه معرفی شده در مقاله یعنی $T=100,200,300,400,500,10$ که خروجی این مرحله ، $6$ گونه فهرست از اصطلاحات به صورت جداگانه بر اساس مقادیر آستانه مرتب می کند.مانند لیست مرتب شده در شکل \ref{tr.jpg}که مشاهده میفرمایید.

همان گونه که در بخش \ref{section.ranking} شرح داده شد،سیستم ExtTerm با موفقیت توانسته چالش های استخراج اصطلاح برای اصطلاحات بیش از $2$ کلمه را بر طرف کند.همچنین توانسته چالش نویز،با اختصاص دادن نمره Unithood پایین را بر طرف کند.مانند \lr{"customer Helpdesk Collimator Shutter"} که به راحتی شناخته شده و دور انداخته می شود.در بخش بعدی ما عملکرد سیستم ExtTerm را بر اساس دقت و فراخوانی اندازه میگیریم.
%\begin{figure}[!H]
%\centering
%\includegraphics[width=0.5\textwidth]{Tr.jpg}
%\caption{لیست اصطلاحات استخراج شده از فاز رتبه بندی اصطلاح}
%\label{tr}
%\end{figure}
%\begin{figure}[!H]
%\centering
%\includegraphics[width=0.5\textwidth]{Treshold.jpg}
%\caption{عملکرد ExtTerm در مقادیر مختلف آستانه}
%\label{treshold1}
%\end{figure}
\subsection{ارزیابی عملکرد و انتخاب آستانه}  \label{section.evaution}
ما برای هر $6$ مقدار آستانه،فهرست رتبه بندی شده از اصطلاحات استخراج شده توسط سیستم ExtTerm ارزیابی نموده ایم. در شکل \ref{tr.jpg} توصیف شده است. از آنجایی که ارزیابی کل لیست رتبه بندی شده خسته کننده است ما در مطالعاتمان بر اصطلاحات ابتدای لیست تمرکز می کنیم.در آزمایشاتمات $1000$ اصطلاح بالای هر لیست را ارزیابی می کنیم.
در این مقاله $N=1000 $ برای هر $6$ لیست رتبه بندی شده جداگانه بررسی می گردد (یعنی در کل $6000$ اصطلاح).برای اطمینان از دقت و صحت ارزیابی هایمان ما به دو مفسر انسان که در این حوزه به خوبی آشنایی دارند تکیه کرده ایم.اصطلاحاتی که توسط هر دو مفسر صحیح تلقی شود $True-Positive$ نامیده می شوند و برعکس،اصطلاحاتی که توسط دو مفسر اشتباه تلقی شوند،$False-Positive$ در نظر گرفته میشوند.

در این قسمت نمرات دقت اصطلاحات استخراج شده با مقادیر آستانه های متفاوت توسط فرمول \ref{precision}تخمین زده می شوند.(دومین ستون از شکل \ref{treshold1})
برای کاهش تاثیر توافق نامه های تصادفی بین دو مفسر از ضریب کاپا استفاده می کنیم .ارزش کاپا که در این مقاله محاسبه کردیم بین $ 0.68 - 0.72 $ می باشد .$0.7$به عنوان ضریب مطلوب می باشد.برای محاسبه معیار فراخوانی،ما یک استاندارد طلایی برای $1000$ اصطلاح شناخته شده،تعریف می نماییم که به صورت دستی از زیر مجموعه ای از متن با دامنه خاص بدون هیچ محدودیت اضافی انتخاب شده است،مانند وابستگی به طول اصطلاح که برای اصطلاحات استاندارد طلایی اعمال شده است.زیر مجموعه انتخابی متن ما،توسط سیستم ExtTerm مورد بررسی قرار گرفته شد،اصطلاحات استخراج شده از سیستم ما که توسط استاندارد طلایی هم شناخته شده بود در دسته $True-Posotive$ قرار گرفتند و اصطلاحتی که توسط استاندارد طلایی شناسایی شدند اما در شناختشان توسط سیستم ExtTerm  با شکست مواجه شده بود در دسته $False-Negative$ قرار گرفتند.نمره فراخوانی برای مقادیر مختلف آستانه در فرمول \ref{recall}نشان داده شده است. در شکل \ref{treshold1} در سومین ستون نشان داده شده است.
\begin{equation}
Precision=\frac{true-Positive}{True-Positive+False-Positive}
\label{precision}
\end{equation}

\begin{equation}
Recall=\frac{true-Positive}{True-Positive+False-Negative}
\label{recall}
\end{equation}
ما برای به دست آوردن مقدار عملکرد ، $F1$

را تعریف می کنیم. به این دلیل که ما در تلاش برای ایجاد تعادل بین معیار دقت و فراخوانی هستیم نتایج در شکل \ref{treshold1} نشان داده شده است. فرمول آن در زیر (\ref{F1}) بیان شده است.
\begin{equation}
F1=\frac{2 \times P \times R}{P + R}
\label{F1}
\end{equation}
با توجه به شکل \ref{treshold1} بالاترین نمره برای $F1$ مقدار $0.88$ در آستانه $T=200$ می باشد. به همین دلیل ما مقدار $T=200$ را در مرحله انتخاب اصطلاح مناسب به عنوان آستانه مناسب برای محاسبه Termhood در نظر میگیریم.


\subsection{Baseline در مقابل ExtTerm}  \label{section.baseline}
ما به صورت دستی $1000$ کاندید استخراج شده از مجموعه متن با دامنه خاص برای سیستم Baseline مورد بررسی قرار می دهیم. سپس مقادیر نمرات دقت،فراخوانی و $F1$ را برای هر دو روش جداگانه محاسبه نمودیم و این مقادیر را در شکل \ref{bs} با هم مقایسه کرده ایم.آن چه که از نتایج می توان مشاهده نمود این است که سیستم ExtTerm در مقابل سیستم  Baseline عملکرد بهتری برای متون با دامنه خاص که ساختار نوشتاری مناسبی هم ندارند از خود نشان میدهد.ما دیدیم که سیستم Baseline بسیاری از اصطلاحات پر تکرار اما نامرتبط را استخراج می نماید. بنابراین ما از مشکل نویز در این سیستم رنج می بریم.در نتیجه باعث گردیده است که دقت این روش پایین آید.
همان طور که قبلا ذکر شد،سیستم ExtTerm در مرحله سوم یعنی انتخاب اصطلاح مناسب به اصطلاحات بی ربط و پر تکرار نمره Termhood پایینی اختصاص می دهد که در نتیجه به عنوان اصطلاح برای سیستم مورد مقبول قرار نمی گیرد. به علاوه در مرحله چهارم یعنی رتبه بندی که تابعی از نمره Unithood می باشد،اصطلاحاتی را که دارای مشکل نویز می باشند را با اختصاص نمره Unithood پایین باعث کاهش اعتبار آنها می گردد.
سیستم Baseline در تشخیص تعداد زیادی از اصطلاحات معتبر که به صورت پراکنده در متن وجود دارند دچار شکست شده است. در نتیجه این سیستم از مشکل سکوت رنج می برد که باعث کاهش نمره فراخوانی شده است. سیستم ExtTerm در مرحله انتخاب اصطلاح مناسب با انتساب کاندیدهایی که نمره Termhood بالایی دارند بدون در نظر گرفتن تعداد تکرارشان غلبه کرده است.همچنین فیلتر زبانی Baseline در شناسایی اصطلاحات پیچیده و خطاهای \lr{POS-Tagged } دچار شکست شده است.
%\begin{figure}[!H]
%\centering
%\includegraphics[width=0.5\textwidth]{Bs.jpg}
%\caption{عملکرد Baseline در مقابل ExtTerm}
%\label{bs}
%\end{figure}
%\begin{figure}[!H]
%\centering
%\includegraphics[width=0.5\textwidth]{Lenght.jpg}
%\caption{اثر طول اصطلاح بر روی عملکرد}
%\label{lenght}
%\end{figure}
\subsection{Baseline در مقابل ExtTerm}  \label{section.influence}
نتایج قبلی نشان می دهد که سیستم ExtTerm توانسته اصطلاحات را بر خلاف طولشان با موفقیت استخراج کند.در این بخش ما آزمایشات جدیدی برای بررسی اثرات طول اصطلاح برروی عملکرد سیستم ExtTerm انجام می دهیم. 
ما دقت سیستمهای Extterm  و Baseline را برای $1000$  کاندید موردنظرمان بر اساس طولشان در $5$ گروه قرار داده ایم (شکل \ref{lenght}) .
عملکرد دو روش ExtTerm و Baseline برای استخراج اصطلاحات بیش تر از $4$کلمه محاسبه شده است.همان طور که در شکل \ref{lenght} مشاهده می کنید نرخ دقت سیستم Baseline با افزایش طول اصطلاح بدتر می شود اما نرخ دقت سیستم Extterm در طول های مختلف نسبتا دارای مقادیر ثابتی هستند.دلیل آن دشوار بودن در تشخیص اصطلاحات معتبر مانند
\lr{''filament Control Board Replacement Kit''}
از اصطلاحات نامعتبر مانند
\lr{''customer Helpdesk Collimator Shutter''}
می باشد.



\section{جمع بندی مطالب}\label{section.canc}
اکثر سیستم های استخراج اصطلاح امروزی به طور برجسته بر روی فایل های متنی بزرگی که از ساختار نوشتاری مناسبی برخوردار هستند،تمرکز کرده اند،مانند روزنامه ها و متن های پزشکی.این فایل های متنی دلایل قابل اطمینان زبانی و آماری ای فراهم میکنند که منجر به شناسایی راحت تر اصطلاحات میشود.به علاوه سیستم های TE امروزی اغلب به منابع دانش مانند هستان شناسی که دسترسی آسانی دارند،استناد میکنند.
در دامنه خدمات توسعه محصول مشتری به عنوان مثال یادداشت های اصلاحی مهندسان که تمایل زیادی به بی قاعده بودن و پراکندگی دارند که به سختی هم ایجاد شده اند،به راحتی نمیتوان اصطلاحات را شناسایی کرد.این سختی زمانی که با عدم دسترسی و فقدان منابع دانش دامنه خاص همراه شوند،بیشتر هم میشود.با توجه به دلایل فوق،چالش هایی در سیستم های استخراج اصطلاح امروزی مشاهده میشود که ما در این تحقیق در تلاشیم با ارائه سیستمی جدید این چالش ها را به حداقل رسانیده و شاهد عملکرد بهتری در علم استخراح اصطلاح باشیم.
برخلاف تکنیک های موجود در استخراج اصطلاح،ExtTerm به خوبی توانسته بر موضوع پراکندگی داده با تشخیص اصطلاحات کمیاب(اصطلاحاتی که فراوانی کمی در متن دارند) غلبه کند.ExtTerm همچنین توانسته به دقت اصطلاحات بی ربط حتی اگر بارها در متن ظاهر شده باشند را رد کند.به علاوه،ما در مطالب فوق به طور مفصل یک فکر تئوری از قالب واژه را ارائه دادیم که به جهت کشف اصطلاحات با هر طولی،که این طول میتواند شامل $2$ یا بیشتر از $2$کلمه باشد را شناسایی کند.همچنین،ما از منابع دانشی مانند Wikipedia که میتواند برای حمایت از استخراج اصطلاح از دامنه خاص مفید باشد را مورد استفاده قرار داده ایم.مزیت اصلی استناد کردن به این منابع این است که آن ها به آسانی دسترس پذیر بوده و همچنین منابعی بسیار وسیع و صحیح هستند.
\section{کاربرد و کارهای آینده}\label{section.aplication}
اصطلاحات استخراج شده به وسیله ExtTerm از یک متن با دامنه خاص برای مثال،یادداشت های اصلاحی مهندسان میتواند در جهت پیشرفت کیفیت محصولات سازمان ها نقش قابل توجهی را اعمال نماید و همچنین برای انواع فعالیت های هوشمندانه یک شغل مورد استفاده قرار گیرد.اگر فردی بخواهد علم جدیدی را بیاموزد نیازی نیست که تمام مقالات مربوط به آن علم خاص را بخواند بلکه تنها کافیست اصطلاحات مربوط به آن علم خاص را توسط سیستم پیشنهادی مان استخراج کند تا روند یادگیری سریع تر انجام شود.کارهای آینده که میتوان در این زمینه انجام داد،ایجاد یک سیستم استخراج اصطلاح برای زبان های دیگری مانند فرانسوی،هلندی و حتی فارسی میباشد.
\bibliographystyle{ieeetr-fa.bst}
\bibliography{myref.bib}
\nocite{*}
\end{document}