ویژگی های مهم نشانه ها

ساخت وبلاگ

با توجه به یک توالی کاراکتر و یک واحد سند مشخص ، توکن سازی وظیفه خرد کردن آن به صورت قطعات به نام نشانه ها است ، شاید در عین حال شخصیت های خاصی مانند نگارشی را دور بیندازد. در اینجا نمونه ای از نشانه گذاری آورده شده است:

این نشانه ها اغلب به عنوان اصطلاحات یا کلمات از آن استفاده می شوند ، اما گاهی اوقات مهم است که یک نوع تمایز نوع/نشانه را ایجاد کنید. توکن نمونه ای از دنباله ای از شخصیت ها در برخی از سند های خاص است که به عنوان یک واحد معنایی مفید برای پردازش گروه بندی می شوند. یک نوع کلاس از تمام نشانه های حاوی یک دنباله کاراکتر یکسان است. یک اصطلاح یک نوع (شاید عادی) است که در فرهنگ لغت سیستم IR گنجانده شده است. به عنوان مثال ، مجموعه اصطلاحات شاخص می تواند کاملاً متمایز از نشانه ها باشد ، به عنوان مثال ، آنها می توانند شناسه معنایی در یک طبقه بندی باشند ، اما در عمل در سیستم های مدرن IR آنها به شدت با نشانه های موجود در سند مرتبط هستند. با این حال ، به جای اینکه دقیقاً نشانه هایی که در سند ظاهر می شوند ، معمولاً توسط فرآیندهای مختلف عادی سازی که در بخش 2. 2. 3 مورد بحث قرار می گیرد ، از آنها گرفته می شود. به عنوان مثال ، اگر سندی که باید ایندکس شود ، خوابیدن به خواب برای خواب است ، 5 نشانه وجود دارد ، اما فقط 4 نوع (از آنجا که 2 مورد وجود دارد). با این حال ، اگر از شاخص حذف شود (به عنوان یک کلمه توقف ، به بخش 2. 2. 2 (صفحه) مراجعه کنید) ، پس فقط 3 اصطلاح وجود خواهد داشت: خواب ، پرشور و رویا.

سوال اصلی مرحله توکن سازی این است که نشانه های صحیحی برای استفاده وجود دارد؟در این مثال ، نسبتاً بی اهمیت به نظر می رسد: شما روی فضای سفید خرد می کنید و شخصیت های نگارشی را دور می زنید. این یک نقطه شروع است ، اما حتی برای انگلیسی تعدادی از موارد پیچیده نیز وجود دارد. به عنوان مثال ، در مورد کاربردهای مختلف آپوستروف برای مالکیت و انقباضات چه کاری انجام می دهید؟

یک استراتژی ساده فقط تقسیم بر همه شخصیت های غیر آلفانوم است ، اما در حالی که به نظر می رسد خوب است ، به نظر شهودی بد است. برای همه آنها ، انتخاب ها تعیین می کنند که چه سؤالات بولی مطابقت دارد. پرس و جو از نیل و سرمایه در سه مورد مطابقت خواهد داشت اما دو مورد دیگر نیست. در چند مورد ، پرس و جو از O'Neill و Capital مطابقت دارد؟اگر پیش پردازش پرس و جو انجام نشود ، فقط در یکی از پنج مورد مطابقت دارد. برای هر دو نمایش داده های بولی یا متن رایگان ، شما همیشه می خواهید دقیقاً همان نشانه سازی اسناد و کلمات پرس و جو را انجام دهید ، به طور کلی با پردازش پرس و جو با همان توکین ساز. این تضمین می کند که دنباله ای از کاراکترها در یک متن همیشه با همان دنباله تایپ شده در یک پرس و جو مطابقت دارد.

این موضوعات نشانه گذاری خاص زبان است. بنابراین نیاز به شناخته شدن زبان سند دارد. شناسایی زبان بر اساس طبقه بندی کننده هایی که از ویژگی های شخصیت کوتاه به عنوان ویژگی ها استفاده می کنند بسیار مؤثر است. بیشتر زبانها از الگوهای امضای متمایز برخوردار هستند (برای منابع به صفحه 2. 5 مراجعه کنید).

برای اکثر زبانها و حوزه های خاص در درون آنها ، نشانه های خاص غیرمعمول وجود دارد که ما می خواهیم به عنوان اصطلاحات ، مانند زبان های برنامه نویسی C ++ و C#، نام هواپیما مانند B-52 یا نام T. V. مانند M*A*S*را تشخیص دهیم. ح - که به اندازه کافی در فرهنگ عامه ادغام شده است که استفاده هایی از قبیل بیمارستان های M*a*S*H را پیدا می کنید. فناوری رایانه انواع جدیدی از توالی های شخصیت را معرفی کرده است که احتمالاً یک توکین کننده باید به عنوان یک نشانه واحد از جمله آدرس های ایمیل (jblack@mail. yahoo.com) ، URL های وب (http://stuff. big.com/new/specials) به آن اشاره کند.html) ، آدرس های IP عددی (142. 32. 48. 231) ، شماره های ردیابی بسته (1Z9999W99845399981) و موارد دیگر. یک راه حل ممکن این است که از نمایه سازی نشانه هایی مانند مبلغ پولی ، شماره ها و URL ها حذف شود ، زیرا حضور آنها تا حد زیادی اندازه واژگان را گسترش می دهد. با این حال ، این امر با هزینه زیادی در محدود کردن آنچه مردم می توانند جستجو کنند. به عنوان مثال ، افراد ممکن است بخواهند در یک پایگاه داده اشکال برای شماره خط که در آن خطایی رخ می دهد جستجو کنند. مواردی از قبیل تاریخ یک ایمیل ، که از نوع معنایی مشخصی برخوردار هستند ، اغلب به طور جداگانه به عنوان پارامتری ابرداده اسناد فهرست بندی می شوند.

به زبان انگلیسی ، از Hyphenation برای اهداف مختلف اعم از تقسیم واکه ها در کلمات (آموزش مشترک) گرفته تا پیوستن به اسم ها به عنوان نام (Hewlett-Packard) گرفته تا یک دستگاه کپی شده برای نشان دادن گروه بندی کلمات استفاده می شود (نگهدارمانور-هیم-دور). به راحتی می توان احساس کرد که نمونه اول باید به عنوان یکی از نشانه ها در نظر گرفته شود (و در واقع معمولاً به عنوان فقط هماهنگی نوشته شده است) ، آخرین مورد باید به کلمات جدا شود ، و این که پرونده میانی مشخص نیست. به همین ترتیب دست زدن به Hyphens به طور خودکار می تواند پیچیده باشد: این امر می تواند به عنوان یک مشکل طبقه بندی انجام شود ، یا به طور معمول توسط برخی از قوانین اکتشافی ، مانند اجازه دادن پیشوندهای کوتاه شده کوتاه روی کلمات ، اما اشکال طولانی تر نیست.

از نظر مفهومی، تقسیم بر روی فضای سفید می تواند چیزی را که باید به عنوان یک نشانه واحد در نظر گرفته شود نیز تقسیم کند. این معمولاً با نام ها (سان فرانسیسکو، لس آنجلس) و همچنین در مورد عبارات خارجی قرض گرفته شده (au fait) و ترکیباتی که گاهی به صورت یک کلمه و گاهی با فاصله از هم جدا می شوند (مانند فضای سفید در مقابل فضای سفید) رخ می دهد. موارد دیگر با فضاهای داخلی که ممکن است بخواهیم آنها را به عنوان یک نشانه واحد در نظر بگیریم عبارتند از شماره تلفن ((800) 234-2333) و تاریخ (11 مارس 1983). تقسیم نشانه ها در فضاها می تواند نتایج بدی در بازیابی ایجاد کند، برای مثال، اگر جستجوی دانشگاه یورک عمدتاً اسناد حاوی دانشگاه نیویورک را بازگرداند. مشکلات خط تیره و فضای خالی غیر جداکننده حتی می توانند در تعامل باشند. تبلیغات کرایه هواپیما اغلب حاوی مواردی مانند سانفرانسیسکو-لس آنجلس است که صرفاً تقسیم فضای خالی نتایج ناگواری به همراه خواهد داشت. در چنین مواردی، مسائل مربوط به توکن سازی با رسیدگی به پرس و جوهای عبارت (که در بخش 2. 4 (صفحه) مورد بحث قرار می دهیم) در تعامل است، به ویژه اگر بخواهیم پرس و جوها برای همه حروف کوچک، حروف کوچک و کوچک نتایج یکسانی را نشان دهند. دو مورد آخر را می توان با تقسیم بر روی خط تیره و استفاده از یک شاخص عبارت مدیریت کرد. درست کردن اولین مورد بستگی به دانستن این دارد که گاهی اوقات به صورت دو کلمه ای نوشته می شود و همچنین به این شکل نمایه می شود. یکی از استراتژی های مؤثر در عمل، که توسط برخی از سیستم های بازیابی Boolean مانند Westlaw و Lexis-Nexis (westlaw) استفاده می شود، تشویق کاربران به وارد کردن خط تیره ها در هر کجا که ممکن است، است، و هر زمان که یک شکل خط فاصله وجود داشته باشد، سیستم تعمیم می دهد. پرس و جو برای پوشش هر سه شکل یک کلمه، خط فاصله، و دو شکل کلمه، به طوری که یک پرس و جو برای بیش از حد مشتاق، بیش از حد مشتاق یا "بیش از مشتاق" یا بیش از حد مشتاق جستجو می کند. با این حال، این استراتژی به آموزش کاربر بستگی دارد، زیرا اگر با استفاده از یکی از دو فرم دیگر پرس و جو کنید، تعمیم نمی یابید.

هر زبان جدید موضوعات جدیدی را ارائه می دهد. به عنوان مثال ، فرانسوی از نوع استفاده از آپوستروف برای یک مقاله قطعی کاهش یافته قبل از کلمه شروع با یک مصوت (به عنوان مثال ، L'S onsemble) استفاده می کند و برخی از موارد استفاده از هیفن را با ضمیر کلیتی پس از آن در ضروریات و سؤالات دارد (به عنوان مثال ، دونن.-موی به من بده). دریافت صحیح مورد اول بر نمایه سازی صحیح درصد منصفانه اسم ها و صفت ها تأثیر می گذارد: شما می خواهید اسنادی را ذکر کنید که هر دو گروه L'Smble و UN را ذکر می کنند ، تحت گروه موسیقی فهرست بندی می شوند. زبانهای دیگر به روش های جدید مشکل را سخت تر می کنند. آلمانی اسمهای مرکب را بدون فضاها می نویسد (به عنوان مثال ، ComputerLinguistik "زبانشناسی محاسباتی" ؛ Lebensversicherungsgesellschaftsangestellter «کارمند شرکت بیمه عمر»). سیستم های بازیابی برای آلمانی از استفاده از یک ماژول مرکب از هم بهره مند می شوند ، که معمولاً با دیدن اینکه آیا یک کلمه می تواند به کلمات مختلفی که در یک واژگان ظاهر می شوند ، تقسیم شود. این پدیده با زبانهای اصلی آسیای شرقی (به عنوان مثال ، چینی ، ژاپنی ، کره ای و تایلندی) به حد مجاز خود می رسد ، جایی که متن بدون هیچ فاصله ای بین کلمات نوشته شده است. یک مثال در شکل 2. 3 نشان داده شده است. یک رویکرد در اینجا انجام تقسیم بندی کلمات به عنوان پردازش زبانی قبلی است. روشهای تقسیم کلمه از داشتن یک واژگان بزرگ و طولانی ترین تطابق واژگان با برخی از اکتشافات برای کلمات ناشناخته به استفاده از مدل های توالی یادگیری ماشین ، مانند مدل های مخفی مارکوف یا زمینه های تصادفی مشروط ، آموزش داده شده بر روی کلمات دسته بندی شده متفاوت است (نگاه کنیدمنابع در بخش 2. 5). از آنجا که چندین بخش احتمالی توالی شخصیت وجود دارد (شکل 2. 4 را ببینید) ، همه این روش ها گاهی اشتباه می کنند ، بنابراین شما هرگز یک نشانه سازی منحصر به فرد ثابت را تضمین نمی کنید. رویکرد دیگر این است که از فهرست بندی های مبتنی بر کلمه رها شوید و تمام فهرست بندی ها را از طریق پیامدهای کوتاه شخصیت ها (شخصیت های شخصیت) انجام دهید ، صرف نظر از اینکه توالی های خاص از مرزهای کلمه عبور می کنند یا خیر. سه دلیل جذابیت این رویکرد این است که یک شخصیت چینی فردی بیشتر از یک نامه شبیه به هجا است و معمولاً محتوای معنایی دارد ، که بیشتر کلمات کوتاه هستند (رایج ترین طول 2 کاراکتر است) و با توجه به عدم استاندارد سازیاز شکستن کلمه در سیستم نوشتن ، همیشه مشخص نیست که به هر حال مرزهای کلمه باید در کجا قرار بگیرند. حتی به زبان انگلیسی ، برخی از مواردی که باید مرزهای کلمه را قرار دهیم فقط کنوانسیون های ارتوگرافی هستند - با وجود Vs.

ناگفته نماند یا در مقابل در مقابل - اما مردم آموزش داده شده اند که کلمات را با استفاده مداوم از فضاها بنویسند.

شکل استاندارد متن چینی با استفاده از شخصیت های ساده سرزمین اصلی چین وجود ندارد. بین کلمات وجود ندارد ، حتی بین جملات - فضای ظاهری بعد از دوره چینی () فقط یک توهم تایپی است که با قرار دادن شخصیت در سمت چپ ایجاد می شوداز جعبه مربع آنجمله اول فقط کلمات در شخصیت های چینی است که هیچ فاصله ای بین آنها وجود ندارد. جملات دوم و سوم شامل اعداد عربی و نگارشی شخصیت های چینی است.

آموزش تحلیل گری...
ما را در سایت آموزش تحلیل گری دنبال می کنید

برچسب : نویسنده : ملیکا زارعی بازدید : 42 تاريخ : پنجشنبه 14 ارديبهشت 1402 ساعت: 20:29