پیش بینی جهت بازگشت روزانه بورس با استفاده از الگوریتم های یادگیری ماشین ترکیبی

ساخت وبلاگ

تکنیک های تحلیلی داده های بزرگ مرتبط با الگوریتم های یادگیری ماشین نقش مهمی در زمینه های مختلف کاربردی از جمله سرمایه گذاری در بازار سهام دارند. با این حال ، مطالعات اندکی بر پیش بینی بازده روزانه بورس سهام متمرکز شده است ، به ویژه هنگام استفاده از تکنیک های قدرتمند یادگیری ماشین ، مانند شبکه های عصبی عمیق (DNN) ، برای انجام تجزیه و تحلیل. DNN ها از الگوریتم های مختلف یادگیری عمیق بر اساس ترکیب ساختار شبکه ، عملکرد فعال سازی و پارامترهای مدل استفاده می کنند ، با عملکرد آنها بسته به قالب نمایش داده ها. در این مقاله یک فرآیند جامع تجزیه و تحلیل داده های بزرگ برای پیش بینی جهت بازگشت روزانه SPDR S& P 500 ETF (نماد تیک: جاسوسی) بر اساس 60 ویژگی مالی و اقتصادی ارائه شده است. DNN ها و شبکه های عصبی مصنوعی سنتی (ANNS) سپس بر روی کل مجموعه داده های پیش پردازش شده اما غیرقابل انتقال ، به همراه دو مجموعه داده تبدیل شده از طریق تجزیه و تحلیل مؤلفه اصلی (PCA) ، برای پیش بینی جهت گیری روزانه بازده بازار سهام آینده مستقر می شوند. در حین کنترل بیش از حد ، الگویی برای دقت طبقه بندی DNN ها شناسایی و به عنوان تعداد لایه های پنهان به تدریج از 12 به 1000 افزایش می یابد. علاوه بر این ، مجموعه ای از روشهای آزمایش فرضیه در طبقه بندی اجرا می شود و نتایج شبیه سازینشان می دهد که DNN ها با استفاده از دو مجموعه داده ارائه شده PCA ، دقت طبقه بندی قابل توجهی بالاتری را نسبت به آنهایی که از کل مجموعه داده های غیرقابل انتقال استفاده می کنند ، و همچنین چندین الگوریتم یادگیری ماشین هیبریدی دیگر دارند. علاوه بر این ، استراتژی های معاملاتی با هدایت فرآیند طبقه بندی DNN بر اساس داده های ارائه شده PCA کمی بهتر از سایر موارد آزمایش شده عمل می کنند ، از جمله در مقایسه با دو معیار استاندارد.

معرفی

تکنیک های تحلیلی Big Data که با الگوریتم های یادگیری ماشین ایجاد شده اند ، در زمینه های مختلف کاربردی از جمله سرمایه گذاری در بازار سهام مورد توجه بیشتری قرار می گیرند. این امر عمدتاً به این دلیل است که الگوریتم های یادگیری ماشین به هیچ فرضیه ای در مورد داده ها احتیاج ندارند و اغلب به دقت بالاتری نسبت به مدلهای اقتصاد سنجی و آماری دست می یابند. به عنوان مثال ، شبکه های عصبی مصنوعی (ANNS) ، سیستم های فازی و الگوریتم های ژنتیکی توسط داده های چند متغیره و بدون فرضیات لازم هدایت می شوند. به عنوان مثال ، بسیاری از این روشها برای پیش بینی و تجزیه و تحلیل متغیرهای مالی اعمال شده است ، به عنوان مثال ، به Vellido ، Lisboa و Meehan (1999) مراجعه کنید. کیم و هان (2000) ؛Cao & Tay (2001) ؛Thawowong ، Dagli ، & Enke (2001) ؛Bogullu ، Enke ، & Dagli (2002) ؛هانسن و نلسون (2002) ؛وانگ (2002) ؛چن ، لئونگ ، و داوک (2003) ؛ژانگ (2003) ؛چون و کیم (2004) ؛شن و لوه (2004) ؛Thawowong & Enke (2004) ؛Armano ، Marchesi ، & Murru (2005) ؛Enke & Thawowong (2005) ؛Ture & Kurt (2006) ؛Amowattana و همکاران.(2007) ؛Enke & Mehdiyev (2013) ؛Zhong & Enke (2017a ، 2017b) ؛هوانگ و کو (2014) ؛هوانگ ، کو ، و پنگ (2017) ؛و نایاک و میرا (2018). یک بررسی جامع از این مطالعات توسط Atsalakis & Valavanis (2009) و Vanstone & Finnie (2009) انجام شد. با ویژگی های غیرخطی ، داده محور و آسان برای ژنرال ، تجزیه و تحلیل چند متغیره با ANN به یک ابزار تجزیه و تحلیل غالب و محبوب در امور مالی و اقتصاد تبدیل شده است. Refenes ، Burgess ، & Bentz (1997) و Zhang ، Patuwo و Hu (1998) استفاده از استفاده از ANNS را به عنوان یک روش پیش بینی در زمینه های مختلف دارایی و سرمایه گذاری از جمله مهندسی مالی بررسی می کنند.

به تازگی ، یادگیری عمیق به دلیل پیامدهای بسیار گسترده آن برای هوش مصنوعی ، به عنوان یک تکنیک قدرتمند یادگیری ماشین ظاهر شده است ، اگرچه روشهای یادگیری عمیق در حال حاضر به عنوان یک راه حل همه جانبه برای کاربرد مؤثر از هوش مصنوعی در نظر گرفته نمی شوند. ANN ها با استفاده از الگوریتم های مختلف یادگیری عمیق به عنوان شبکه های عصبی عمیق (DNN) طبقه بندی می شوند ، که در بسیاری از زمینه های مهم مانند تشخیص خودکار گفتار ، تشخیص تصویر ، پردازش زبان طبیعی ، کشف مواد مخدر و سم شناسی ، مدیریت ارتباط با مشتری ، سیستم های توصیه ، به کار رفته است. و بیوانفورماتیک که در آن اغلب نشان داده شده است که نتایج بهبود یافته ای را برای کارهای مختلف تولید می کند.

علاوه بر این ، برای شبکه های عصبی با توپولوژی های مختلف برای دستیابی به نتایج دقیق با انتخاب عمدی متغیرهای ورودی بسیار مهم است (لام ، 2004 ؛ حسین و همکاران ، 2007). تأثیرگذارترین و نماینده ورودی ها را می توان با استفاده از فناوری های کاهش ابعاد بالغ ، مانند تجزیه و تحلیل مؤلفه اصلی (PCA) ، و انواع آن تجزیه و تحلیل مؤلفه اصلی قوی (FRPCA) و تجزیه و تحلیل مؤلفه اصلی مبتنی بر هسته (KPCA) ، از جمله دیگر انتخاب کرد. PCA یک روش خطی آماری کلاسیک و شناخته شده برای استخراج تأثیرگذارترین ویژگی ها از یک فضای داده با ابعاد بالا است. ون در مااتن و همکاران.(2009) PCA را با 12 تکنیک کاهش ابعادی غیرخطی با 12 خط مقدم مقایسه کنید ، مانند مقیاس بندی چند بعدی ، ایزومپ ، حداکثر واریانس آشکار شدن ، نقشه های انتشار KPCA ، اتوآنمان های چند لایه ، تعبیه کننده خطی محلی ، Eigenmaps Laplacian ، Hessian Lle ، محلی آنالیز محلی ، تجزیه و تحلیل فضای محلی ، فضای محلی. هماهنگی خطی و نمودار منیفولد ، با استفاده از هر یک از کارهای خود ایجاد شده و طبیعی. نتایج نشان می دهد که اگرچه تکنیک های غیرخطی روی داده های مصنوعی منتخب عملکرد خوبی دارند ، اما هیچ یک از آنها با استفاده از داده های دنیای واقعی از PCA سنتی بهتر عمل نمی کنند. علاوه بر این ، Sorzano ، Vargas ، & Pascual-Montano (2014) بیان می کنند که در بین تکنیک های کاهش ابعاد موجود ، PCA و نسخه های آن مانند PCA استاندارد ، PCA قوی ، PCA پراکنده و KPCA هنوز هم برای سادگی و سادگی آنها ترجیح داده می شوند. شهودی

تعداد کمی از مطالعات بر پیش بینی بازده روزانه بورس با استفاده از الگوریتم های یادگیری ماشین ترکیبی متمرکز شده است. Zhong & Enke (2017a) مطالعه ای در مورد کاهش ابعاد با برنامه ای برای پیش بینی جهت بازگشت روزانه SPDR S& P 500 ETF (نماد تیک: جاسوسی) با استفاده از طبقه بندی کننده های ANN ارائه می دهد. آنها مدل های مختلف ANN را مقایسه می کنند و می دانند که در بین PCA و دو نوع محبوب آن ، FRPCA و KPCA ، طبقه بندی کننده های ANN مبتنی بر PCA بهترین پیش بینی کننده جهت بازگشت روزانه ETF بر روی داده های مختلف تبدیل شده با استفاده از PCA هستند (Zhong & Enke ،2017a). همچنین ، Zhong & Enke (2017b) یک روش جامع داده کاوی ، از جمله معدن خوشه ای و طبقه بندی را برای پیش بینی جهت بازگشت روزانه ETF انجام می دهد. آنها نشان می دهند که طبقه بندی کننده های ANN مبتنی بر PCA منجر به دقت بیشتری نسبت به سه مدل مختلف رگرسیون لجستیک مبتنی بر PCA می شوند ، از جمله آنهایی که با موفقیت از خوشه بندی C فازی استفاده کرده اند. Chong ، Han ، & Park (2017) اخیراً مزایا و اشکالاتی از استفاده از الگوریتم های یادگیری عمیق برای تجزیه و تحلیل سهام و پیش بینی را بررسی می کنند ، اما مطالعه آنها بر پیش بینی بازگشت سهام در داخل است.

در این مطالعه ، جهت بازگشت روزانه SPDR S& P 500 ETF با استفاده از یک روش معدن طبقه بندی عمداً طراحی شده بر اساس الگوریتم های یادگیری ماشین ترکیبی پیش بینی شده است. این فرآیند با پیش پردازش داده های خام برای مقابله با مقادیر مفقود شده ، خارج از کشور و نمونه های ناسازگار آغاز می شود. ANN و DNN ها ، هر یک به عنوان طبقه بندی کننده عمل می کنند ، سپس با کل مجموعه داده های غیرقابل انتقال و مجموعه داده های ارائه شده PCA برای پیش بینی جهت بازده بازار روزانه در آینده استفاده می شوند. باقیمانده این مقاله در مورد جزئیات مطالعه مورد بحث قرار می گیرد و به شرح زیر سازماندهی می شود. توضیحات داده و پیش پردازش در مرحله بعدی معرفی می شود ، از جمله تبدیل کل مجموعه داده ها از طریق PCA. معماری ، توپولوژی شبکه و الگوریتم های یادگیری DNN های تازه توسعه یافته ، به همراه معیار قبلی موفق ANN ، که هر دو برای طبقه بندی جهت بازگشت استفاده می شوند ، مورد بحث قرار می گیرد. روش پیش بینی سه مجموعه داده مختلف با طبقه بندی کننده های DNN ، همراه با نتایج طبقه بندی و الگوی دقت طبقه بندی مربوط به تعداد لایه های پنهان شرح داده شده است. یک معیار استاندارد همچنین با نتایج طبقه بندی کننده ANN مبتنی بر PCA مقایسه شده است. نتایج شبیه سازی از استراتژی های معاملاتی مبتنی بر طبقه بندی کننده های DNN در سه مجموعه داده با یکدیگر مقایسه شده است و نتایج استراتژی های معاملاتی مبتنی بر ANN در مقایسه با دو معیار بحث شده است. سرانجام ، نتیجه گیری اظهارات و کارهای آینده پیشنهادی ارائه شده است.

توضیحات داده و پیش پردازش

شرح داده ها

پیش پردازش داده ها

نرمال سازی داده ها

با توجه به اینکه داده های مورد استفاده در این مطالعه شامل 60 عامل بیش از 2518 روز معاملاتی است ، به طور همواره مقادیر گمشده ، نمونه های عدم تطابق و خارج از کشور وجود دارد. با این حال ، کیفیت داده ها عامل مهمی است که می تواند در دقت پیش بینی تفاوت ایجاد کند ، و بنابراین ، پیش پردازش داده های خام ضروری است. با استفاده از 2518 روز معاملاتی در طی دوره 10 ساله ، نمونه های جمع آوری شده از روزهای دیگر در ابتدا حذف می شوند. اگر مقادیر N برای هر متغیر یا ستونی که به طور مداوم از دست می رود وجود داشته باشد ، میانگین مقادیر موجود N در هر دو طرف مقادیر از دست رفته برای پر کردن مقادیر گمشده N استفاده می شود. یک اصل آماری ساده اما کلاسیک برای تشخیص مسافت های احتمالی استفاده می شود (Navidi ، 2011). قسمتهای خارج از کشور با استفاده از روشی مشابه با روشی که توسط Cao & Tay استفاده می شود (2001) تنظیم می شوند. به طور خاص ، برای هر یک از 60 عامل یا ستون موجود در داده ها ، هر مقدار فراتر از فاصله (س1- 1. 5 ∗ iqr ، q3+ 1. 5 ∗ IQR) به عنوان یک دوربرد ممکن در نظر گرفته می شود ، با مقدار فاکتور جایگزین مرز نزدیکتر فاصله. اینجا ، س.1و س3کوارتیل های اول و سوم ، به ترتیب ، از تمام مقادیر موجود در آن ستون و IQR = q هستند3- q1interquartile این مقادیر است. تقارن همه ستون های تنظیم شده و تمیز شده را می توان با استفاده از هیستوگرام یا تست های آماری بررسی کرد. به عنوان مثال ، شکل 1 شامل هیستوگرام جاسوسی فاکتور استحرف(یعنی بازگشت روزانه جاسوسی) ، قبل و بعد از پردازش داده ها (Zhong & Enke ، 2017a). می توان مشاهده کرد که قسمتهای خارج از کشور برداشته می شوند و تقارن پس از تنظیمات حاصل می شود.

figure 1

در این مطالعه ، ANNS و DNN برای تشخیص الگوی به عنوان طبقه بندی کننده ها استفاده می شوند. در شروع روش معدن طبقه بندی ، داده های تمیز شده به صورت متوالی به سه بخش تقسیم می شوند: داده های آموزش (70 ٪ اول داده ها) ، داده های اعتبار سنجی (15 ٪ آخر 85 ٪ اول داده ها) وداده های آزمایش (15 ٪ آخر داده ها).

تبدیل داده ها با استفاده از PCA

به عنوان یکی از اولین تکنیک های چند متغیره ، PCA قصد دارد ضمن حفظ واریانس حداکثر و ساختار کوواریانس داده ها ، یک نمایش کم بعدی از داده ها را ایجاد کند (جولیف ، 1986). برای دستیابی به این هدف ، نقشه برداری خطی که می تواند به حداکثر رساندن w t var (x) w ، جایی که var (x) ماتریس واریانس کواریانس داده x است ، نیاز به ایجاد دارد. با توجه به اینکه W توسط نمایندگان اصلی VAR (X) تشکیل می شود ، PCA به نظر می رسد که یک Eigenproblem var (x) w = λW است ، جایی که λ نمایانگر مقادیر ویژه var (x) است. همچنین مشخص شده است که کار بر روی داده های خام X به جای داده های استاندارد با PCA تمایل به تأکید بر متغیرهایی دارد که دارای واریانس بالاتری بیشتر از متغیرهایی هستند که واریانس بسیار کمی دارند ، به خصوص اگر واحدهایی که متغیرها اندازه گیری می شوند متناقض باشند. در این مطالعه ، همه متغیرها در همان واحدها اندازه گیری نمی شوند. بنابراین ، در اینجا ، PCA در واقع برای نسخه استاندارد شده از داده های تمیز X اعمال می شود. روش خاص در زیر آورده شده است.

ابتدا نقشه برداری خطی w in به گونه ای جستجو می شود که

$ $ corr سمت چپ ( boldsymbol ight)>^=<x08oldsymbol<lambda>>^>^, $$

و Corr (x) ماتریس همبستگی داده x است. فرض کنید Data X دارای فرمت x = (x است1ایکس2⋯ xمگس) ؛سپس Corr (x) = ρ یک ماتریس m × m است ، جایی که m ابعاد داده ها است و عنصر ij th از ماتریس همبستگی است

$$ corrleft(>_>,>_> راست) = _ = frac<sigma_>_j>, $$اجازه دهید (<x08oldsymbol<lambda>>^=<left<<lambda>_i^ ight>>_^m ) مقادیر ویژه ماتریس همبستگی (x) را نشان می دهد که ( ke0. 5EM<lambda>_1^ ge<lambda>_2^ ge cdots ge<lambda>_M^ ) and the vectors (>_>^>= سمت چپ (_ _ cdots _ راست) ) مشخصات ویژه Corr (x) مربوط به مقادیر ویژه را مشخص کنید (<lambda>_i^ ) ، i = 1 ، 2 ،… ، م. عناصر این موارد ویژه را می توان ثابت کرد که ضرایب اجزای اصلی است.

 

ثانیا ، مؤلفه های اصلی داده های استاندارد به عنوان ارائه شده است

آموزش تحلیل گری...
ما را در سایت آموزش تحلیل گری دنبال می کنید

برچسب : نویسنده : ملیکا زارعی بازدید : 41 تاريخ : سه شنبه 3 مرداد 1402 ساعت: 20:43