مواد مکمل الکترونیکی بصورت آنلاین در https://doi. org/10. 6084/m9. figshare. c. 5522920 در دسترس است.
منتشر شده توسط انجمن سلطنتی تحت شرایط مجوز انتساب Creative Commons http://creativeecommons. org/licenses/by/4. 0/ ، که امکان استفاده نامحدود را فراهم می کند ، مشروط بر اینکه نویسنده و منبع اصلی اعتبار داشته باشند.
داده های مرتبط
داده ها و کد مربوطه برای این کار تحقیق در GitHub ذخیره می شود: https://github.com/ffaltings/news_and_markets/tree/v0. 1 و در مخزن Zenodo بایگانی شده است: https://doi. org/10. 5281/zenodoo. 5013220.
خلاصه
ما انتشار و جذب مقالات خبری در مقیاس بزرگ را از شبکه جهانی وب به بازارهای مالی کمیت می کنیم. برای استخراج اطلاعات در دسترس عموم ، ما از بایگانی های خبری از Common Crawl ، یک سازمان غیرانتفاعی استفاده می کنیم که بخش بزرگی از وب را خزنده می کند. ما یک خط لوله پردازش را برای شناسایی مقالات خبری مرتبط با شرکت های تشکیل دهنده در شاخص S& P 500 ، یک شاخص بازار سهام که عملکرد سهام شرکت های آمریکایی را اندازه گیری می کند ، تهیه می کنیم. با استفاده از تکنیک های یادگیری ماشین ، ما نمرات احساسات را از داده های اخبار Crawl Crawl استخراج می کنیم و از ابزارهایی از تئوری اطلاعات استفاده می کنیم تا انتقال اطلاعات از مقالات خبری عمومی به بازار سهام ایالات متحده را تعیین کنیم. علاوه بر این ، ما اهمیت اقتصادی اطلاعات مبتنی بر اخبار را با یک استراتژی معاملاتی مبتنی بر احساسات مبتنی بر احساسات ، تجزیه و تحلیل و کمیت می کنیم. یافته های ما پشتیبانی از این اطلاعات را در اخبار عمومی در مورد شبکه جهانی ارائه می دهد ، از نظر آماری و اقتصادی تأثیر قابل توجهی در وقایع در بازارهای مالی دارد.
1. معرفی
مطالعات تأثیر حدس و گمان و ورود اطلاعات بر پویایی قیمت اوراق بهادار مالی دارای سابقه طولانی است و به کار اولیه کارشناسی [1] در سال 1900 و ماندلبروت [2] در سال 1963 باز می گردد (نگاه کنید به Jarrow & Protter [3]برای یک گزارش تاریخی از این و تحولات مرتبط). در سال 1970 ، FAMA [4] فرضیه بازار کارآمد در اقتصاد مالی را تدوین کرد و اظهار داشت که قیمت های امنیتی تمام اطلاعات در دسترس عموم را منعکس می کند. اندکی پس از آن در سال 1973 ، کلارک [5] ترکیبی از فرضیه توزیع را پیشنهاد کرد که ادعا می کند پویایی بازده قیمت توسط جریان اطلاعات موجود در اختیار معامله گران اداره می شود. پس از آن ، مدل های جدید مانند مدل ورود اطلاعات پی در پی [6] ، اخبار پرش دینامیک [7] ، هر دو در دهه 1980 ، و فرآیندهای مالیات کوتاه از اکونوفیزیک [8] در دهه 1990 ، معرفی شدند تا چند نمونه را ذکر کنند. با ظهور شبکه جهانی وب و رسانه های اجتماعی فراوانی از داده های در دسترس به وجود آمد و این امکان را برای مطالعات دقیق تر در مورد تأثیر اخبار در بازارهای مالی در مقیاس های مختلف فراهم کرد [9-17]. داده های بزرگ ، همراه با پیشرفت در یادگیری ماشین (ML) [18] و تحقیقات سیستم های پیچیده [19-22] ، تجزیه و تحلیل کارآمدتر از داده های مالی [23] ، مانند داده های وب [24-39] ، رسانه های اجتماعی [[23] را فعال کرد. 40-44] ، پرس و جوهای جستجوی وب [45-47] ، وبلاگ های آنلاین [48،49] و سایر منابع داده جایگزین [50].
در این مقاله ، ما از مقالات خبری از Common Crawl News ، زیر مجموعه ای از Petabytes Clar Crawl از بایگانی های وب جهانی در دسترس عمومی استفاده می کنیم تا تأثیر ورود اطلاعات جدید در مورد سهام تشکیل دهنده در فهرست S& P 500 را در شاخص S& P 500 اندازه گیری کنیم. زمان انتشاربه بهترین دانش ما ، مطالعه ما اولین کسی است که از داده های اخبار Crawl مشترک از این طریق استفاده می کند. ما یک خط لوله پردازش مبتنی بر ابر ایجاد می کنیم که مقالات خبری را در مجموعه داده ها که مربوط به شرکت های S& P 500 است ، شناسایی می کند. از آنجا که بایگانی داده های عمومی خزنده مشترک بزرگتر می شوند ، آنها برای بسیاری از داده های گرسنه در دنیای واقعی باز می شوندبرنامه هایی مانند مدل های ترانسفورماتور مانند GPT [51] و BERT [52] ، کلاس اخیر مدلهای زبان یادگیری عمیق. ما معتقدیم که منابع عمومی داده های خبری نه تنها در پردازش زبان طبیعی (NLP) و بازارهای مالی مهم هستند ، بلکه در سیستم های پیچیده و علوم اجتماعی محاسباتی که هدف از آن برای توصیف (MIS) انتشار اطلاعات و پویایی در تکنو-اجتماعی-اقتصادی هستندسیستم های. فراوانی داده های با فرکانس بالا در بازارهای مالی ، محققان سیستم های پیچیده را قادر می سازد که دارای مشاهدات میکروسکوپی باشند و امکان آزمایش و تأیید فرضیه ها و نظریه هایی را فراهم می کند که قبلاً امکان پذیر نبودند.
با استفاده از روشهای ML از NLP [53،54] ما برای هر مقاله خبری در مخزن اخبار Crowl Crawl ، احساسات را تجزیه و تحلیل و استخراج می کنیم ، و یک امتیاز در محدوده از صفر به یک را نشان می دهیم که نشان دهنده منفی ترین (صفر) از طریق مثبت ترین (یک) احساسات است. وادبرای تعیین کمیت انتشار اطلاعات از مقالات خبری در دسترس عمومی در وب جهانی به شرکتهای موجود در فهرست S& P 500 ، ما از دو روش مختلف استفاده می کنیم. اول ، ما از ابزارهایی از تئوری اطلاعات سیستم های پیچیده [20،22،55] برای اندازه گیری تأثیر انتقال اطلاعات نمرات احساسات اخبار در بازده شرکت های تشکیل دهنده در شاخص S& P 500 در سطح داخلی استفاده می کنیم. دوم ، ما بازده روزانه نمونه کارها را که ناشی از یک استراتژی ساده تجارت بر اساس نمرات اخبار اخبار استخراج شده برای هر شرکت است ، پیاده سازی و شبیه سازی می کنیم. ما از بازده این استراتژی به عنوان یک ابزار اقتصاد سنجی استفاده می کنیم و آن را با چندین استراتژی معیار مقایسه می کنیم که شامل احساسات خبری نیست. یافته های ما پشتیبانی از این اطلاعات را در اخبار عمومی در مورد شبکه جهانی ارائه می دهد ، از نظر آماری و اقتصادی تأثیر قابل توجهی در وقایع در بازارهای مالی دارد.
2. روشها
2. 1داده های خزنده مشترک
داده های خبری از بسیاری از منابع آنلاین از جمله روزنامه ها ، رسانه های خبری و جمع آوری خبر در دسترس است. مونتاژ مجموعه داده ای که زیر مجموعه نماینده این منابع را در بر می گیرد ، یک کار اصلی است. به عنوان مثال ، حدود سه سال و نیم طول کشید تا Google یک نسخه نسخه آماده Google News را تهیه کند. 1 در این مقاله ، ما از یک مجموعه عمومی عمومی از Common Crawl ، یک سازمان غیرانتفاعی استفاده می کنیم که داده ها را از شبکه جهانی وب جمع می کند. از زمان شروع سال 2008 ، CRAWL CRAMIT PETABYTES DATA را جمع آوری کرده است و توسعه دهندگان آنها همچنان به بهبود سیستم خود و گسترش تعداد وب سایت های بازدید شده توسط خزنده خود ادامه داده اند.
ما تجزیه و تحلیل خود را با استفاده از اخبار Clar Crawl ، زیر مجموعه ای از مجموعه داده های خزنده مشترک که فقط شامل مقالات خبری است ، انجام دادیم. 2 از آغاز آن در سال 2016 تا پایان فوریه 2020 ، Common Crawl حدود هشت ترابایت اخبار را از منابع خبری در دسترس عمومی در شبکه جهانی وب جمع آوری کرد ، که مربوط به حدود 400 میلیون مقاله است که طیف گسترده ای از موضوعات را به زبان های مختلف پوشش می دهدواد
شکل 1 مراحلی را که در پردازش مجموعه داده های خبری Crawl Crawl انجام داده ایم ، نشان می دهد. پردازش این مجموعه داده به دلیل اندازه آن ، قالب خام محتوا ، قالب های مختلف HTML که در وب سایت ها و پوشش گسترده موضوعات و زبانهای مختلف استفاده می شود ، پیچیده است. علاوه بر این ، به عنوان بخشی از پردازش ، ما مجبور شدیم چندین مسئله از جمله (i) استخراج متن اصلی و اطلاعات متا اضافی مانند زمان بندی از رشته های HTML هر مقاله را مورد بررسی قرار دهیم ، (ب) تطبیق هر مقاله با نام ها و تیک های شرکت مربوطه، (iii) تصمیم گیری در مورد کدام مقاله مربوط به عملکرد مالی شرکت موضوع ، و (IV) حذف هرگونه مقاله خبری تکراری موجود در داده ها. پس از پردازش ، ما یک مجموعه داده حدود 1. 3 میلیون مقاله مالی داریم که به زبان انگلیسی از آگوست 2016 تا فوریه 2020 به زبان انگلیسی پوشش داده شده است. برای هر مقاله ، URL ، زمان انتشار ، زمان خزیدن ، عنوان و کلیه شرکت های مؤسس ارجاع شده را در آن شناسایی می کنیم. فهرست S& P 500. ما جزئیات خط لوله پردازش خود را در مواد تکمیلی الکترونیکی ، روش های S1 و جدول S1 شرح می دهیم.

خط لوله مستقر شده برای پردازش و تبدیل مجموعه داده های خبری خزنده مشترک به مجموعه داده های مورد استفاده توسط مدل Sentiment. هر کادر یک مرحله از خط لوله را نشان می دهد که در آن مراحل تبدیل داده ها و فیلترها اعمال می شود. اعداد در کنار فلش نشان می دهد که چند مقاله از یک مرحله به مرحله دیگر منتقل می شوند. درصد در براکت ها پس از هر مرحله فیلتر ، نسبت مقالات حذف شده در آن مرحله خاص را نشان می دهد.
2. 2آنتروپی انتقال
برای جلوگیری از ایجاد فرضیات خاص در مورد رابطه بین احساسات و بازده سهام ، به جای استفاده از علیت Granger کلاسیک ، از آنتروپی انتقال استفاده می کنیم ، یک اندازه گیری عاری از مدل از تئوری اطلاعات که محدود به پویایی خطی یا فرضیات گاوسی نیست [21،56]. برای یک متغیر تصادفی X ، آنتروپی Shannon H (x) = E [ - log u2061 p (x)] سطح مورد انتظار "اطلاعات" یا "عدم اطمینان" مرتبط با نتایج آن را اندازه گیری می کند. به طور شهودی ، اگر لگاریتم در پایه دو بیان شود ، H (x) تعداد بیت های طول کد بهینه را برای یک فشرده سازی داده بدون ضرر از رویدادها از منبع داده X نشان می دهد. به منظور تعیین کمیت محتوای اطلاعات H (xحرف) از یک فرآیند تصادفی وابسته به زمان ، xحرف>، نیاز به تجزیه و تحلیل احتمالات انتقال [57] فرآیند تصادفی اساسی است. به طور خاص ، با استفاده از ایده فرآیندهای Markov مرتبه محدود ، Schreiber [20] آنتروپی انتقال (TE) را معرفی کرد ، اندازه گیری انتقال اطلاعات سیستم هایی که در طول زمان در حال تحول هستند. برای هر شرکتی در فهرست S& P 500 ، ما TE را از اخبار اخبار شرکت محاسبه می کنیمحرف>به بازده سهام Rحرف>، که تعریف میشود
جایی که H (x | y): = - ∑ i ، j p (x i ، y j) log u2061 [p (x i | y j)] آنتروپی شانون مشروط را نشان می دهد [22]. آنتروپی انتقال (2. 1) را می توان به عنوان واگرایی KL بیان کرد
t e s → r = ∑ p (r t + 1 ، r t (m) ، s t (k)) log p (r t + 1 | r t (m) ، s t (k)) p (r t + 1 | r t (m))با
جایی که ما s t (k) را تعریف می کنیم: = (s t ،… ، s t - k + 1) و r t (m): = (r t ،… ، r t - m + 1) ، که صریح این انتقال آنتروپی را اندازه گیری می کند تا انحراف ورود به سیستم را اندازه گیری کندخاصیت عمومی مارکوف P (r t + 1 | r t (m)) = p (r t + 1 | r t (m) ، s t (k)).
2. 3مدل احساسات اخبار
برای اختصاص نمرات احساسات به هر مقاله خبری ، در این مطالعه از رویکردی استفاده می کنیم که از طریق غربالگری و مدل سازی موضوع (SESTM) به عنوان استخراج احساسات گفته می شود [54]. در حالی که از نزدیک با تخصیص Dirichlet نهان (LDA) [58] و بازنمایی های مبتنی بر بردار مانند Word2VEC [59] و دستکش [60] مرتبط است. بر خلاف این مدل ها ، SESTM به روشی تحت نظارت آموزش داده می شود که تفسیر را تسهیل می کند و ضمانت های نظری را در مورد صحت تخمین ها با حداقل فرضیات ارائه می دهد [54]. شکل 2 مراحل اصلی مدل SESTM را که در این مقاله استفاده می کنیم نشان می دهد. ما به طور خلاصه مدل خود را در زیر شرح می دهیم. توضیحات دقیق تری را می توان در مواد تکمیلی الکترونیکی ، روش های S2 یافت.

نمودار فرآیند مدل احساسات. دو فرض در زمینه مدل احساسات در وسط به تصویر کشیده شده است. داده های مورد استفاده در اتصالات مدل در بالا نشان داده شده است. ما برای تجزیه و تحلیل آنتروپی انتقال و شبیه سازی چندین استراتژی معاملاتی ساده ، نمرات احساسات پیش بینی شده (گوشه پایین سمت چپ) را اعمال می کنیم.
قبل از آموزش مدل SESTM ، ما مراحل پیش پردازش استاندارد را از NLP اعمال می کنیم تا مقالات را به بردارهای اسناد و مدارک تبدیل کنیم ، از جمله بازگرداندن توقف ، توکن سازی و لماتیزاسیون. برای هر مقاله من در مجموعه داده های ما ، نمره احساسات P را اختصاص می دهیممن∈ [0 ، 1] که منعکس کننده احساسات مالی است که مقاله نسبت به شرکت موضوع دارد ، جایی که Pمن= 0 و P = 1 به ترتیب منفی ترین و مثبت ترین احساسات قابل دستیابی را نشان می دهد. ما احساساتی از p = 0. 5 را خنثی می بینیم. ما فرض می کنیم احساسات مثبت (منفی) برای یک شرکت به احتمال زیاد منجر به بازگشت مثبت (منفی) سهام شرکت به معنای زیر می شود:
جایی که P احتمال را نشان می دهد ، G (·) یک عملکرد یکنواخت و R استمنبازده مالی مربوط به شرکت مربوط به مقاله 1 است.
ما فرض می کنیم که فقط یک زیر مجموعه از کلمات موجود در فرهنگ لغت Corpus مرتبط است و از اینها به عنوان احساسات متداول یاد می کند. کلمات باقیمانده به عنوان بی طرف احساسات گفته می شود. این مدل واژگان پر از احساسات کلمات را تعیین می کند ، فقط با آن دسته از کلماتی که به اندازه کافی در جسد ما اتفاق می افتد و عمدتاً با بازده مثبت یا منفی همراه هستند. ما همه کلمات خنثی احساسات را از فرهنگ لغت اصلی خود حذف می کنیم.
برای هر مقاله ، ما یک بردار اسناد را به هم مرتبط می کنیم ، Dمن، از وقایع کلمات دارای احساسات و فرض کنید که دارای توزیع چندمجمی از فرم است
جایی که s i = ∑ j ∈ S d i ، j توزیع و p را مقیاس می دهدمنای++ (1 - Pمن) ای−ترکیبی از دو موضوع است که توزیع احتمال را بر روی کلمات بارگذاری شده با احساسات تعیین می کند. ای+احتمال کلمات را در یک مقاله حداکثر مثبت ، ص توصیف می کندمن= 1. به همین ترتیب ، o−احتمال کلمات را در یک مقاله حداکثر منفی ، ص توصیف می کندمن= 0. فرض می کنیم که o+، o - ∈ R + |S |به گونه ای عادی شده اند که+‖1= ‖ o−‖1= 1. برای مقالاتی با احساسات نه در مرز ، 0
من <1, word frequencies are convex combinations of those from the two topics. We train our model by estimating the vectors O +و ای−از طریق حداکثر انتظار (EM) ، و برآوردهای آنها توسط O ^ + و O ^ - را نشان می دهد.
احساسات p ^ من در ارتباط با مقاله اخبار اول با برآورد حداکثر احتمال (MLE) اعمال شده برای توزیع چندمجمی بردار اسناد و مدارک مقاله اخبار ، د. به عبارت دیگر ، ما P ^ را با حل تعیین می کنیم
where s i : = ∑ j ∈ S d i , j and λ>0 یک پارامتر منظم است. انتخاب منظم معادل تحمیل بتا قبل از احساسات است ، در نتیجه مقادیر تخمین زده شده را به سمت نمره خنثی می کشید (P = 0. 5).
در حالی که فرضیات ما همان مدل SESTM است [54] ، ما از روش تخمین پارامتر اصلی به دلیل اندازه کوچکتر مجموعه داده خود منحرف می شویم. به طور خاص ، پارامترهای مدل در ابتدای هر ماه بر اساس تمام مقالات مشاهده شده تا آن نقطه تخمین زده می شوند.
سپس از مدل نصب شده برای پیش بینی احساسات در کل ماه قبل از به روزرسانی مجدد استفاده می شود. علاوه بر این ، ما هاپرپارامترهای مورد استفاده را برای انتخاب کلمات بارگذاری شده و پارامتر تنظیم پیش بینی ، λ ، ثابت می کنیم و نه اینکه آنها را به عنوان بخشی از تخمین دوره ای در نظر بگیریم.
3. نتایج
3. 1خزیدن مشترک و پوشش اخبار مالی
با استفاده از اخبار خزنده مشترک ، زیر مجموعه ای از خزیدن مشترک به طور انحصاری برای مقالات خبری ، ما مقالات خبری مربوط به شرکتهای مؤثر در شاخص S& P 500 را در دوره زمانی از 26 اوت 2016 تا 27 فوریه 2020 پردازش و استخراج می کنیم. از آگوست 2016 به عنوان نقطه شروع ما زیرا دوره های قبلی پوشش خبری کافی برای شرکت ها در فهرست S& P 500 ندارند. مقاله ای با یک شرکت مطابقت دارد اگر و فقط اگر شرکت در عنوان یا بند اول ذکر شود (به مواد تکمیلی الکترونیکی ، روش های S1 برای توضیحات دقیق از خط لوله پردازش داده ما مراجعه کنید).
شکل 3 A 30 شرکت اغلب در مجموعه داده های ما را نشان می دهد که توسط تعداد مقالات مجزا که حداقل یک بار از هر شرکت ذکر می شود ، اندازه گیری می شود. شکل 3 B 30 منبع خبری برتر را نشان می دهد که توسط تعداد مقالات منحصر به فرد اندازه گیری می شود. 3 جای تعجب آور نیست که وب سایت های خبری مالی در دسترس عمومی ، مانند www.reuters.com ، www.seekingalpha.com ، www.businessinsider.com و www.cnbc.com در بین شایع ترین منابع ظاهر می شوند. منابع دیگر مکرر ، از جمله www.chaffeybreeze.com ، www.macondaily.com و www.americanbankingnews.com کمتر شناخته شده اند. ما توجه می کنیم که www.chaffeybreeze.com و www.macondaily.com به www.marketbeat.com که مقالات مربوط به شرکت های خاص و رتبه بندی سرمایه گذار را منتشر می کنند ، هدایت می شوند. با این حال ، همانطور که خزیدن مشترک فقط با محتوای رایگان به منابع موجود در دسترس عمومی دسترسی پیدا می کند ، هرگونه خدمات خبری مبتنی بر اشتراک ، مانند وال استریت ژورنال (https://www.wsj.com) یا بارون (https://www.barrons.com) ، بخشی از مجموعه داده های ما نیستند. شکل 3 C تعداد متوسط مقالات برای هر شرکت منتشر شده در هر ماه در طول دوره زمانی ما را نشان می دهد. ما شرکت ها را به نیمی از بالا و پایین با تعداد کل مقاله تقسیم می کنیم. مناطق سایه دار به ترتیب 25 ٪ و 75 ٪ درصد برای هر نیم ماه را نشان می دهند. ما مشاهده می کنیم که توزیع مقالات منتشر شده درست است زیرا برخی از شرکت ها دارای اخبار قابل توجهی هستند در حالی که برخی دیگر نیز کمتر ذکر می شوند. مناطق صدک سایه دار نشان می دهد که 50 ٪ برتر شرکتها از پوشش 50 ٪ پایین پوشش قابل توجهی دریافت می کنند. علاوه بر این ، ما تأکید می کنیم که میزان اخبار در ماه در طول ماه افزایش می یابد ، زیرا خزیدن مشترک همچنان تعداد وب سایت های خزنده را افزایش می دهد.

خلاصه مجموعه داده های اخبار مورد استفاده در این مقاله.(الف) بیشترین شرکتهای ذکر شده که توسط تعداد مقالات مجزا اندازه گیری می شود.(ب) متداول ترین منابع خبری که توسط تعداد مقالات مجزا مرتبط با هر منبع اندازه گیری می شود. ج) تعداد متوسط مقالات منتشر شده در هر شرکت و ماه. این شرکت ها با تعداد کل مقالات منتشر شده درباره آنها به نیمه های بالا و پایین تقسیم می شوند. مناطق سایه دار 25 ٪ و 75 ٪ درصد از هر نیمه را نشان می دهد.
3. 2انتقال اطلاعات از اخبار به بازده سهام
پس از پردازش کلیه مقالات ، برای هر شرکت من در شاخص S& P 500 ما یک سری زمانی ناهمگن از نمرات احساسات مقاله (از مدل SESTM) داریم که در زمان های نامنظم رخ می دهد، که مربوط به زمان انتشار مقالات n است. برای تجزیه و تحلیل بعدی ما ، ما به سری زمانی نمرات احساسات نیاز داریم تا در فواصل زمانی منظم اتفاق بیفتد. ما با استفاده از سری احساسات به فواصل ساعتی و گرفتن میانگین نمرات داخل هر سطل ، این کار را می کنیم. به عنوان مثال ، برای هر شرکتی من سری زمانی با نمرات احساسات متوسط ساعتی را بدست می آوریمt = 1 m , where m>نمایانگر جدول زمانی ساعتی با طول کل m است. برای ساده کردن نماد ، ما با مراجعه به شرکت ، متن را رها می کنیم. از این رو بازده قیمت ساعتی سهام خاص توسط r مشخص می شودحرف(برای اطلاعات بیشتر به مواد تکمیلی الکترونیکی ، داده S1 مراجعه کنید). ما انتقال اطلاعات را از سری احساسات اخبار هر شرکت در شاخص S& P 500 به بازده قیمت سهام آن با محاسبه آنتروپی انتقال آن همانطور که در فرمول (2. 1) شرح داده شده است ، توصیف می کنیم. به طور خاص ، ما از آنتروپی انتقال برای تعیین میزان کاهش عدم اطمینان در بازده آینده استفاده می کنیم ، rt 1+، برای هر سهام با توجه به اطلاعات مربوط به اخبار تاخیر و بازده قیمت ، (sحرف، rحرف).
برای پرداختن به هرگونه عدم ایستادگی از سری زمانی نمرات احساسات ، ما اپراتور تفاوت را در سری زمانی خود اعمال می کنیم و یک تست افزوده دیک ی-پررنگ را انجام می دهیم تا حضور ریشه های واحد را با P-Values تشخیص دهد (<0.01) obtained through regression surface approximation [61,62].
برای محاسبه اهمیت آماری ( P-Values) انتقال ، ما از یک روش بوت استرپ غیر پارامتری فرآیند زیربنایی مارکوف [56،63] استفاده می کنیم و از آنتروپی انتقال مؤثر [64] برای انجام تصحیح نمونه محدود استفاده می کنیم.
با استفاده از مجموعه داده های ما در مدت زمان 3 ژانویه 2018 تا 27 فوریه 2020 ، 4 برای هر شرکتی ما آنتروپی انتقال را بین اختلاف نمره احساسات ساعتی و بازده قیمت ساعتی محاسبه می کنیم. شکل 4 A ، B شرکت هایی را با آنتروپی انتقال آماری معنی دار نشان می دهد ( P-Value<0.01) and the estimated distribution of p -values. We observe that the distribution of p -values of the depicted stocks are below the 0.05 level. In the electronic supplementary material, figures S4 and S5, we show the results with the control of false discovery rate (FDR <0.05) and again find the presence of statistically significant reduction of uncertainty for 1 h and 2 h old sentiment signals.

(الف) شرکت ها و آنتروپی انتقال قابل توجه شانون (و آنتروپی انتقال مؤثر) از اختلاف نمره احساسات ساعتی به بازده قیمت ساعتی. واحد آنتروپی انتقال بیت (لگاریتم با پایه 2) است که مربوط به کاهش متوسط طول کد بهینه مورد نیاز برای رمزگذاری بازده سهام با احساسات تاخیر است. آنتروپی انتقال برای دوره از ژانویه 2018 تا فوریه 2020 با استفاده از سری زمانی بازده ساعتی از 9. 30 به 15. 30 زمان شرقی و نمرات متوسط احساسات تاخیر مربوطه محاسبه شد. اهمیت آماری ( P-Value<0.01) of transfer entropy was estimated with 300 bootstrap samples and 100 shuffles to obtain the effective transfer entropy. ( b ) Box and whisker plots of estimated distributions of the p -values for selected company tickers. The box and whisker plots show Q1, median, Q3, minimum, maximum and estimated outliers.
تجزیه و تحلیل ما سهم اخبار عمومی در انتشار اطلاعات و کشف قیمت را در مقیاس های مختلف زمانی تأیید می کند [65]. وجود چندین مقیاس زمانی در بازارهای مالی به یک فرضیه بازار ناهمگن [65] مرتبط است و ناشی از تفاوت در ناهمگونی در شرکت کنندگان در بازار ، از جمله محدودیت های مختلف معاملات ، پروفایل های ریسک ، مکان ها ، پردازش اطلاعات و فرکانس های تصمیم گیری است [66].
3. 3اهمیت اقتصادی احساسات اخبار از داده های اخبار خزنده مشترک
در بخش قبلی ، ما نشان دادیم که احساسات عمومی عمومی تأثیر آماری در کاهش عدم اطمینان از بازده سهام آینده دارد. این نتیجه این سؤال را مطرح می کند که آیا این تأثیر نیز از نظر اقتصادی قابل توجه است یا خیر. برای پرداختن به این سؤال ، ما عملکرد استراتژی تجاری مبتنی بر احساسات ساده زیر را تجزیه و تحلیل می کنیم. برای هر روز در نمونه ما ، ما تمام شرکت های S& P 500 را بر اساس نمرات اخبار خبری آنها از مقالات خبری منتشر شده بین 9. 30 در روز معاملاتی قبلی و 9. 00 روز جاری رتبه بندی می کنیم ، جایی که زمان ها در طول این مقاله منعکس کننده زمان شرقی (ET) است. برای شرکت هایی که دارای مقالات خبری متعدد هستند ، ما به طور متوسط احساسات خبری آنها را برای به دست آوردن نمره احساسات واحد برای هر شرکت به طور متوسط انجام می دهیم. روزانه ، ما یک نمونه کارها را با موقعیت های طولانی با مقادیر مساوی در 20 شرکت با مثبت ترین نمرات احساسات و موقعیت های کوتاه با مبلغ مساوی در 20 شرکت با بیشترین نمرات احساسات تشکیل می دهیم. 5 ما به این پرتفوی روزانه مجدداً به عنوان استراتژی احساساتی روز 1 اشاره می کنیم ، جایی که "روز اول" نشانگر تاخیر یک روزه نمرات احساسات است. ما بازگشت روزانه آن را با گذشت زمان ، یعنی از ساعت 9. 30 در روز تشکیل نمونه کارها به روز 9. 30 روز بعد ردیابی می کنیم. به همین ترتیب ، ما روز 0 و روز - 1-پرتفوی احساسات را تشکیل می دهیم و بازده روزانه آنها را در طول زمان ردیابی می کنیم. 6 توجه داشته باشید که پرتفوی روز 0 و روز 1-اوراق بهادار "نگاه" است زیرا آنها به دریافت اخبار پیش از زمان انتشار آن متکی هستند. با این وجود ، ما از این موارد برای اهداف مقایسه در زیر استفاده می کنیم.
نکته مهم ، ما تأکید می کنیم که آزمایش ما در اینجا به معنای منعکس کننده استراتژی های قابل اجرا در دنیای واقعی نیست که توسط مدیران پول حرفه ای و صندوق های تامینی استفاده می شود. برای این کار ، ما همچنین باید تجزیه و تحلیل هزینه های معاملاتی را در بر بگیریم ، چیزی که فراتر از محدوده این مطالعه است. درعوض ، ما از یک تمرین تجاری ساده برای مطالعه تعامل بین اخبار عمومی و بازارهای مالی نیز از دیدگاه اقتصادی استفاده می کنیم.
ما عملکرد استراتژی های تجاری مبتنی بر احساسات خود را با SPDR S& P 500 Trust (نماد تیک: جاسوسی) و مجموعه ای از اوراق بهادار تصادفی به عنوان معیار مدل تهی مقایسه می کنیم. SPY یک صندوق مبادله ای است که از فهرست S& P 500 ردیابی می کند. هر نمونه کارها تصادفی روزانه همزمان با استراتژی احساساتی روز 1 و از پاهای بلند و کوتاه تشکیل می شود که هر کدام دارای موقعیت های مساوی در 20 سهام به طور تصادفی از شاخص S& P 500 هستند. ما 500 تاریخچه پرتفوی تصادفی را شبیه سازی می کنیم و از سری بازگشت آنها به معیارهای عملکرد Bootstrap استفاده می کنیم.
در شکل 5 ، ما بازده تجمعی روز 1 استراتژی احساسات را نسبت به معیارهای خود از ژانویه 2018 تا فوریه 2020 به تصویر می کشیم. ما آمار عملکرد استراتژی و معیارهای معاملات روز اول را در جدول 1 خلاصه می کنیم. ما از نسبت شارپ سالانه به عنوان یکی از معیارهای عملکردی خود استفاده می کنیم ، به عنوان میانگین بازده سالانه که با نوسانات سالانه بازده تقسیم می شود. بدیهی است ، استراتژی احساساتی روز 1 از اوراق بهادار و اوراق بهادار تصادفی فراتر می رود و نسبت شارپ سالانه 1. 64 را در مقایسه با 0. 48 و 0. 01 - برای اوراق بهادار و اوراق بهادار تصادفی به دست می آورد. با بازگرداندن بازده استراتژی احساسات روز 1 در مورد بازده جاسوسی ، مشاهده می کنیم که رهگیری ، مشخص شده توسط α و R 2 این رگرسیون به ترتیب 20. 69 ٪ (سالانه) و 0. 4 ٪ است. α در سطح 1 ٪ معنی دار است. نتیجه می گیریم که استراتژی احساسات روز اول (i) از بازار فراتر می رود و (ii) با بازار ارتباط ندارد. این امر تأیید می کند که از نظر اقتصادی و آماری اطلاعات قابل توجهی در منابع خبری عمومی وجود دارد. با این حال ، توجه داشته باشید که برخلاف اندازه گیری آنتروپی انتقال که میانگین کاهش عدم اطمینان را در کل دوره تعیین می کند ، استراتژی تجارت یک روش اقتصاد سنجی است که مبتنی بر یک نمونه کارها به صورت پویا تعادل است که با ورود اطلاعات جدید در طول زمان سازگار است.

بازده تجمعی استراتژی های معاملاتی و معیارها."روز اول" بیانگر بازده تجمعی روز 1 استراتژی احساسات بر اساس مجموعه داده های اخبار Crawl Crawl از ژانویه 2018 تا فوریه 2020 است. جاسوسی SPDR S& P 500 Trust است."تصادفی" میانگین استراتژی های تصادفی را به همراه 1 S. D. نشان می دهد. باندهای اعتماد به نفس به دست آمده از 500 شبیه سازی."روز 0" و "روز-1" استراتژی های احساسات "نگاه" هستند که به اطلاعات آینده متکی هستند.
میز 1.
آمار عملکرد استراتژی و معیارهای معاملات روز 1 روز از ژانویه 2018 تا فوریه 2020. استراتژی معاملات احساسات براساس مقالات خبری از مجموعه داده های خبری Crawl Crawl است. جاسوسی SPDR S& P 500 Trust است."تصادفی" استراتژی پایه را نشان می دهد که در آن هر روز ما به طور تصادفی شرکت ها را برای سرمایه گذاری در آن انتخاب می کنیم. "روز 0" و "روز-1" استراتژی های احساسات "نگاه" هستند که برای اهداف مقایسه گزارش شده است. آمار با استفاده از بازده روزانه محاسبه می شود (542 نفر). MDD حداکثر کاهش روزانه است که به عنوان حداکثر کاهش مشاهده شده از اوج تاریخی قیمت تعریف می شود تا زمانی که اوج جدیدی حاصل شود. مقادیر p<0.001 are denoted with symbol ***, p -values <0.01 with symbol **, and p -values <0.02 with symbol *. The p -values for the Sharpe ratios were bootstrapped from 500 random backtests. We obtain α (the intercept) and R 2 by regressing the daily retus of the portfolios on the daily retus of the SPY. The performance metrics of the random portfolios were bootstrapped from 500 random backtests. For daily tuover, we use ( 1 / 2 T ) ∑ t = 1 T ( ∑ i | w i , t + 1 − w i , t ( 1 + r i , t + 1 ) | ) , where w آی تیوزن نمونه کارها را در زمان T و R نشان می دهدمن ، t +1بازده روزانه در زمان t + 1 سهام i را نشان می دهد.
روز 1 | روز 0 | روز 1 | جاسوسی | تصادفی |
بازده متوسط سالانه | 48. 95 ٪ | 45. 42 ٪ | 21. 02 ٪ | 7. 25 ٪ | - 5. 67 ± 0. 11 ٪ |
نوسانات سالانه | 11. 65 ٪ | 12. 43 ٪ | 12. 85 ٪ | 15. 06 ٪ | 0. 33 ± 8. 37 ٪ |
نسبت شارپ سالانه | 4. 20 *** | 3. 66 *** | 1. 64 ** | 0. 48 | - 0. 01 ± 0. 68 ٪ |
MDD | 8. 82 ٪ | 8. 34 ٪ | 10. 31 ٪ | 21. 04 ٪ | 6. 19 ± 6. 64 ٪ 14. 64 |
سالانه α | 47. 88 ٪ *** | 45. 36 ٪ *** | 20. 69 ٪* | 0 | 70/0 ± 0. 05 ٪ |
r 2 | 0. 004 | 0. 001 | 0. 004 | 1 | 0. 004 004 004 ٪ |
گردش روزانه | 82. 12 ٪ | 82. 27 ٪ | 82. 43 ٪ | 0% | 0. 11 ± 32/96 ٪ |
همانطور که انتظار می رود ، ما توجه می کنیم که هر دو استراتژی روز 1 و روز 0 از استراتژی روز 1 فراتر می روند و به ترتیب به نسبت شارپ 4. 20 و 3. 66 رسیده اند. به طور مشابه ، آنها به شدت از هر دو خط مقدم بهتر عمل می کنند و هیچ ارتباط معنی داری با بازار نشان نمی دهند (R 2 هنگام بازگرداندن بازده جاسوسی به ترتیب 0. 4 ٪ و 0. 1 ٪ است). در حالی که این دو استراتژی "نگاه" به اطلاعات آینده متکی هستند ، آنها پشتیبانی بیشتری از این امر ارائه می دهند که بین بازده سهام و احساسات حاصل از مجموعه داده های اخبار Clar Crawl ارتباط معنی داری وجود دارد.
3. 4مقایسه انتقال اطلاعات اخبار خصوصی و عمومی با بازارهای مالی
ما بررسی می کنیم تا چه اندازه در انتقال اطلاعات اخبار در دسترس عمومی در مقایسه با داده های اخبار تجاری در دسترس به قیمت های امنیتی مالی تفاوت وجود دارد. همانطور که در بالا ذکر شد ، داده های خبری Crawl Crawl فقط شامل اخبار عمومی آزادانه در دسترس است. یعنی مجموعه داده حاوی محتوای خبری از صفحات وب و ارائه دهندگان اخبار است که مبتنی بر اشتراک هستند یا نیاز به ثبت نام دارند.
برای سنجش تأثیر منابع خبری غیر عمومی ، ما مجموعه داده های اسکندریه ، 7 یک پایگاه داده خبری تجاری متشکل از اخبار مالی را که از حدود ده ها منبع داده مبتنی بر اشتراک ، از جمله Dow Jones News Wire ، Wall Street Joual و Barrons تهیه شده است ، به دست آوردیم. اسکندریه از یک الگوریتم اختصاصی برای ارتباط هر مقاله خبری به شرکت های مورد نظر و اختصاص نمرات احساسات استفاده می کند.
ما از همان استراتژی تجارت ساده مانند بالا برای ساختن سبد احساسات روزانه با استفاده از مجموعه داده های اسکندریه استفاده می کنیم و نتایج معاملاتی آن را با نتایج مبتنی بر مجموعه داده های اخبار Crawl Crawl مقایسه می کنیم. استراتژی معاملاتی با استفاده از مجموعه داده اسکندریه نسبت شارپ 1. 51 را نسبت به افق زمانی ما بدست می آورد (سایر معیارهای عملکردی در مواد مکمل الکترونیکی ، جدول S3) موجود است. نکته مهم ، همبستگی سری بازگشت این دو استراتژی فقط 0. 07 است ( P-Value<0.1). That the correlation is not statistically different from zero suggests the sentiment scores derived from the Common Crawl News and Alexandria datasets are based on different underlying information. In fact, the average Jaccard index, 8 between the long and short stock positions based on the sentiment scores from the Alexandria and Common Crawl News datasets are 0.020 ± 0.022 and 0.019 ± 0.023, respectively. This means that the overlap of companies in the portfolios formed on the Alexandria and Common Crawl News sentiment scores is less than one on average.
نتیجه می گیریم که اطلاعات ارزشمندی در هر دو مجموعه داده برای پیش بینی بازده آینده وجود دارد. با این حال ، اطلاعات موجود در مجموعه داده ها متفاوت است (به مطالب تکمیلی الکترونیکی ، شکل S3 مراجعه کنید) و مجموعه داده های خبری Crowl Crawl ، اطلاعات مکمل را به اطلاعات داده های اسکندریه ارائه می دهد (به مطالب مکمل الکترونیکی ، بحث S1 مراجعه کنید). دو دلیل اصلی وجود دارد که چرا مجموعه داده ها متفاوت هستند: (i) آنها از منابع خبری مختلف استفاده می کنند و (ب) نمرات احساسات محاسبه شده از مدل های مختلف تعیین می شود. اسکندریه به اخبار مالی مبتنی بر اشتراک متکی است ، در حالی که خزیدن مشترک فقط به منابع در دسترس عموم دسترسی دارد. اسکندریه یک رویکرد اختصاصی ML را برای محاسبه نمرات احساسات برای هر مقاله خبری مستقر می کند ، در حالی که ما از مدل SESTM برای تعیین نمرات احساسات برای مقالات خبری از مجموعه داده های خبری Crowl Crawl استفاده می کنیم.
4. بحث
پردازش تقریباً 400 میلیون مقاله از داده های اخبار Crowl Common با بسیاری از چالش های مهندسی غیر مهم ، از جمله تجزیه قالب های مختلف HTML که در وب سایت ها استفاده می شود ، شناسایی و حذف مقالات تکراری ، تراز کردن هر مقاله و بازگشت مالی به شرکت مربوطه است. مدل احساسات SESTM به عنوان اجماع پیچیدگی ، تفسیر و مبانی نظری در یادگیری تحت نظارت و مدل سازی موضوع در NLP انتخاب شد (برای جزئیات بیشتر به مطالب مکمل الکترونیکی ، بحث S3 مراجعه کنید). در مواد تکمیلی الکترونیکی ، جدول S2 و شکل S2 ، ما با استفاده از بازنمایی های رمزگذار دو طرفه از قبل آموزش داده شده از مدل ترانسفورماتور (BERT) ، اثرات مدل های یادگیری عمیق را برای استخراج احساسات بررسی می کنیم. این مهم است که تأکید کنیم که تمرکز این مقاله بر روی بهترین مدل احساسات نیست ، بلکه بیشتر بر تجزیه و تحلیل تعامل اخبار از شبکه جهانی وب و بازار مالی به عنوان نمونه اولیه "جذب اطلاعات" کارآمد است. سیستم. با تجزیه و تحلیل سری زمانی نمرات احساسات و بازده قیمت ، ما شواهدی از انتقال آماری معنی داری از اطلاعات در سطح داخلی در طی دوره ژانویه 2018 تا فوریه 2020 می یابیم. در این مطالعه ، ما اثرات مخدوش احتمالی را تجزیه و تحلیل نکردیم [69 ،70] بین سری زمانی چند متغیره احساسات و بازده قیمت سهام ، زیرا ما روی استنتاج علی متمرکز نشده بودیم [71،72] بلکه در انتقال دو متغیره اطلاعات بین اخبار به سهام مربوطه. مورد چند متغیره آنتروپی انتقال را می توان با آنتروپی انتقال جزئی [69،73] در کارهای بعدی گسترش داد. با استفاده از یک استراتژی تجاری مبتنی بر احساسات ساده به عنوان یک ابزار اقتصاد سنجی ، و نه با هدف اینکه یک استراتژی تجاری واقع بینانه و قابل اجرا باشد ، می فهمیم که سیگنال های احساسات ما از اخبار عمومی دارای ارزش اقتصادی و اطلاعات مکمل در مقایسه با غیرارائه دهندگان داده های عمومی و تجاری. تجزیه و تحلیل ما پشتیبانی از اخبار عمومی را به انتشار اطلاعات و کشف قیمت در مقیاس های مختلف در طی یک روز معاملاتی واحد کمک می کند.
آموزش تحلیل گری...
ما را در سایت آموزش تحلیل گری دنبال می کنید
برچسب :
نویسنده : ملیکا زارعی
بازدید : 38
تاريخ : پنجشنبه
14 ارديبهشت
1402 ساعت: 18:17