#แนวคิดด้านการลงทุน

รู้ก่อนเขา...อิเหนากำไร: ทำนายตัวเลขเศรษฐกิจในยุค Big Data (ตอนที่ 2)

โดย ดร. ณภัทร จาตุศรีพิทักษ์
เผยแพร่:
146 views

ในโลกของการลงทุนนั้น คงปฏิเสธไม่ได้ว่าความเร็ว (กว่าคู่แข่ง) สำคัญไม่แพ้กับความแม่นยำของข้อมูล

 

ในยุคที่ Big Data กับ AI กำลังเข้ามาเป็นส่วนสำคัญมากขึ้นในการลงทุนนั้น  จุดหนึ่งที่ความก้าวหน้าทางเทคโนโลยีและศาสตร์แห่งการวิเคราะห์ข้อมูลสามารถสร้างความได้เปรียบ หรือ “edge” ให้กับผู้เล่นในตลาดได้คือการช่วยทำนายตัวเลขเศรษฐกิจได้ก่อนตัวเลขทางการจะถูกประกาศ 

 

 

ในบทความตอนที่หนึ่งของซีรี่ส์พิเศษ "รู้ก่อนเขา...อิเหนากำไร: ทำนายตัวเลขเศรษฐกิจในยุค Big Data" เราได้เห็นการนำข้อมูลแปลกๆ เช่นข้อมูลทางด่วนและข้อมูลจากภาพถ่ายมือถือมาทำนายอัตราเติบโตทางเศรษฐกิจและระดับราคาสินค้ากันไปแล้ว 

 

อ่านตอนแรกได้ที่ : http://www.stock2morrow.com/article-detail.php?id=921 

 

สำหรับตอนที่สองนี้  เราจะไปดูกันว่าข้อมูลจากอินเตอร์เน็ตแบบไหนสามารถเอามาช่วยทำนาย “สุขภาพ”ของตลาดแรงงานซึ่งเป็นอีกหนึ่งปัจจัยที่มักมีผลกระทบต่อทิศทางของเศรษฐกิจ ตลาดหุ้นและค่าเงินกันบ้างครับ

 

ทำนายอัตราว่างงานจาก Twitter และพฤติกรรมการใช้มือถือ

 

นักวิจัยจากมหาวิทยาลัยมิชิแกน (http://econprediction.eecs.umich.edu/) ได้ใช้ข้อมูล Twitter อันมหาศาลเพื่อสร้างโมเดลในการทำนายความเปลี่ยนแปลงในตลาดแรงงานสหรัฐฯ  โดยสร้างดัชนี Social Media Job Loss Index รายอาทิตย์

 

จากการประมวลข้อมูลจากการทวีตข้อความเช่น “เซ็ง จริงเราตกงาน” หรือ “ฉันลาออกจากงาน” และข้อมูลตลาดแรงงานอื่นๆ ที่มีให้ใช้ก่อนตัวเลขทางการจะถูกประกาศ  ซึ่งระหว่างปี 2011 ถึงท้ายปี 2013

 

ทีมวิจัยนี้พบว่าดัชนีนี้มีความใกล้เคียงกับตัวเลข Initial Claims (จำนวนคนที่ยื่นขอรับสวัสดิการว่างงาน) อย่างเหลือเชื่อ และมี predictive power ราว 15% ต่อการทำนายเซอร์ไพรส์เวลา concensus ของเหล่ากูรูไม่ตรงกับตัวเลขจริงที่ออกมา  อีกทั้งยังทำนายอัตราว่างงานจริงๆ ได้แม่นกว่าใช้ Initial Claims ด้วย

 

อีกหนึ่งข้อดีของดัชนีนี้คือมันมี “คุณค่าทางข้อมูล” ในตัวมันเอง ถึงแม้ดัชนีนี้จะแปรผันคู่ไปกับตัวเลขทางการ แต่มันไม่ซ้ำเป๊ะๆ กับข้อมูลทางการ  ยกตัวอย่างเช่นในช่วงท้ายปี 2012 ตัวเลข Initial Claims ทางการพุ่งขึ้นอย่างผิดสังเกต (spike สีน้ำเงินในกราฟด้านบน)  เนื่องจากความผิดพลาดของระบบคอมพิวเตอร์ที่รัฐแคลิฟอร์เนีย  แต่จะเห็นได้ว่าดัชนีนี้ที่นำข้อมูลมาจาก Twitter ไม่ถูกกระทบมากเท่าไรนัก 

 

อย่างไรก็ตามจะเห็นได้ว่าหลังจากช่วงกลางปี 2014 โมเดลนี้เริ่มทำนายห่างออกจากตัวเลข Initial Claims จริงมากขึ้น  เป็นบทเรียนชั้นดีที่เตือนเราว่าไม่ว่าโมเดลพวกนี้จะดูดีมีคุณภาพแค่ไหนในห้วงเวลานึง เมื่อเวลาผ่านไปก็มีความจำเป็นต้องปรับเปลี่ยนไปตามกาลเวลา

 

อีกหนึ่งตัวอย่างที่น่าทึ่งคือการใช้ข้อมูลพฤติกรรมการใช้โทรศัพท์มือถือเพื่อทำนายอัตราว่างงาน  ผมเคยไปนั่งฟังการพรีเซ็นต์งานวิจัยชิ้นนี้ (http://scholar.harvard.edu/files/shoag/files/trackingemploymentshocksmobiledata.pdf) สมัยยังทำวิจัยอยู่ที่มหาวิทยาลัยฮาร์วาร์ด  เขาใช้ข้อมูลขนาดยักษ์จากบริษัทเทเลคอมแห่งหนึ่งที่มีส่วนแบ่งตลาดประมาณ 15% ในประเทศแห่งหนึ่งจากทวีปยุโรปเพื่อศึกษาพฤติกรรมทางโทรศัพท์ของคนที่ถูก layoff จากการปิดตัวลงของโรงงานรถยนต์แห่งหนึ่งในเมืองเล็กๆ  

 

สมมุติฐานหลักก็คือคนเราน่าจะเดินทางและใช้โทรศัพท์น้อยลงเมื่อถูก layoff  จากการวิเคราะห์ข้อมูลนี้ก็พบจริงๆ ว่าผู้ที่ถูก layoff โทรเข้าออกน้อยลง (อาจจะเป็นเพราะอายเพื่อนหรือรู้สึกไม่อยาก connect กับโลก) และเดินทางน้อยลง (สัญญานไม่เด้งกับเสาโทรศัพท์จำนวนมากเท่าเดิม)  

 

เมื่อพบความสัมพันธ์เหล่านี้แล้วทีมวิจัยนี้ยังต่อยอดนำเอาข้อมูลโทรศัพธ์ในระดับท้องถิ่นเหล่านี้ไปทำนายอัตราว่างงานในระดับที่กว้างหรือ มหภาคขึ้นและสามารถทำนายได้ก่อนตัวเลขทางการจะถูกประกาศถึง 2 ถึง 8 อาทิตย์อีกด้วย

 

ส่องเทรนด์ตลาดแรงงานและค่าจ้างแบบ real-time

 

ผมคิดว่าหลายคนน่าจะเคยได้ยินชื่อเว็บไซต์หางานเช่น Indeed.com หรือ Glassdoor.com กันอยู่บ้าง แต่อาจไม่เคยทราบว่าเว็บไซต์เหล่านี้เก็บข้อมูลเอาไปวิเคราะห์เพื่อวัดเทรนด์ตลาดแรงงานได้แบบเกือบจะ real-time  ไม่ต้องทนรอตัวเลขทางการประกาศด้วย

 

 

เว็บไซต์ Indeed.com ซึ่งเป็นหนึ่งในเว็บไซต์ประกาศหาคนงานและหางานที่ใหญ่ที่สุดในสหรัฐฯ มีโปรเจคหนึ่งที่น่าสนใจคือ การใช้ข้อมูลความถี่ของประกาศหาคนงานมาสร้างดัชนีเทรนด์ความต้องการแรงงาน (Job Trends) สำหรับงานแต่ละประเภท

 

ซึ่งจากตัวอย่างด้านบน จะเห็นได้ว่าความต้องการจ้างตำแหน่งแรงงานกรรมกรและผู้จัดการร้านอาหาร (เมื่อเทียบกันงานประเภทอื่นแล้ว) มักแปรผันไปตามกัน อาจเป็นภาพสะท้อนถึงความพร้อมของภาคธุรกิจเวลาเศรษฐกิจกำลังจะขยายหรือหดตัว 

 

ข้อได้เปรียบสำคัญของข้อมูลชุดนี้คือนอกจากมันจะเป็นรายวันและแปรผันตามอุปสงค์และอุปทานในตลาดแรงงานแล้ว ยังมีความละเอียดเจาะลึกมากกว่าข้อมูลทางการอีกด้วย  ผมเองยังไม่เคยเห็นใครนำข้อมูลชุดนี้ไปทำวิจัย แต่คิดว่าคงอีกไม่นานคงมีครับ

 

อีกหนึ่งตัวอย่างที่น่าสนใจเป็นพิเศษคือ การเก็บข้อมูลเกี่ยวกับค่าจ้าง ซึ่งปกติแล้วเป็นข้อมูลที่หามาได้ยากมากๆ  เว็บไซต์ Glassdoor ซึ่งเป็นแหล่งให้พนักงานเข้ามาเขียนรีวิวที่ทำงาน (หรือเข้าไปดูว่าเขาสอบสัมภาษณ์กันยังไง) และเปิดเผยข้อมูลรายละเอียดเกี่ยวกับค่าจ้างและเงินเดือน ได้ร่วมมือกับนักเศรษฐศาสตร์ในการใช้ข้อมูล User-Input จำนวนมหาศาลเพื่อประกอบเป็นชุดข้อมูลชื่อ Glassdoor’s Local Pay Reports (https://research-content.glassdoor.com/app/uploads/sites/2/2016/12/LocalPayReports_Methodology.pdf)  

 

ซึ่งสามารถใช้ชุดข้อมูลนี้เพื่อสร้างเทรนด์ค่าจ้างมัธยฐาน (median base pay) สำหรับงานทุกตำแหน่ง (job title) ที่อยู่บนเว็บไซต์ได้ และยังแบ่งเป็นรายเมืองและเวลาได้ด้วย

 

แต่ที่น่าสนใจที่สุดคือสามารถใช้ Machine Learning เพื่อฝึกคอมพิวเตอร์ด้วยข้อมูลเหล่านี้จนใช้มันทำนายตัวเลขค่าจ้างมัธยฐานทางการจาก Bureau of Labor Statistics ได้โดยผิดพลาดไปราว 5 ถึง 6 เปอร์เซ็นต์เท่านั้น 

 

อีกทั้งตัวเลขเทรนด์อัตราเติบโตของค่าจ้าง Glassdoor นี้ก็มีความสัมพันธ์กับตัวชี้วัด benchmark อื่นๆ (ด้านบน) ด้วย  ถือเป็นการสร้างความมั่นใจได้ในระดับหนึ่งครับ

 

 

สุดท้ายนี้ ต้องย้ำอีกครั้งว่าโมเดลเหล่านี้ มีดีก็เพราะข้อมูลที่ป้อนเข้าไป เพราะฉะนั้นหากข้อมูลเปลี่ยนไปตามกาลเวลาแบบที่นักวิเคราะห์นึกไม่ถึง โมเดล Glassdoor ที่ดูเหมือนว่าทำนายการเติบโตของค่าจ้างได้แม่นยำก็อาจต้อง “เข้าอู่” เหมือนกับตัวอย่างแรกในบนความนี้ครับ

 

ติดตามบทวิเคราะห์จากมุมมองเศรษฐศาสตร์ที่เข้าใจง่ายได้ที่ www.settakid.com  ครับ


ผู้เขียนเป็นเจ้าของเว็บไซต์ settakid.com ที่วิเคราะห์ประเด็นเปลี่ยนโลกผ่านมุมมองเศรษฐศาสตร์แบบเข้าใจง่ายๆ  คุณ ณภัทร จบปริญญาตรีและโทจากมหาวิทยาลัยคอร์เนลและจอนส์ ฮอปกินส์ เคยมีประสบการณ์ทำวิจัยที่มหาวิทยาลัยฮาวาร์ดและธนาคารโลก และสำเร็จการศึกษาปริญญาเอกสาขาเศรษฐศาสตร์ประยุกต์อยู่ที่มหาวิทยาลัยมินนิโซต้า เป็นนักเขียนรับเชิญของ stock2morrow และเป็นคอลัมนิสต์ประจำสำนักข่าวออนไลน์ไทยพับลิก้า

Facebook

บทความอื่น ๆ ที่เกี่ยวข้อง