Sunday, May 17, 2026
Homeนักลงทุนข้อมูลสังเคราะห์ที่ขับเคลื่อนด้วย Genai กำลังปรับเปลี่ยนเวิร์กโฟลว์การลงทุนอย่างไร

ข้อมูลสังเคราะห์ที่ขับเคลื่อนด้วย Genai กำลังปรับเปลี่ยนเวิร์กโฟลว์การลงทุนอย่างไร


ในสภาพแวดล้อมการลงทุนที่ขับเคลื่อนด้วยข้อมูลคุณภาพคุณภาพความพร้อมใช้งานและความจำเพาะของข้อมูลสามารถสร้างหรือทำลายกลยุทธ์ได้ แต่ผู้เชี่ยวชาญด้านการลงทุนต้องเผชิญกับข้อ จำกัด เป็นประจำ: ชุดข้อมูลในอดีตอาจไม่ได้รับความเสี่ยงที่เกิดขึ้นใหม่ข้อมูลทางเลือกมักจะไม่สมบูรณ์หรือมีราคาแพงมากและโมเดลและชุดข้อมูลโอเพนซอร์ซจะเบ้ไปสู่ตลาดสำคัญและเนื้อหาภาษาอังกฤษ

ในขณะที่ บริษัท ค้นหาเครื่องมือที่ปรับตัวได้และคาดการณ์ล่วงหน้ามากขึ้นข้อมูลสังเคราะห์-โดยเฉพาะอย่างยิ่งเมื่อได้มาจาก Generative AI (Genai)-เกิดขึ้นเป็นสินทรัพย์เชิงกลยุทธ์นำเสนอวิธีการใหม่ในการจำลองสถานการณ์ตลาดโมเดลการเรียนรู้ของเครื่องรถไฟ โพสต์นี้สำรวจว่าข้อมูลสังเคราะห์ที่ขับเคลื่อนด้วย Genai กำลังปรับเปลี่ยนเวิร์กโฟลว์การลงทุนอย่างไร-จากการจำลองความสัมพันธ์ของสินทรัพย์ไปจนถึงการเพิ่มโมเดลความเชื่อมั่น-และสิ่งที่ผู้ปฏิบัติงานจำเป็นต้องรู้เพื่อประเมินยูทิลิตี้และข้อ จำกัด

ข้อมูลสังเคราะห์คืออะไรที่สร้างขึ้นโดยรุ่น Genai และทำไมจึงมีความเกี่ยวข้องมากขึ้นสำหรับกรณีการใช้การลงทุน

พิจารณาความท้าทายทั่วไปสองประการ ผู้จัดการพอร์ตโฟลิโอที่ต้องการเพิ่มประสิทธิภาพการทำงานในระบบการตลาดที่แตกต่างกันถูก จำกัด ด้วยข้อมูลประวัติซึ่งไม่สามารถอธิบายสถานการณ์“ what-if” ที่ยังไม่ได้เกิดขึ้น ในทำนองเดียวกันความเชื่อมั่นในการตรวจสอบนักวิทยาศาสตร์ด้านข้อมูลในข่าวภาษาเยอรมันสำหรับหุ้นขนาดเล็กอาจพบว่าชุดข้อมูลที่มีอยู่ส่วนใหญ่เป็นภาษาอังกฤษและมุ่งเน้นไปที่ บริษัท ขนาดใหญ่ จำกัด ทั้งความครอบคลุมและความเกี่ยวข้อง ในทั้งสองกรณีข้อมูลสังเคราะห์นำเสนอวิธีแก้ปัญหาที่ใช้งานได้จริง


สิ่งที่ทำให้ข้อมูลสังเคราะห์ Genai ออกจากกัน – และทำไมมันถึงสำคัญตอนนี้

ข้อมูลสังเคราะห์หมายถึงชุดข้อมูลที่สร้างขึ้นเทียมซึ่งทำซ้ำคุณสมบัติทางสถิติของข้อมูลในโลกแห่งความเป็นจริง ในขณะที่แนวคิดไม่ใช่เรื่องใหม่ – เทคนิคเช่นการจำลอง Monte Carlo และ Bootstrapping มีการวิเคราะห์ทางการเงินที่สนับสนุนมานาน – สิ่งที่เปลี่ยนแปลงคือ ยังไง

Genai หมายถึงคลาสของแบบจำลองการเรียนรู้ลึกที่สามารถสร้างข้อมูลสังเคราะห์ที่มีความเที่ยงตรงสูงในรังสีเช่นข้อความตารางภาพและอนุกรมเวลา ซึ่งแตกต่างจากวิธีการแบบดั้งเดิมรุ่น Genai เรียนรู้การแจกแจงในโลกแห่งความจริงที่ซับซ้อนโดยตรงจากข้อมูลไม่จำเป็นต้องใช้สมมติฐานที่เข้มงวดเกี่ยวกับกระบวนการกำเนิดพื้นฐาน ความสามารถนี้เปิดขึ้นกรณีการใช้งานที่มีประสิทธิภาพในการจัดการการลงทุนโดยเฉพาะอย่างยิ่งในพื้นที่ที่ข้อมูลจริงหายากซับซ้อนไม่สมบูรณ์หรือถูก จำกัด ด้วยต้นทุนภาษาหรือกฎระเบียบ

สมัครสมาชิก

รุ่น Genai ทั่วไป

มีรุ่น Genai ที่แตกต่างกัน Variational autoencoders (VAES), เครือข่ายฝ่ายตรงข้ามกำเนิด (GANS), โมเดลการแพร่กระจายและแบบจำลองภาษาขนาดใหญ่ (LLMS) เป็นเรื่องธรรมดามากที่สุด แต่ละรุ่นถูกสร้างขึ้นโดยใช้สถาปัตยกรรมเครือข่ายประสาทแม้ว่าพวกเขาจะแตกต่างกันในขนาดและความซับซ้อน วิธีการเหล่านี้ได้แสดงให้เห็นถึงศักยภาพในการปรับปรุงเวิร์กโฟลว์ข้อมูลเป็นศูนย์กลางภายในอุตสาหกรรม ตัวอย่างเช่น VAEs ถูกนำมาใช้เพื่อสร้างพื้นผิวความผันผวนของสังเคราะห์เพื่อปรับปรุงการซื้อขายตัวเลือก (Bergeron et al.2021) Gans ได้รับการพิสูจน์แล้วว่ามีประโยชน์สำหรับการเพิ่มประสิทธิภาพพอร์ตโฟลิโอและการบริหารความเสี่ยง (Zhu, Mariani และ Li, 2020; et al.2023) แบบจำลองการแพร่กระจายได้รับการพิสูจน์แล้วว่ามีประโยชน์สำหรับการจำลองเมทริกซ์ความสัมพันธ์ของการคืนสินทรัพย์ภายใต้ระบบการตลาดต่างๆ (Kubiak et al.2024) และ LLM ได้รับการพิสูจน์แล้วว่ามีประโยชน์สำหรับการจำลองตลาด (Li et al.2024)

ตารางที่ 1. แนวทางในการสร้างข้อมูลสังเคราะห์

วิธี ประเภทของข้อมูลที่สร้างขึ้น ตัวอย่างแอปพลิเคชัน กำเนิด?
Monte Carlo อนุกรมเวลา การเพิ่มประสิทธิภาพพอร์ตโฟลิโอการบริหารความเสี่ยง เลขที่
ฟังก์ชั่นที่ใช้ copula อนุกรมเวลา, ตาราง การวิเคราะห์ความเสี่ยงด้านเครดิตการสร้างแบบจำลองความสัมพันธ์ของสินทรัพย์ เลขที่
โมเดล Autoregressive อนุกรมเวลา การพยากรณ์ความผันผวนการจำลองผลตอบแทนสินทรัพย์ เลขที่
bootstrapping อนุกรมเวลา, tabular, textual การสร้างช่วงความมั่นใจการทดสอบความเครียด เลขที่
ตัวแปร Autoencoders Variational ตารางเวลาอนุกรมเสียง, ภาพ การจำลองพื้นผิวความผันผวน ใช่
เครือข่ายศัตรู ตารางเวลาอนุกรมเสียงภาพ การเพิ่มประสิทธิภาพพอร์ตโฟลิโอการบริหารความเสี่ยงการฝึกอบรมแบบจำลอง ใช่
แบบจำลองการแพร่กระจาย ตารางเวลาอนุกรมเสียงภาพ การสร้างแบบจำลองสหสัมพันธ์การเพิ่มประสิทธิภาพพอร์ตโฟลิโอ ใช่
รูปแบบภาษาขนาดใหญ่ ข้อความ, ตาราง, รูปภาพ, เสียง การวิเคราะห์ความเชื่อมั่นการจำลองตลาด ใช่

การประเมินคุณภาพข้อมูลสังเคราะห์

ข้อมูลสังเคราะห์ควรเป็นจริงและตรงกับคุณสมบัติทางสถิติของข้อมูลจริงของคุณ วิธีการประเมินที่มีอยู่แบ่งออกเป็นสองประเภท: เชิงปริมาณและเชิงคุณภาพ

วิธีการเชิงคุณภาพเกี่ยวข้องกับการเปรียบเทียบการเปรียบเทียบระหว่างชุดข้อมูลจริงและสังเคราะห์ ตัวอย่างเช่นการแจกแจงการแสดงภาพการเปรียบเทียบ scatterplots ระหว่างคู่ของตัวแปรเส้นทางอนุกรมเวลาและเมทริกซ์สหสัมพันธ์ ตัวอย่างเช่นโมเดล GAN ที่ได้รับการฝึกฝนให้จำลองผลตอบแทนสินทรัพย์สำหรับการประมาณค่าความเสี่ยงที่ควรทำซ้ำการทำซ้ำหางของการกระจาย แบบจำลองการแพร่กระจายที่ได้รับการฝึกฝนให้สร้างเมทริกซ์สหสัมพันธ์สังเคราะห์ภายใต้ระบบการตลาดที่แตกต่างกันควรจับภาพร่วมของสินทรัพย์อย่างเพียงพอ

วิธีการเชิงปริมาณรวมถึงการทดสอบทางสถิติเพื่อเปรียบเทียบการแจกแจงเช่น Kolmogorov-Smirnov ดัชนีความมั่นคงของประชากรและความแตกต่างของ Jensen-Shannon การทดสอบสถิติเอาต์พุตเหล่านี้แสดงถึงความคล้ายคลึงกันระหว่างการแจกแจงสองครั้ง ตัวอย่างเช่นการทดสอบ Kolmogorov-Smirnov เอาท์พุทค่า p p-value ซึ่งถ้าต่ำกว่า 0.05 แสดงให้เห็นว่าการแจกแจงสองครั้งจะแตกต่างกันอย่างมีนัยสำคัญ สิ่งนี้สามารถให้การวัดที่เป็นรูปธรรมมากขึ้นกับความคล้ายคลึงกันระหว่างการแจกแจงสองครั้งเมื่อเทียบกับการสร้างภาพข้อมูล

อีกวิธีหนึ่งที่เกี่ยวข้องกับ“ รถไฟบน-สังเคราะห์การทดสอบบน-จริง” ซึ่งแบบจำลองได้รับการฝึกฝนเกี่ยวกับข้อมูลสังเคราะห์และทดสอบข้อมูลจริง ประสิทธิภาพของโมเดลนี้สามารถเปรียบเทียบกับโมเดลที่ผ่านการฝึกอบรมและทดสอบข้อมูลจริง หากข้อมูลสังเคราะห์ประสบความสำเร็จในการทำซ้ำคุณสมบัติของข้อมูลจริงประสิทธิภาพระหว่างทั้งสองรุ่นควรจะคล้ายกัน

ในการดำเนินการ: เพิ่มการวิเคราะห์ความเชื่อมั่นทางการเงินด้วยข้อมูลสังเคราะห์ Genai

เพื่อนำสิ่งนี้ไปสู่การปฏิบัติฉันได้ปรับแต่ง LLM โอเพนโอเพนซอร์สขนาดเล็ก QWEN3-0.6B สำหรับการวิเคราะห์ความเชื่อมั่นทางการเงินโดยใช้ชุดข้อมูลสาธารณะของหัวข้อข่าวที่เกี่ยวข้องกับการเงินและเนื้อหาโซเชียลมีเดียที่เรียกว่า FIQA-SA(1)– ชุดข้อมูลประกอบด้วยตัวอย่างการฝึกอบรม 822 ตัวอย่างโดยมีประโยคส่วนใหญ่จัดว่าเป็นความเชื่อมั่น “บวก” หรือ “ลบ”

จากนั้นฉันใช้ GPT-4O เพื่อสร้างตัวอย่างการฝึกอบรมสังเคราะห์ 800 ตัวอย่าง ชุดข้อมูลสังเคราะห์ที่สร้างโดย GPT-4O นั้นมีความหลากหลายมากกว่าข้อมูลการฝึกอบรมดั้งเดิมครอบคลุม บริษัท และความเชื่อมั่นมากขึ้น (รูปที่ 1) การเพิ่มความหลากหลายของข้อมูลการฝึกอบรมช่วยให้ LLM มีตัวอย่างเพิ่มเติมที่จะเรียนรู้ที่จะระบุความเชื่อมั่นจากเนื้อหาที่เป็นข้อความซึ่งอาจปรับปรุงประสิทธิภาพของโมเดลบนข้อมูลที่มองไม่เห็น

รูปที่ 1. การกระจายของคลาสความเชื่อมั่นสำหรับทั้งจริง (ซ้าย), สังเคราะห์ (ขวา) และชุดข้อมูลการฝึกอบรมเพิ่มเติม (กลาง) ประกอบด้วยข้อมูลจริงและสังเคราะห์

ตารางที่ 2. ตัวอย่างประโยคจากชุดข้อมูลการฝึกอบรมจริงและสังเคราะห์

ประโยค ระดับ ข้อมูล
การตกต่ำในฝายทำให้ FTSE ลดลงจากสถิติสูง เชิงลบ จริง
AstraZeneca ชนะการอนุมัติจาก FDA สำหรับยามะเร็งปอดใหม่ที่สำคัญ เชิงบวก จริง
ผู้ถือหุ้นของ Shell และ BG เพื่อลงคะแนนเสียงในช่วงปลายเดือนมกราคม เป็นกลาง จริง
รายงานรายไตรมาสของเทสลาแสดงการส่งมอบยานพาหนะเพิ่มขึ้น 15% เชิงบวก สังเคราะห์
PepsiCo กำลังจัดงานแถลงข่าวเพื่อจัดการกับการเรียกคืนผลิตภัณฑ์ล่าสุด เป็นกลาง สังเคราะห์
ซีอีโอของ Residence Depot ก้าวลงอย่างกะทันหันท่ามกลางการถกเถียงภายใน เชิงลบ สังเคราะห์

หลังจากปรับแต่งโมเดลที่สองในการรวมกันของข้อมูลจริงและสังเคราะห์โดยใช้ขั้นตอนการฝึกอบรมเดียวกันคะแนน F1 เพิ่มขึ้นเกือบ 10 คะแนนในชุดข้อมูลการตรวจสอบความถูกต้อง (ตารางที่ 3) โดยมีคะแนน F1 ขั้นสุดท้ายที่ 82.37% ในชุดข้อมูลทดสอบ

ตารางที่ 3. ประสิทธิภาพของโมเดลบนชุดข้อมูลการตรวจสอบ FIQA-SA

แบบอย่าง น้ำหนัก F1
รุ่น 1 (ของจริง) 75.29%
รุ่น 2 (Actual + Artificial) 85.17%

ฉันพบว่าการเพิ่มสัดส่วนของข้อมูลสังเคราะห์ มากเกินไป มีผลกระทบด้านลบ มีโซน Goldilocks ระหว่างข้อมูลสังเคราะห์มากเกินไปและน้อยเกินไปเพื่อผลลัพธ์ที่ดีที่สุด

ไม่ใช่กระสุนเงิน แต่เป็นเครื่องมือที่มีค่า

ข้อมูลสังเคราะห์ไม่ได้เป็นการแทนที่ข้อมูลจริง แต่ก็คุ้มค่าที่จะทดลอง เลือกวิธีการประเมินคุณภาพข้อมูลสังเคราะห์และดำเนินการทดสอบ A/B ในสภาพแวดล้อมแบบทรายที่คุณเปรียบเทียบเวิร์กโฟลว์กับและไม่มีสัดส่วนที่แตกต่างกันของข้อมูลสังเคราะห์ คุณอาจประหลาดใจกับการค้นพบ

คุณสามารถดูรหัสและชุดข้อมูลทั้งหมดบนไฟล์ RPC Labs GitHub Repository และดำน้ำลึกลงไปในกรณีศึกษา LLM ในศูนย์วิจัยและนโยบายของนโยบาย“ข้อมูลสังเคราะห์ในการจัดการการลงทุน” รายงานการวิจัย


(1) ชุดข้อมูลมีให้ดาวน์โหลดที่นี่: https://huggingface.co/datasets/thefinai/fiqa-sentiment-classification

RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Most Popular

ความเห็นล่าสุด