ข้อมูลสังเคราะห์ที่ขับเคลื่อนด้วย Genai กำลังปรับเปลี่ยนเวิร์กโฟลว์การลงทุนอย่างไร

August 3, 2025

110

ในสภาพแวดล้อมการลงทุนที่ขับเคลื่อนด้วยข้อมูลคุณภาพคุณภาพความพร้อมใช้งานและความจำเพาะของข้อมูลสามารถสร้างหรือทำลายกลยุทธ์ได้ แต่ผู้เชี่ยวชาญด้านการลงทุนต้องเผชิญกับข้อ จำกัด เป็นประจำ: ชุดข้อมูลในอดีตอาจไม่ได้รับความเสี่ยงที่เกิดขึ้นใหม่ข้อมูลทางเลือกมักจะไม่สมบูรณ์หรือมีราคาแพงมากและโมเดลและชุดข้อมูลโอเพนซอร์ซจะเบ้ไปสู่ตลาดสำคัญและเนื้อหาภาษาอังกฤษ

ในขณะที่ บริษัท ค้นหาเครื่องมือที่ปรับตัวได้และคาดการณ์ล่วงหน้ามากขึ้นข้อมูลสังเคราะห์-โดยเฉพาะอย่างยิ่งเมื่อได้มาจาก Generative AI (Genai)-เกิดขึ้นเป็นสินทรัพย์เชิงกลยุทธ์นำเสนอวิธีการใหม่ในการจำลองสถานการณ์ตลาดโมเดลการเรียนรู้ของเครื่องรถไฟ โพสต์นี้สำรวจว่าข้อมูลสังเคราะห์ที่ขับเคลื่อนด้วย Genai กำลังปรับเปลี่ยนเวิร์กโฟลว์การลงทุนอย่างไร-จากการจำลองความสัมพันธ์ของสินทรัพย์ไปจนถึงการเพิ่มโมเดลความเชื่อมั่น-และสิ่งที่ผู้ปฏิบัติงานจำเป็นต้องรู้เพื่อประเมินยูทิลิตี้และข้อ จำกัด

ข้อมูลสังเคราะห์คืออะไรที่สร้างขึ้นโดยรุ่น Genai และทำไมจึงมีความเกี่ยวข้องมากขึ้นสำหรับกรณีการใช้การลงทุน

พิจารณาความท้าทายทั่วไปสองประการ ผู้จัดการพอร์ตโฟลิโอที่ต้องการเพิ่มประสิทธิภาพการทำงานในระบบการตลาดที่แตกต่างกันถูก จำกัด ด้วยข้อมูลประวัติซึ่งไม่สามารถอธิบายสถานการณ์“ what-if” ที่ยังไม่ได้เกิดขึ้น ในทำนองเดียวกันความเชื่อมั่นในการตรวจสอบนักวิทยาศาสตร์ด้านข้อมูลในข่าวภาษาเยอรมันสำหรับหุ้นขนาดเล็กอาจพบว่าชุดข้อมูลที่มีอยู่ส่วนใหญ่เป็นภาษาอังกฤษและมุ่งเน้นไปที่ บริษัท ขนาดใหญ่ จำกัด ทั้งความครอบคลุมและความเกี่ยวข้อง ในทั้งสองกรณีข้อมูลสังเคราะห์นำเสนอวิธีแก้ปัญหาที่ใช้งานได้จริง

สิ่งที่ทำให้ข้อมูลสังเคราะห์ Genai ออกจากกัน – และทำไมมันถึงสำคัญตอนนี้

ข้อมูลสังเคราะห์หมายถึงชุดข้อมูลที่สร้างขึ้นเทียมซึ่งทำซ้ำคุณสมบัติทางสถิติของข้อมูลในโลกแห่งความเป็นจริง ในขณะที่แนวคิดไม่ใช่เรื่องใหม่ – เทคนิคเช่นการจำลอง Monte Carlo และ Bootstrapping มีการวิเคราะห์ทางการเงินที่สนับสนุนมานาน – สิ่งที่เปลี่ยนแปลงคือ ยังไง–

Genai หมายถึงคลาสของแบบจำลองการเรียนรู้ลึกที่สามารถสร้างข้อมูลสังเคราะห์ที่มีความเที่ยงตรงสูงในรังสีเช่นข้อความตารางภาพและอนุกรมเวลา ซึ่งแตกต่างจากวิธีการแบบดั้งเดิมรุ่น Genai เรียนรู้การแจกแจงในโลกแห่งความจริงที่ซับซ้อนโดยตรงจากข้อมูลไม่จำเป็นต้องใช้สมมติฐานที่เข้มงวดเกี่ยวกับกระบวนการกำเนิดพื้นฐาน ความสามารถนี้เปิดขึ้นกรณีการใช้งานที่มีประสิทธิภาพในการจัดการการลงทุนโดยเฉพาะอย่างยิ่งในพื้นที่ที่ข้อมูลจริงหายากซับซ้อนไม่สมบูรณ์หรือถูก จำกัด ด้วยต้นทุนภาษาหรือกฎระเบียบ

รุ่น Genai ทั่วไป

มีรุ่น Genai ที่แตกต่างกัน Variational autoencoders (VAES), เครือข่ายฝ่ายตรงข้ามกำเนิด (GANS), โมเดลการแพร่กระจายและแบบจำลองภาษาขนาดใหญ่ (LLMS) เป็นเรื่องธรรมดามากที่สุด แต่ละรุ่นถูกสร้างขึ้นโดยใช้สถาปัตยกรรมเครือข่ายประสาทแม้ว่าพวกเขาจะแตกต่างกันในขนาดและความซับซ้อน วิธีการเหล่านี้ได้แสดงให้เห็นถึงศักยภาพในการปรับปรุงเวิร์กโฟลว์ข้อมูลเป็นศูนย์กลางภายในอุตสาหกรรม ตัวอย่างเช่น VAEs ถูกนำมาใช้เพื่อสร้างพื้นผิวความผันผวนของสังเคราะห์เพื่อปรับปรุงการซื้อขายตัวเลือก (Bergeron et al.2021) Gans ได้รับการพิสูจน์แล้วว่ามีประโยชน์สำหรับการเพิ่มประสิทธิภาพพอร์ตโฟลิโอและการบริหารความเสี่ยง (Zhu, Mariani และ Li, 2020; et al.2023) แบบจำลองการแพร่กระจายได้รับการพิสูจน์แล้วว่ามีประโยชน์สำหรับการจำลองเมทริกซ์ความสัมพันธ์ของการคืนสินทรัพย์ภายใต้ระบบการตลาดต่างๆ (Kubiak et al.2024) และ LLM ได้รับการพิสูจน์แล้วว่ามีประโยชน์สำหรับการจำลองตลาด (Li et al.2024)

ตารางที่ 1. แนวทางในการสร้างข้อมูลสังเคราะห์

วิธี	ประเภทของข้อมูลที่สร้างขึ้น	ตัวอย่างแอปพลิเคชัน	กำเนิด?
Monte Carlo	อนุกรมเวลา	การเพิ่มประสิทธิภาพพอร์ตโฟลิโอการบริหารความเสี่ยง	เลขที่
ฟังก์ชั่นที่ใช้ copula	อนุกรมเวลา, ตาราง	การวิเคราะห์ความเสี่ยงด้านเครดิตการสร้างแบบจำลองความสัมพันธ์ของสินทรัพย์	เลขที่
โมเดล Autoregressive	อนุกรมเวลา	การพยากรณ์ความผันผวนการจำลองผลตอบแทนสินทรัพย์	เลขที่
bootstrapping	อนุกรมเวลา, tabular, textual	การสร้างช่วงความมั่นใจการทดสอบความเครียด	เลขที่
ตัวแปร Autoencoders Variational	ตารางเวลาอนุกรมเสียง, ภาพ	การจำลองพื้นผิวความผันผวน	ใช่
เครือข่ายศัตรู	ตารางเวลาอนุกรมเสียงภาพ	การเพิ่มประสิทธิภาพพอร์ตโฟลิโอการบริหารความเสี่ยงการฝึกอบรมแบบจำลอง	ใช่
แบบจำลองการแพร่กระจาย	ตารางเวลาอนุกรมเสียงภาพ	การสร้างแบบจำลองสหสัมพันธ์การเพิ่มประสิทธิภาพพอร์ตโฟลิโอ	ใช่
รูปแบบภาษาขนาดใหญ่	ข้อความ, ตาราง, รูปภาพ, เสียง	การวิเคราะห์ความเชื่อมั่นการจำลองตลาด	ใช่

การประเมินคุณภาพข้อมูลสังเคราะห์

ข้อมูลสังเคราะห์ควรเป็นจริงและตรงกับคุณสมบัติทางสถิติของข้อมูลจริงของคุณ วิธีการประเมินที่มีอยู่แบ่งออกเป็นสองประเภท: เชิงปริมาณและเชิงคุณภาพ

วิธีการเชิงคุณภาพเกี่ยวข้องกับการเปรียบเทียบการเปรียบเทียบระหว่างชุดข้อมูลจริงและสังเคราะห์ ตัวอย่างเช่นการแจกแจงการแสดงภาพการเปรียบเทียบ scatterplots ระหว่างคู่ของตัวแปรเส้นทางอนุกรมเวลาและเมทริกซ์สหสัมพันธ์ ตัวอย่างเช่นโมเดล GAN ที่ได้รับการฝึกฝนให้จำลองผลตอบแทนสินทรัพย์สำหรับการประมาณค่าความเสี่ยงที่ควรทำซ้ำการทำซ้ำหางของการกระจาย แบบจำลองการแพร่กระจายที่ได้รับการฝึกฝนให้สร้างเมทริกซ์สหสัมพันธ์สังเคราะห์ภายใต้ระบบการตลาดที่แตกต่างกันควรจับภาพร่วมของสินทรัพย์อย่างเพียงพอ

วิธีการเชิงปริมาณรวมถึงการทดสอบทางสถิติเพื่อเปรียบเทียบการแจกแจงเช่น Kolmogorov-Smirnov ดัชนีความมั่นคงของประชากรและความแตกต่างของ Jensen-Shannon การทดสอบสถิติเอาต์พุตเหล่านี้แสดงถึงความคล้ายคลึงกันระหว่างการแจกแจงสองครั้ง ตัวอย่างเช่นการทดสอบ Kolmogorov-Smirnov เอาท์พุทค่า p p-value ซึ่งถ้าต่ำกว่า 0.05 แสดงให้เห็นว่าการแจกแจงสองครั้งจะแตกต่างกันอย่างมีนัยสำคัญ สิ่งนี้สามารถให้การวัดที่เป็นรูปธรรมมากขึ้นกับความคล้ายคลึงกันระหว่างการแจกแจงสองครั้งเมื่อเทียบกับการสร้างภาพข้อมูล

อีกวิธีหนึ่งที่เกี่ยวข้องกับ“ รถไฟบน-สังเคราะห์การทดสอบบน-จริง” ซึ่งแบบจำลองได้รับการฝึกฝนเกี่ยวกับข้อมูลสังเคราะห์และทดสอบข้อมูลจริง ประสิทธิภาพของโมเดลนี้สามารถเปรียบเทียบกับโมเดลที่ผ่านการฝึกอบรมและทดสอบข้อมูลจริง หากข้อมูลสังเคราะห์ประสบความสำเร็จในการทำซ้ำคุณสมบัติของข้อมูลจริงประสิทธิภาพระหว่างทั้งสองรุ่นควรจะคล้ายกัน

ในการดำเนินการ: เพิ่มการวิเคราะห์ความเชื่อมั่นทางการเงินด้วยข้อมูลสังเคราะห์ Genai

เพื่อนำสิ่งนี้ไปสู่การปฏิบัติฉันได้ปรับแต่ง LLM โอเพนโอเพนซอร์สขนาดเล็ก QWEN3-0.6B สำหรับการวิเคราะห์ความเชื่อมั่นทางการเงินโดยใช้ชุดข้อมูลสาธารณะของหัวข้อข่าวที่เกี่ยวข้องกับการเงินและเนื้อหาโซเชียลมีเดียที่เรียกว่า FIQA-SA(1)– ชุดข้อมูลประกอบด้วยตัวอย่างการฝึกอบรม 822 ตัวอย่างโดยมีประโยคส่วนใหญ่จัดว่าเป็นความเชื่อมั่น “บวก” หรือ “ลบ”

จากนั้นฉันใช้ GPT-4O เพื่อสร้างตัวอย่างการฝึกอบรมสังเคราะห์ 800 ตัวอย่าง ชุดข้อมูลสังเคราะห์ที่สร้างโดย GPT-4O นั้นมีความหลากหลายมากกว่าข้อมูลการฝึกอบรมดั้งเดิมครอบคลุม บริษัท และความเชื่อมั่นมากขึ้น (รูปที่ 1) การเพิ่มความหลากหลายของข้อมูลการฝึกอบรมช่วยให้ LLM มีตัวอย่างเพิ่มเติมที่จะเรียนรู้ที่จะระบุความเชื่อมั่นจากเนื้อหาที่เป็นข้อความซึ่งอาจปรับปรุงประสิทธิภาพของโมเดลบนข้อมูลที่มองไม่เห็น

รูปที่ 1. การกระจายของคลาสความเชื่อมั่นสำหรับทั้งจริง (ซ้าย), สังเคราะห์ (ขวา) และชุดข้อมูลการฝึกอบรมเพิ่มเติม (กลาง) ประกอบด้วยข้อมูลจริงและสังเคราะห์

ตารางที่ 2. ตัวอย่างประโยคจากชุดข้อมูลการฝึกอบรมจริงและสังเคราะห์

ประโยค	ระดับ	ข้อมูล
การตกต่ำในฝายทำให้ FTSE ลดลงจากสถิติสูง	เชิงลบ	จริง
AstraZeneca ชนะการอนุมัติจาก FDA สำหรับยามะเร็งปอดใหม่ที่สำคัญ	เชิงบวก	จริง
ผู้ถือหุ้นของ Shell และ BG เพื่อลงคะแนนเสียงในช่วงปลายเดือนมกราคม	เป็นกลาง	จริง
รายงานรายไตรมาสของเทสลาแสดงการส่งมอบยานพาหนะเพิ่มขึ้น 15%	เชิงบวก	สังเคราะห์
PepsiCo กำลังจัดงานแถลงข่าวเพื่อจัดการกับการเรียกคืนผลิตภัณฑ์ล่าสุด	เป็นกลาง	สังเคราะห์
ซีอีโอของ Residence Depot ก้าวลงอย่างกะทันหันท่ามกลางการถกเถียงภายใน	เชิงลบ	สังเคราะห์

หลังจากปรับแต่งโมเดลที่สองในการรวมกันของข้อมูลจริงและสังเคราะห์โดยใช้ขั้นตอนการฝึกอบรมเดียวกันคะแนน F1 เพิ่มขึ้นเกือบ 10 คะแนนในชุดข้อมูลการตรวจสอบความถูกต้อง (ตารางที่ 3) โดยมีคะแนน F1 ขั้นสุดท้ายที่ 82.37% ในชุดข้อมูลทดสอบ

ตารางที่ 3. ประสิทธิภาพของโมเดลบนชุดข้อมูลการตรวจสอบ FIQA-SA

แบบอย่าง	น้ำหนัก F1
รุ่น 1 (ของจริง)	75.29%
รุ่น 2 (Actual + Artificial)	85.17%

ฉันพบว่าการเพิ่มสัดส่วนของข้อมูลสังเคราะห์ มากเกินไป มีผลกระทบด้านลบ มีโซน Goldilocks ระหว่างข้อมูลสังเคราะห์มากเกินไปและน้อยเกินไปเพื่อผลลัพธ์ที่ดีที่สุด

ไม่ใช่กระสุนเงิน แต่เป็นเครื่องมือที่มีค่า

ข้อมูลสังเคราะห์ไม่ได้เป็นการแทนที่ข้อมูลจริง แต่ก็คุ้มค่าที่จะทดลอง เลือกวิธีการประเมินคุณภาพข้อมูลสังเคราะห์และดำเนินการทดสอบ A/B ในสภาพแวดล้อมแบบทรายที่คุณเปรียบเทียบเวิร์กโฟลว์กับและไม่มีสัดส่วนที่แตกต่างกันของข้อมูลสังเคราะห์ คุณอาจประหลาดใจกับการค้นพบ

คุณสามารถดูรหัสและชุดข้อมูลทั้งหมดบนไฟล์ RPC Labs GitHub Repository และดำน้ำลึกลงไปในกรณีศึกษา LLM ในศูนย์วิจัยและนโยบายของนโยบาย“ข้อมูลสังเคราะห์ในการจัดการการลงทุน” รายงานการวิจัย

(1) ชุดข้อมูลมีให้ดาวน์โหลดที่นี่: https://huggingface.co/datasets/thefinai/fiqa-sentiment-classification

Meta เพิ่งจ่ายเงิน $ 250M เพื่อหลอกล่อ AI Whiz Child อายุ 24 ปีนี้: การเคลื่อนไหวเชิงกลยุทธ์หรือการเล่นที่มีพลัง? – แพลตฟอร์ม Meta (NASDAQ: META), ProShares Belief ProShares S&P 500 Dynamic Buffer ETF (BATS: FB)

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

ข้อมูลสังเคราะห์ที่ขับเคลื่อนด้วย Genai กำลังปรับเปลี่ยนเวิร์กโฟลว์การลงทุนอย่างไร

สิ่งที่ทำให้ข้อมูลสังเคราะห์ Genai ออกจากกัน – และทำไมมันถึงสำคัญตอนนี้

รุ่น Genai ทั่วไป

การประเมินคุณภาพข้อมูลสังเคราะห์

ในการดำเนินการ: เพิ่มการวิเคราะห์ความเชื่อมั่นทางการเงินด้วยข้อมูลสังเคราะห์ Genai

ไม่ใช่กระสุนเงิน แต่เป็นเครื่องมือที่มีค่า

สิ่งที่เปลี่ยนแปลงสำหรับผู้กู้ยืมเงินนักศึกษาในวันที่ 1 กรกฎาคม 2026

Will Rhind: ราคาทองคำกำลังมาแรง ตัวเร่งที่จะขับเคลื่อนขาต่อไป

การศึกษาดัชนี Compass US ของตลาดและภาคส่วน ETF

LEAVE A REPLY Cancel reply

Most Popular

XRP Value Dips 3% as Garlinghouse Helps CLARITY Act

Ethereum สำหรับรัฐบาลและสถาบัน: ทำไมโครงสร้างพื้นฐานที่เป็นกลางจึงมีความสำคัญในตอนนี้

สิ่งที่เปลี่ยนแปลงสำหรับผู้กู้ยืมเงินนักศึกษาในวันที่ 1 กรกฎาคม 2026

ปริมาณ Stablecoin ของ TRON สูงถึง $1.96T เนื่องจากความต้องการในการชำระบัญชี USDT เพิ่มขึ้น

ความเห็นล่าสุด

กระทู้ยอดนิยม

XRP Value Dips 3% as Garlinghouse Helps CLARITY Act

Ethereum สำหรับรัฐบาลและสถาบัน: ทำไมโครงสร้างพื้นฐานที่เป็นกลางจึงมีความสำคัญในตอนนี้

สิ่งที่เปลี่ยนแปลงสำหรับผู้กู้ยืมเงินนักศึกษาในวันที่ 1 กรกฎาคม 2026

POPULAR CATEGORY

เกี่ยวกับเรา

FOLLOW US