楼主: hlj206
464 0

[其他] 股票研究报告生成-基于LLM的多智能体框架FinRpt-Gen数据构建、方法框架 [推广有奖]

  • 0关注
  • 0粉丝

小学生

14%

还不是VIP/贵宾

-

威望
0
论坛币
10 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
40 点
帖子
3
精华
0
在线时间
0 小时
注册时间
2018-6-4
最后登录
2018-6-4

楼主
hlj206 发表于 2025-11-18 15:04:07 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

大A已超过4000点,现在来看看“股票研究报告(ERR)自动生成”的输入输出如下:

输入:提供公司股票代码(s)和研究日期(t),自动收集6类结构化/非结构化数据,形成输入集合S=[O, F, A, N, P, M]

  • O:公司基本信息(例如行业分类、市场定位)
  • F:财务指标(包括利润表、资产负债表、现金流量表)
  • A:公司公告(例如董事会决议、季度报告等)
  • N:公司相关新闻(经过筛选去除重复)
  • P:历史股价数据
  • M:市场指数(例如沪深300)

输出:符合行业标准的ERR报告,包含6个主要部分:财务分析(R_fin)、新闻分析(R_news)、经营发展分析(R_manage)、风险分析(R_risk)、投资潜力评估(R_invest)、推荐评级(R_rec,买入/卖出)

方法涵盖数据集构建、多智能体框架设计、模型训练优化三个主要部分,接下来详细看看实现。

数据集构建-FinRpt数据集

为了支持模型训练和评估,论文设计了自动化数据集构建流程,主要包括3个步骤:

  1. 数据收集模块
    数据来源:

    范围:沪深800指数的800支股票,2024年9月3日至11月5日(共计10个分析日期,每间隔一周)
  2. 数据筛选与生成
    筛选规则:排除缺乏财务指标、新闻数量少于2条、公告摘要少于300字的低质量数据
    报告生成:利用FinRpt-Gen框架(最初基于GPT-4o)自动生成ERR,形成原始样本(s, t, S, R)
  3. 数据集增强模块
    推荐评级校正:比较生成报告的R_rec与实际股价趋势,不一致时重新生成
    专家报告校正:搜索东方财富网的专家报告,使GPT-4o参考这些报告来提高生成报告的准确性、逻辑性和专业风格
    LLM润色:通过GPT-4o优化报告的可读性、连贯性和逻辑流畅度

最终数据集:6825条高质量ERR样本(包括中文和英文版本),按9:1:1比例分为训练集(5556)、验证集(617)、测试集(652)

FinRpt-Gen多智能体框架

鉴于ERR结构复杂、需要多维度分析的特点,设计了一个包含9个智能体的分层框架,分为3大模块协同工作:

  1. 信息提取模块(4个智能体):从原始数据中提取关键信息
    新闻提取智能体:根据新闻对股价的影响程度排序,选择Top10关键新闻
    收入提取智能体:从利润表F中提取营业收入、净利润、每股收益(EPS)等核心指标
    资产提取智能体:从资产负债表F中提取资产、负债、所有者权益等关键数据
    现金提取智能体:从现金流量表F中提取经营活动、投资活动、筹资活动的现金流
  2. 分析模块(4个智能体):生成ERR的主要分析部分
    财务分析智能体:基于3个财务提取智能体的输出,总结公司的财务健康状况、盈利能力和现金流情况,生成R_fin
    新闻分析智能体:基于Top10新闻,分析其对股票未来表现的影响,生成R_news
    经营分析智能体:从公司公告A中提炼管理层策略和发展路径,生成R_manage
    风险分析智能体:整合财务、新闻、经营分析的结果,识别主要风险(如政策风险、假冒风险),生成R_risk
  3. 预测模块(1个智能体):生成投资建议和评级
    预测智能体:输入R_fin、R_news、R_risk,结合历史股价P和市场指数M,生成投资潜力评估(R_invest)和推荐评级(R_rec)
    评级规则:如果预期股价涨幅超过沪深300指数,则评级为“买入”,否则为“卖出”

模型训练优化:SFT+RL

针对框架中的4个核心智能体(财务分析、新闻分析、经营分析、预测),采用“监督微调+强化学习”的两阶段训练:

  1. SFT学习专业分析模式
    数据:使用FinRpt数据集中相应模块的标注样本(输入为提取模块的输出,输出为高质量的分析部分)
    方法:采用LoRA(低秩适应)微调,仅更新低秩适配器参数Δθ,避免全面微调带来的高资源消耗
    优化目标:最大化生成目标文本的似然概率
    maxΔθ∑(X,Y)∈DdemologP(Y∣X;θ0+Δθ)
    max _{\Delta \theta} \sum_{(X, Y) \in D_{demo }} log P\left(Y | X ; \theta_{0}+\Delta \theta\right)
  2. 强化学习(RL):优化投资预测准确性
    针对对象:仅优化预测智能体(核心影响投资建议的有效性)
    算法:采用DAPO(动态采样策略优化),基于PPO改进,确保训练的稳定性
    奖励函数:综合评估推荐评级的准确性和投资分析的质量,权重分配为α=0.6(评级准确性)、β=0.2(ROUGE-1)、γ=0.2(ROUGE-L)

优化目标:最大化裁剪后的代理目标,防止策略更新幅度过大

五、评估系统:全面评估ERR生成质量

设计了包含“基础指标+LLM专业评估”的双重评估体系,确保评估的全面性和专业性:

1. 基本指标(5项)- 量化文本品质与预测精确度

完成度(Completion Rate):生成报告是否遵循6章节格式标准

精确度(Accuracy):推荐评级(Buy/Sell)的准确性

语义一致性(BERT Score/ROUGE-L):与专家报告的语义匹配度

数字涵盖率(Number Rate):生成报告中财务数字的密度(相对于专家报告)

2. LLM专业评估(6个方面):评价金融专业水平

财务数字(FN):财务数据的精确性和分析深度

新闻关联性(News):新闻分析的相关性和完整性

公司/市场/行业见解(CMI):对管理、市场趋势的理解

投资逻辑(Invest):投资建议的合理性和论证的充分性

风险分析(Risk):风险辨识的全面性

写作质量(Writing):连贯性、易读性和逻辑一致性

评估方法:采用GPT-4o作为评判代理,通过pairwise比较各模型生成的报告,计算调整后的胜率(胜场数 + 0.5×平局数)/总样本量

实验表现

参考文献:FinRpt: Dataset, Evaluation System and LLM-based Multi-agent Framework for Equity Research Report Generation,https://arxiv.org/pdf/2511.07322v1

仓库:https://github.com/jinsong8/FinRpt

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:股票研究 研究报告 智能体 LLM Fin

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jr
拉您进交流群
GMT+8, 2026-2-6 01:24