借助大量数据计算资源的可用性,机器学习(ML)取得了长足的进步。从本质上讲,它是一个信息处理企业,金融业拥有大量的机会来部署这些新技术。
金融机器学习是在金融行业中应用现代机器学习的实用指南。这本书不仅涉及金融领域的投资或交易,这更多是计算机和金融之间爱情故事的直接结果。投资公司有客户,通常是保险公司或养老基金,这些公司本身就是金融服务公司,进而也有客户,有退休金或被保险人的日常工作。
让我们看看Jannes关于金融行业挑战的看法,以及机器学习如何帮助解决这些挑战:
告诉我们一些关于您的书《金融机器学习》吗?编写时的目标和意图是什么?是什么使这本书有必要?它填补了什么空白?
简尼斯·克拉斯(Jannes Klaas):本书绝不是您可能想知道的所有内容的完整指南,而是一本以实践为导向的入门指南,使读者掌握了一些立即可用的技能。仅阅读了几章,读者就可以在其专业工作中运用他们的新技能。这种方法使本书与传统上主导量化金融的许多理论驱动型文学区分开来。当我开始写这本书时,我感到许多从事ML的人所知道的东西与许多从事金融的人所知道的东西之间存在着脱节。我看到许多机器学习专家创建了“财务模型”,从财务角度来看,这些模型要比没用的糟糕。同时,许多金融从业者不知道他们的领域正在发生什么。他们担心excel电子表格的时代已经过去,他们的技能会过时。他们对此表示正确。但是他们并没有一种直接的方法来概述他们所处的勇敢的新世界并获得一些基本技能。双方之间仍然存在理解分歧,双方都需要提高技能,以充分利用摆在我们面前的机会。我希望解决这一差距,并为金融专业的发展做出一点贡献。双方都需要提高技能,以充分利用摆在我们面前的机会。我希望解决这一差距,并为金融专业的发展做出一点贡献。双方都需要提高技能,以充分利用摆在我们面前的机会。我希望解决这一差距,并为金融专业的发展做出一点贡献。
金融领域的机器学习方法有哪些不同?您更喜欢哪种方法来映射和解决问题,为什么?
JK:根据任务,有很多不同的方法。因此,没有任何一种方法明显占主导地位。这里要问的第一个问题是您要进行有监督,无监督还是强化学习。如果您有标签,也就是说,您知道对训练数据的真实预测应该是什么,那么通常最好采用监督方法。监督学习是大多数商业价值所在,通常是涉及预测的任何事物的首选方法。如果没有标签,无监督学习可让您从数据中收集见解。例如,您可能有兴趣寻找驱动股价的共同因素。您不知道存在哪些因素,甚至不知道有多少因素,因此您可以使用无监督的方法来获得一些洞察力。强化学习不需要标签,但是它需要一些奖励信号。假设您对最佳对冲策略感兴趣。再一次,您不知道最佳策略是什么,但是您确实知道自己是赚钱还是亏钱。因此,您可以将此知识用作奖励信号,并训练算法以使其最大化。
从学术角度来看,我发现强化学习非常有趣。但是作为一名从业者,我大多数时候倾向于采用监督方法。通常,模型越简单越好。
为什么财务模型会放大数据偏见?您如何克服这种偏见,并使机器学习模型公平和负责任?
JK:机器学习模型的建立是为了区分可区分数据集中各个类别的功能(例如,欺诈性交易或真实交易)。他们甚至可以组合特征以形成新特征,以帮助他们进行区分。问题在于它们还可以根据受保护的属性(例如年龄,性别或种族)进行区分。如果受保护的属性本身从模型中隐藏,甚至会发生这种情况。说,您想避免歧视年轻人。因此,您不会使用年龄作为特征,而是使用职业身份。但是,该模型将根据职业状况(例如学生)推断年龄,并且最终可能会歧视年龄。第二个普遍的问题是,许多机器学习系统不能对每个人同样有效。例如,许多计算机视觉系统 努力认识有色人种的面孔。例如,如果您使用计算机视觉来验证ID,这将非常成问题。要解决此问题,您首先需要意识到并公开问题。下一步是建立一支多元化的团队,并有可能发现导致偏见的微妙模式。您的数据还需要代表您可能服务的不同人群。然后有一些技术方法。一种方法是在模型的损失函数中添加判别力。因此,模型不仅需要最小化其预测误差,还需要使其对受保护属性的偏见最小。这些技术解决方案可以肯定是响应的一部分,但是,如果您不承认并不断监视问题,这些解决方案将无法挽救您。例如,如果您使用计算机视觉来验证ID,这将非常成问题。要解决此问题,您首先需要意识到并公开问题。下一步是建立一支多元化的团队,并有可能发现导致偏见的微妙模式。您的数据还需要代表您可能服务的不同人群。然后有一些技术方法。一种方法是在模型的损失函数中添加判别力。因此,模型不仅需要最小化其预测误差,还需要使其对受保护属性的偏见最小。这些技术解决方案可以肯定是响应的一部分,但是,如果您不承认并不断监视问题,这些解决方案将无法挽救您。例如,如果您使用计算机视觉来验证ID,这将非常成问题。要解决此问题,您首先需要意识到并公开问题。下一步是建立一支多元化的团队,并有可能发现导致偏见的微妙模式。您的数据还需要代表您可能服务的不同人群。然后有一些技术方法。一种方法是在模型的损失函数中添加判别力。因此,模型不仅需要最小化其预测误差,还需要使其对受保护属性的偏见最小。这些技术解决方案可以肯定是响应的一部分,但是,如果您不承认并不断监视问题,这些解决方案将无法挽救您。要解决此问题,您首先需要意识到并公开问题。下一步是建立一支多元化的团队,并有可能发现导致偏见的微妙模式。您的数据还需要代表您可能服务的不同人群。然后有一些技术方法。一种方法是在模型的损失函数中添加判别力。因此,模型不仅需要最小化其预测误差,还需要使其对受保护属性的偏见最小。这些技术解决方案可以肯定是响应的一部分,但是,如果您不承认并不断监视问题,这些解决方案将无法挽救您。要解决此问题,您首先需要意识到并公开问题。下一步是建立一支多元化的团队,并有可能发现导致偏见的微妙模式。您的数据还需要代表您可能服务的不同人群。然后有一些技术方法。一种方法是在模型的损失函数中添加判别力。因此,模型不仅需要最小化其预测误差,还需要使其对受保护属性的偏见最小。这些技术解决方案可以肯定是响应的一部分,但是,如果您不承认并不断监视问题,这些解决方案将无法挽救您。您的数据还需要代表您可能服务的不同人群。然后有一些技术方法。一种方法是在模型的损失函数中添加判别力。因此,模型不仅需要最小化其预测误差,还需要使其对受保护属性的偏见最小。这些技术解决方案可以肯定是响应的一部分,但是,如果您不承认并不断监视问题,这些解决方案将无法挽救您。您的数据还需要代表您可能服务的不同人群。然后有一些技术方法。一种方法是在模型的损失函数中添加判别力。因此,模型不仅需要最小化其预测误差,还需要使其对受保护属性的偏见最小。这些技术解决方案可以肯定是响应的一部分,但是,如果您不承认并不断监视问题,这些解决方案将无法挽救您。
关于这本书
面向金融的机器学习探索了机器学习的新进展,并展示了如何将其应用于整个金融领域,包括保险,交易和贷款。它解释了主要机器学习技术背后的概念和算法,并提供了用于自己实现模型的示例Python代码。
关于作者
Jannes Klaas 是一名定量研究人员,具有经济学和金融背景。他在鹿特丹图灵学会担任金融学的机器学习的首席开发人员,任教。他领导了机器学习训练营,并与金融公司合作开发了数据驱动的应用程序和交易策略。
Jannes目前是牛津大学的研究生,具有活跃的研究兴趣,包括系统风险和大规模自动化知识发现。
关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!