楼主: 时光永痕
1088 0

[数据挖掘新闻] 全面的循序渐进指南,成为行业就绪的数据科学专业人员 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)八级

3%

威望
0
论坛币
26 个
通用积分
57.2238
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34180 点
帖子
2732
精华
0
在线时间
321 小时
注册时间
2020-7-21
最后登录
2024-8-1

楼主
时光永痕 学生认证  发表于 2020-12-11 20:05:41 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
全面的循序渐进指南,成为行业就绪的数据科学专业人员
自然语言处理入门
–处理文本数据(清洁和预处理)–文本数据有其自身的挑战。例如,如果您使用社交媒体数据,则可能会遇到不完整的单词(首字母缩写词),这对机器学习模型可能是毫无用处的。在进入高级主题之前,请先了解基本数据清理,例如下大写字母,标点符号的删除,停用词的删除,频繁单词的删除,稀有单词的删除,拼写校正,标记化,词干,词法化。
–使用Spacy,Rasa和Regex浏览和处理文本数据–这些库为复杂的文本预处理步骤提供模块和功能,从而减少了探索数据集所需的时间和精力。
–从基于文本的数据中进行信息提取和检索–信息提取(IE)的任务涉及从非结构化文本数据中提取有意义的信息,并以结构化格式进行呈现。使用信息提取,您可以检索预定义的信息,例如人名,组织的位置,或标识实体之间的关系,然后以结构化格式(例如数据库)保存此信息。
–了解语言建模–这是许多现代NLP任务(例如机器翻译,文本摘要,语音识别等)中的主要成分。您可以深入研究统计语言模型,例如n-gram模型或高级神经网络
–学习高级特征工程技术–下一步是特征工程,其中将原始数据集转换为可用于机器学习模型的平面特征。此步骤还包括根据现有数据创建新功能的过程。您可以使用计数向量,TF-IDF功能或单词嵌入。
–建立用于文本分类的NLP模型–文本分类的目的是将文本文档自动分类为一个或多个定义的类别。它主要包括3个部分-数据集准备,特征工程,模型构建,改进模型的性能。
–了解主题建模–顾名思义,这是一个自动识别文本对象中存在的主题并派生文本语料库显示的隐藏模式的过程。因此,有助于更好的决策。例如,一个好的主题模型应导致–主题–医疗保健–“健康”,“医生”,“患者”,“医院”。LDA是用于主题建模的流行算法。
–从事与行业相关的项目–项目是学习自然语言处理的最重要组成部分,并且在面试时会给予额外的权重。因此,转到DataHack并开始使用NLP问题声明。
11.使用深度学习的NLP
–了解序列到序列建模的概念–在这些模型中,输入和输出都是不同长度的序列。您还将需要对架构以及注意力机制有透彻的了解。
–在PyTorch中构建用于语言翻译的深度学习模型– 在项目中应用序列到序列建模,以构建深度学习模型,以使用Pytorch自动将一种语言翻译成另一种语言。
–学习如何使用Huggingface的Transformers库。– Transformer体系结构在序列建模任务方面达到了最先进的状态。Huggingface令人惊叹的库使“变形金刚”的使用民主化。它具有大量基于Transformer的预训练模型,也可以对其进行微调。
–使用Transformers在NLP中执行传输学习–详细了解Transformers模型。另外,了解如何在NLP中使用变形金刚执行传递学习。通过在Huggingface上研究Transformers库来了解变压器的工作。
–构建和部署自己的聊天机器人–会话代理或聊天机器人 已在多个行业发挥作用。处理一个项目,在该项目中您将使用开源工具RASA构建聊天机器人。在Blackbelt +中,您还将学习在松弛状态下部署聊天机器人。
–学习使用基于音频的数据–该项目的目标是建立一个深度学习系统,以将语音输入转换为文本。它仅需几个语音命令即可用于控制家庭自动化系统等任务。
12.推荐系统
–业内的推荐系统–从亚马逊到Netflix,从Google到Goodreads,推荐引擎是机器学习技术中使用最广泛的应用之一。推荐引擎使用不同的算法过滤数据,并向用户推荐最相关的项目。它首先记录了客户的过去行为,并在此基础上推荐了用户可能购买的产品。
–推荐系统类型的详细分类法–了解行业中使用的各种推荐系统。每种方法的优缺点是什么?
–协作过滤方法–协作过滤算法使用“用户行为”来推荐项目。这是行业中最常用的算法之一,因为它不依赖于任何其他信息。
–基于内容的推荐系统– 该算法推荐与用户过去喜欢的产品相似的产品。例如,如果某人喜欢电影“盗梦空??间”,则此算法将推荐属于同一类型的电影。但是,该算法如何理解从哪个类型中挑选电影并推荐电影?
–基于知识的混合推荐系统–混合推荐将基于协作和基于内容的推荐系统提供的排名合并在一起,并根据合并后的排名做出最终推荐。
–市场篮子分析和关联规则–市场篮子分析(也称为MBA)是营销人员中广泛使用的一种技术,用于确定客户经常购买的产品或服务的最佳组合。这也称为产品关联分析。关联分析主要基于名为“ Apriori算法”的算法进行。这种分析的结果称为关联规则。营销人员使用这些规则来制定建议。
13.时间序列
–时间序列预测的重要概念–  时间序列是业务领域中极为重要的概念。例如,从预测明年的销售量到分析网站流量等。了解时间序列预测的核心概念,例如其属性,组成部分,季节性等。
–用于时间序列预测的机器学习技术–我们不能应用相同的机器学习概念,而不能直接应用于时间序列数据。取而代之的是,我们还有其他特殊算法,例如-移动平均,指数平滑,Holt的线性趋势模型以及其他高级技术。
–预测的指数平滑方法–在这种技术中,我们对最近的观测值比对过去的观测值应用更多的权重。
– ARIMA和SARIMA模型– ARIMA代表自回归综合移动平均线。静止时间序列的ARIMA预测不过是线性(线性回归)方程。SARIMA模型考虑了时间序列的季节性。
– ARIMA的调整参数– ACF(自相关函数)和PACF(局部自相关函数)图用于确定ARIMA模型的输入参数,这也许是最重要的步骤
–时间序列的深度学习–深度学习为时间序列数据提供了令人鼓舞的结果,其中一种深度学习架构是LSTM。
–解决实际业务问题–没有实际问题的时间序列不完整。DataHack提供了大量示例供您试用。
14.面向职业的服务数据科学访谈
–进行简历建设的注意事项–简历建设对于任何人来说都是简单但最复杂的活动。启动您的Google并收集“注意事项”列表,并跟着要点进行操作。
–建立完美履历的技巧和策略–您可以在履历中使用某些技巧,以使面试更好。数据科学是一个需要数据驱动问题的领域,请提及支持您技能的项目。
–数据科学简介的样本简历–一定要看看数据科学家的样本简历,这将帮助您清楚地了解下一份简历。
–准备进行数据科学面试–一旦您找到了简历,现在就该抓住机会了。确保您正确浏览了简历以及您提到的所有主题和技能。
–了解所需的重要技能–在“技能”部分的“编写机器学习”不会帮助您找到工作。尝试画出清晰的画面,提及您知道的算法,甚至熟悉您熟悉的库。另外,别忘了提及重要的软技能,例如沟通技巧和结构化思考。
–如何建立数字化的影响力–世界正在走向数字化,在人群中引起关注是非常重要的。建立您的GitHub个人资料,并使用适当的描述将所有项目移到那里。您可以在简历中包括这些Github链接。另外,请不断更新您的LinkedIn个人资料,在这里您可以找到招聘人员。
–数据科学面试问题列表–如果您准备一些常见问题,则数据科学面试可以顺利进行。这些问题还可以帮助您清除概念。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据科学 循序渐进 专业人员 Transformers transform

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-22 17:18