请选择 进入手机版 | 继续访问电脑版
楼主: 资料狂人
32129 83

[学科前沿] 几何级提升实证研究效率的利器→Python爬虫与文本分析   [推广有奖]

运营管理员

巨擘

0%

还不是VIP/贵宾

-

威望
9
论坛币
974927538 个
通用积分
41187.9035
学术水平
4617 点
热心指数
3402 点
信用等级
3620 点
经验
636489 点
帖子
9612
精华
140
在线时间
18191 小时
注册时间
2010-5-1
最后登录
2024-4-18

初级热心勋章 初级学术勋章 中级学术勋章 中级热心勋章 初级信用勋章 中级信用勋章 高级学术勋章 高级热心勋章 高级信用勋章 特级信用勋章 特级学术勋章

资料狂人 在职认证  发表于 2020-3-17 09:26:47 |显示全部楼层 |坛友微信交流群

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

随着互联网的发展,网络信息呈现指数式增长,要在短时间内获取大量信息,网络爬虫无疑是一种最适合的方法。通过爬虫获取的海量信息,我们可以对其进行进一步的分析:市场预测、文本分析、机器学习方法等。

文本挖掘的意义:文献量激增.人们日常生活中所接触到的信息有80%左右是以文本的方式存在的,更具有潜在的商业和科学价值。


数据或文本挖掘是信息时代,大数据条件下技术发展的必然趋势,随着文本和各类数据的迅速增加,只有通过计算机技术的配合,才可以全面分析相关数据,整体把握有关领域:

Python作为一门脚本语言,它灵活、易用、易学、适用场景多,实现程序快捷便利,早已经成为程序员们的一门编程利器。Python这门编程语言包罗万象,可以说掌握了python,除了一些特殊环境和高度的性能要求,你可以用它做任何事。

此外, Python包含的用于字符串匹配的正则表达式模块,可以帮助我们非常完美地解决文本分析方面遇到的许多问题。

完整掌握Python爬虫及文本分析学术应用

经管之家学术培训2020年“Python爬虫与文本挖掘实例技术与应用

授课老师:

陈远祥,北京邮电大学副教授。2014年毕业于北京大学,获通信与信息系统专业博士学位,2015年-2017年在北京大学做博士后研究。主要研究方向包括光无线融合技术,智能信号处理,以及基于人工智能的信号处理技术。发表SCI/EI学术论文80余篇,其中第一或通讯作者论文40余篇,申请发明专利4项。主持国家自然科学基金面上项目,国家重点研发计划子课题,国家自然科学基金青年项目及博士后基金等多个国家级和省部级项目。IEEE、OSA会员,Optics Express,IEEE Photonics Technology Letters,Photonics Journal,Applied Optics等多个SCI期刊审稿人。


Python爬虫与文本挖掘实例技术与应用


【培训费用】

Python初级:1000元,报名:http://www.peixun.net/main.php?mod=buy&cid=1595

Python爬虫:2000元,报名:http://www.peixun.net/main.php?mod=buy&cid=1596

Python文本:3000元,报名:http://www.peixun.net/main.php?mod=buy&cid=1597

含在线视频,资料及答疑;提供发票及开课通知及结业证书。

现场班老学员九折优惠;同时报名2-3个专题九折优惠;折扣优惠不叠加。



课程介绍:

致力于讲授完整的结构化数据、文本数据的获取、存储、读取、处理和分析过程,我们期望课程可以帮助到广大的学员,包括所有想要使用python编程语言实现数据获取和文本分析的在校师生、以及致力于将数据分析与挖掘的价值广泛运用到实际场景的商业人士。

该课程包括5天的远程教学+20小时以上的线上辅助教学视频内容,通过该课程的学习,我们的学员将不再单一依靠开源公开数据网站的数据,适当摆脱对国家统计年鉴、wind数据库、知网数据的依赖,能够从更多元的渠道获取数据,使用Python更高效的处理数据,并用更前沿的技术分析和挖掘数据信息,为我们的科研工作减轻中间工作负担。


课程大纲:

Python编程基础:

1 Python爬虫与文本分析概述

1.1 文本数据的重要性

1.1.1 结构化数据

1.1.2 非结构化数据

1.1.3 文本数据


1.2 文本分析

1.2.1 文本分析基本概念

1.2.2 文本分析与自然语言处理的关系

1.2.3 爬虫与文本分析


2 Python基础

2.1 Python语言概述

2.1.1 起源

2.1.2 语言特色

2.1.3 开发环境配置


2.2 标准数据类型

2.2.1 bool(布尔)

2.2.2 number(数字)

2.2.3 string(字符串)

2.2.4 list(列表)

2.2.5 tuple(元组)

2.2.6 dictionary(字典)

2.2.7 set(集合)


2.3 控制流

2.3.1 顺序

2.3.2 选择

2.3.3 循环

2.3.4 异常处理


2.4 函数

2.4.1 定义函数

2.4.2 调用函数

2.4.3 匿名函数


2.5 os文件处理模块

2.5.1 文件目录操作

2.5.2 文件读写


3 Python重要数据科学计算库

3.1 numpy

3.1.1 数组的创建

3.1.2 数组常用内置方法

3.1.3 数据类型的转换

3.1.4 数组的索引

3.1.5 变换数组的形态

3.1.6 数组的运算

3.1.7 常用统计函数


3.2 pandas

3.2.1 数据帧的创建

3.2.2 索引与过滤

3.2.3 增加和删除

3.2.4 缺失值处理

3.2.5 数据整理

3.2.6 统计和描述

3.2.7 数据的合并和分组运算

3.2.8 数据的读写和查看


3.3 matplotlib

3.3.1 快速绘图

3.3.2 绘制子图

3.3.3 添加文字说明和注释

3.3.4 散点图

3.3.5 对数坐标图

3.3.6 极坐标图

3.3.7 饼图

3.3.8 柱状图

3.3.9 直方图

3.3.10 箱线图


3.4 pyecharts

3.4.1 柱状图/条形图

3.4.2 箱型图

3.4.3 热力图

3.4.4 折线图

3.4.5 散点图

3.4.6 漏斗图

3.4.7 饼图

3.4.8 词云图

3.4.9 3D图表


Python爬虫学术应用

4 爬虫

4.1 爬虫基础

4.1.1 爬虫基本概念

4.1.2 通用爬虫和聚焦爬虫

4.1.3 http的请求与响应

4.1.4 网页基础知识


4.2 简单爬虫实现

4.2.1 爬虫基本原理

4.2.2 爬虫与反爬虫

4.2.3 正则表达式

4.2.4 requests库实现http请求

4.2.4.1 实战1:豆瓣电影分类排行榜(JSON数据格式)

4.2.4.2 实战2:猫眼电影排行榜数据提取

4.2.4.3 实战3:基于cookies爬取豆瓣短评分析

4.2.5 Beautiful Soup

4.2.5.1 网页的解析

4.2.5.2 网页元素的选取

4.2.5.3 实战:从中国天气网获得天气数据;爬取豆瓣电视剧评分


4.3 爬虫高级技术进阶

4.3.1 多页面的爬取

4.3.2 动态渲染页面的爬取

4.3.3 基于selenium的自动化爬取技术

4.3.4 实战:多页面爬取京东商品数据


Python文本分析学术应用

5 文本分析

5.1 文本分析概述

5.1.1 自然语言处理的层次

5.1.2 自然语言处理的难点

5.1.3 自然语言处理的流派


5.2 文本分析关键技术

5.2.1 常用文本整理和清洗方法

5.2.1.1 句子拆分

5.2.1.2 词拆分

5.2.1.3 过滤重复的单词

5.2.1.4 删除停用词

5.2.1.5 拼写检查

5.2.1.6 大小写变换

5.2.1.7 文本翻译

5.2.1.8 词干提取

5.2.1.9 提取电子邮件或URL

5.2.2 中文分词技术

5.2.2.1 规则分词

5.2.2.2 统计分词

5.2.2.3 混合分词

5.2.2.4 实战:结巴分词,对爬取的豆瓣数据分析,统计词频,绘制词云图

5.2.3 词性标注与命名实体识别

5.2.3.1 词性标注

5.2.3.2 命名实体识别

5.2.3.3 实战:基于jiebaku 的词性标注和基于HanLP的命名实体识别

5.2.4 文本向量化

5.2.4.1 离散化表示

5.2.4.2 分布式表示

5.2.4.3 实战:利用word2vec计算西游记中人物相似性

5.2.5 关键词提取

5.2.5.1 TF-IDF算法

5.2.5.2 TextRank算法

5.2.5.3 LDA算法

5.2.5.4 实战:基于LDA主题模型进行新闻关键词提取

5.2.5.5 实战:网页相似性分析

5.2.6 文本分类

5.2.6.1 分类算法介绍

5.2.6.2 实战:贝叶斯新闻分类

5.2.6.3 实战:虚假评论分类

5.2.7 文本聚类

5.2.7.1 kmeans算法介绍

5.2.7.2 实战:百度百科数据聚类

5.2.7.3 实战:豆瓣书籍数据聚类

5.2.8 文本情感分析

5.2.8.1 基于规则的情感分析

5.2.8.2 基于机器学习模型的情感分析

5.2.8.3 实战:基于豆瓣电影的情感分析

5.2.8.4 实战:在线情感分析系统


报名方式:  

1,点击对应报名链接,网上提交报名信息;

2,经管之家论坛账号登录后进入结算中心提交订单;

3,订单微信/支付宝/银联支付,如需对公转账请与我们联系;

4,课程结束后快递发票,开课通知,结业证书。


联系方式:

魏老师

QQ:1143703950 点击这里给我发消息

Tel:010-68478566

Mail:vip@pinggu.org
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


已有 4 人评分经验 论坛币 热心指数 信用等级 收起 理由
happy_287422301 + 100 + 100 精彩帖子
18437970750 + 1 + 1 热心帮助其他会员
xujingtang + 100 精彩帖子
dixiahe + 1 精彩帖子

总评分: 经验 + 200  论坛币 + 100  热心指数 + 1  信用等级 + 2   查看全部评分



资料狂人 在职认证  发表于 2020-3-17 09:31:56 |显示全部楼层 |坛友微信交流群
随着互联网的发展,网络信息呈现指数式增长,要在短时间内获取大量信息,网络爬虫无疑是一种最适合的方法。通过爬虫获取的海量信息,我们可以对其进行进一步的分析:市场预测、文本分析、机器学习方法等。

Python作为一门脚本语言,它灵活、易用、易学、适用场景多,实现程序快捷便利,早已经成为程序员们的一门编程利器。Python这门编程语言包罗万象,可以说掌握了python,除了一些特殊环境和高度的性能要求,你可以用它做任何事。

此外,我们的世界还充斥着大量形形色色的文字以及图片,一款能够有效处理文字信息的分析软件就显得至关重要。好在,这个世界上还有一个叫做Python的东西,它包含的用于字符串匹配的正则表达式模块,可以帮助我们非常完美地解决文本分析方面遇到的许多问题。

为提升相关科技工作者的技术水平,经管之家学术培训特举办2020年开年“Python爬虫与文本挖掘实例技术与应用”远程与视频结合培训班,本次培训从爬虫的基本知识入手,使用Python作为实现工具,一步步讲述网络爬虫及文本分析的实现。

使用道具

资料狂人 在职认证  发表于 2020-3-17 09:32:22 |显示全部楼层 |坛友微信交流群
如果说2018年以前R是数据学术界的主流,那么2018年以后Python正在慢慢取代R在学术界的地位。

Python与R相比速度要快。Python可以直接处理上G的数据;R不行,R分析数据时需要先通过数据库把大数据转化为小数据才能交给R做分析,因此R不可能直接分析行为详单,只能分析统计结果。所以有人说:Python=R+SQL/Hive,并不是没有道理的。

使用道具

资料狂人 在职认证  发表于 2020-3-17 09:32:35 |显示全部楼层 |坛友微信交流群
Python的一个最明显的优势在于其胶水语言的特性,很多书里也都会提到这一点,一些底层用C写的算法封装在Python包里后性能非常高效(Python的数据挖掘包Orange Canvas 中的决策树分析50万用户10秒出结果,用R几个小时也出不来,8G内存全部占满)。

Python已经成为越来越多美国顶级大学的计算机编程入门语言了。美国计算机排名顶尖的麻省理工学院和加州大学伯克利分校已经将他们的计算机编程入门教学语言改为了 Python。

使用道具

资料狂人 在职认证  发表于 2020-3-17 09:35:34 |显示全部楼层 |坛友微信交流群
Python爬虫与文本挖掘-爬虫专题
2小时讲授+Q&A
99元→永久回放
包含爬虫学术实战-通过关键字获取谷歌学术搜索结果
http://www.peixun.net/main.php?mod=zhibo&cid=1550

使用道具

资料狂人 在职认证  发表于 2020-3-17 09:36:51 |显示全部楼层 |坛友微信交流群
Python爬虫与文本挖掘-文本挖掘专题
3月19日19:00-21:00 99元直播+录播永久回放
包含文本挖掘实战:
1. 从豆瓣爬取评论数据并绘制词云图
2. 西游记人物相似性分析
直播内容:
文本挖掘基本概念
文本挖掘的常见商业应用
文本挖掘的层次
文本挖掘的流程
文本挖掘的挑战
文本挖掘实战:
1. 从豆瓣爬取评论数据并绘制词云图
2. 西游记人物相似性分析
http://www.peixun.net/main.php?mod=buy&cid=1566

使用道具

lisa11yang 发表于 2020-3-17 10:53:21 |显示全部楼层 |坛友微信交流群

回帖奖励 +3

使用道具

redflame 发表于 2020-3-17 11:31:45 |显示全部楼层 |坛友微信交流群

回帖奖励 +3

支持支持

使用道具

dnq 发表于 2020-3-17 12:04:08 |显示全部楼层 |坛友微信交流群

回帖奖励 +3

支持支持

使用道具

coolsun 发表于 2020-3-17 12:05:12 |显示全部楼层 |坛友微信交流群

回帖奖励 +3

支持支持

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-19 06:54