人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › python论坛 › 学术研究：Python 爬取 CNKI 论文数据（选题分析）

发帖

楼主: 8696_cdabigdata

105 0

[其他] 学术研究：Python 爬取 CNKI 论文数据（选题分析） [推广有奖]

0关注
0粉丝

等待验证会员

学前班

80%

还不是VIP/贵宾

威望: 0 级
论坛币: 0 个
通用积分: 0.0157
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 30 点
帖子: 2
精华: 0
在线时间: 0 小时
注册时间: 2018-3-18
最后登录: 2018-3-18

楼主

8696_cdabigdata 发表于 2025-11-14 11:48:34 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

前言

中国知网（CNKI）是国内规模最广、资源最为丰富的学术文献数据库，汇聚了各学科领域的期刊文章、学位论文、会议论文等核心学术资料。对于科研人员来说，高效获取特定领域论文数据并进行选题分析，是开展学术研究的重要基础。本文将从实际需求出发，详细介绍如何利用 Python 爬取 CNKI 论文数据，并通过数据清洗、统计分析等步骤实现选题方向的挖掘，为科研选题提供数据支持与决策参考。

摘要

本文聚焦于 CNKI 论文数据的爬取与选题分析，以中国知网为爬取对象，选取 “人工智能在医学影像中的应用” 作为示例主题，系统阐述学术文献爬虫的开发流程。内容包括：CNKI 检索页面结构解析、动态加载数据的爬取策略、论文核心信息（标题、作者、发表时间、关键词、摘要、引用频次等）的提取、数据存储与清洗，以及基于爬取数据的选题热点与趋势分析。通过本文的实战教程，读者可掌握针对学术数据库的爬虫技术，并学会利用数据分析方法挖掘研究热点，提升科研选题的科学性与前瞻性。

一、环境准备

1.1 开发环境

本次实战所需的开发环境及工具库如下：

工具 / 库	版本	用途
Python	3.9+	编程语言
requests	2.31.0	发送 HTTP 请求
selenium	4.15.2	模拟浏览器行为，处理动态加载
webdriver_manager	4.0.1	自动管理浏览器驱动
BeautifulSoup	4.12.2	解析 HTML 页面
pandas	2.1.4	数据处理与分析
sqlite3	内置库	存储论文数据
lxml	4.9.3	作为 BeautifulSoup 解析器

1.2 环境安装

通过 pip 命令安装依赖库：

pip install requests selenium webdriver_manager beautifulsoup4 pandas lxml

二、CNKI 页面结构与检索机制分析

2.1 检索页面结构

CNKI 的检索页面（如高级检索页面）包含检索条件输入区、检索结果展示区和分页控件。其中：

检索条件输入区支持主题、关键词、作者、机构等多维度检索；
检索结果展示区以列表形式呈现论文基本信息，包括标题、作者、来源、发表时间、引用频次、下载频次等；
分页控件通过 “下一页” 按钮实现翻页，页面 URL 不直接包含页码参数，需通过模拟点击实现分页爬取。

2.2 动态加载机制

CNKI 的检索结果采用动态加载方式，即页面滚动或点击分页按钮时，通过 JavaScript 异步加载数据，而非直接刷新页面。因此，传统的 requests 库难以直接获取多页数据，需使用 selenium 模拟浏览器行为实现动态内容的爬取。

2.3 数据交互分析

通过浏览器开发者工具（F12）的 Network 面板分析可知，检索结果数据通过 AJAX 请求从服务器获取，返回格式为 HTML 片段。但由于 CNKI 存在严格的反爬机制（如 Cookie 验证、请求频率限制），直接模拟 AJAX 请求难度较高，因此优先采用 selenium 模拟人工操作的方式爬取。

三、爬虫核心实现

3.1 浏览器初始化与检索操作

使用 selenium 初始化浏览器，自动输入检索关键词并执行检索操作。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from webdriver_manager.chrome import ChromeDriverManager
import time

def init_browser():
    """初始化浏览器"""
    options = webdriver.ChromeOptions()
    # 添加用户配置，避免被识别为自动化工具
    options.add_experimental_option("excludeSwitches", ["enable-automation"])
    options.add_experimental_option("useAutomationExtension", False)
    # 初始化浏览器驱动
    driver = webdriver.Chrome(
        service=Service(ChromeDriverManager().install()),
        options=options
    )
    # 禁用自动化控制特征
    driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
        "source": """
            Object.defineProperty(navigator, 'webdriver', {
                get: () => undefined
            })
        """
    })
    return driver

def search_cnki(driver, keyword, db_type="SCDB"):
    """在 CNKI 中检索关键词"""
    # 打开高级检索页面（默认期刊论文库 SCDB）
    url = f"https://kns.cnki.net/kns/brief/result.aspx?dbprefix={db_type}"
    driver.get(url)
    driver.maximize_window()
    time.sleep(3)  # 等待页面加载
    
    try:
        # 定位检索输入框（主题检索）
        search_box = WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.ID, "txt_1_value1"))
        )
        search_box.clear()
        search_box.send_keys(keyword)
        
        # 点击检索按钮
        search_btn = WebDriverWait(driver, 10).until(
            EC.element_to_be_clickable((By.CLASS_NAME, "search-btn"))
        )
        search_btn.click()
        time.sleep(5)  # 等待检索结果加载
        print(f"成功检索关键词：{keyword}")
    except Exception as e:
        print(f"检索失败：{e}")

输出结果：浏览器自动打开 CNKI 高级检索页面，输入关键词（如 “人工智能医学影像”）并点击检索按钮，页面跳转至检索结果页，控制台打印 “成功检索关键词：人工智能医学影像”。

原理：通过 selenium 初始化 Chrome 浏览器，配置选项避免被网站识别为自动化工具；使用

WebDriverWait

等待页面元素加载完成，确保检索框和按钮可交互；模拟人工输入关键词并点击检索，实现自动化检索操作。

3.2 单页论文数据提取

解析检索结果页，提取单页论文的核心信息。

from bs4 import BeautifulSoup
import re

def extract_papers(driver):
    """提取当前页面的论文数据"""
    # 获取页面 HTML
    html = driver.page_source
    soup = BeautifulSoup(html, "lxml")
    
    papers = []
    # 定位论文列表容器
    result_table = soup.find("table", class_="result-table")
    if not result_table:
        return papers
    
    # 遍历论文行（跳过表头）
    for row in result_table.find_all("tr")[1:]:
        cols = row.find_all("td")
        if len(cols) < 7:
            continue  # 过滤不完整行
        
        # 提取标题与链接
        title_tag = cols[1].find("a")
        title = title_tag.get_text(strip=True) if title_tag else ""
        paper_url = f"https://kns.cnki.net{title_tag['href']}" if (title_tag and "href" in title_tag.attrs) else ""
        
        # 提取作者
        author = cols[2].get_text(strip=True) if cols[2] else ""
        
        # 提取来源（期刊/学位授予单位）
        source = cols[3].get_text(strip=True) if cols[3] else ""
        
        # 提取发表时间
        publish_time = cols[4].get_text(strip=True) if cols[4] else ""
        
        # 提取被引频次
        cited = cols[5].get_text(strip=True) if cols[5] else "0"
        cited = int(cited) if cited.isdigit() else 0
        
        # 提取下载频次
        download = cols[6].get_text(strip=True) if cols[6] else "0"
        download = int(download) if download.isdigit() else 0
        
        papers.append({
            "title": title,
            "author": author,
            "source": source,
            "publish_time": publish_time,
            "cited": cited,
            "download": download,
            "url": paper_url
        })
    
    return papers

输出结果：函数返回一个列表，每个元素为字典，包含单篇论文的信息，示例如下：

[
    {
        "title": "基于深度学习的肺部CT影像结节检测研究进展",
        "author": "张明, 李华, 王静",
        "source": "计算机应用",
        "publish_time": "2023-05-15",
        "cited": 128,
        "download": 3562,
        "url": "https://kns.cnki.net/kcms/detail/51.1307.TP.20230512.1023.002.html"
    },
    # 更多论文...
]

原理：通过 BeautifulSoup 解析当前页面的 HTML，定位论文列表表格；遍历表格行（跳过表头），提取标题、作者、来源等字段；对引用频次、下载频次等数值型字段进行格式转换，确保数据类型统一；将提取的信息存储为字典，聚合为列表返回。

3.3 多页数据爬取

模拟点击 “下一页” 按钮，实现多页论文数据的连续爬取。

def crawl_multi_pages(driver, max_pages=10):
    """爬取多页论文数据"""
    all_papers = []
    current_page = 1
    
    while current_page <= max_pages:
        print(f"爬取第 {current_page} 页...")
        # 提取当前页论文数据
        page_papers = extract_papers(driver)
        if not page_papers:
            print("未提取到论文数据，停止爬取")
            break
        
        all_papers.extend(page_papers)
        print(f"第 {current_page} 页爬取完成，共 {len(page_papers)} 篇论文")
        
        # 尝试点击下一页
        try:
            next_btn = WebDriverWait(driver, 10).until(
                EC.element_to_be_clickable((By.CLASS_NAME, "TitleLeftCell"))
            )
            # 判断是否为最后一页（按钮不可点击）
            if "disabled" in next_btn.get_attribute("class"):
                print("已到达最后一页")
                break
            
            next_btn.click()
            time.sleep(random.uniform(3, 5))  # 随机延迟，避免反爬
            current_page += 1
        except Exception as e:
            print(f"点击下一页失败：{e}，停止爬取")
            break
    
    print(f"多页爬取完成，总计 {len(all_papers)} 篇论文")
    return all_papers

输出结果：

爬取第 1 页...
第 1 页爬取完成，共 20 篇论文
爬取第 2 页...
第 2 页爬取完成，共 20 篇论文
...
多页爬取完成，总计 200 篇论文

原理：通过循环控制爬取页数，每轮循环提取当前页论文数据并添加到总列表；使用

WebDriverWait

定位 “下一页” 按钮，判断按钮是否可点击（是否为最后一页）；若可点击则模拟点击并等待页面加载，若不可点击或出现异常则停止爬取，实现多页数据的连续采集。

四、数据存储与清洗

4.1 数据存储到 SQLite 数据库

将爬取的论文数据存储到 SQLite 数据库，便于长期管理与查询。

import sqlite3
import pandas as pd

def save_to_database(papers, db_name="cnki_papers.db", table_name="papers"):
    """将论文数据存储到 SQLite 数据库"""
    # 转换为 DataFrame
    df = pd.DataFrame(papers)
    # 连接数据库
    conn = sqlite3.connect(db_name)
    # 写入数据库表（若表存在则替换）
    df.to_sql(table_name, conn, if_exists="replace", index=False)
    conn.close()
    print(f"数据已存储到 {db_name} 的 {table_name} 表中，共 {len(df)} 条记录")
    return df

输出结果：

数据已存储到 cnki_papers.db 的 papers 表中，共 200 条记录

原理

使用 pandas 将论文列表转换为 DataFrame，通过

to_sql

方式写入 SQLite 数据库；

if_exists="replace"

设置确保每次运行时覆盖旧表，避免数据重复记录。 4.2 数据清洗与预处理对原始信息进行清理，去除无效条目、统一格式，以便后续分析。 python 执行

def clean_data(df):
    """数据清洗与预处理"""
    # 去除标题为空的记录
    df = df[df["title"].str.strip() != ""]
    # 去除重复论文（根据标题和作者联合判断）
    df = df.drop_duplicates(subset=["title", "author"])
    # 处理发表时间格式（提取年份）
    df["publish_year"] = df["publish_time"].str.extract(r"(\d{4})").astype(float, errors="ignore")
    # 按发表时间降序排序
    df = df.sort_values(by="publish_time", ascending=False).reset_index(drop=True)
    return df

输出结果：返回清理后的 DataFrame，示例如下（部分列）： index title author publish_time publish_year cited 基于... 张明... 2023-05-15 2023.0 128 1 深度... 李华... 2023-04-20 2023.0 96 原理：过滤标题为空的无效记录，通过标题和作者联合去重避免重复文章；使用正则表达式从发表时间中提取年份，便于按年分析研究趋势；按发表时间排序，使最新研究成果优先展示。五、选题分析实战基于清理后的论文数据，从研究热点、时间趋势、核心作者等角度进行选题分析。 5.1 关键词提取与热点分析提取论文标题中的高频关键词，识别研究焦点。 python 执行

import jieba
from collections import Counter
import re

def extract_keywords(df, top_n=20):
    """从论文标题中提取高频关键词"""
    # 合并所有标题文本
    all_titles = " ".join(df["title"].dropna())
    # 去除特殊字符
    all_titles = re.sub(r"[^\w\s]", "", all_titles)
    # 分词（过滤停用词）
    stopwords = set(["基于", "研究", "分析", "应用", "进展", "一种", "方法"])
    words = jieba.cut(all_titles)
    keywords = [word for word in words if word.strip() and word not in stopwords and len(word) >= 2]
    # 统计词频
    keyword_counts = Counter(keywords).most_common(top_n)
    return keyword_counts

# 提取高频关键词
keywords = extract_keywords(cleaned_df)
print("高频研究关键词（前20）：")
for word, count in keywords:
    print(f"{word}: {count}次")

输出结果： plaintext

高频研究关键词（前20）：
人工智能: 186次
医学影像: 152次
深度学习: 138次
肺部CT: 89次
结节检测: 76次
...

原理：使用 jieba 对论文标题进行分词，过滤停用词（如 “研究”“基于” 等无实际意义的词汇）和短词；通过

Counter

统计词频，提取出现次数最多的前 20 个关键词，这些关键词可反映该领域的研究热点。 5.2 时间趋势分析分析近五年论文发表数量与被引频率，判断研究热度变化。 python 执行

import matplotlib.pyplot as plt

def analyze_time_trend(df):
    """分析研究时间趋势"""
    # 筛选近五年数据
    recent_years = df[df["publish_year"].between(2018, 2023)]
    # 按年份统计论文数量
    year_counts = recent_years["publish_year"].value_counts().sort_index()
    # 按年份统计平均被引频次
    year_cited = recent_years.groupby("publish_year")["cited"].mean().sort_index()
    
    # 绘制趋势图
    plt.figure(figsize=(12, 5))
    # 论文数量趋势
    plt.subplot(1, 2, 1)
    year_counts.plot(kind="bar", color="skyblue")
    plt.title("近五年论文发表数量趋势")
    plt.xlabel("年份")
    plt.ylabel("论文数量")
    # 平均被引频次趋势
    plt.subplot(1, 2, 2)
    year_cited.plot(kind="line", marker="o", color="orange")
    plt.title("近五年论文平均被引频次趋势")
    plt.xlabel("年份")
    plt.ylabel("平均被引频次")
    plt.tight_layout()
    plt.show()

# 执行时间趋势分析
analyze_time_trend(cleaned_df)

输出结果：生成两张子图，左图为近五年论文发表数量的柱状图，右图为近五年论文平均被引频率的折线图。若柱状图呈上升趋势，说明该领域研究热度持续增长；若折线图中近年被引次数较高，说明该领域近期研究成果受关注度高。原理：通过 pandas 按年份分组统计论文数量和平均被引次数，使用 matplotlib 可视化数据趋势。论文数量增加反映研究热度上升，被引次数高反映研究成果影响力大，两者结合可判断领域的研究活力与发展潜力。 5.3 核心作者与机构分析识别该领域的高产作者与核心研究机构，为合作研究提供参考。 python 执行

def analyze_authors_institutions(df, top_n=10):
    """分析核心作者与研究机构"""
    # 统计作者发表论文数量（处理多位作者情况）
    all_authors = []
    for authors in df["author"].dropna():
        all_authors.extend([a.strip() for a in authors.split(",")])
    author_counts = Counter(all_authors).most_common(top_n)
    
    # 统计机构发表论文数量（从来源中提取机构信息，适用于学位论文）
    # 注：期刊论文来源为期刊名，学位论文来源为授予单位
    degree_papers = df[df["source"].str.contains("大学|学院|研究所")]
    institution_counts = Counter(degree_papers["source"]).most_common(top_n)
    
    return author_counts, institution_counts

# 分析核心作者与机构
top_authors, top_institutions = analyze_authors_institutions(cleaned_df)
print("高产作者（前10）：")
for author, count in top_authors:
    print(f"{author}: {count}篇")
print("\n核心研究机构（前10）：")
for inst, count in top_institutions:
    print(f"{inst}: {count}篇")

输出结果： plaintext

高产作者（前10）：
张明: 12篇
李华: 9篇
王静: 8篇
...

核心研究机构（前10）：
清华大学: 35篇
上海交通大学: 28篇
...

原理：将多位作者的联合署名拆分为单个作者，统计每位作者的论文发表数量，识别高产作者；对于学位论文，从 “来源” 字段提取授予单位（大学、研究所等），统计各机构的论文数量，识别核心研究机构，为学术合作与资源获取提供方向。六、完整代码与使用说明 6.1 完整代码 python 执行

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from webdriver_manager.chrome import ChromeDriverManager
from bs4 import BeautifulSoup
import re
import time
import random
import pandas as pd
import sqlite3
import jieba
from collections import Counter
import matplotlib.pyplot as plt

# 浏览器初始化与检索
def init_browser():
    options = webdriver.ChromeOptions()
    options.add_experimental_option("excludeSwitches", ["enable-automation"])
    options.add_experimental_option("useAutomationExtension", False)
    driver = webdriver.Chrome(
        service=Service(ChromeDriverManager().install()),
        options=options
    )
    driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
        "source": """
            Object.defineProperty(navigator, 'webdriver', {
                get: () => undefined
            })
        """
    })
    return driver

def search_cnki(driver, keyword, db_type="SCDB"):
    url = f"https://kns.cnki.net/kns/brief/result.aspx?dbprefix={db_type}"
    driver.get(url)
    driver.maximize_window()
    time.sleep(3)
    
    try:
        search_box = WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.ID, "txt_1_value1"))
        )
        search_box.clear()
        search_box.send_keys(keyword)
        
        search_btn = WebDriverWait(driver, 10).until(
            EC.element_to_be_clickable((By.CLASS_NAME, "search-btn"))
        )
        search_btn.click()
        time.sleep(5)
        print(f"成功检索关键词：{keyword}")
    except Exception as e:
        print(f"检索失败：{e}")

# 数据提取与爬取
def extract_papers(driver):
    html = driver.page_source
    soup = BeautifulSoup(html, "lxml")
    papers = []
    result_table = soup.find("table", class_="result-table")
    if not result_table:
        return papers
    
    for row in result_table.find_all("tr")[1:]:
        cols = row.find_all("td")
        if len(cols) < 7:
            continue
        
        title_tag = cols[1].find("a")
        title = title_tag.get_text(strip=True) if title_tag else ""
        paper_url = f"https://kns.cnki.net{title_tag['href']}" if (title_tag and "href" in title_tag.attrs) else ""
        
        author = cols[2].get_text(strip=True) if cols[2] else ""
        source = cols[3].get_text(strip=True) if cols[3] else ""
        publish_time = cols[4].get_text(strip=True) if cols[4] else ""
        
        cited = cols[5].get_text(strip=True) if cols[5] else "0"
        cited = int(cited) if cited.isdigit() else 0
        
        download = cols[6].get_text(strip=True) if cols[6] else "0"
        download = int(download) if download.isdigit() else 0
        
        papers.append({
            "title": title,
            "author": author,
            "source": source,
            "publish_time": publish_time,
            "cited": cited,
            "download": download,
            "url": paper_url
        })
    
    return papers

def crawl_multi_pages(driver, max_pages=10):
    all_papers = []
    current_page = 1
    
    while current_page <= max_pages:
        print(f"爬取第 {current_page} 页...")
        page_papers = extract_papers(driver)
        if not page_papers:
            print("未提取到论文数据，停止爬取")
            break
        
        all_papers.extend(page_papers)
        print(f"第 {current_page} 页爬取完成，共 {len(page_papers)} 篇论文")
        
        try:
            next_btn = WebDriverWait(driver, 10).until(
                EC.element_to_be_clickable((By.CLASS_NAME, "TitleLeftCell"))
            )
            if "disabled" in next_btn.get_attribute("class"):
                print("已到达最后一页")
                break
            
            next_btn.click()
            time.sleep(random.uniform(3, 5))
            current_page += 1
        except Exception as e:
            print(f"点击下一页失败：{e}，停止爬取")
            break
    
    print(f"多页爬取完成，总计 {len(all_papers)} 篇论文")
    return all_papers

# 数据存储与清洗
def save_to_database(papers, db_name="cnki_papers.db", table_name="papers"):
    df = pd.DataFrame(papers)
    conn = sqlite3.connect(db_name)
    df.to_sql(table_name, conn, if_exists="replace", index=False)
    conn.close()
    print(f"数据已存储到 {db_name} 的 {table_name} 表中，共 {len(df)} 条记录")
    return df

def clean_data(df):
    df = df[df["title"].str.strip() != ""]
    df = df.drop_duplicates(subset=["title", "author"])
    df["publish_year"] = df["publish_time"].str.extract(r"(\d{4})").astype(float, errors="ignore")
    df = df.sort_values(by="publish_time", ascending=False).reset_index(drop=True)
    return df

# 选题分析
def extract_keywords(df, top_n=20):
    all_titles = " ".join(df["title"].dropna())
    all_titles = re.sub(r"[^\w\s]", "", all_titles)
    stopwords = set(["基于", "研究", "分析", "应用", "进展", "一种", "方法"])
    words = jieba.cut(all_titles)
    keywords = [word for word in words if word.strip() and word not in stopwords and len(word) >= 2]
    return Counter(keywords).most_common(top_n)

def analyze_time_trend(df):
    recent_years = df[df["publish_year"].between(2018, 2023)]
    year_counts = recent_years["publish_year"].value_counts().sort_index()
    year_cited = recent_years.groupby("publish_year")["cited"].mean().sort_index()
    
    plt.figure(figsize=(12, 5))
    plt.subplot(1, 2, 1)
    year_counts.plot(kind="bar", color="skyblue")
    plt.title("近五年论文发表数量趋势")
    plt.xlabel("年份")
    plt.ylabel("论文数量")
    
    plt.subplot(1, 2, 2)
    year_cited.plot(kind="line", marker="o", color="orange")
    plt.title("近五年论文平均被引频次趋势")
    plt.xlabel("年份")
    plt.ylabel("平均被引频次")
    
    plt.tight_layout()
    plt.show()

def analyze_authors_institutions(df, top_n=10):
    all_authors = []
    for authors in df["author"].dropna():
        all_authors.extend([a.strip() for a in authors.split(",")])
    author_counts = Counter(all_authors).most_common(top_n)
    
    degree_papers = df[df["source"].str.contains("大学|学院|研究所")]
    institution_counts = Counter(degree_papers["source"]).most_common(top_n)
    
    return author_counts, institution_counts

# 主函数
if __name__ == "__main__":
    # 配置参数
    keyword = "人工智能 医学影像"  # 检索关键词
    max_pages = 10  # 爬取页数
    db_type = "SCDB"  # 数据库类型（SCDB：期刊论文；CDFD：学位论文）
    
    # 初始化浏览器并检索
    driver = init_browser()
    search_cnki(driver, keyword, db_type)
    
    # 爬取多页数据
    papers = crawl_multi_pages(driver, max_pages)
    driver.quit()  # 关闭浏览器
    
    # 数据存储与清洗
    df = save_to_database(papers)
    cleaned_df = clean_data(df)
    
    # 选题分析
    print("\n===== 高频研究关键词 =====")
    keywords = extract_keywords(cleaned_df)
    for word, count in keywords:
        print(f"{word}: {count}次")
    
    print("\n===== 核心作者与机构 =====")
    top_authors, top_institutions = analyze_authors_institutions(cleaned_df)
    print("高产作者：")
    for author, count in top_authors:
        print(f"{author}: {count}篇")
    print("核心机构：")
    for inst, count in top_institutions:
        print(f"{inst}: {count}篇")
    
    # 时间趋势分析（需手动查看图表）
    analyze_time_trend(cleaned_df)

6.2 使用说明参数配置：修改

keyword

为目标研究主题（如 “区块链供应链金融”），

max_pages

为需要爬取的页数，

db_type

可选择数据库类型（期刊论文 SCDB 或学位论文 CDFD）。运行代码：执行脚本后，浏览器将自动打开并完成检索、爬取操作，爬取完成后自动关闭浏览器；数据将存储到 SQLite 数据库，并输出清理后的分析结果。反爬注意事项：CNKI 反爬机制严格，建议控制爬取页数（单次不超过 20 页）和频率（延迟 3-5 秒）；若出现验证码，需手动完成验证后程序继续运行；频繁爬取可能导致 IP 临时封禁，建议间隔一段时间再尝试。分析结果应用：通过高频关键词识别研究热点，结合时间趋势判断领域发展阶段，参考核心作者与机构选择合作或跟踪对象，为科研选题提供数据支持。七、总结与扩展 7.1 总结本文以学术研究中的选题分析需求为导向，详细介绍了基于 Python 爬取 CNKI 论文数据的完整流程，包括浏览器自动化检索、动态页面信息提取、多页爬取、数据存储与清理，以及基于关键词、时间趋势、核心作者的选题分析方法。通过 selenium 解决了 CNKI 动态加载和反爬问题，利用 pandas 和文本分析技术实现了研究热点与趋势的挖掘，为科研选题提供了科学、高效的解决方案。 7.2 扩展方向摘要深度分析：进一步爬取论文摘要内容，结合自然语言处理技术（如 LDA 主题模型）挖掘潜在研究主题。引文网络构建：通过爬取论文的参考文献，构建引文网络，分析研究领域的知识传承与演化路径。多数据库融合：结合 Web of Science、PubMed 等国际数据库，进行跨库对比分析，拓展研究视野。可视化平台搭建：基于爬取的数据，使用 Flask 或 Streamlit 搭建交互式可视化平台，支持自定义检索与分析。通过本文的学习，读者不仅能够掌握学术数据库的爬虫技术，更能学会将数据挖掘方法应用于科研选题分析，提升学术研究的效率与质量。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：python 学术研究论文数据 CNKI CNK

[其他] 学术研究：Python 爬取 CNKI 论文数据（选题分析） [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

前言

摘要

一、环境准备

1.1 开发环境

1.2 环境安装

二、CNKI 页面结构与检索机制分析

2.1 检索页面结构

2.2 动态加载机制

2.3 数据交互分析

三、爬虫核心实现

3.1 浏览器初始化与检索操作

3.2 单页论文数据提取

3.3 多页数据爬取

四、数据存储与清洗

4.1 数据存储到 SQLite 数据库

扫码加我拉你入群

相关帖子统计类 计算机类 Python

浏览过的帖子

浏览过的版块

本版微信群

[其他] 学术研究：Python 爬取 CNKI 论文数据（选题分析） [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

前言

摘要

一、环境准备

1.1 开发环境

1.2 环境安装

二、CNKI 页面结构与检索机制分析

2.1 检索页面结构

2.2 动态加载机制

2.3 数据交互分析

三、爬虫核心实现

3.1 浏览器初始化与检索操作

3.2 单页论文数据提取

3.3 多页数据爬取

四、数据存储与清洗

4.1 数据存储到 SQLite 数据库

扫码加我 拉你入群

相关帖子 统计类 计算机类 Python

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群

相关帖子统计类计算机类 Python