超越Python:10个用于高级数据清洗与机器学习的高级AI提示词

Beyond Python 10 Elite AI Prompts for Advanced Data Cleaning & Machine Learning

现代AI的能力已远不止简单的代码补全。如今的模型如同资深的数据科学合作伙伴,能够在几秒钟内构建复杂的机器学习流水线、诊断微妙的数据泄露问题,并重构低效的预处理步骤。

以下提示经过严格测试和优化,适用于ChatGPT、Gemini、Claude和DeepSeek。虽然每个模型都具备独特的架构优势——例如DeepSeek的编码精度或Claude的概念推理能力——但这十个提示为希望加速工作流程的数据科学家和机器学习工程师提供了一个通用基础。

1. 自动化探索性数据分析策略

最佳适用模型: DeepSeek,用于生成精确、可执行的逻辑,无需对话性填充内容。

此提示超越了基本的.describe()调用,旨在生成一个全面的、视觉驱动的EDA脚本。

扮演一名高级数据科学家。我有一个包含以下列的数据集:[插入列名]。目标变量是[插入目标变量]。

使用Pandas和Seaborn编写一个生产就绪的Python脚本,以执行高级探索性数据分析。
该脚本必须包括:
1. 缺失值检测和可视化热图。
2. 与目标变量高亮显示的相关性矩阵分析。
3. 数值特征的分布图及偏度计算。
4. 分类特征与目标变量的箱线图。

不要使用占位符数据;编写接受数据框作为输入的函数。

回报: 即时生成可复用的EDA类或函数模块,节省数小时的手动绘图和统计检查时间。

2. 智能缺失值插补

最佳适用模型: Claude,用于解释特定插补策略背后的统计细微差别。

标准的均值/中位数插补常常扭曲数据分布。此提示要求提供高级的、上下文感知的策略。

我有一个数据集,在以下特征中存在大量缺失值:[插入特征]。数据分布是[提及分布,例如,偏态/正态]。

针对此数据类型,建议并编写三种高级插补策略的Python代码(例如,KNN插补器、迭代插补器,或对缺失值稳健的算法如XGBoost)。
比较每种方法在计算成本和引入偏差方面的优缺点。为最佳选项提供Scikit-Learn实现。

回报: 通过选择数学上合理的插补方法,而非默认的、常常错误的策略,防止模型性能下降。

3. 用于非结构化文本的复杂正则表达式生成

最佳适用模型: ChatGPT,因其在处理字符串操作模式方面的多功能性。

清理混乱的文本数据(日志、地址、用户评论)通常是预处理中最耗时的部分。

我需要一个Python正则表达式来清理特定的文本列。
原始文本遵循以下模式:[插入原始文本示例]。
我只需要提取:[插入期望的输出]。

该正则表达式必须处理边缘情况,例如[插入可能的变体或错误]。
提供使用're'库的Python代码,包括一个将此应用于Pandas DataFrame列的函数。逐步解释正则表达式模式的分解。

回报: 消除了编写复杂正则表达式模式的试错循环,确保高精度的数据提取。

4. 用于不平衡类别的合成数据生成

最佳适用模型: Gemini,因其能够从复杂问题描述中综合逻辑。

在处理欺诈检测或罕见事件预测时,标准过采样是不够的。

我的数据集高度不平衡,少数类仅占数据的[插入百分比]%。
特征空间包含高维数值数据。

使用'imbalanced-learn'库编写一个Python脚本,应用SMOTE与Tomek Links进行数据清理。
解释为什么这种混合方法(过采样+清理)在保持决策边界完整性方面优于随机过采样。

回报: 为类别不平衡问题提供了一个复杂的解决方案,在不盲目复制噪声数据点的情况下提高了模型召回率。

5. 特征工程:交互项

最佳适用模型: Claude,用于识别与领域相关的概念联系。

AI擅长发现人类可能忽略的变量之间的潜在关系。

扮演[插入行业/领域]领域的专家。我正在构建一个机器学习模型来预测[插入目标]。
我当前的特征集包括:[列出关键特征]。

提出5个新颖的交互特征(现有特征的数学组合),这些特征可能提高模型性能。
对于每个提议,解释为什么这种交互与目标变量相关的理论逻辑。
提供生成这些新列的Python Pandas代码。

回报: 通过创建有意义的、基于领域逻辑的衍生特征,解锁数据集中隐藏的预测能力。

6. 向量化代码优化

最佳适用模型: DeepSeek,用于高性能代码重构。

Python中的循环对于大型数据集是致命的。此提示强制将慢速循环转换为快速的向量操作。

审查以下遍历Pandas DataFrame行的Python代码片段:
[插入慢速代码片段]

重构此代码以使用向量化(NumPy/Pandas内置函数)代替行迭代。
目标是为具有数百万行的数据集最大化执行速度。
对逻辑进行基准测试,确保输出与原始循环保持相同。

回报: 通过利用低级内存优化,可以将数据处理时间从数小时减少到数秒。

7. 防止流水线中的数据泄露

最佳适用模型: Gemini,用于分析工作流架构并发现逻辑缺陷。

数据泄露是机器学习模型的无声杀手。此提示充当安全审计。

我正在为时间序列预测模型构建一个Scikit-Learn流水线。
我的预处理步骤包括缩放、插补和特征选择。

分析以下工作流描述中潜在的数据泄露:
[描述预处理步骤和拆分策略]。

具体检查在缩放或插补过程中,来自测试集的信息是否渗入训练过程。
使用`sklearn.pipeline.Pipeline`重写流水线代码以严格执行分离。

回报: 确保模型指标是现实且稳健的,防止模型尽管测试分数高却在生产中失败的尴尬情况。

8. 超参数调优策略

最佳适用模型: DeepSeek,用于生成严谨的、数学化的搜索网格。

随机搜索效率低下;此提示要求采用贝叶斯方法。

我正在训练一个XGBoost分类器。我需要优化超参数以提高准确性和推理速度。

使用'Optuna'编写一个用于贝叶斯优化的Python脚本。
为以下参数定义搜索空间:'learning_rate'、'max_depth'、'subsample'、'colsample_bytree'和'n_estimators'。
包含一个剪枝策略以提前停止无希望的试验。
确保目标函数最大化F1分数。

回报: 使用最先进的优化框架自动化了繁琐的调优过程,比GridSearch更快、更有效。

9. 模型可解释性与SHAP值

最佳适用模型: Claude,用于清晰地阐述复杂的“黑盒”解释。

利益相关者需要信任模型。此提示生成解释为什么做出某个预测的代码。

我有一个训练好的随机森林模型。我需要向非技术利益相关者解释特征重要性。

使用'SHAP'库编写一个Python脚本。
1. 为前10个特征生成摘要图。
2. 为单个特定预测实例生成力图。
3. 起草一段文字,用通俗易懂的英语向业务主管解释如何解读SHAP值。

回报: 弥合了技术指标与业务价值之间的差距,使模型采用变得容易得多。

10. 机器学习代码的自动化单元测试

最佳适用模型: ChatGPT,用于快速生成标准样板代码和测试用例。

机器学习代码通常缺乏严格的测试。此提示强制执行工程规范。

我有一个用于数据预处理的Python函数:
[插入函数代码]

为此函数编写一个'pytest'测试套件。
包括以下测试用例:
1. 正常的有效输入。
2. 处理'NaN'或空值。
3. 边缘情况(例如,空数据框、不匹配的数据类型)。
4. 验证输出形状是否符合预期维度。

回报: 将软件工程规范引入数据科学工作流,减少部署中的错误和回归错误。

专业技巧:上下文链式调用

为了充分利用这些模型,请使用上下文链式调用。不要将每个提示视为孤立事件。如果你使用了提示#1,请将该分析的输出输入到提示#3中。例如:“基于你在上一步生成的相关性矩阵,哪些交互项最有意义?” 这使得AI能够保持“状态”,并作为一个持续的协作者,而非一次性工具。


掌握这些提示使你能够将注意力从编写样板代码转移到解决高级架构问题上。通过利用ChatGPT、Gemini、Claude和DeepSeek的独特优势,你将AI从一个简单的聊天机器人转变为一个专注的研究助理和初级工程师。开始将这些提示融入你的日常工作流程,立即看到代码质量和模型性能的改善。