Streamline Analyst是一个开源的基于大语言模型的应用,目标简化数据分析中从数据清洗到模型测试的全部流程。
从分类预测、聚类、回归、数据集可视化、数据预处理、编码、特征选择、目标属性判断、可视化、最佳模型选择等等任务都可自主决策和执行。
用户需要做的只有选择数据文件、选择分析模式,剩下的工作就可以让AI来接管了。所有处理后的数据和训练的模型都可下载。
-
目标变量识别: 若LLM无法确定,则提醒用户选择
-
空值管理: 由LLM根据每列数据信息从均值、中位数、众数填充、插值,或引入新类别等策略中选择
-
数据编码: 根据每列数据信息判断使用:独热编码、整数映射或标签编码
-
PCA降维
-
处理重复实体
-
数据转换和标准化: 利用 Box-Cox 转换和标准化优化数据分布和可扩展性
-
平衡目标变量实体: LLM 推荐的方法如随机过采样、SMOTE 和 ADASYN 帮助平衡数据集,对于无偏见模型训练至关重要
-
数据集划分比例: LLM 确定数据集的比例(也可以手动调整)
-
模型选择和训练: LLM 根据数据推荐并使用最适合的模型进行训练
-
群集数量推荐: 对于聚类任务,使用肘部法则和轮廓系数推荐最佳群集数量(可手动调整)
Github:https://github.com/Wilson-ZheLin/Streamline-Analyst/tree/main