数据清洗
数据清洗
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。

问题

银行大语言模型·2024-01-10
在长尾场景下,数据清洗是至关重要的。以下是清洗长尾数据的方法、措施和注意点:异常值处理:长尾数据中常见异常值,可利用统计学方法处理异常值,确保数据准确性。缺失值处理:长尾数据可能存在较多缺失值,需采用适当方法填充或处理,如均值填充、插值法等,以保证数据完整性。特征选择...
银行大语言模型·2023-09-06
xuyy联盟成员 · 秦皇岛银行 擅长领域:人工智能, 大数据, 数据库
9 会员关注
数据清洗的步骤 (1)数据收集:从不同来源收集数据,包括客户信息、交易记录、市场数据等。 (2)数据预处理:对数据进行初步清洗,包括去除重复数据、缺失值处理、异常值处理等。 (3)数据整合:将不同数据源的数据整合到一起,确保数据的一致性和完整性。 (4)数据验证:对数据进...
银行人工智能·2019-09-11
liukang · 日志易 擅长领域:系统运维, 监控, 数据库
8 会员关注
看公司实力吧,如果只是想省事可以购买一套(比如我司的)。如果想针对自己公司的特定的环境的话很可能就得自己开发了。 但是我建议只是研究算法部分就好了,至于数据采集之类的前期工作网上找找开源的就行了。 ...
银行实时数仓·2019-08-27
chailei_8306 · 城商行 擅长领域:大数据, 数据库, 数据仓库
    目前CDC能获取比较准确的变化数据,ogg也可以,性价比比较高,无需改造交易。 在十年前用过消息队列方法,需要对交易进行改造,适合新建系统时考虑好。 配置SQL抽取比较依赖记录的维护时间戳,往往是不可靠的,不建议使用。...
保险灾备演练·2019-08-19
jxnxsdengyu课题专家组 · 江西农信 擅长领域:存储, 灾备, 双活
1054 会员关注
由于灾难演练过程时间窗口有限,在生产切到在灾备做真实的业务演练后,会产生很多演练数据,值得关注的是账务数据和真实客户数据,据我了解,通用的做法有三种:1、建立了生产和灾备存储间的实时/异步同步和切换后的反向复制,当生产切到灾备后,复制关系也将同步反转,由灾备存储实时/异...
事业单位安全·2017-07-06
美国队长 · Alibaba 擅长领域:大数据, 大数据平台, 数据库
511 会员关注
spark应该说是类似Mapreduce的内存计算,他的每一个task最终都会转换成map或者reduce计算,只不过他是基于内存的,另外你的说的安全性隐患不知道是什么意思?
软件开发元数据管理·2016-03-30
现在面临的情况是有大量的数据质量一般的业务数据,需要对他们进行清洗整合和管理,以便更好的利用数据
浏览1220
互联网服务系统运维·2015-10-15
xuyanhui · 58同城大数据 擅长领域:服务器, 大数据, 大数据平台
475 会员关注
数据清洗主要是通过系统来进行清洗规则的制定,至于清洗部分都是自动运行,人工干预的部分主要是任务报错,与报警的情况下,清洗后的数据需要保存的生命周期可以再管理平台设置,自行制定保留周期...
工业制造其它etl·2015-10-15
xuyanhui · 58同城大数据 擅长领域:服务器, 大数据, 大数据平台
475 会员关注
对于大数据的ETL清洗来说,其清洗的主要是对于清洗规则的管理,对于数据在哪里?数据怎么去做分布式计算与汇总,并不需要大数据的ETL做管理,其主要监控自身任务的运行状态与进度,。另外还有任务与任务之间的依赖关系等。...
银行大数据·2015-07-03
尘世随缘 · 上海某互联网金融公司 擅长领域:云计算, 云原生, 微服务
86 会员关注
个人见解:这种东西不能一蹴而就,应该是分布是实现。可以先将数据分发平台部分数据割接到大数据中大数据的用途主要是用来预测,所以不能100%保证数据的可靠,使用大数据需要容忍一定的错误概率。...

描述

数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。
X社区推广
  • 提问题