首页
博客
源码
资源
博客
源码
写文章
发布博客
发布资源
登录
X
数据
相关资讯
热门
最新
后端
01-01 08:00
后端
数据不撒谎,Flink-Kafka性能压测全记录!
数据不撒谎,Flink-Kafka性能压测全记录!,数据不撒谎,Flink-Kafka性能压测全记录!林夕_Yume大数据技术与架构本文作者来自本号的粉丝:林夕_Yume,作者微信:wxid_nvd5wwng4v2i22欢迎大家关注他的简书:https://www.jianshu.com/u/3fa2b243f30d大家有同样需求的同学赶紧加他好友探讨~1.压测方案1.1压测目的本次性能测试在正式
199
后端
01-01 08:00
后端
数据仓库缓慢变化维度SCD?你想知道的都在这里
数据仓库缓慢变化维度SCD?你想知道的都在这里,数据仓库缓慢变化维度SCD?你想知道的都在这里群主大数据技术与架构大家知道平时我对SQLBoy&Girl有很深的成见,原因在于数据仓库本身博大精深,但是很多开发人员在用数据分析师的角色要求自己的开发能力。就像王者荣耀你本身是个刺客,输出连个肉坦都比不过,怎么好讲自己是个刺客呢?言归正传,今天我们要讲的是数据仓库中的缓慢变化维度(SCD)。缓慢变化维)
156
后端
01-01 08:00
后端
数据分析之Pandas VS SQL!
数据分析之Pandas VS SQL!,AbstractPandas是一个开源的Python数据分析库,结合NumPy和Matplotlib类库,可以在内存中进行高性能的数据清洗、转换、分析及可视化工作。对于数据开发工程师或分析师而言,SQL语言是标准的数据查询工具。本文提供了一系列的示例,说明如何使用pandas执行各种SQL操作。Pandas简介Pandas把结构化数据分为了三类:Series
156
后端
01-01 08:00
后端
数据分析思维培养
数据分析思维培养,作者介绍@小宇专注流量数据分析,就职过360和58。主要负责流量分析和商业变现等相关数据分析工作。在筛选初级数据分析师简历的过程中,我发现越来越多的非计算机非统计学背景的同学们跨专业转型,希望找到一份数据分析师的工作。面对专业转型这一问题,除了Excel、Tableau、SQL、Python等工具技能的学习,另一个关键点则是数据分析思维的培养。大家都知道在着手做分析之前,要构建分
128
后端
01-01 08:00
后端
数据分析师必知的那些Hive-SQL
数据分析师必知的那些Hive-SQL,大家好,我是宝器。昨天了那篇文章「对不起,让大家失望了」之后,收到了写文章以来最多的私信和赞赏,感谢大家鼓励。至于赞赏这个东西,了解的应该知道,我极少开,支持一个头像就可以了,真的不需要金额过大。相对于赞赏,我更希望看到大家认真对宝器的建议。文末放了一个可以跟宝器留言互动的链接,目的是想更好的定位要推送更新的内容,从留言板和私信看很多旁友对求职实用性的内容需求
192
后端
01-01 08:00
后端
数据仓库、数据湖、流批一体,终于有大神讲清楚了!
数据仓库、数据湖、流批一体,终于有大神讲清楚了!,数据仓库、数据湖、流批一体,终于有大神讲清楚了!Flink中文社区过往记忆大数据作者:蒋晓伟(量仔)阿里云研究员金晓军(仙隐)阿里云高级技术专家摘要数据仓库,数据湖,包括Flink社区提的流批一体,它们到底能解决什么问题?今天将由阿里云研究员从解决业务问题出发,将问题抽丝剥茧,从技术维度娓娓道来:为什么你需要数据湖或者数据仓库解决方案?它的核心难点
141
后端
01-01 08:00
后端
数据湖风暴来袭,EMR重磅发布Apache Hudi
数据湖风暴来袭,EMR重磅发布Apache Hudi,Hudi是一种数据湖的存储格式,在Hadoop文件系统之上提供了更新数据和删除数据的能力以及流式消费变化数据的能力。应用场景近实时数据摄取Hudi支持插入、更新和删除数据的能力。您可以实时摄取消息队列(Kafka)和日志服务SLS等日志数据至Hudi中,同时也支持实时同步数据库Binlog产生的变更数据。Hudi优化了数据写入过程中产生的小文件
134
后端
01-01 08:00
后端
数据计算平台的反模式:从一个净损失100万美金的事故说起
数据计算平台的反模式:从一个净损失100万美金的事故说起,作者|张彭善整理|邓艳琴本文整理自PayPal大数据研发架构师、资深数据科学家张彭善老师在QCon上海2020的演讲,他跟我们分享的是PayPal风控团队从四个事故和五个反模式中总结出的经验。今天,我和大家分享的内容是PayPal风险管理数据计算平台。从一个生产事故说起我们首先从一个生产事故说起。这个生产事故带来的直接的经济损失是100万美
162
后端
01-01 08:00
后端
数据的质量控制——fastQC
数据的质量控制——fastQC,编者按目前的高通量测序技术可以在单次运行中产生数亿个序列。在分析此序列以得出生物学结论之前,应该执行一些简单的质量控制检查,以获得较好的原始数据,并且确保数据中没有任何问题或偏差,本文就来介绍一款简单常用的质量检测工具fastQC。大多数测序平台会生成一个QC报告作为其分析流程的一部分,但这通常只能识别由测序仪本身产生的问题。FastQC的开发和维护主要由Babra
621
后端
01-01 08:00
后端
数据科学家应该了解的软件工程实践
数据科学家应该了解的软件工程实践,数据科学家应该了解的软件工程实践最近,我在LinkedIn上进行了一次民意调查,我惊讶地发现,很多人持有这样的观点:数据科学家必须懂得编程标准并遵循工程最佳实践。许多数据科学家(包括我自己)都缺乏基本的统计学知识,对统计学的应用知之甚少。而数学家们认为,在应用之前,必须对应用于各种场景的原理有一个坚实的理解,我承认我并不了解这些原理。软件工程师希望数据科学家能够在
232
«
1
2
...
65
66
67
68
69
70
71
72
73
»