大数据项目

  • python
    09-29 05:33
    近年来,金融领域的量化分析越来越受到理论界与实务界的重视,量化分析的技术也取得了较大的进展,成为备受关注的一个热点领域。所谓金融量化,就是将金融分析理论与计算机编程技术相结合,更为有效的利用现代计算技术实现准确的金融资产定价以及交易机会的发现。量化分析目前已经涉及到金融领域的方方面面,包括基础和衍生金融资产定价、风险管理、量化投资等。随着大数据技术的发展,量化分析还逐步与大数据结合在一起,对海量金融数据实现有效和快速的运算与处理。 在量化金融的时代,选用一种合适的编程语言对于金融模型的实现是至关重要的。在这方面,Python语言体现出了不一般的优势,特别是它拥有大量的金融计算库,并且可以提供与C++,java等语言的接口以实现高效率的分析,成为金融领域快速开发和应用的一种关键语言,由于它是开源的,降低了金融计算的成本,而且还通过广泛的社交网络提供大量的应用实例,极大的缩短了金融量化分析的学习路径。 本课程在量化分析与Python语言快速发展的背景下介绍二者之间的关联,使学员能够快速掌握如何利用Python语言进行金融数据量化分析的基本方法。) x; p, @ | J! G2 l 课程研发环境: 项目使用Python 2.7环境,因为Python所包含的用于数据分析和金融应用的相关库众多,所以在课程与项目中使用Anoconda 集成环境。0 n# ~% O4 C' ~, T- s; R+ W 开发工具:Spyder,IPython,Cloudera(Hadoop应用平台)4 F x0 \6 r. x2 G 数据库工具:SQLite(Anaconda内置),MongoDB(大数据应用一章使用),DTN IQFEED(试用账号,用于量化交易中高频. \4 o: j: V* ? 数据的下载) 所有使用的开发工具与环境、库等都是开源的,可以免费从互联网获取和下载。. T; P6 H! C& @ 内容简介:/ G$ M( y; Y1 E; h 本教程介绍使用Python进行数据分析和金融应用开发的基础知识。课程从介绍简单的金融应用开始,带领学员回顾Python的基础知识,并逐步学习如何将Python应用到金融分析编程中。课程覆盖了Python的基本数据结构、输入输出、效率分析、数学库、随机分析库、统计分析库等。接着课程以专题的形式介绍了Python与Excel的结合,学习如何使用Python的相关库生成Excel可调用的函数;Python与Hadoop和MongoDB结合进行大数据分析的基础知识。最后课程介绍了Python的面向对象编程并介绍了两个案例:使用Python实现金融衍生品分析库以及使用Python实现事件驱动的量化投资系统,使学员在实战的环境下理解Python在金融应用开发中的具体应用方式,训练学员独立开发Python模块的能力。- W3 Z3 ]& E6 S% I* D5 i$ s G- H6 D( g; S( i9 U 〖课程目录〗:$ \' t+ t8 q% H- W: {, }; E 第一讲、Python与金融应用概述0 A/ T1 g6 R& l 本讲主要介绍Python的基本特性,安装本课程所需要的Python环境,概述Python在金融数据分析中应用领域。本讲将使用一个简单的趋势投资的例子,讲解为什么使用Python进行金融数据分析和量化投资是非常方便的。 第二讲、Python的基本数据类型与数据结构# ~; C9 X7 o/ P8 [ 本讲介绍Python的基本数据类型与数据结构,包括基础Python和NumPy库提供的数据结构。* A. ^& ^. l6 ]( b! P5 g 1、基本数据类型(整型、浮点型、字符型)+ k" V9 v' ? w! q* S" B 2、基本数据结构(元组、控制结构、函数编程、列表、字典、集合): b T! z1 b& V8 w 3、NumPy数据结构(使用Python列表实现的数组、常规NumPy数组、结构数组、内存分配) 第三讲、Python数据可视化2 f+ ~7 A9 ~ C& g0 a3 j! S& j) b 本讲介绍Python的matplotlib库提供的数据可视化技术,虽然Python还有很多其他的数据可视化方式,但是matplotlib提供了一种基准实现方式。' M# P+ S# G L! i. M7 ^ 1、二维绘图(一维数据集、二维数据集,其他绘图模式,金融绘图): d/ q$ ]; ]" F7 e$ a& o 2、3D绘图 第四讲、金融时间序列分析3 d% E4 d" G7 Y& a, H 在金融分析中常见的一种数据类型是金融时间序列数据,本章主要介绍Python的Pandas库对金融时间序列类型数据结构的实现——DataFrame和Series,以及如何运用这些工具进行基本的金融时间序列分析% w! J1 S# g" Y3 T& ?5 b 1、Pandas基础(DataFrame类,基本分析技术,Series类,GroupBy操作) 2、金融数据) j0 [7 }" ~; F) f. I 3、数据回归分析 4、高频金融数据" p" y- I( O% q$ ]/ ^& V0 J 第五讲、输入输出操作4 H1 Y0 h; k! ^. R1 i$ S1 ^# s 本讲介绍Python提供的基本输入输出操作,以及如何在金融数据分析与投资中有效的进行使用。4 ^; _: D' U5 x5 W2 q 1、Python的基本I/O操作(将对象写入硬盘,读写文本文件、SQL数据库、读写NumPy数组)1 `5 n+ r% v/ F) w 2、使用Pandas的i/O操作(基本操作,SQL数据库,CSV文件、EXCEL文件)( Z8 P3 z7 G6 ?6 r 3、使用PyTables进行快速I/O (使用Table,使用压缩的Table,数组操作,内存外运算) 第六讲、提升Python效率 本讲介绍Python中提供的提升计算效率的一些工具以及它们在金融数据分析与投资中的基本应用。/ Y- Z% u4 ~% \' m8 i3 \# r$ V, @ 1、Python运行效率分析 内存分配与运行效率( U# l8 k" e: `8 v( A; ~ 2、并行计算(Monte Carlo算法、串行计算、并行计算) 3、动态编译(介绍例子、二叉树期权定价) 4、使用Cython静态编译 5、基于GPU生成随机数 , I/ e" _/ B+ s) X9 i9 m2 h 第七讲、数学工具 本讲介绍Python提供的用于金融数据分析的数学方法与工具及其背景知识与应用方式。 1、近似(回归、插值)9 b' [; F8 @& I- g- m: B, w( M 2、凸优化(全局最优化、局部最优化、约束最优化) 3、积分(数值积分、模拟积分) 4、符号计算(基础、方程、积分、微分) 第八讲、随机分析 对不确定性的刻画与研究是金融研究与分析的重要方面,本讲介绍随机分析的一些知识,在金融数据分析与投资中的应用与Python实现。4 y4 j4 g" E4 j# a- \# V) x 1、随机数. c' P' v5 X& K- N6 O2 o/ I7 m 2、模拟(随机变量、随机过程)0 u$ z7 Q3 [0 x, A& | 3、方差缩小技术: B9 P y0 }) @6 f. e/ t 4、估值(欧式期权、美式期权)+ y4 [3 {. `# G8 p; N& t# L 5、风险测度指标(在险价值、信用风险) 0 A+ U/ G3 L" k 第九讲、统计分析 统计分析是金融数据分析的核心,本讲介绍常用的统计分析方法、金融应用及其Python实现。 1、正态性检验4 w0 B. j1 R8 B t) ?# W& r- ?) G 2、资产组合优化 z" U/ j+ k% b" Y4 `. m7 p& R 3、主成分分析应用1 i6 `0 C1 K0 y 4、贝叶斯回归分析 第十讲、数值分析技术 对于一些非线性、没有显式解的金融和数据分析问题,需要使用数值分析的技术,本讲介绍这些技术的基础及应用,以及Python的实现。 1、求解线性方程(LU分解、Cholesky分解、QR分解、Jacobi方法、Gauss-Seidel方法) 2、金融中的非线性模型(隐含波动率、Markov regime-switching模型、门限自回归模型、平稳转换模型) 3、求根方法 第十一讲、使用Python操作Excel/ E# U! Z; F. w- f1 I4 w 微软的Excel是常用的办公软件,是数据分析和应用的重要支撑。Python提供了丰富的与Excel交互的接口,本讲介绍这些接口并举例。 1、基本的电子表格交互& [9 J) L: E" w* ~ 2、Python中的Excel脚本6 E3 F7 Y( H: Y! k( I ^ 第十二讲、Python面向对象编程与图形用户界面/ ~1 x& j1 z" h9 g 本讲介绍Python面向对象编程技术,这是后续章节,特别是量化投资一章的基础,除此之外,本讲还介绍了Python图形用户界面编程的基本方法。2 b. d+ ^5 c) j* a+ i 1、面向对象8 r9 P8 z# w3 Q2 Q* v2 N; x 2、图形用户界面 % q% t8 N& K B8 }/ ` 第十三讲、金融中的大数据技术概述 本讲介绍大数据技术在金融中的应用以及使用Python的基本实现。% t. E2 D! R. U1 P B, H4 E 1、Hadoop概述 2、使用Hadoop实现字符统计 3、Hadoop金融应用举例 4、NoSQL介绍; v4 C N8 j! R" B9 L1 ` 第十四讲、案例1:使用Python构建期权分析系统! }/ |# J, y& v$ H: z" T* f1 E/ [- \ 本案例使用之前各讲介绍的Python金融应用相关知识,构建相对完整的期权分析系统,帮助学员掌握金融系统开发的要点以及Python整合应用的方式,与之前介绍相比,在案例分析中更多的使用面向对象方法。3 O7 i D3 \: K7 v$ R" E 1、估值框架(资本资产定价原理,风险中性定价,市场环境等介绍)0 I/ V& ?" E- x* V a! @ 2、金融模型的模拟(随机数生成模块,泛型模拟类,几何布朗运动,带跳跃的扩散过程模拟模块,平方根扩散过程模拟模块) 3、衍生品估值模块(泛型估值类、欧式执行类、美式执行类) 4、衍生品分析库应用——波动率期权定价 6 `. t0 |. Y# |& f& H 第十五讲、案例2:使用Python构建简单的算法交易系统3 g3 M: W% A$ ?; x' V f1 J9 ^ 算法与程序化交易是大数据时代计算机技术在金融领域应用的最重要方面之一。本讲介绍这方面的Python实现,包括基本交易、交易策略与回测等。 1、算法交易概述与框架7 s, S8 g9 q0 ? ]0 M! o 2、实现事件驱动交易引擎(事件驱动软件,事件类,数据处理类,策略类,投资组合类,执行处理类和回测类的基本编制,事件驱动执行)6 ^# `7 d/ ?" D) W 3、交易策略实现(移动平均跨越策略,S&P500预测交易策略,均值回归股票配对交易策略) 4、策略优化(参数优化,模型选择,优化策略)
    • 2723
  • 大数据项目千面电商平台实战(用户画像) 课程简介 以某知名电商用户画像系统为基础二次开发,形成本项目。包含了几乎所有的常见标签类型的计算思路,也具有数个机器学习类型的标签,标签种类充足。采用 Spark 进行数据开发,使用 Spring 系统作为业务系统开发,包含了从部署到标签计算的全流程。 讲解方式 知识点介绍、代码演示、逻辑分析、灵活举例、使用图形的方式详细演示代码的流程和细节、整合企业级实战案例,全面讲解并突出重点,让学习也变成一种快乐。 课程亮点 1,知识体系完备,阶段学习者都能学有所获。 2,综合各种方式演示代码、分析逻辑,生动形象,化繁为简,讲解通俗易懂。 3,结合工作实践及分析应用,培养解决实际问题的能力。 4,使用综合案例来加强重点知识,用切实的应用场景提升编程能力,充分巩固各个知识点的应用。 5,整个课程的讲解思路是先提出问题,然后分析问题,并编程解决解题。 适用人群 1、对大数据感兴趣的在校生及应届毕业生。 2、对目前职业有进一步提升要求,希望从事大数据行业高薪工作的在职人员。 3、对大数据行业感兴趣的相关人员。 课程内容 第一章:用户画像概念、项目概述及环境搭建 1.用户画像产生背景与概念 2.用户画像应用场景 3.用户标识 4.项目功能模块与技术架构 5.项目标签梳理 6.项目工程导入及演示 7.项目标签系统 8.项目大数据环境搭建 9.项目工程搭建及Git使用 第二章:数据ETL加载及Oozie 应用调度 1.业务数据调研 2.数据导入几种方式 3. SQOOP导入数据至HBase表 4. HBase ImportTsv工具导入数据 5. 批量数据加载BulkLoad 6. Oozie调度工作流组成及本质 7. 配置部署Oozie调度Spark2 8. Oozie调度Spark2应用运行 9. Hue集成Oozie调度Spark2应用 10. Oozie Java Client API 使用 第三章:标签模型开发及自定义外部数据源 1. 用户画像实现方式:HiveQL和Spark 2. 用户画像功能模块:标签调度、标签管理及标签模型开发 3. 标签模型开发流程 4. Spark与HBase数据库交互 5. 用户性别标签模型开发流程:标签数据->业务数据->打标签->合并存储 6. 模板设计模式TemplatePattern思想及重构标签模型基类AbstractModel 7. SparkSession实例对象构建工具类及配置信息加载 8. 其他规则匹配类型标签模型开发 9. SparkSQL提供外部数据源实现接口分析 10. 实现外部数据源接口从HBase加载爆粗数据 11. 加载HBases数据实现字段过滤条件WhereCondition 12. 统计类型标签模型开发:年龄段、消费周期及支付方式 13. 用户标签值存储方案:标签及标签权重; 第四章:基于Solr构建画像标签索引 1. 用户标签功能【微观画像和标签查询】 2. 构建标签索引思路 3. 全文检索Solr概述及索引机制 4. Solr核心组成及目录结构 5. Solr 安装部署及启动 6. Solr 核心配置文件schema.xml 7. Solr 客户端SolrJ API使用 8. 构建Solr标签索引及配置分词器 9. HBase 协处理Coprocessor同步Solr索引数据 10. 批量插入数据至Solr 第五章:商品推荐及业务数据多数据源 1. 业务数据多数据源概述及设计思想 2. 重构加载业务数据 3. 加载MySQL、Hive及HDFS等数据源数据 4. 推荐系统核心及协同过滤算法推荐思想 5. 依据行为数据获取用户对物品评分 6. 特征数据提取及构建ALS模型 7. ALS模型推荐商品及保存 8. 总述全方位用户画像功能、业务及实现
    • 619