大数据计算

LogicHan / 2023-08-30 / 原文

大数据计算

2023.8.30

笔记

1. 判全0数组

2. 年份聚合存储 列存储书数据库

3. b+ tree

4. hash

5. 避免垃圾回收 ,自己管理内存 大数据计算程序书写

6. 内存拷贝

7. 避免对象创建

8. 磁盘操作对象加锁

9. mapreduce pregel大数据计算框架

≈ ≡ ≠ = ≤≥ < > ≮ ≯ ∷ ± + - × ÷ / ∫ ∮ ∝ ∞ ∧ ∨ ∑ 【 ∏ π 】 ∪ ∩ ∈ ∉ ∵ ∴  ⊥ ‖ ∠ ⌒  ≌ ∽ √  () 【】{} Ⅰ Ⅱ ⊕ ⊙∥α β γ δ ε ζ η θ Δ   空集 ∅

判全0数组

  1. 数组A[n]远离ε,表示cnt(A[i]==1)>ε*n
  2. 假设抽样2/ε,亚线性判定算法出错:当A远离ε时抽样出了全0,P(error)=(1-ε)^(2/ε) ≈ e^(-ε)(2/ε) ≈1/3

避免频繁垃圾回收

  1. 开辟BitArray自己管理内存