Add percentile and change name of RunningMedian class.
[python_utils.git] / math_utils.py
1 #!/usr/bin/env python3
2
3 """Mathematical helpers."""
4
5 import functools
6 import math
7 from heapq import heappop, heappush
8 from typing import List, Optional
9
10
11 class NumericPopulation(object):
12     """A running median computer.
13
14     >>> pop = NumericPopulation()
15     >>> pop.add_number(1)
16     >>> pop.add_number(10)
17     >>> pop.add_number(3)
18     >>> pop.get_median()
19     3
20     >>> pop.add_number(7)
21     >>> pop.add_number(5)
22     >>> pop.get_median()
23     5
24     >>> pop.get_mean()
25     5.2
26     >>> round(pop.get_stdev(), 2)
27     6.99
28     >>> pop.get_percentile(20)
29     3
30     >>> pop.get_percentile(60)
31     7
32     """
33
34     def __init__(self):
35         self.lowers, self.highers = [], []
36         self.aggregate = 0.0
37         self.sorted_copy: Optional[List[float]] = None
38
39     def add_number(self, number: float):
40         """O(2 log2 n)"""
41
42         if not self.highers or number > self.highers[0]:
43             heappush(self.highers, number)
44         else:
45             heappush(self.lowers, -number)  # for lowers we need a max heap
46         self.aggregate += number
47         self._rebalance()
48
49     def _rebalance(self):
50         if len(self.lowers) - len(self.highers) > 1:
51             heappush(self.highers, -heappop(self.lowers))
52         elif len(self.highers) - len(self.lowers) > 1:
53             heappush(self.lowers, -heappop(self.highers))
54
55     def get_median(self) -> float:
56         """Returns the approximate median (p50) so far in O(1) time."""
57
58         if len(self.lowers) == len(self.highers):
59             return -self.lowers[0]
60         elif len(self.lowers) > len(self.highers):
61             return -self.lowers[0]
62         else:
63             return self.highers[0]
64
65     def get_mean(self) -> float:
66         """Returns the mean (arithmetic mean) so far in O(1) time."""
67
68         count = len(self.lowers) + len(self.highers)
69         return self.aggregate / count
70
71     def get_stdev(self) -> float:
72         """Returns the stdev so far in O(n) time."""
73
74         mean = self.get_mean()
75         variance = 0.0
76         for n in self.lowers:
77             n = -n
78             variance += (n - mean) ** 2
79         for n in self.highers:
80             variance += (n - mean) ** 2
81         return math.sqrt(variance)
82
83     def get_percentile(self, n: float) -> float:
84         """Returns the number at approximately pn% (i.e. the nth percentile)
85         of the distribution in O(n log n) time (expensive, requires a
86         complete sort).  Not thread safe.  Caching does across
87         multiple calls without an invocation to add_number.
88
89         """
90         if n == 50:
91             return self.get_median()
92         count = len(self.lowers) + len(self.highers)
93         if self.sorted_copy is not None:
94             if count == len(self.sorted_copy):
95                 index = round(count * (n / 100.0))
96                 assert 0 <= index < count
97                 return self.sorted_copy[index]
98         self.sorted_copy = [-x for x in self.lowers]
99         for x in self.highers:
100             self.sorted_copy.append(x)
101         self.sorted_copy = sorted(self.sorted_copy)
102         index = round(count * (n / 100.0))
103         assert 0 <= index < count
104         return self.sorted_copy[index]
105
106
107 def gcd_floats(a: float, b: float) -> float:
108     if a < b:
109         return gcd_floats(b, a)
110
111     # base case
112     if abs(b) < 0.001:
113         return a
114     return gcd_floats(b, a - math.floor(a / b) * b)
115
116
117 def gcd_float_sequence(lst: List[float]) -> float:
118     if len(lst) <= 0:
119         raise ValueError("Need at least one number")
120     elif len(lst) == 1:
121         return lst[0]
122     assert len(lst) >= 2
123     gcd = gcd_floats(lst[0], lst[1])
124     for i in range(2, len(lst)):
125         gcd = gcd_floats(gcd, lst[i])
126     return gcd
127
128
129 def truncate_float(n: float, decimals: int = 2):
130     """
131     Truncate a float to a particular number of decimals.
132
133     >>> truncate_float(3.1415927, 3)
134     3.141
135
136     """
137     assert 0 < decimals < 10
138     multiplier = 10**decimals
139     return int(n * multiplier) / multiplier
140
141
142 def percentage_to_multiplier(percent: float) -> float:
143     """Given a percentage (e.g. 155%), return a factor needed to scale a
144     number by that percentage.
145
146     >>> percentage_to_multiplier(155)
147     2.55
148     >>> percentage_to_multiplier(45)
149     1.45
150     >>> percentage_to_multiplier(-25)
151     0.75
152
153     """
154     multiplier = percent / 100
155     multiplier += 1.0
156     return multiplier
157
158
159 def multiplier_to_percent(multiplier: float) -> float:
160     """Convert a multiplicative factor into a percent change.
161
162     >>> multiplier_to_percent(0.75)
163     -25.0
164     >>> multiplier_to_percent(1.0)
165     0.0
166     >>> multiplier_to_percent(1.99)
167     99.0
168
169     """
170     percent = multiplier
171     if percent > 0.0:
172         percent -= 1.0
173     else:
174         percent = 1.0 - percent
175     percent *= 100.0
176     return percent
177
178
179 @functools.lru_cache(maxsize=1024, typed=True)
180 def is_prime(n: int) -> bool:
181     """
182     Returns True if n is prime and False otherwise.  Obviously(?) very slow for
183     very large input numbers.
184
185     >>> is_prime(13)
186     True
187     >>> is_prime(22)
188     False
189     >>> is_prime(51602981)
190     True
191
192     """
193     if not isinstance(n, int):
194         raise TypeError("argument passed to is_prime is not of 'int' type")
195
196     # Corner cases
197     if n <= 1:
198         return False
199     if n <= 3:
200         return True
201
202     # This is checked so that we can skip middle five numbers in below
203     # loop
204     if n % 2 == 0 or n % 3 == 0:
205         return False
206
207     i = 5
208     while i * i <= n:
209         if n % i == 0 or n % (i + 2) == 0:
210             return False
211         i = i + 6
212     return True
213
214
215 if __name__ == '__main__':
216     import doctest
217
218     doctest.testmod()