Adds shuffle/scramble to list_utils.
[python_utils.git] / math_utils.py
1 #!/usr/bin/env python3
2
3 """Mathematical helpers."""
4
5 import collections
6 import functools
7 import math
8 from heapq import heappop, heappush
9 from typing import Dict, List, Optional, Tuple
10
11 import dict_utils
12
13
14 class NumericPopulation(object):
15     """A numeric population with some statistics such as median, mean, pN,
16     stdev, etc...
17
18     >>> pop = NumericPopulation()
19     >>> pop.add_number(1)
20     >>> pop.add_number(10)
21     >>> pop.add_number(3)
22     >>> pop.get_median()
23     3
24     >>> pop.add_number(7)
25     >>> pop.add_number(5)
26     >>> pop.get_median()
27     5
28     >>> pop.get_mean()
29     5.2
30     >>> round(pop.get_stdev(), 2)
31     1.75
32     >>> pop.get_percentile(20)
33     3
34     >>> pop.get_percentile(60)
35     7
36
37     """
38
39     def __init__(self):
40         self.lowers, self.highers = [], []
41         self.aggregate = 0.0
42         self.sorted_copy: Optional[List[float]] = None
43
44     def add_number(self, number: float):
45         """O(2 log2 n)"""
46
47         if not self.highers or number > self.highers[0]:
48             heappush(self.highers, number)
49         else:
50             heappush(self.lowers, -number)  # for lowers we need a max heap
51         self.aggregate += number
52         self._rebalance()
53
54     def _rebalance(self):
55         if len(self.lowers) - len(self.highers) > 1:
56             heappush(self.highers, -heappop(self.lowers))
57         elif len(self.highers) - len(self.lowers) > 1:
58             heappush(self.lowers, -heappop(self.highers))
59
60     def get_median(self) -> float:
61         """Returns the approximate median (p50) so far in O(1) time."""
62
63         if len(self.lowers) == len(self.highers):
64             return -self.lowers[0]
65         elif len(self.lowers) > len(self.highers):
66             return -self.lowers[0]
67         else:
68             return self.highers[0]
69
70     def get_mean(self) -> float:
71         """Returns the mean (arithmetic mean) so far in O(1) time."""
72
73         count = len(self.lowers) + len(self.highers)
74         return self.aggregate / count
75
76     def get_mode(self) -> Tuple[float, int]:
77         """Returns the mode (most common member)."""
78
79         count: Dict[float, int] = collections.defaultdict(int)
80         for n in self.lowers:
81             count[-n] += 1
82         for n in self.highers:
83             count[n] += 1
84         return dict_utils.item_with_max_value(count)
85
86     def get_stdev(self) -> float:
87         """Returns the stdev so far in O(n) time."""
88
89         mean = self.get_mean()
90         variance = 0.0
91         for n in self.lowers:
92             n = -n
93             variance += (n - mean) ** 2
94         for n in self.highers:
95             variance += (n - mean) ** 2
96         count = len(self.lowers) + len(self.highers) - 1
97         return math.sqrt(variance) / count
98
99     def get_percentile(self, n: float) -> float:
100         """Returns the number at approximately pn% (i.e. the nth percentile)
101         of the distribution in O(n log n) time (expensive, requires a
102         complete sort).  Not thread safe.  Caching does across
103         multiple calls without an invocation to add_number.
104
105         """
106         if n == 50:
107             return self.get_median()
108         count = len(self.lowers) + len(self.highers)
109         if self.sorted_copy is not None:
110             if count == len(self.sorted_copy):
111                 index = round(count * (n / 100.0))
112                 assert 0 <= index < count
113                 return self.sorted_copy[index]
114         self.sorted_copy = [-x for x in self.lowers]
115         for x in self.highers:
116             self.sorted_copy.append(x)
117         self.sorted_copy = sorted(self.sorted_copy)
118         index = round(count * (n / 100.0))
119         assert 0 <= index < count
120         return self.sorted_copy[index]
121
122
123 def gcd_floats(a: float, b: float) -> float:
124     if a < b:
125         return gcd_floats(b, a)
126
127     # base case
128     if abs(b) < 0.001:
129         return a
130     return gcd_floats(b, a - math.floor(a / b) * b)
131
132
133 def gcd_float_sequence(lst: List[float]) -> float:
134     if len(lst) <= 0:
135         raise ValueError("Need at least one number")
136     elif len(lst) == 1:
137         return lst[0]
138     assert len(lst) >= 2
139     gcd = gcd_floats(lst[0], lst[1])
140     for i in range(2, len(lst)):
141         gcd = gcd_floats(gcd, lst[i])
142     return gcd
143
144
145 def truncate_float(n: float, decimals: int = 2):
146     """
147     Truncate a float to a particular number of decimals.
148
149     >>> truncate_float(3.1415927, 3)
150     3.141
151
152     """
153     assert 0 < decimals < 10
154     multiplier = 10**decimals
155     return int(n * multiplier) / multiplier
156
157
158 def percentage_to_multiplier(percent: float) -> float:
159     """Given a percentage (e.g. 155%), return a factor needed to scale a
160     number by that percentage.
161
162     >>> percentage_to_multiplier(155)
163     2.55
164     >>> percentage_to_multiplier(45)
165     1.45
166     >>> percentage_to_multiplier(-25)
167     0.75
168
169     """
170     multiplier = percent / 100
171     multiplier += 1.0
172     return multiplier
173
174
175 def multiplier_to_percent(multiplier: float) -> float:
176     """Convert a multiplicative factor into a percent change.
177
178     >>> multiplier_to_percent(0.75)
179     -25.0
180     >>> multiplier_to_percent(1.0)
181     0.0
182     >>> multiplier_to_percent(1.99)
183     99.0
184
185     """
186     percent = multiplier
187     if percent > 0.0:
188         percent -= 1.0
189     else:
190         percent = 1.0 - percent
191     percent *= 100.0
192     return percent
193
194
195 @functools.lru_cache(maxsize=1024, typed=True)
196 def is_prime(n: int) -> bool:
197     """
198     Returns True if n is prime and False otherwise.  Obviously(?) very slow for
199     very large input numbers.
200
201     >>> is_prime(13)
202     True
203     >>> is_prime(22)
204     False
205     >>> is_prime(51602981)
206     True
207
208     """
209     if not isinstance(n, int):
210         raise TypeError("argument passed to is_prime is not of 'int' type")
211
212     # Corner cases
213     if n <= 1:
214         return False
215     if n <= 3:
216         return True
217
218     # This is checked so that we can skip middle five numbers in below
219     # loop
220     if n % 2 == 0 or n % 3 == 0:
221         return False
222
223     i = 5
224     while i * i <= n:
225         if n % i == 0 or n % (i + 2) == 0:
226             return False
227         i = i + 6
228     return True
229
230
231 if __name__ == '__main__':
232     import doctest
233
234     doctest.testmod()