~bzr-pqm/bzr/bzr.dev

« back to all changes in this revision

Viewing changes to urlgrabber/keepalive.py

  • Committer: mbp at sourcefrog
  • Date: 2005-04-08 05:39:46 UTC
  • Revision ID: mbp@sourcefrog.net-20050408053946-1cb3415e1f8f58493034a5cf
- import lovely urlgrabber library

Show diffs side-by-side

added added

removed removed

Lines of Context:
 
1
#   This library is free software; you can redistribute it and/or
 
2
#   modify it under the terms of the GNU Lesser General Public
 
3
#   License as published by the Free Software Foundation; either
 
4
#   version 2.1 of the License, or (at your option) any later version.
 
5
#
 
6
#   This library is distributed in the hope that it will be useful,
 
7
#   but WITHOUT ANY WARRANTY; without even the implied warranty of
 
8
#   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
 
9
#   Lesser General Public License for more details.
 
10
#
 
11
#   You should have received a copy of the GNU Lesser General Public
 
12
#   License along with this library; if not, write to the 
 
13
#      Free Software Foundation, Inc., 
 
14
#      59 Temple Place, Suite 330, 
 
15
#      Boston, MA  02111-1307  USA
 
16
 
 
17
# This file is part of urlgrabber, a high-level cross-protocol url-grabber
 
18
# Copyright 2002-2004 Michael D. Stenner, Ryan Tomayko
 
19
 
 
20
"""An HTTP handler for urllib2 that supports HTTP 1.1 and keepalive.
 
21
 
 
22
>>> import urllib2
 
23
>>> from keepalive import HTTPHandler
 
24
>>> keepalive_handler = HTTPHandler()
 
25
>>> opener = urllib2.build_opener(keepalive_handler)
 
26
>>> urllib2.install_opener(opener)
 
27
>>> 
 
28
>>> fo = urllib2.urlopen('http://www.python.org')
 
29
 
 
30
If a connection to a given host is requested, and all of the existing
 
31
connections are still in use, another connection will be opened.  If
 
32
the handler tries to use an existing connection but it fails in some
 
33
way, it will be closed and removed from the pool.
 
34
 
 
35
To remove the handler, simply re-run build_opener with no arguments, and
 
36
install that opener.
 
37
 
 
38
You can explicitly close connections by using the close_connection()
 
39
method of the returned file-like object (described below) or you can
 
40
use the handler methods:
 
41
 
 
42
  close_connection(host)
 
43
  close_all()
 
44
  open_connections()
 
45
 
 
46
NOTE: using the close_connection and close_all methods of the handler
 
47
should be done with care when using multiple threads.
 
48
  * there is nothing that prevents another thread from creating new
 
49
    connections immediately after connections are closed
 
50
  * no checks are done to prevent in-use connections from being closed
 
51
 
 
52
>>> keepalive_handler.close_all()
 
53
 
 
54
EXTRA ATTRIBUTES AND METHODS
 
55
 
 
56
  Upon a status of 200, the object returned has a few additional
 
57
  attributes and methods, which should not be used if you want to
 
58
  remain consistent with the normal urllib2-returned objects:
 
59
 
 
60
    close_connection()  -  close the connection to the host
 
61
    readlines()         -  you know, readlines()
 
62
    status              -  the return status (ie 404)
 
63
    reason              -  english translation of status (ie 'File not found')
 
64
 
 
65
  If you want the best of both worlds, use this inside an
 
66
  AttributeError-catching try:
 
67
 
 
68
  >>> try: status = fo.status
 
69
  >>> except AttributeError: status = None
 
70
 
 
71
  Unfortunately, these are ONLY there if status == 200, so it's not
 
72
  easy to distinguish between non-200 responses.  The reason is that
 
73
  urllib2 tries to do clever things with error codes 301, 302, 401,
 
74
  and 407, and it wraps the object upon return.
 
75
 
 
76
  For python versions earlier than 2.4, you can avoid this fancy error
 
77
  handling by setting the module-level global HANDLE_ERRORS to zero.
 
78
  You see, prior to 2.4, it's the HTTP Handler's job to determine what
 
79
  to handle specially, and what to just pass up.  HANDLE_ERRORS == 0
 
80
  means "pass everything up".  In python 2.4, however, this job no
 
81
  longer belongs to the HTTP Handler and is now done by a NEW handler,
 
82
  HTTPErrorProcessor.  Here's the bottom line:
 
83
 
 
84
    python version < 2.4
 
85
        HANDLE_ERRORS == 1  (default) pass up 200, treat the rest as
 
86
                            errors
 
87
        HANDLE_ERRORS == 0  pass everything up, error processing is
 
88
                            left to the calling code
 
89
    python version >= 2.4
 
90
        HANDLE_ERRORS == 1  pass up 200, treat the rest as errors
 
91
        HANDLE_ERRORS == 0  (default) pass everything up, let the
 
92
                            other handlers (specifically,
 
93
                            HTTPErrorProcessor) decide what to do
 
94
 
 
95
  In practice, setting the variable either way makes little difference
 
96
  in python 2.4, so for the most consistent behavior across versions,
 
97
  you probably just want to use the defaults, which will give you
 
98
  exceptions on errors.
 
99
 
 
100
"""
 
101
 
 
102
# $Id: keepalive.py,v 1.9 2005/02/14 21:55:07 mstenner Exp $
 
103
 
 
104
import urllib2
 
105
import httplib
 
106
import socket
 
107
import thread
 
108
 
 
109
DEBUG = 0
 
110
def DBPRINT(*args): print ' '.join(args)
 
111
 
 
112
import sys
 
113
_python_version = map(int, sys.version.split()[0].split('.'))
 
114
if _python_version < [2, 4]: HANDLE_ERRORS = 1
 
115
else: HANDLE_ERRORS = 0
 
116
    
 
117
class ConnectionManager:
 
118
    """
 
119
    The connection manager must be able to:
 
120
      * keep track of all existing
 
121
      """
 
122
    def __init__(self):
 
123
        self._lock = thread.allocate_lock()
 
124
        self._hostmap = {} # map hosts to a list of connections
 
125
        self._connmap = {} # map connections to host
 
126
        self._readymap = {} # map connection to ready state
 
127
 
 
128
    def add(self, host, connection, ready):
 
129
        self._lock.acquire()
 
130
        try:
 
131
            if not self._hostmap.has_key(host): self._hostmap[host] = []
 
132
            self._hostmap[host].append(connection)
 
133
            self._connmap[connection] = host
 
134
            self._readymap[connection] = ready
 
135
        finally:
 
136
            self._lock.release()
 
137
 
 
138
    def remove(self, connection):
 
139
        self._lock.acquire()
 
140
        try:
 
141
            try:
 
142
                host = self._connmap[connection]
 
143
            except KeyError:
 
144
                pass
 
145
            else:
 
146
                del self._connmap[connection]
 
147
                del self._readymap[connection]
 
148
                self._hostmap[host].remove(connection)
 
149
                if not self._hostmap[host]: del self._hostmap[host]
 
150
        finally:
 
151
            self._lock.release()
 
152
 
 
153
    def set_ready(self, connection, ready):
 
154
        try: self._readymap[connection] = ready
 
155
        except KeyError: pass
 
156
        
 
157
    def get_ready_conn(self, host):
 
158
        conn = None
 
159
        self._lock.acquire()
 
160
        try:
 
161
            if self._hostmap.has_key(host):
 
162
                for c in self._hostmap[host]:
 
163
                    if self._readymap[c]:
 
164
                        self._readymap[c] = 0
 
165
                        conn = c
 
166
                        break
 
167
        finally:
 
168
            self._lock.release()
 
169
        return conn
 
170
 
 
171
    def get_all(self, host=None):
 
172
        if host:
 
173
            return list(self._hostmap.get(host, []))
 
174
        else:
 
175
            return dict(self._hostmap)
 
176
 
 
177
class HTTPHandler(urllib2.HTTPHandler):
 
178
    def __init__(self):
 
179
        self._cm = ConnectionManager()
 
180
        
 
181
    #### Connection Management
 
182
    def open_connections(self):
 
183
        """return a list of connected hosts and the number of connections
 
184
        to each.  [('foo.com:80', 2), ('bar.org', 1)]"""
 
185
        return [(host, len(li)) for (host, li) in self._cm.get_all().items()]
 
186
 
 
187
    def close_connection(self, host):
 
188
        """close connection(s) to <host>
 
189
        host is the host:port spec, as in 'www.cnn.com:8080' as passed in.
 
190
        no error occurs if there is no connection to that host."""
 
191
        for h in self._cm.get_all(host):
 
192
            self._cm.remove(h)
 
193
            h.close()
 
194
        
 
195
    def close_all(self):
 
196
        """close all open connections"""
 
197
        for host, conns in self._cm.get_all().items():
 
198
            for h in conns:
 
199
                self._cm.remove(h)
 
200
                h.close()
 
201
        
 
202
    def _request_closed(self, request, host, connection):
 
203
        """tells us that this request is now closed and the the
 
204
        connection is ready for another request"""
 
205
        self._cm.set_ready(connection, 1)
 
206
 
 
207
    def _remove_connection(self, host, connection, close=0):
 
208
        if close: connection.close()
 
209
        self._cm.remove(connection)
 
210
        
 
211
    #### Transaction Execution
 
212
    def http_open(self, req):
 
213
        return self.do_open(HTTPConnection, req)
 
214
 
 
215
    def do_open(self, http_class, req):
 
216
        host = req.get_host()
 
217
        if not host:
 
218
            raise urllib2.URLError('no host given')
 
219
 
 
220
        try:
 
221
            h = self._cm.get_ready_conn(host)
 
222
            while h:
 
223
                r = self._reuse_connection(h, req, host)
 
224
 
 
225
                # if this response is non-None, then it worked and we're
 
226
                # done.  Break out, skipping the else block.
 
227
                if r: break
 
228
 
 
229
                # connection is bad - possibly closed by server
 
230
                # discard it and ask for the next free connection
 
231
                h.close()
 
232
                self._cm.remove(h)
 
233
                h = self._cm.get_ready_conn(host)
 
234
            else:
 
235
                # no (working) free connections were found.  Create a new one.
 
236
                h = http_class(host)
 
237
                if DEBUG: DBPRINT("creating new connection to %s (%d)" % \
 
238
                                  (host, id(h)))
 
239
                self._cm.add(host, h, 0)
 
240
                self._start_transaction(h, req)
 
241
                r = h.getresponse()
 
242
        except (socket.error, httplib.HTTPException), err:
 
243
            raise urllib2.URLError(err)
 
244
            
 
245
        # if not a persistent connection, don't try to reuse it
 
246
        if r.will_close: self._cm.remove(h)
 
247
 
 
248
        if DEBUG: DBPRINT("STATUS: %s, %s" % (r.status, r.reason))
 
249
        r._handler = self
 
250
        r._host = host
 
251
        r._url = req.get_full_url()
 
252
        r._connection = h
 
253
        r.code = r.status
 
254
        
 
255
        if r.status == 200 or not HANDLE_ERRORS:
 
256
            return r
 
257
        else:
 
258
            return self.parent.error('http', req, r, r.status, r.reason, r.msg)
 
259
 
 
260
 
 
261
    def _reuse_connection(self, h, req, host):
 
262
        """start the transaction with a re-used connection
 
263
        return a response object (r) upon success or None on failure.
 
264
        This DOES not close or remove bad connections in cases where
 
265
        it returns.  However, if an unexpected exception occurs, it
 
266
        will close and remove the connection before re-raising.
 
267
        """
 
268
        try:
 
269
            self._start_transaction(h, req)
 
270
            r = h.getresponse()
 
271
            # note: just because we got something back doesn't mean it
 
272
            # worked.  We'll check the version below, too.
 
273
        except (socket.error, httplib.HTTPException):
 
274
            r = None
 
275
        except:
 
276
            # adding this block just in case we've missed
 
277
            # something we will still raise the exception, but
 
278
            # lets try and close the connection and remove it
 
279
            # first.  We previously got into a nasty loop
 
280
            # where an exception was uncaught, and so the
 
281
            # connection stayed open.  On the next try, the
 
282
            # same exception was raised, etc.  The tradeoff is
 
283
            # that it's now possible this call will raise
 
284
            # a DIFFERENT exception
 
285
            if DEBUG: DBPRINT("unexpected exception - " \
 
286
                              "closing connection to %s (%d)" % (host, id(h)))
 
287
            self._cm.remove(h)
 
288
            h.close()
 
289
            raise
 
290
                    
 
291
        if r is None or r.version == 9:
 
292
            # httplib falls back to assuming HTTP 0.9 if it gets a
 
293
            # bad header back.  This is most likely to happen if
 
294
            # the socket has been closed by the server since we
 
295
            # last used the connection.
 
296
            if DEBUG: DBPRINT("failed to re-use connection to %s (%d)" \
 
297
                              % (host, id(h)))
 
298
            r = None
 
299
        else:
 
300
            if DEBUG: DBPRINT("re-using connection to %s (%d)" % (host, id(h)))
 
301
 
 
302
        return r
 
303
 
 
304
    def _start_transaction(self, h, req):
 
305
        try:
 
306
            if req.has_data():
 
307
                data = req.get_data()
 
308
                h.putrequest('POST', req.get_selector())
 
309
                if not req.headers.has_key('Content-type'):
 
310
                    h.putheader('Content-type',
 
311
                                'application/x-www-form-urlencoded')
 
312
                if not req.headers.has_key('Content-length'):
 
313
                    h.putheader('Content-length', '%d' % len(data))
 
314
            else:
 
315
                h.putrequest('GET', req.get_selector())
 
316
        except (socket.error, httplib.HTTPException), err:
 
317
            raise urllib2.URLError(err)
 
318
 
 
319
        for args in self.parent.addheaders:
 
320
            h.putheader(*args)
 
321
        for k, v in req.headers.items():
 
322
            h.putheader(k, v)
 
323
        h.endheaders()
 
324
        if req.has_data():
 
325
            h.send(data)
 
326
 
 
327
class HTTPResponse(httplib.HTTPResponse):
 
328
    # we need to subclass HTTPResponse in order to
 
329
    # 1) add readline() and readlines() methods
 
330
    # 2) add close_connection() methods
 
331
    # 3) add info() and geturl() methods
 
332
 
 
333
    # in order to add readline(), read must be modified to deal with a
 
334
    # buffer.  example: readline must read a buffer and then spit back
 
335
    # one line at a time.  The only real alternative is to read one
 
336
    # BYTE at a time (ick).  Once something has been read, it can't be
 
337
    # put back (ok, maybe it can, but that's even uglier than this),
 
338
    # so if you THEN do a normal read, you must first take stuff from
 
339
    # the buffer.
 
340
 
 
341
    # the read method wraps the original to accomodate buffering,
 
342
    # although read() never adds to the buffer.
 
343
    # Both readline and readlines have been stolen with almost no
 
344
    # modification from socket.py
 
345
    
 
346
 
 
347
    def __init__(self, sock, debuglevel=0, strict=0, method=None):
 
348
        if method: # the httplib in python 2.3 uses the method arg
 
349
            httplib.HTTPResponse.__init__(self, sock, debuglevel, method)
 
350
        else: # 2.2 doesn't
 
351
            httplib.HTTPResponse.__init__(self, sock, debuglevel)
 
352
        self.fileno = sock.fileno
 
353
        self.code = None
 
354
        self._rbuf = ''
 
355
        self._rbufsize = 8096
 
356
        self._handler = None # inserted by the handler later
 
357
        self._host = None    # (same)
 
358
        self._url = None     # (same)
 
359
        self._connection = None # (same)
 
360
 
 
361
    _raw_read = httplib.HTTPResponse.read
 
362
 
 
363
    def close(self):
 
364
        if self.fp:
 
365
            self.fp.close()
 
366
            self.fp = None
 
367
            if self._handler:
 
368
                self._handler._request_closed(self, self._host,
 
369
                                              self._connection)
 
370
 
 
371
    def close_connection(self):
 
372
        self._handler._remove_connection(self._host, self._connection, close=1)
 
373
        self.close()
 
374
        
 
375
    def info(self):
 
376
        return self.msg
 
377
 
 
378
    def geturl(self):
 
379
        return self._url
 
380
 
 
381
    def read(self, amt=None):
 
382
        # the _rbuf test is only in this first if for speed.  It's not
 
383
        # logically necessary
 
384
        if self._rbuf and not amt is None:
 
385
            L = len(self._rbuf)
 
386
            if amt > L:
 
387
                amt -= L
 
388
            else:
 
389
                s = self._rbuf[:amt]
 
390
                self._rbuf = self._rbuf[amt:]
 
391
                return s
 
392
 
 
393
        s = self._rbuf + self._raw_read(amt)
 
394
        self._rbuf = ''
 
395
        return s
 
396
 
 
397
    def readline(self, limit=-1):
 
398
        data = ""
 
399
        i = self._rbuf.find('\n')
 
400
        while i < 0 and not (0 < limit <= len(self._rbuf)):
 
401
            new = self._raw_read(self._rbufsize)
 
402
            if not new: break
 
403
            i = new.find('\n')
 
404
            if i >= 0: i = i + len(self._rbuf)
 
405
            self._rbuf = self._rbuf + new
 
406
        if i < 0: i = len(self._rbuf)
 
407
        else: i = i+1
 
408
        if 0 <= limit < len(self._rbuf): i = limit
 
409
        data, self._rbuf = self._rbuf[:i], self._rbuf[i:]
 
410
        return data
 
411
 
 
412
    def readlines(self, sizehint = 0):
 
413
        total = 0
 
414
        list = []
 
415
        while 1:
 
416
            line = self.readline()
 
417
            if not line: break
 
418
            list.append(line)
 
419
            total += len(line)
 
420
            if sizehint and total >= sizehint:
 
421
                break
 
422
        return list
 
423
 
 
424
 
 
425
class HTTPConnection(httplib.HTTPConnection):
 
426
    # use the modified response class
 
427
    response_class = HTTPResponse
 
428
    
 
429
#########################################################################
 
430
#####   TEST FUNCTIONS
 
431
#########################################################################
 
432
 
 
433
def error_handler(url):
 
434
    global HANDLE_ERRORS
 
435
    orig = HANDLE_ERRORS
 
436
    keepalive_handler = HTTPHandler()
 
437
    opener = urllib2.build_opener(keepalive_handler)
 
438
    urllib2.install_opener(opener)
 
439
    pos = {0: 'off', 1: 'on'}
 
440
    for i in (0, 1):
 
441
        print "  fancy error handling %s (HANDLE_ERRORS = %i)" % (pos[i], i)
 
442
        HANDLE_ERRORS = i
 
443
        try:
 
444
            fo = urllib2.urlopen(url)
 
445
            foo = fo.read()
 
446
            fo.close()
 
447
            try: status, reason = fo.status, fo.reason
 
448
            except AttributeError: status, reason = None, None
 
449
        except IOError, e:
 
450
            print "  EXCEPTION: %s" % e
 
451
            raise
 
452
        else:
 
453
            print "  status = %s, reason = %s" % (status, reason)
 
454
    HANDLE_ERRORS = orig
 
455
    hosts = keepalive_handler.open_connections()
 
456
    print "open connections:", hosts
 
457
    keepalive_handler.close_all()
 
458
 
 
459
def continuity(url):
 
460
    import md5
 
461
    format = '%25s: %s'
 
462
    
 
463
    # first fetch the file with the normal http handler
 
464
    opener = urllib2.build_opener()
 
465
    urllib2.install_opener(opener)
 
466
    fo = urllib2.urlopen(url)
 
467
    foo = fo.read()
 
468
    fo.close()
 
469
    m = md5.new(foo)
 
470
    print format % ('normal urllib', m.hexdigest())
 
471
 
 
472
    # now install the keepalive handler and try again
 
473
    opener = urllib2.build_opener(HTTPHandler())
 
474
    urllib2.install_opener(opener)
 
475
 
 
476
    fo = urllib2.urlopen(url)
 
477
    foo = fo.read()
 
478
    fo.close()
 
479
    m = md5.new(foo)
 
480
    print format % ('keepalive read', m.hexdigest())
 
481
 
 
482
    fo = urllib2.urlopen(url)
 
483
    foo = ''
 
484
    while 1:
 
485
        f = fo.readline()
 
486
        if f: foo = foo + f
 
487
        else: break
 
488
    fo.close()
 
489
    m = md5.new(foo)
 
490
    print format % ('keepalive readline', m.hexdigest())
 
491
 
 
492
def comp(N, url):
 
493
    print '  making %i connections to:\n  %s' % (N, url)
 
494
 
 
495
    sys.stdout.write('  first using the normal urllib handlers')
 
496
    # first use normal opener
 
497
    opener = urllib2.build_opener()
 
498
    urllib2.install_opener(opener)
 
499
    t1 = fetch(N, url)
 
500
    print '  TIME: %.3f s' % t1
 
501
 
 
502
    sys.stdout.write('  now using the keepalive handler       ')
 
503
    # now install the keepalive handler and try again
 
504
    opener = urllib2.build_opener(HTTPHandler())
 
505
    urllib2.install_opener(opener)
 
506
    t2 = fetch(N, url)
 
507
    print '  TIME: %.3f s' % t2
 
508
    print '  improvement factor: %.2f' % (t1/t2, )
 
509
    
 
510
def fetch(N, url, delay=0):
 
511
    lens = []
 
512
    starttime = time.time()
 
513
    for i in range(N):
 
514
        if delay and i > 0: time.sleep(delay)
 
515
        fo = urllib2.urlopen(url)
 
516
        foo = fo.read()
 
517
        fo.close()
 
518
        lens.append(len(foo))
 
519
    diff = time.time() - starttime
 
520
 
 
521
    j = 0
 
522
    for i in lens[1:]:
 
523
        j = j + 1
 
524
        if not i == lens[0]:
 
525
            print "WARNING: inconsistent length on read %i: %i" % (j, i)
 
526
 
 
527
    return diff
 
528
 
 
529
def test_timeout(url):
 
530
    global DEBUG, DBPRINT
 
531
    dbp = DBPRINT
 
532
    def DBPRINT(*args): print '    ' + ' '.join(args)
 
533
    DEBUG=1
 
534
    print "  fetching the file to establish a connection"
 
535
    fo = urllib2.urlopen(url)
 
536
    data1 = fo.read()
 
537
    fo.close()
 
538
 
 
539
    i = 20
 
540
    print "  waiting %i seconds for the server to close the connection" % i
 
541
    while i > 0:
 
542
        sys.stdout.write('\r  %2i' % i)
 
543
        sys.stdout.flush()
 
544
        time.sleep(1)
 
545
        i -= 1
 
546
    sys.stderr.write('\r')
 
547
 
 
548
    print "  fetching the file a second time"
 
549
    fo = urllib2.urlopen(url)
 
550
    data2 = fo.read()
 
551
    fo.close()
 
552
 
 
553
    if data1 == data2:
 
554
        print '  data are identical'
 
555
    else:
 
556
        print '  ERROR: DATA DIFFER'
 
557
 
 
558
    DEBUG=0
 
559
    DBPRINT = dbp
 
560
 
 
561
    
 
562
def test(url, N=10):
 
563
    print "checking error hander (do this on a non-200)"
 
564
    try: error_handler(url)
 
565
    except IOError, e:
 
566
        print "exiting - exception will prevent further tests"
 
567
        sys.exit()
 
568
    print
 
569
    print "performing continuity test (making sure stuff isn't corrupted)"
 
570
    continuity(url)
 
571
    print
 
572
    print "performing speed comparison"
 
573
    comp(N, url)
 
574
    print
 
575
    print "performing dropped-connection check"
 
576
    test_timeout(url)
 
577
    
 
578
if __name__ == '__main__':
 
579
    import time
 
580
    import sys
 
581
    try:
 
582
        N = int(sys.argv[1])
 
583
        url = sys.argv[2]
 
584
    except:
 
585
        print "%s <integer> <url>" % sys.argv[0]
 
586
    else:
 
587
        test(url, N)