~bzr-pqm/bzr/bzr.dev

« back to all changes in this revision

Viewing changes to bzrlib/tests/http_server.py

  • Committer: mbp at sourcefrog
  • Date: 2005-03-29 02:41:07 UTC
  • Revision ID: mbp@sourcefrog.net-20050329024107-7fd789f7ca7d64ab
Tree.is_ignored returns the pattern that matched, if any

Show diffs side-by-side

added added

removed removed

Lines of Context:
1
 
# Copyright (C) 2006, 2007 Canonical Ltd
2
 
#
3
 
# This program is free software; you can redistribute it and/or modify
4
 
# it under the terms of the GNU General Public License as published by
5
 
# the Free Software Foundation; either version 2 of the License, or
6
 
# (at your option) any later version.
7
 
#
8
 
# This program is distributed in the hope that it will be useful,
9
 
# but WITHOUT ANY WARRANTY; without even the implied warranty of
10
 
# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
11
 
# GNU General Public License for more details.
12
 
#
13
 
# You should have received a copy of the GNU General Public License
14
 
# along with this program; if not, write to the Free Software
15
 
# Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
16
 
 
17
 
import errno
18
 
import httplib
19
 
import os
20
 
import posixpath
21
 
import random
22
 
import re
23
 
import select
24
 
import SimpleHTTPServer
25
 
import socket
26
 
import SocketServer
27
 
import sys
28
 
import threading
29
 
import time
30
 
import urllib
31
 
import urlparse
32
 
 
33
 
from bzrlib import transport
34
 
from bzrlib.transport import local
35
 
 
36
 
 
37
 
class WebserverNotAvailable(Exception):
38
 
    pass
39
 
 
40
 
 
41
 
class BadWebserverPath(ValueError):
42
 
    def __str__(self):
43
 
        return 'path %s is not in %s' % self.args
44
 
 
45
 
 
46
 
class TestingHTTPRequestHandler(SimpleHTTPServer.SimpleHTTPRequestHandler):
47
 
    """Handles one request.
48
 
 
49
 
    A TestingHTTPRequestHandler is instantiated for every request received by
50
 
    the associated server. Note that 'request' here is inherited from the base
51
 
    TCPServer class, for the HTTP server it is really a connection which itself
52
 
    will handle one or several HTTP requests.
53
 
    """
54
 
    # Default protocol version
55
 
    protocol_version = 'HTTP/1.1'
56
 
 
57
 
    # The Message-like class used to parse the request headers
58
 
    MessageClass = httplib.HTTPMessage
59
 
 
60
 
    def setup(self):
61
 
        SimpleHTTPServer.SimpleHTTPRequestHandler.setup(self)
62
 
        self._cwd = self.server._home_dir
63
 
        tcs = self.server.test_case_server
64
 
        if tcs.protocol_version is not None:
65
 
            # If the test server forced a protocol version, use it
66
 
            self.protocol_version = tcs.protocol_version
67
 
 
68
 
    def log_message(self, format, *args):
69
 
        tcs = self.server.test_case_server
70
 
        tcs.log('webserver - %s - - [%s] %s "%s" "%s"',
71
 
                self.address_string(),
72
 
                self.log_date_time_string(),
73
 
                format % args,
74
 
                self.headers.get('referer', '-'),
75
 
                self.headers.get('user-agent', '-'))
76
 
 
77
 
    def handle_one_request(self):
78
 
        """Handle a single HTTP request.
79
 
 
80
 
        We catch all socket errors occurring when the client close the
81
 
        connection early to avoid polluting the test results.
82
 
        """
83
 
        try:
84
 
            SimpleHTTPServer.SimpleHTTPRequestHandler.handle_one_request(self)
85
 
        except socket.error, e:
86
 
            # Any socket error should close the connection, but some errors are
87
 
            # due to the client closing early and we don't want to pollute test
88
 
            # results, so we raise only the others.
89
 
            self.close_connection = 1
90
 
            if (len(e.args) == 0
91
 
                or e.args[0] not in (errno.EPIPE, errno.ECONNRESET,
92
 
                                     errno.ECONNABORTED, errno.EBADF)):
93
 
                raise
94
 
 
95
 
    _range_regexp = re.compile(r'^(?P<start>\d+)-(?P<end>\d+)$')
96
 
    _tail_regexp = re.compile(r'^-(?P<tail>\d+)$')
97
 
 
98
 
    def parse_ranges(self, ranges_header):
99
 
        """Parse the range header value and returns ranges and tail.
100
 
 
101
 
        RFC2616 14.35 says that syntactically invalid range
102
 
        specifiers MUST be ignored. In that case, we return 0 for
103
 
        tail and [] for ranges.
104
 
        """
105
 
        tail = 0
106
 
        ranges = []
107
 
        if not ranges_header.startswith('bytes='):
108
 
            # Syntactically invalid header
109
 
            return 0, []
110
 
 
111
 
        ranges_header = ranges_header[len('bytes='):]
112
 
        for range_str in ranges_header.split(','):
113
 
            # FIXME: RFC2616 says end is optional and default to file_size
114
 
            range_match = self._range_regexp.match(range_str)
115
 
            if range_match is not None:
116
 
                start = int(range_match.group('start'))
117
 
                end = int(range_match.group('end'))
118
 
                if start > end:
119
 
                    # Syntactically invalid range
120
 
                    return 0, []
121
 
                ranges.append((start, end))
122
 
            else:
123
 
                tail_match = self._tail_regexp.match(range_str)
124
 
                if tail_match is not None:
125
 
                    tail = int(tail_match.group('tail'))
126
 
                else:
127
 
                    # Syntactically invalid range
128
 
                    return 0, []
129
 
        return tail, ranges
130
 
 
131
 
    def _header_line_length(self, keyword, value):
132
 
        header_line = '%s: %s\r\n' % (keyword, value)
133
 
        return len(header_line)
134
 
 
135
 
    def send_head(self):
136
 
        """Overrides base implementation to work around a bug in python2.5."""
137
 
        path = self.translate_path(self.path)
138
 
        if os.path.isdir(path) and not self.path.endswith('/'):
139
 
            # redirect browser - doing basically what apache does when
140
 
            # DirectorySlash option is On which is quite common (braindead, but
141
 
            # common)
142
 
            self.send_response(301)
143
 
            self.send_header("Location", self.path + "/")
144
 
            # Indicates that the body is empty for HTTP/1.1 clients 
145
 
            self.send_header('Content-Length', '0')
146
 
            self.end_headers()
147
 
            return None
148
 
 
149
 
        return SimpleHTTPServer.SimpleHTTPRequestHandler.send_head(self)
150
 
 
151
 
    def send_range_content(self, file, start, length):
152
 
        file.seek(start)
153
 
        self.wfile.write(file.read(length))
154
 
 
155
 
    def get_single_range(self, file, file_size, start, end):
156
 
        self.send_response(206)
157
 
        length = end - start + 1
158
 
        self.send_header('Accept-Ranges', 'bytes')
159
 
        self.send_header("Content-Length", "%d" % length)
160
 
 
161
 
        self.send_header("Content-Type", 'application/octet-stream')
162
 
        self.send_header("Content-Range", "bytes %d-%d/%d" % (start,
163
 
                                                              end,
164
 
                                                              file_size))
165
 
        self.end_headers()
166
 
        self.send_range_content(file, start, length)
167
 
 
168
 
    def get_multiple_ranges(self, file, file_size, ranges):
169
 
        self.send_response(206)
170
 
        self.send_header('Accept-Ranges', 'bytes')
171
 
        boundary = '%d' % random.randint(0,0x7FFFFFFF)
172
 
        self.send_header('Content-Type',
173
 
                         'multipart/byteranges; boundary=%s' % boundary)
174
 
        boundary_line = '--%s\r\n' % boundary
175
 
        # Calculate the Content-Length
176
 
        content_length = 0
177
 
        for (start, end) in ranges:
178
 
            content_length += len(boundary_line)
179
 
            content_length += self._header_line_length(
180
 
                'Content-type', 'application/octet-stream')
181
 
            content_length += self._header_line_length(
182
 
                'Content-Range', 'bytes %d-%d/%d' % (start, end, file_size))
183
 
            content_length += len('\r\n') # end headers
184
 
            content_length += end - start # + 1
185
 
        content_length += len(boundary_line)
186
 
        self.send_header('Content-length', content_length)
187
 
        self.end_headers()
188
 
 
189
 
        # Send the multipart body
190
 
        for (start, end) in ranges:
191
 
            self.wfile.write(boundary_line)
192
 
            self.send_header('Content-type', 'application/octet-stream')
193
 
            self.send_header('Content-Range', 'bytes %d-%d/%d'
194
 
                             % (start, end, file_size))
195
 
            self.end_headers()
196
 
            self.send_range_content(file, start, end - start + 1)
197
 
        # Final boundary
198
 
        self.wfile.write(boundary_line)
199
 
 
200
 
    def do_GET(self):
201
 
        """Serve a GET request.
202
 
 
203
 
        Handles the Range header.
204
 
        """
205
 
        # Update statistics
206
 
        self.server.test_case_server.GET_request_nb += 1
207
 
 
208
 
        path = self.translate_path(self.path)
209
 
        ranges_header_value = self.headers.get('Range')
210
 
        if ranges_header_value is None or os.path.isdir(path):
211
 
            # Let the mother class handle most cases
212
 
            return SimpleHTTPServer.SimpleHTTPRequestHandler.do_GET(self)
213
 
 
214
 
        try:
215
 
            # Always read in binary mode. Opening files in text
216
 
            # mode may cause newline translations, making the
217
 
            # actual size of the content transmitted *less* than
218
 
            # the content-length!
219
 
            file = open(path, 'rb')
220
 
        except IOError:
221
 
            self.send_error(404, "File not found")
222
 
            return
223
 
 
224
 
        file_size = os.fstat(file.fileno())[6]
225
 
        tail, ranges = self.parse_ranges(ranges_header_value)
226
 
        # Normalize tail into ranges
227
 
        if tail != 0:
228
 
            ranges.append((file_size - tail, file_size))
229
 
 
230
 
        self._satisfiable_ranges = True
231
 
        if len(ranges) == 0:
232
 
            self._satisfiable_ranges = False
233
 
        else:
234
 
            def check_range(range_specifier):
235
 
                start, end = range_specifier
236
 
                # RFC2616 14.35, ranges are invalid if start >= file_size
237
 
                if start >= file_size:
238
 
                    self._satisfiable_ranges = False # Side-effect !
239
 
                    return 0, 0
240
 
                # RFC2616 14.35, end values should be truncated
241
 
                # to file_size -1 if they exceed it
242
 
                end = min(end, file_size - 1)
243
 
                return start, end
244
 
 
245
 
            ranges = map(check_range, ranges)
246
 
 
247
 
        if not self._satisfiable_ranges:
248
 
            # RFC2616 14.16 and 14.35 says that when a server
249
 
            # encounters unsatisfiable range specifiers, it
250
 
            # SHOULD return a 416.
251
 
            file.close()
252
 
            # FIXME: We SHOULD send a Content-Range header too,
253
 
            # but the implementation of send_error does not
254
 
            # allows that. So far.
255
 
            self.send_error(416, "Requested range not satisfiable")
256
 
            return
257
 
 
258
 
        if len(ranges) == 1:
259
 
            (start, end) = ranges[0]
260
 
            self.get_single_range(file, file_size, start, end)
261
 
        else:
262
 
            self.get_multiple_ranges(file, file_size, ranges)
263
 
        file.close()
264
 
 
265
 
    def translate_path(self, path):
266
 
        """Translate a /-separated PATH to the local filename syntax.
267
 
 
268
 
        If the server requires it, proxy the path before the usual translation
269
 
        """
270
 
        if self.server.test_case_server.proxy_requests:
271
 
            # We need to act as a proxy and accept absolute urls,
272
 
            # which SimpleHTTPRequestHandler (parent) is not
273
 
            # ready for. So we just drop the protocol://host:port
274
 
            # part in front of the request-url (because we know
275
 
            # we would not forward the request to *another*
276
 
            # proxy).
277
 
 
278
 
            # So we do what SimpleHTTPRequestHandler.translate_path
279
 
            # do beginning with python 2.4.3: abandon query
280
 
            # parameters, scheme, host port, etc (which ensure we
281
 
            # provide the right behaviour on all python versions).
282
 
            path = urlparse.urlparse(path)[2]
283
 
            # And now, we can apply *our* trick to proxy files
284
 
            path += '-proxied'
285
 
 
286
 
        return self._translate_path(path)
287
 
 
288
 
    def _translate_path(self, path):
289
 
        """Translate a /-separated PATH to the local filename syntax.
290
 
 
291
 
        Note that we're translating http URLs here, not file URLs.
292
 
        The URL root location is the server's startup directory.
293
 
        Components that mean special things to the local file system
294
 
        (e.g. drive or directory names) are ignored.  (XXX They should
295
 
        probably be diagnosed.)
296
 
 
297
 
        Override from python standard library to stop it calling os.getcwd()
298
 
        """
299
 
        # abandon query parameters
300
 
        path = urlparse.urlparse(path)[2]
301
 
        path = posixpath.normpath(urllib.unquote(path))
302
 
        path = path.decode('utf-8')
303
 
        words = path.split('/')
304
 
        words = filter(None, words)
305
 
        path = self._cwd
306
 
        for num, word in enumerate(words):
307
 
            if num == 0:
308
 
                drive, word = os.path.splitdrive(word)
309
 
            head, word = os.path.split(word)
310
 
            if word in (os.curdir, os.pardir): continue
311
 
            path = os.path.join(path, word)
312
 
        return path
313
 
 
314
 
 
315
 
class TestingHTTPServerMixin:
316
 
 
317
 
    def __init__(self, test_case_server):
318
 
        # test_case_server can be used to communicate between the
319
 
        # tests and the server (or the request handler and the
320
 
        # server), allowing dynamic behaviors to be defined from
321
 
        # the tests cases.
322
 
        self.test_case_server = test_case_server
323
 
        self._home_dir = test_case_server._home_dir
324
 
 
325
 
    def tearDown(self):
326
 
         """Called to clean-up the server.
327
 
 
328
 
         Since the server may be (surely is, even) in a blocking listen, we
329
 
         shutdown its socket before closing it.
330
 
         """
331
 
         # Note that is this executed as part of the implicit tear down in the
332
 
         # main thread while the server runs in its own thread. The clean way
333
 
         # to tear down the server is to instruct him to stop accepting
334
 
         # connections and wait for the current connection(s) to end
335
 
         # naturally. To end the connection naturally, the http transports
336
 
         # should close their socket when they do not need to talk to the
337
 
         # server anymore. This happens naturally during the garbage collection
338
 
         # phase of the test transport objetcs (the server clients), so we
339
 
         # don't have to worry about them.  So, for the server, we must tear
340
 
         # down here, from the main thread, when the test have ended.  Note
341
 
         # that since the server is in a blocking operation and since python
342
 
         # use select internally, shutting down the socket is reliable and
343
 
         # relatively clean.
344
 
         try:
345
 
             self.socket.shutdown(socket.SHUT_RDWR)
346
 
         except socket.error, e:
347
 
             # WSAENOTCONN (10057) 'Socket is not connected' is harmless on
348
 
             # windows (occurs before the first connection attempt
349
 
             # vila--20071230)
350
 
             if not len(e.args) or e.args[0] != 10057:
351
 
                 raise
352
 
         # Let the server properly close the socket
353
 
         self.server_close()
354
 
 
355
 
 
356
 
class TestingHTTPServer(SocketServer.TCPServer, TestingHTTPServerMixin):
357
 
 
358
 
    def __init__(self, server_address, request_handler_class,
359
 
                 test_case_server):
360
 
        TestingHTTPServerMixin.__init__(self, test_case_server)
361
 
        SocketServer.TCPServer.__init__(self, server_address,
362
 
                                        request_handler_class)
363
 
 
364
 
 
365
 
class TestingThreadingHTTPServer(SocketServer.ThreadingTCPServer,
366
 
                                 TestingHTTPServerMixin):
367
 
    """A threading HTTP test server for HTTP 1.1.
368
 
 
369
 
    Since tests can initiate several concurrent connections to the same http
370
 
    server, we need an independent connection for each of them. We achieve that
371
 
    by spawning a new thread for each connection.
372
 
    """
373
 
 
374
 
    def __init__(self, server_address, request_handler_class,
375
 
                 test_case_server):
376
 
        TestingHTTPServerMixin.__init__(self, test_case_server)
377
 
        SocketServer.ThreadingTCPServer.__init__(self, server_address,
378
 
                                                 request_handler_class)
379
 
        # Decides how threads will act upon termination of the main
380
 
        # process. This is prophylactic as we should not leave the threads
381
 
        # lying around.
382
 
        self.daemon_threads = True
383
 
 
384
 
 
385
 
class HttpServer(transport.Server):
386
 
    """A test server for http transports.
387
 
 
388
 
    Subclasses can provide a specific request handler.
389
 
    """
390
 
 
391
 
    # The real servers depending on the protocol
392
 
    http_server_class = {'HTTP/1.0': TestingHTTPServer,
393
 
                         'HTTP/1.1': TestingThreadingHTTPServer,
394
 
                         }
395
 
 
396
 
    # Whether or not we proxy the requests (see
397
 
    # TestingHTTPRequestHandler.translate_path).
398
 
    proxy_requests = False
399
 
 
400
 
    # used to form the url that connects to this server
401
 
    _url_protocol = 'http'
402
 
 
403
 
    def __init__(self, request_handler=TestingHTTPRequestHandler,
404
 
                 protocol_version=None):
405
 
        """Constructor.
406
 
 
407
 
        :param request_handler: a class that will be instantiated to handle an
408
 
            http connection (one or several requests).
409
 
 
410
 
        :param protocol_version: if specified, will override the protocol
411
 
            version of the request handler.
412
 
        """
413
 
        transport.Server.__init__(self)
414
 
        self.request_handler = request_handler
415
 
        self.host = 'localhost'
416
 
        self.port = 0
417
 
        self._httpd = None
418
 
        self.protocol_version = protocol_version
419
 
        # Allows tests to verify number of GET requests issued
420
 
        self.GET_request_nb = 0
421
 
 
422
 
    def __repr__(self):
423
 
        return "%s(%s:%s)" % \
424
 
            (self.__class__.__name__, self.host, self.port)
425
 
 
426
 
    def _get_httpd(self):
427
 
        if self._httpd is None:
428
 
            rhandler = self.request_handler
429
 
            # Depending on the protocol version, we will create the approriate
430
 
            # server
431
 
            if self.protocol_version is None:
432
 
                # Use the request handler one
433
 
                proto_vers = rhandler.protocol_version
434
 
            else:
435
 
                # Use our own, it will be used to override the request handler
436
 
                # one too.
437
 
                proto_vers = self.protocol_version
438
 
            # Create the appropriate server for the required protocol
439
 
            serv_cls = self.http_server_class.get(proto_vers, None)
440
 
            if serv_cls is None:
441
 
                raise httplib.UnknownProtocol(proto_vers)
442
 
            else:
443
 
                self._httpd = serv_cls((self.host, self.port), rhandler, self)
444
 
            host, self.port = self._httpd.socket.getsockname()
445
 
        return self._httpd
446
 
 
447
 
    def _http_start(self):
448
 
        """Server thread main entry point. """
449
 
        self._http_running = False
450
 
        try:
451
 
            try:
452
 
                httpd = self._get_httpd()
453
 
                self._http_base_url = '%s://%s:%s/' % (self._url_protocol,
454
 
                                                       self.host, self.port)
455
 
                self._http_running = True
456
 
            except:
457
 
                # Whatever goes wrong, we save the exception for the main
458
 
                # thread. Note that since we are running in a thread, no signal
459
 
                # can be received, so we don't care about KeyboardInterrupt.
460
 
                self._http_exception = sys.exc_info()
461
 
        finally:
462
 
            # Release the lock or the main thread will block and the whole
463
 
            # process will hang.
464
 
            self._http_starting.release()
465
 
 
466
 
        # From now on, exceptions are taken care of by the
467
 
        # SocketServer.BaseServer or the request handler.
468
 
        while self._http_running:
469
 
            try:
470
 
                # Really an HTTP connection but the python framework is generic
471
 
                # and call them requests
472
 
                httpd.handle_request()
473
 
            except socket.timeout:
474
 
                pass
475
 
            except (socket.error, select.error), e:
476
 
               if e[0] == errno.EBADF:
477
 
                   # Starting with python-2.6, handle_request may raise socket
478
 
                   # or select exceptions when the server is shut down (as we
479
 
                   # do).
480
 
                   pass
481
 
               else:
482
 
                   raise
483
 
 
484
 
    def _get_remote_url(self, path):
485
 
        path_parts = path.split(os.path.sep)
486
 
        if os.path.isabs(path):
487
 
            if path_parts[:len(self._local_path_parts)] != \
488
 
                   self._local_path_parts:
489
 
                raise BadWebserverPath(path, self.test_dir)
490
 
            remote_path = '/'.join(path_parts[len(self._local_path_parts):])
491
 
        else:
492
 
            remote_path = '/'.join(path_parts)
493
 
 
494
 
        return self._http_base_url + remote_path
495
 
 
496
 
    def log(self, format, *args):
497
 
        """Capture Server log output."""
498
 
        self.logs.append(format % args)
499
 
 
500
 
    def setUp(self, backing_transport_server=None):
501
 
        """See bzrlib.transport.Server.setUp.
502
 
        
503
 
        :param backing_transport_server: The transport that requests over this
504
 
            protocol should be forwarded to. Note that this is currently not
505
 
            supported for HTTP.
506
 
        """
507
 
        # XXX: TODO: make the server back onto vfs_server rather than local
508
 
        # disk.
509
 
        if not (backing_transport_server is None or \
510
 
                isinstance(backing_transport_server, local.LocalURLServer)):
511
 
            raise AssertionError(
512
 
                "HTTPServer currently assumes local transport, got %s" % \
513
 
                backing_transport_server)
514
 
        self._home_dir = os.getcwdu()
515
 
        self._local_path_parts = self._home_dir.split(os.path.sep)
516
 
        self._http_base_url = None
517
 
 
518
 
        # Create the server thread
519
 
        self._http_starting = threading.Lock()
520
 
        self._http_starting.acquire()
521
 
        self._http_thread = threading.Thread(target=self._http_start)
522
 
        self._http_thread.setDaemon(True)
523
 
        self._http_exception = None
524
 
        self._http_thread.start()
525
 
 
526
 
        # Wait for the server thread to start (i.e release the lock)
527
 
        self._http_starting.acquire()
528
 
 
529
 
        if self._http_exception is not None:
530
 
            # Something went wrong during server start
531
 
            exc_class, exc_value, exc_tb = self._http_exception
532
 
            raise exc_class, exc_value, exc_tb
533
 
        self._http_starting.release()
534
 
        self.logs = []
535
 
 
536
 
    def tearDown(self):
537
 
        """See bzrlib.transport.Server.tearDown."""
538
 
        self._httpd.tearDown()
539
 
        self._http_running = False
540
 
        # We don't need to 'self._http_thread.join()' here since the thread is
541
 
        # a daemonic one and will be garbage collected anyway. Joining just
542
 
        # slows us down for no added benefit.
543
 
 
544
 
    def get_url(self):
545
 
        """See bzrlib.transport.Server.get_url."""
546
 
        return self._get_remote_url(self._home_dir)
547
 
 
548
 
    def get_bogus_url(self):
549
 
        """See bzrlib.transport.Server.get_bogus_url."""
550
 
        # this is chosen to try to prevent trouble with proxies, weird dns,
551
 
        # etc
552
 
        return self._url_protocol + '://127.0.0.1:1/'
553
 
 
554
 
 
555
 
class HttpServer_urllib(HttpServer):
556
 
    """Subclass of HttpServer that gives http+urllib urls.
557
 
 
558
 
    This is for use in testing: connections to this server will always go
559
 
    through urllib where possible.
560
 
    """
561
 
 
562
 
    # urls returned by this server should require the urllib client impl
563
 
    _url_protocol = 'http+urllib'
564
 
 
565
 
 
566
 
class HttpServer_PyCurl(HttpServer):
567
 
    """Subclass of HttpServer that gives http+pycurl urls.
568
 
 
569
 
    This is for use in testing: connections to this server will always go
570
 
    through pycurl where possible.
571
 
    """
572
 
 
573
 
    # We don't care about checking the pycurl availability as
574
 
    # this server will be required only when pycurl is present
575
 
 
576
 
    # urls returned by this server should require the pycurl client impl
577
 
    _url_protocol = 'http+pycurl'