~bzr-pqm/bzr/bzr.dev

« back to all changes in this revision

Viewing changes to bzrlib/tests/http_server.py

  • Committer: Martin Pool
  • Date: 2005-07-18 11:23:40 UTC
  • Revision ID: mbp@sourcefrog.net-20050718112340-4ffbfa3624bb6ef3
- weavebench should set random seed to make it reproducible

Show diffs side-by-side

added added

removed removed

Lines of Context:
1
 
# Copyright (C) 2006-2011 Canonical Ltd
2
 
#
3
 
# This program is free software; you can redistribute it and/or modify
4
 
# it under the terms of the GNU General Public License as published by
5
 
# the Free Software Foundation; either version 2 of the License, or
6
 
# (at your option) any later version.
7
 
#
8
 
# This program is distributed in the hope that it will be useful,
9
 
# but WITHOUT ANY WARRANTY; without even the implied warranty of
10
 
# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
11
 
# GNU General Public License for more details.
12
 
#
13
 
# You should have received a copy of the GNU General Public License
14
 
# along with this program; if not, write to the Free Software
15
 
# Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
16
 
 
17
 
import errno
18
 
import httplib
19
 
import os
20
 
import posixpath
21
 
import random
22
 
import re
23
 
import SimpleHTTPServer
24
 
import socket
25
 
import urlparse
26
 
 
27
 
from bzrlib import urlutils
28
 
from bzrlib.tests import test_server
29
 
 
30
 
 
31
 
class BadWebserverPath(ValueError):
32
 
    def __str__(self):
33
 
        return 'path %s is not in %s' % self.args
34
 
 
35
 
 
36
 
class TestingHTTPRequestHandler(SimpleHTTPServer.SimpleHTTPRequestHandler):
37
 
    """Handles one request.
38
 
 
39
 
    A TestingHTTPRequestHandler is instantiated for every request received by
40
 
    the associated server. Note that 'request' here is inherited from the base
41
 
    TCPServer class, for the HTTP server it is really a connection which itself
42
 
    will handle one or several HTTP requests.
43
 
    """
44
 
    # Default protocol version
45
 
    protocol_version = 'HTTP/1.1'
46
 
 
47
 
    # The Message-like class used to parse the request headers
48
 
    MessageClass = httplib.HTTPMessage
49
 
 
50
 
    def setup(self):
51
 
        SimpleHTTPServer.SimpleHTTPRequestHandler.setup(self)
52
 
        self._cwd = self.server._home_dir
53
 
        tcs = self.server.test_case_server
54
 
        if tcs.protocol_version is not None:
55
 
            # If the test server forced a protocol version, use it
56
 
            self.protocol_version = tcs.protocol_version
57
 
 
58
 
    def log_message(self, format, *args):
59
 
        tcs = self.server.test_case_server
60
 
        tcs.log('webserver - %s - - [%s] %s "%s" "%s"',
61
 
                self.address_string(),
62
 
                self.log_date_time_string(),
63
 
                format % args,
64
 
                self.headers.get('referer', '-'),
65
 
                self.headers.get('user-agent', '-'))
66
 
 
67
 
    def handle(self):
68
 
        SimpleHTTPServer.SimpleHTTPRequestHandler.handle(self)
69
 
        # Some client (pycurl, I'm looking at you) are more picky than others
70
 
        # and require that the socket itself is closed
71
 
        # (SocketServer.StreamRequestHandler only close the two associated
72
 
        # 'makefile' objects)
73
 
        self.connection.close()
74
 
 
75
 
    def handle_one_request(self):
76
 
        """Handle a single HTTP request.
77
 
 
78
 
        We catch all socket errors occurring when the client close the
79
 
        connection early to avoid polluting the test results.
80
 
        """
81
 
        try:
82
 
            self._handle_one_request()
83
 
        except socket.error, e:
84
 
            # Any socket error should close the connection, but some errors are
85
 
            # due to the client closing early and we don't want to pollute test
86
 
            # results, so we raise only the others.
87
 
            self.close_connection = 1
88
 
            if (len(e.args) == 0
89
 
                or e.args[0] not in (errno.EPIPE, errno.ECONNRESET,
90
 
                                     errno.ECONNABORTED, errno.EBADF)):
91
 
                raise
92
 
 
93
 
    error_content_type = 'text/plain'
94
 
    error_message_format = '''\
95
 
Error code: %(code)s.
96
 
Message: %(message)s.
97
 
'''
98
 
 
99
 
    def send_error(self, code, message=None):
100
 
        """Send and log an error reply.
101
 
 
102
 
        We redefine the python-provided version to be able to set a 
103
 
        ``Content-Length`` header as some http/1.1 clients complain otherwise
104
 
        (see bug #568421).
105
 
 
106
 
        :param code: The HTTP error code.
107
 
 
108
 
        :param message: The explanation of the error code, Defaults to a short
109
 
             entry.
110
 
        """
111
 
 
112
 
        if message is None:
113
 
            try:
114
 
                message = self.responses[code][0]
115
 
            except KeyError:
116
 
                message = '???'
117
 
        self.log_error("code %d, message %s", code, message)
118
 
        content = (self.error_message_format %
119
 
                   {'code': code, 'message': message})
120
 
        self.send_response(code, message)
121
 
        self.send_header("Content-Type", self.error_content_type)
122
 
        self.send_header("Content-Length", "%d" % len(content))
123
 
        self.send_header('Connection', 'close')
124
 
        self.end_headers()
125
 
        if self.command != 'HEAD' and code >= 200 and code not in (204, 304):
126
 
            self.wfile.write(content)
127
 
 
128
 
    def _handle_one_request(self):
129
 
        SimpleHTTPServer.SimpleHTTPRequestHandler.handle_one_request(self)
130
 
 
131
 
    _range_regexp = re.compile(r'^(?P<start>\d+)-(?P<end>\d+)?$')
132
 
    _tail_regexp = re.compile(r'^-(?P<tail>\d+)$')
133
 
 
134
 
    def _parse_ranges(self, ranges_header, file_size):
135
 
        """Parse the range header value and returns ranges.
136
 
 
137
 
        RFC2616 14.35 says that syntactically invalid range specifiers MUST be
138
 
        ignored. In that case, we return None instead of a range list.
139
 
 
140
 
        :param ranges_header: The 'Range' header value.
141
 
 
142
 
        :param file_size: The size of the requested file.
143
 
 
144
 
        :return: A list of (start, end) tuples or None if some invalid range
145
 
            specifier is encountered.
146
 
        """
147
 
        if not ranges_header.startswith('bytes='):
148
 
            # Syntactically invalid header
149
 
            return None
150
 
 
151
 
        tail = None
152
 
        ranges = []
153
 
        ranges_header = ranges_header[len('bytes='):]
154
 
        for range_str in ranges_header.split(','):
155
 
            range_match = self._range_regexp.match(range_str)
156
 
            if range_match is not None:
157
 
                start = int(range_match.group('start'))
158
 
                end_match = range_match.group('end')
159
 
                if end_match is None:
160
 
                    # RFC2616 says end is optional and default to file_size
161
 
                    end = file_size
162
 
                else:
163
 
                    end = int(end_match)
164
 
                if start > end:
165
 
                    # Syntactically invalid range
166
 
                    return None
167
 
                ranges.append((start, end))
168
 
            else:
169
 
                tail_match = self._tail_regexp.match(range_str)
170
 
                if tail_match is not None:
171
 
                    tail = int(tail_match.group('tail'))
172
 
                else:
173
 
                    # Syntactically invalid range
174
 
                    return None
175
 
        if tail is not None:
176
 
            # Normalize tail into ranges
177
 
            ranges.append((max(0, file_size - tail), file_size))
178
 
 
179
 
        checked_ranges = []
180
 
        for start, end in ranges:
181
 
            if start >= file_size:
182
 
                # RFC2616 14.35, ranges are invalid if start >= file_size
183
 
                return None
184
 
            # RFC2616 14.35, end values should be truncated
185
 
            # to file_size -1 if they exceed it
186
 
            end = min(end, file_size - 1)
187
 
            checked_ranges.append((start, end))
188
 
        return checked_ranges
189
 
 
190
 
    def _header_line_length(self, keyword, value):
191
 
        header_line = '%s: %s\r\n' % (keyword, value)
192
 
        return len(header_line)
193
 
 
194
 
    def send_head(self):
195
 
        """Overrides base implementation to work around a bug in python2.5."""
196
 
        path = self.translate_path(self.path)
197
 
        if os.path.isdir(path) and not self.path.endswith('/'):
198
 
            # redirect browser - doing basically what apache does when
199
 
            # DirectorySlash option is On which is quite common (braindead, but
200
 
            # common)
201
 
            self.send_response(301)
202
 
            self.send_header("Location", self.path + "/")
203
 
            # Indicates that the body is empty for HTTP/1.1 clients
204
 
            self.send_header('Content-Length', '0')
205
 
            self.end_headers()
206
 
            return None
207
 
 
208
 
        return SimpleHTTPServer.SimpleHTTPRequestHandler.send_head(self)
209
 
 
210
 
    def send_range_content(self, file, start, length):
211
 
        file.seek(start)
212
 
        self.wfile.write(file.read(length))
213
 
 
214
 
    def get_single_range(self, file, file_size, start, end):
215
 
        self.send_response(206)
216
 
        length = end - start + 1
217
 
        self.send_header('Accept-Ranges', 'bytes')
218
 
        self.send_header("Content-Length", "%d" % length)
219
 
 
220
 
        self.send_header("Content-Type", 'application/octet-stream')
221
 
        self.send_header("Content-Range", "bytes %d-%d/%d" % (start,
222
 
                                                              end,
223
 
                                                              file_size))
224
 
        self.end_headers()
225
 
        self.send_range_content(file, start, length)
226
 
 
227
 
    def get_multiple_ranges(self, file, file_size, ranges):
228
 
        self.send_response(206)
229
 
        self.send_header('Accept-Ranges', 'bytes')
230
 
        boundary = '%d' % random.randint(0,0x7FFFFFFF)
231
 
        self.send_header('Content-Type',
232
 
                         'multipart/byteranges; boundary=%s' % boundary)
233
 
        boundary_line = '--%s\r\n' % boundary
234
 
        # Calculate the Content-Length
235
 
        content_length = 0
236
 
        for (start, end) in ranges:
237
 
            content_length += len(boundary_line)
238
 
            content_length += self._header_line_length(
239
 
                'Content-type', 'application/octet-stream')
240
 
            content_length += self._header_line_length(
241
 
                'Content-Range', 'bytes %d-%d/%d' % (start, end, file_size))
242
 
            content_length += len('\r\n') # end headers
243
 
            content_length += end - start + 1
244
 
        content_length += len(boundary_line)
245
 
        self.send_header('Content-length', content_length)
246
 
        self.end_headers()
247
 
 
248
 
        # Send the multipart body
249
 
        for (start, end) in ranges:
250
 
            self.wfile.write(boundary_line)
251
 
            self.send_header('Content-type', 'application/octet-stream')
252
 
            self.send_header('Content-Range', 'bytes %d-%d/%d'
253
 
                             % (start, end, file_size))
254
 
            self.end_headers()
255
 
            self.send_range_content(file, start, end - start + 1)
256
 
        # Final boundary
257
 
        self.wfile.write(boundary_line)
258
 
 
259
 
    def do_GET(self):
260
 
        """Serve a GET request.
261
 
 
262
 
        Handles the Range header.
263
 
        """
264
 
        # Update statistics
265
 
        self.server.test_case_server.GET_request_nb += 1
266
 
 
267
 
        path = self.translate_path(self.path)
268
 
        ranges_header_value = self.headers.get('Range')
269
 
        if ranges_header_value is None or os.path.isdir(path):
270
 
            # Let the mother class handle most cases
271
 
            return SimpleHTTPServer.SimpleHTTPRequestHandler.do_GET(self)
272
 
 
273
 
        try:
274
 
            # Always read in binary mode. Opening files in text
275
 
            # mode may cause newline translations, making the
276
 
            # actual size of the content transmitted *less* than
277
 
            # the content-length!
278
 
            f = open(path, 'rb')
279
 
        except IOError:
280
 
            self.send_error(404, "File not found")
281
 
            return
282
 
 
283
 
        file_size = os.fstat(f.fileno())[6]
284
 
        ranges = self._parse_ranges(ranges_header_value, file_size)
285
 
        if not ranges:
286
 
            # RFC2616 14.16 and 14.35 says that when a server
287
 
            # encounters unsatisfiable range specifiers, it
288
 
            # SHOULD return a 416.
289
 
            f.close()
290
 
            # FIXME: We SHOULD send a Content-Range header too,
291
 
            # but the implementation of send_error does not
292
 
            # allows that. So far.
293
 
            self.send_error(416, "Requested range not satisfiable")
294
 
            return
295
 
 
296
 
        if len(ranges) == 1:
297
 
            (start, end) = ranges[0]
298
 
            self.get_single_range(f, file_size, start, end)
299
 
        else:
300
 
            self.get_multiple_ranges(f, file_size, ranges)
301
 
        f.close()
302
 
 
303
 
    def translate_path(self, path):
304
 
        """Translate a /-separated PATH to the local filename syntax.
305
 
 
306
 
        If the server requires it, proxy the path before the usual translation
307
 
        """
308
 
        if self.server.test_case_server.proxy_requests:
309
 
            # We need to act as a proxy and accept absolute urls,
310
 
            # which SimpleHTTPRequestHandler (parent) is not
311
 
            # ready for. So we just drop the protocol://host:port
312
 
            # part in front of the request-url (because we know
313
 
            # we would not forward the request to *another*
314
 
            # proxy).
315
 
 
316
 
            # So we do what SimpleHTTPRequestHandler.translate_path
317
 
            # do beginning with python 2.4.3: abandon query
318
 
            # parameters, scheme, host port, etc (which ensure we
319
 
            # provide the right behaviour on all python versions).
320
 
            path = urlparse.urlparse(path)[2]
321
 
            # And now, we can apply *our* trick to proxy files
322
 
            path += '-proxied'
323
 
 
324
 
        return self._translate_path(path)
325
 
 
326
 
    def _translate_path(self, path):
327
 
        """Translate a /-separated PATH to the local filename syntax.
328
 
 
329
 
        Note that we're translating http URLs here, not file URLs.
330
 
        The URL root location is the server's startup directory.
331
 
        Components that mean special things to the local file system
332
 
        (e.g. drive or directory names) are ignored.  (XXX They should
333
 
        probably be diagnosed.)
334
 
 
335
 
        Override from python standard library to stop it calling os.getcwd()
336
 
        """
337
 
        # abandon query parameters
338
 
        path = urlparse.urlparse(path)[2]
339
 
        path = posixpath.normpath(urlutils.unquote(path))
340
 
        path = path.decode('utf-8')
341
 
        words = path.split('/')
342
 
        words = filter(None, words)
343
 
        path = self._cwd
344
 
        for num, word in enumerate(words):
345
 
            if num == 0:
346
 
                drive, word = os.path.splitdrive(word)
347
 
            head, word = os.path.split(word)
348
 
            if word in (os.curdir, os.pardir): continue
349
 
            path = os.path.join(path, word)
350
 
        return path
351
 
 
352
 
 
353
 
class TestingHTTPServerMixin:
354
 
 
355
 
    def __init__(self, test_case_server):
356
 
        # test_case_server can be used to communicate between the
357
 
        # tests and the server (or the request handler and the
358
 
        # server), allowing dynamic behaviors to be defined from
359
 
        # the tests cases.
360
 
        self.test_case_server = test_case_server
361
 
        self._home_dir = test_case_server._home_dir
362
 
 
363
 
 
364
 
class TestingHTTPServer(test_server.TestingTCPServer, TestingHTTPServerMixin):
365
 
 
366
 
    def __init__(self, server_address, request_handler_class,
367
 
                 test_case_server):
368
 
        test_server.TestingTCPServer.__init__(self, server_address,
369
 
                                              request_handler_class)
370
 
        TestingHTTPServerMixin.__init__(self, test_case_server)
371
 
 
372
 
 
373
 
class TestingThreadingHTTPServer(test_server.TestingThreadingTCPServer,
374
 
                                 TestingHTTPServerMixin):
375
 
    """A threading HTTP test server for HTTP 1.1.
376
 
 
377
 
    Since tests can initiate several concurrent connections to the same http
378
 
    server, we need an independent connection for each of them. We achieve that
379
 
    by spawning a new thread for each connection.
380
 
    """
381
 
    def __init__(self, server_address, request_handler_class,
382
 
                 test_case_server):
383
 
        test_server.TestingThreadingTCPServer.__init__(self, server_address,
384
 
                                                       request_handler_class)
385
 
        TestingHTTPServerMixin.__init__(self, test_case_server)
386
 
 
387
 
 
388
 
class HttpServer(test_server.TestingTCPServerInAThread):
389
 
    """A test server for http transports.
390
 
 
391
 
    Subclasses can provide a specific request handler.
392
 
    """
393
 
 
394
 
    # The real servers depending on the protocol
395
 
    http_server_class = {'HTTP/1.0': TestingHTTPServer,
396
 
                         'HTTP/1.1': TestingThreadingHTTPServer,
397
 
                         }
398
 
 
399
 
    # Whether or not we proxy the requests (see
400
 
    # TestingHTTPRequestHandler.translate_path).
401
 
    proxy_requests = False
402
 
 
403
 
    # used to form the url that connects to this server
404
 
    _url_protocol = 'http'
405
 
 
406
 
    def __init__(self, request_handler=TestingHTTPRequestHandler,
407
 
                 protocol_version=None):
408
 
        """Constructor.
409
 
 
410
 
        :param request_handler: a class that will be instantiated to handle an
411
 
            http connection (one or several requests).
412
 
 
413
 
        :param protocol_version: if specified, will override the protocol
414
 
            version of the request handler.
415
 
        """
416
 
        # Depending on the protocol version, we will create the approriate
417
 
        # server
418
 
        if protocol_version is None:
419
 
            # Use the request handler one
420
 
            proto_vers = request_handler.protocol_version
421
 
        else:
422
 
            # Use our own, it will be used to override the request handler
423
 
            # one too.
424
 
            proto_vers = protocol_version
425
 
        # Get the appropriate server class for the required protocol
426
 
        serv_cls = self.http_server_class.get(proto_vers, None)
427
 
        if serv_cls is None:
428
 
            raise httplib.UnknownProtocol(proto_vers)
429
 
        self.host = 'localhost'
430
 
        self.port = 0
431
 
        super(HttpServer, self).__init__((self.host, self.port),
432
 
                                         serv_cls,
433
 
                                         request_handler)
434
 
        self.protocol_version = proto_vers
435
 
        # Allows tests to verify number of GET requests issued
436
 
        self.GET_request_nb = 0
437
 
        self._http_base_url = None
438
 
        self.logs = []
439
 
 
440
 
    def create_server(self):
441
 
        return self.server_class(
442
 
            (self.host, self.port), self.request_handler_class, self)
443
 
 
444
 
    def _get_remote_url(self, path):
445
 
        path_parts = path.split(os.path.sep)
446
 
        if os.path.isabs(path):
447
 
            if path_parts[:len(self._local_path_parts)] != \
448
 
                   self._local_path_parts:
449
 
                raise BadWebserverPath(path, self.test_dir)
450
 
            remote_path = '/'.join(path_parts[len(self._local_path_parts):])
451
 
        else:
452
 
            remote_path = '/'.join(path_parts)
453
 
 
454
 
        return self._http_base_url + remote_path
455
 
 
456
 
    def log(self, format, *args):
457
 
        """Capture Server log output."""
458
 
        self.logs.append(format % args)
459
 
 
460
 
    def start_server(self, backing_transport_server=None):
461
 
        """See bzrlib.transport.Server.start_server.
462
 
 
463
 
        :param backing_transport_server: The transport that requests over this
464
 
            protocol should be forwarded to. Note that this is currently not
465
 
            supported for HTTP.
466
 
        """
467
 
        # XXX: TODO: make the server back onto vfs_server rather than local
468
 
        # disk.
469
 
        if not (backing_transport_server is None
470
 
                or isinstance(backing_transport_server,
471
 
                              test_server.LocalURLServer)):
472
 
            raise AssertionError(
473
 
                "HTTPServer currently assumes local transport, got %s" %
474
 
                backing_transport_server)
475
 
        self._home_dir = os.getcwdu()
476
 
        self._local_path_parts = self._home_dir.split(os.path.sep)
477
 
        self.logs = []
478
 
 
479
 
        super(HttpServer, self).start_server()
480
 
        self._http_base_url = '%s://%s:%s/' % (
481
 
            self._url_protocol, self.host, self.port)
482
 
 
483
 
    def get_url(self):
484
 
        """See bzrlib.transport.Server.get_url."""
485
 
        return self._get_remote_url(self._home_dir)
486
 
 
487
 
    def get_bogus_url(self):
488
 
        """See bzrlib.transport.Server.get_bogus_url."""
489
 
        # this is chosen to try to prevent trouble with proxies, weird dns,
490
 
        # etc
491
 
        return self._url_protocol + '://127.0.0.1:1/'
492
 
 
493
 
 
494
 
class HttpServer_urllib(HttpServer):
495
 
    """Subclass of HttpServer that gives http+urllib urls.
496
 
 
497
 
    This is for use in testing: connections to this server will always go
498
 
    through urllib where possible.
499
 
    """
500
 
 
501
 
    # urls returned by this server should require the urllib client impl
502
 
    _url_protocol = 'http+urllib'
503
 
 
504
 
 
505
 
class HttpServer_PyCurl(HttpServer):
506
 
    """Subclass of HttpServer that gives http+pycurl urls.
507
 
 
508
 
    This is for use in testing: connections to this server will always go
509
 
    through pycurl where possible.
510
 
    """
511
 
 
512
 
    # We don't care about checking the pycurl availability as
513
 
    # this server will be required only when pycurl is present
514
 
 
515
 
    # urls returned by this server should require the pycurl client impl
516
 
    _url_protocol = 'http+pycurl'