~bzr-pqm/bzr/bzr.dev

« back to all changes in this revision

Viewing changes to bzrlib/tests/http_server.py

  • Committer: John Arbash Meinel
  • Date: 2011-05-11 11:35:28 UTC
  • mto: This revision was merged to the branch mainline in revision 5851.
  • Revision ID: john@arbash-meinel.com-20110511113528-qepibuwxicjrbb2h
Break compatibility with python <2.6.

This includes auditing the code for places where we were doing
explicit 'sys.version' checks and removing them as appropriate.

Show diffs side-by-side

added added

removed removed

Lines of Context:
 
1
# Copyright (C) 2006-2011 Canonical Ltd
 
2
#
 
3
# This program is free software; you can redistribute it and/or modify
 
4
# it under the terms of the GNU General Public License as published by
 
5
# the Free Software Foundation; either version 2 of the License, or
 
6
# (at your option) any later version.
 
7
#
 
8
# This program is distributed in the hope that it will be useful,
 
9
# but WITHOUT ANY WARRANTY; without even the implied warranty of
 
10
# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 
11
# GNU General Public License for more details.
 
12
#
 
13
# You should have received a copy of the GNU General Public License
 
14
# along with this program; if not, write to the Free Software
 
15
# Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
 
16
 
 
17
import errno
 
18
import httplib
 
19
import os
 
20
import posixpath
 
21
import random
 
22
import re
 
23
import SimpleHTTPServer
 
24
import socket
 
25
import urllib
 
26
import urlparse
 
27
 
 
28
from bzrlib.tests import test_server
 
29
 
 
30
 
 
31
class BadWebserverPath(ValueError):
 
32
    def __str__(self):
 
33
        return 'path %s is not in %s' % self.args
 
34
 
 
35
 
 
36
class TestingHTTPRequestHandler(SimpleHTTPServer.SimpleHTTPRequestHandler):
 
37
    """Handles one request.
 
38
 
 
39
    A TestingHTTPRequestHandler is instantiated for every request received by
 
40
    the associated server. Note that 'request' here is inherited from the base
 
41
    TCPServer class, for the HTTP server it is really a connection which itself
 
42
    will handle one or several HTTP requests.
 
43
    """
 
44
    # Default protocol version
 
45
    protocol_version = 'HTTP/1.1'
 
46
 
 
47
    # The Message-like class used to parse the request headers
 
48
    MessageClass = httplib.HTTPMessage
 
49
 
 
50
    def setup(self):
 
51
        SimpleHTTPServer.SimpleHTTPRequestHandler.setup(self)
 
52
        self._cwd = self.server._home_dir
 
53
        tcs = self.server.test_case_server
 
54
        if tcs.protocol_version is not None:
 
55
            # If the test server forced a protocol version, use it
 
56
            self.protocol_version = tcs.protocol_version
 
57
 
 
58
    def log_message(self, format, *args):
 
59
        tcs = self.server.test_case_server
 
60
        tcs.log('webserver - %s - - [%s] %s "%s" "%s"',
 
61
                self.address_string(),
 
62
                self.log_date_time_string(),
 
63
                format % args,
 
64
                self.headers.get('referer', '-'),
 
65
                self.headers.get('user-agent', '-'))
 
66
 
 
67
    def handle(self):
 
68
        SimpleHTTPServer.SimpleHTTPRequestHandler.handle(self)
 
69
        # Some client (pycurl, I'm looking at you) are more picky than others
 
70
        # and require that the socket itself is closed
 
71
        # (SocketServer.StreamRequestHandler only close the two associated
 
72
        # 'makefile' objects)
 
73
        self.connection.close()
 
74
 
 
75
    def handle_one_request(self):
 
76
        """Handle a single HTTP request.
 
77
 
 
78
        We catch all socket errors occurring when the client close the
 
79
        connection early to avoid polluting the test results.
 
80
        """
 
81
        try:
 
82
            self._handle_one_request()
 
83
        except socket.error, e:
 
84
            # Any socket error should close the connection, but some errors are
 
85
            # due to the client closing early and we don't want to pollute test
 
86
            # results, so we raise only the others.
 
87
            self.close_connection = 1
 
88
            if (len(e.args) == 0
 
89
                or e.args[0] not in (errno.EPIPE, errno.ECONNRESET,
 
90
                                     errno.ECONNABORTED, errno.EBADF)):
 
91
                raise
 
92
 
 
93
    error_content_type = 'text/plain'
 
94
    error_message_format = '''\
 
95
Error code: %(code)s.
 
96
Message: %(message)s.
 
97
'''
 
98
 
 
99
    def send_error(self, code, message=None):
 
100
        """Send and log an error reply.
 
101
 
 
102
        We redefine the python-provided version to be able to set a 
 
103
        ``Content-Length`` header as some http/1.1 clients complain otherwise
 
104
        (see bug #568421).
 
105
 
 
106
        :param code: The HTTP error code.
 
107
 
 
108
        :param message: The explanation of the error code, Defaults to a short
 
109
             entry.
 
110
        """
 
111
 
 
112
        if message is None:
 
113
            try:
 
114
                message = self.responses[code][0]
 
115
            except KeyError:
 
116
                message = '???'
 
117
        self.log_error("code %d, message %s", code, message)
 
118
        content = (self.error_message_format %
 
119
                   {'code': code, 'message': message})
 
120
        self.send_response(code, message)
 
121
        self.send_header("Content-Type", self.error_content_type)
 
122
        self.send_header("Content-Length", "%d" % len(content))
 
123
        self.send_header('Connection', 'close')
 
124
        self.end_headers()
 
125
        if self.command != 'HEAD' and code >= 200 and code not in (204, 304):
 
126
            self.wfile.write(content)
 
127
 
 
128
    def _handle_one_request(self):
 
129
        SimpleHTTPServer.SimpleHTTPRequestHandler.handle_one_request(self)
 
130
 
 
131
    _range_regexp = re.compile(r'^(?P<start>\d+)-(?P<end>\d+)?$')
 
132
    _tail_regexp = re.compile(r'^-(?P<tail>\d+)$')
 
133
 
 
134
    def _parse_ranges(self, ranges_header, file_size):
 
135
        """Parse the range header value and returns ranges.
 
136
 
 
137
        RFC2616 14.35 says that syntactically invalid range specifiers MUST be
 
138
        ignored. In that case, we return None instead of a range list.
 
139
 
 
140
        :param ranges_header: The 'Range' header value.
 
141
 
 
142
        :param file_size: The size of the requested file.
 
143
 
 
144
        :return: A list of (start, end) tuples or None if some invalid range
 
145
            specifier is encountered.
 
146
        """
 
147
        if not ranges_header.startswith('bytes='):
 
148
            # Syntactically invalid header
 
149
            return None
 
150
 
 
151
        tail = None
 
152
        ranges = []
 
153
        ranges_header = ranges_header[len('bytes='):]
 
154
        for range_str in ranges_header.split(','):
 
155
            range_match = self._range_regexp.match(range_str)
 
156
            if range_match is not None:
 
157
                start = int(range_match.group('start'))
 
158
                end_match = range_match.group('end')
 
159
                if end_match is None:
 
160
                    # RFC2616 says end is optional and default to file_size
 
161
                    end = file_size
 
162
                else:
 
163
                    end = int(end_match)
 
164
                if start > end:
 
165
                    # Syntactically invalid range
 
166
                    return None
 
167
                ranges.append((start, end))
 
168
            else:
 
169
                tail_match = self._tail_regexp.match(range_str)
 
170
                if tail_match is not None:
 
171
                    tail = int(tail_match.group('tail'))
 
172
                else:
 
173
                    # Syntactically invalid range
 
174
                    return None
 
175
        if tail is not None:
 
176
            # Normalize tail into ranges
 
177
            ranges.append((max(0, file_size - tail), file_size))
 
178
 
 
179
        checked_ranges = []
 
180
        for start, end in ranges:
 
181
            if start >= file_size:
 
182
                # RFC2616 14.35, ranges are invalid if start >= file_size
 
183
                return None
 
184
            # RFC2616 14.35, end values should be truncated
 
185
            # to file_size -1 if they exceed it
 
186
            end = min(end, file_size - 1)
 
187
            checked_ranges.append((start, end))
 
188
        return checked_ranges
 
189
 
 
190
    def _header_line_length(self, keyword, value):
 
191
        header_line = '%s: %s\r\n' % (keyword, value)
 
192
        return len(header_line)
 
193
 
 
194
    def send_head(self):
 
195
        """Overrides base implementation to work around a bug in python2.5."""
 
196
        path = self.translate_path(self.path)
 
197
        if os.path.isdir(path) and not self.path.endswith('/'):
 
198
            # redirect browser - doing basically what apache does when
 
199
            # DirectorySlash option is On which is quite common (braindead, but
 
200
            # common)
 
201
            self.send_response(301)
 
202
            self.send_header("Location", self.path + "/")
 
203
            # Indicates that the body is empty for HTTP/1.1 clients
 
204
            self.send_header('Content-Length', '0')
 
205
            self.end_headers()
 
206
            return None
 
207
 
 
208
        return SimpleHTTPServer.SimpleHTTPRequestHandler.send_head(self)
 
209
 
 
210
    def send_range_content(self, file, start, length):
 
211
        file.seek(start)
 
212
        self.wfile.write(file.read(length))
 
213
 
 
214
    def get_single_range(self, file, file_size, start, end):
 
215
        self.send_response(206)
 
216
        length = end - start + 1
 
217
        self.send_header('Accept-Ranges', 'bytes')
 
218
        self.send_header("Content-Length", "%d" % length)
 
219
 
 
220
        self.send_header("Content-Type", 'application/octet-stream')
 
221
        self.send_header("Content-Range", "bytes %d-%d/%d" % (start,
 
222
                                                              end,
 
223
                                                              file_size))
 
224
        self.end_headers()
 
225
        self.send_range_content(file, start, length)
 
226
 
 
227
    def get_multiple_ranges(self, file, file_size, ranges):
 
228
        self.send_response(206)
 
229
        self.send_header('Accept-Ranges', 'bytes')
 
230
        boundary = '%d' % random.randint(0,0x7FFFFFFF)
 
231
        self.send_header('Content-Type',
 
232
                         'multipart/byteranges; boundary=%s' % boundary)
 
233
        boundary_line = '--%s\r\n' % boundary
 
234
        # Calculate the Content-Length
 
235
        content_length = 0
 
236
        for (start, end) in ranges:
 
237
            content_length += len(boundary_line)
 
238
            content_length += self._header_line_length(
 
239
                'Content-type', 'application/octet-stream')
 
240
            content_length += self._header_line_length(
 
241
                'Content-Range', 'bytes %d-%d/%d' % (start, end, file_size))
 
242
            content_length += len('\r\n') # end headers
 
243
            content_length += end - start + 1
 
244
        content_length += len(boundary_line)
 
245
        self.send_header('Content-length', content_length)
 
246
        self.end_headers()
 
247
 
 
248
        # Send the multipart body
 
249
        for (start, end) in ranges:
 
250
            self.wfile.write(boundary_line)
 
251
            self.send_header('Content-type', 'application/octet-stream')
 
252
            self.send_header('Content-Range', 'bytes %d-%d/%d'
 
253
                             % (start, end, file_size))
 
254
            self.end_headers()
 
255
            self.send_range_content(file, start, end - start + 1)
 
256
        # Final boundary
 
257
        self.wfile.write(boundary_line)
 
258
 
 
259
    def do_GET(self):
 
260
        """Serve a GET request.
 
261
 
 
262
        Handles the Range header.
 
263
        """
 
264
        # Update statistics
 
265
        self.server.test_case_server.GET_request_nb += 1
 
266
 
 
267
        path = self.translate_path(self.path)
 
268
        ranges_header_value = self.headers.get('Range')
 
269
        if ranges_header_value is None or os.path.isdir(path):
 
270
            # Let the mother class handle most cases
 
271
            return SimpleHTTPServer.SimpleHTTPRequestHandler.do_GET(self)
 
272
 
 
273
        try:
 
274
            # Always read in binary mode. Opening files in text
 
275
            # mode may cause newline translations, making the
 
276
            # actual size of the content transmitted *less* than
 
277
            # the content-length!
 
278
            f = open(path, 'rb')
 
279
        except IOError:
 
280
            self.send_error(404, "File not found")
 
281
            return
 
282
 
 
283
        file_size = os.fstat(f.fileno())[6]
 
284
        ranges = self._parse_ranges(ranges_header_value, file_size)
 
285
        if not ranges:
 
286
            # RFC2616 14.16 and 14.35 says that when a server
 
287
            # encounters unsatisfiable range specifiers, it
 
288
            # SHOULD return a 416.
 
289
            f.close()
 
290
            # FIXME: We SHOULD send a Content-Range header too,
 
291
            # but the implementation of send_error does not
 
292
            # allows that. So far.
 
293
            self.send_error(416, "Requested range not satisfiable")
 
294
            return
 
295
 
 
296
        if len(ranges) == 1:
 
297
            (start, end) = ranges[0]
 
298
            self.get_single_range(f, file_size, start, end)
 
299
        else:
 
300
            self.get_multiple_ranges(f, file_size, ranges)
 
301
        f.close()
 
302
 
 
303
    def translate_path(self, path):
 
304
        """Translate a /-separated PATH to the local filename syntax.
 
305
 
 
306
        If the server requires it, proxy the path before the usual translation
 
307
        """
 
308
        if self.server.test_case_server.proxy_requests:
 
309
            # We need to act as a proxy and accept absolute urls,
 
310
            # which SimpleHTTPRequestHandler (parent) is not
 
311
            # ready for. So we just drop the protocol://host:port
 
312
            # part in front of the request-url (because we know
 
313
            # we would not forward the request to *another*
 
314
            # proxy).
 
315
 
 
316
            # So we do what SimpleHTTPRequestHandler.translate_path
 
317
            # do beginning with python 2.4.3: abandon query
 
318
            # parameters, scheme, host port, etc (which ensure we
 
319
            # provide the right behaviour on all python versions).
 
320
            path = urlparse.urlparse(path)[2]
 
321
            # And now, we can apply *our* trick to proxy files
 
322
            path += '-proxied'
 
323
 
 
324
        return self._translate_path(path)
 
325
 
 
326
    def _translate_path(self, path):
 
327
        """Translate a /-separated PATH to the local filename syntax.
 
328
 
 
329
        Note that we're translating http URLs here, not file URLs.
 
330
        The URL root location is the server's startup directory.
 
331
        Components that mean special things to the local file system
 
332
        (e.g. drive or directory names) are ignored.  (XXX They should
 
333
        probably be diagnosed.)
 
334
 
 
335
        Override from python standard library to stop it calling os.getcwd()
 
336
        """
 
337
        # abandon query parameters
 
338
        path = urlparse.urlparse(path)[2]
 
339
        path = posixpath.normpath(urllib.unquote(path))
 
340
        path = path.decode('utf-8')
 
341
        words = path.split('/')
 
342
        words = filter(None, words)
 
343
        path = self._cwd
 
344
        for num, word in enumerate(words):
 
345
            if num == 0:
 
346
                drive, word = os.path.splitdrive(word)
 
347
            head, word = os.path.split(word)
 
348
            if word in (os.curdir, os.pardir): continue
 
349
            path = os.path.join(path, word)
 
350
        return path
 
351
 
 
352
 
 
353
class TestingHTTPServerMixin:
 
354
 
 
355
    def __init__(self, test_case_server):
 
356
        # test_case_server can be used to communicate between the
 
357
        # tests and the server (or the request handler and the
 
358
        # server), allowing dynamic behaviors to be defined from
 
359
        # the tests cases.
 
360
        self.test_case_server = test_case_server
 
361
        self._home_dir = test_case_server._home_dir
 
362
 
 
363
 
 
364
class TestingHTTPServer(test_server.TestingTCPServer, TestingHTTPServerMixin):
 
365
 
 
366
    def __init__(self, server_address, request_handler_class,
 
367
                 test_case_server):
 
368
        test_server.TestingTCPServer.__init__(self, server_address,
 
369
                                              request_handler_class)
 
370
        TestingHTTPServerMixin.__init__(self, test_case_server)
 
371
 
 
372
 
 
373
class TestingThreadingHTTPServer(test_server.TestingThreadingTCPServer,
 
374
                                 TestingHTTPServerMixin):
 
375
    """A threading HTTP test server for HTTP 1.1.
 
376
 
 
377
    Since tests can initiate several concurrent connections to the same http
 
378
    server, we need an independent connection for each of them. We achieve that
 
379
    by spawning a new thread for each connection.
 
380
    """
 
381
    def __init__(self, server_address, request_handler_class,
 
382
                 test_case_server):
 
383
        test_server.TestingThreadingTCPServer.__init__(self, server_address,
 
384
                                                       request_handler_class)
 
385
        TestingHTTPServerMixin.__init__(self, test_case_server)
 
386
 
 
387
 
 
388
class HttpServer(test_server.TestingTCPServerInAThread):
 
389
    """A test server for http transports.
 
390
 
 
391
    Subclasses can provide a specific request handler.
 
392
    """
 
393
 
 
394
    # The real servers depending on the protocol
 
395
    http_server_class = {'HTTP/1.0': TestingHTTPServer,
 
396
                         'HTTP/1.1': TestingThreadingHTTPServer,
 
397
                         }
 
398
 
 
399
    # Whether or not we proxy the requests (see
 
400
    # TestingHTTPRequestHandler.translate_path).
 
401
    proxy_requests = False
 
402
 
 
403
    # used to form the url that connects to this server
 
404
    _url_protocol = 'http'
 
405
 
 
406
    def __init__(self, request_handler=TestingHTTPRequestHandler,
 
407
                 protocol_version=None):
 
408
        """Constructor.
 
409
 
 
410
        :param request_handler: a class that will be instantiated to handle an
 
411
            http connection (one or several requests).
 
412
 
 
413
        :param protocol_version: if specified, will override the protocol
 
414
            version of the request handler.
 
415
        """
 
416
        # Depending on the protocol version, we will create the approriate
 
417
        # server
 
418
        if protocol_version is None:
 
419
            # Use the request handler one
 
420
            proto_vers = request_handler.protocol_version
 
421
        else:
 
422
            # Use our own, it will be used to override the request handler
 
423
            # one too.
 
424
            proto_vers = protocol_version
 
425
        # Get the appropriate server class for the required protocol
 
426
        serv_cls = self.http_server_class.get(proto_vers, None)
 
427
        if serv_cls is None:
 
428
            raise httplib.UnknownProtocol(proto_vers)
 
429
        self.host = 'localhost'
 
430
        self.port = 0
 
431
        super(HttpServer, self).__init__((self.host, self.port),
 
432
                                         serv_cls,
 
433
                                         request_handler)
 
434
        self.protocol_version = proto_vers
 
435
        # Allows tests to verify number of GET requests issued
 
436
        self.GET_request_nb = 0
 
437
        self._http_base_url = None
 
438
        self.logs = []
 
439
 
 
440
    def create_server(self):
 
441
        return self.server_class(
 
442
            (self.host, self.port), self.request_handler_class, self)
 
443
 
 
444
    def _get_remote_url(self, path):
 
445
        path_parts = path.split(os.path.sep)
 
446
        if os.path.isabs(path):
 
447
            if path_parts[:len(self._local_path_parts)] != \
 
448
                   self._local_path_parts:
 
449
                raise BadWebserverPath(path, self.test_dir)
 
450
            remote_path = '/'.join(path_parts[len(self._local_path_parts):])
 
451
        else:
 
452
            remote_path = '/'.join(path_parts)
 
453
 
 
454
        return self._http_base_url + remote_path
 
455
 
 
456
    def log(self, format, *args):
 
457
        """Capture Server log output."""
 
458
        self.logs.append(format % args)
 
459
 
 
460
    def start_server(self, backing_transport_server=None):
 
461
        """See bzrlib.transport.Server.start_server.
 
462
 
 
463
        :param backing_transport_server: The transport that requests over this
 
464
            protocol should be forwarded to. Note that this is currently not
 
465
            supported for HTTP.
 
466
        """
 
467
        # XXX: TODO: make the server back onto vfs_server rather than local
 
468
        # disk.
 
469
        if not (backing_transport_server is None
 
470
                or isinstance(backing_transport_server,
 
471
                              test_server.LocalURLServer)):
 
472
            raise AssertionError(
 
473
                "HTTPServer currently assumes local transport, got %s" %
 
474
                backing_transport_server)
 
475
        self._home_dir = os.getcwdu()
 
476
        self._local_path_parts = self._home_dir.split(os.path.sep)
 
477
        self.logs = []
 
478
 
 
479
        super(HttpServer, self).start_server()
 
480
        self._http_base_url = '%s://%s:%s/' % (
 
481
            self._url_protocol, self.host, self.port)
 
482
 
 
483
    def get_url(self):
 
484
        """See bzrlib.transport.Server.get_url."""
 
485
        return self._get_remote_url(self._home_dir)
 
486
 
 
487
    def get_bogus_url(self):
 
488
        """See bzrlib.transport.Server.get_bogus_url."""
 
489
        # this is chosen to try to prevent trouble with proxies, weird dns,
 
490
        # etc
 
491
        return self._url_protocol + '://127.0.0.1:1/'
 
492
 
 
493
 
 
494
class HttpServer_urllib(HttpServer):
 
495
    """Subclass of HttpServer that gives http+urllib urls.
 
496
 
 
497
    This is for use in testing: connections to this server will always go
 
498
    through urllib where possible.
 
499
    """
 
500
 
 
501
    # urls returned by this server should require the urllib client impl
 
502
    _url_protocol = 'http+urllib'
 
503
 
 
504
 
 
505
class HttpServer_PyCurl(HttpServer):
 
506
    """Subclass of HttpServer that gives http+pycurl urls.
 
507
 
 
508
    This is for use in testing: connections to this server will always go
 
509
    through pycurl where possible.
 
510
    """
 
511
 
 
512
    # We don't care about checking the pycurl availability as
 
513
    # this server will be required only when pycurl is present
 
514
 
 
515
    # urls returned by this server should require the pycurl client impl
 
516
    _url_protocol = 'http+pycurl'