~bzr-pqm/bzr/bzr.dev

« back to all changes in this revision

Viewing changes to bzrlib/transport/http.py

doc

Show diffs side-by-side

added added

removed removed

Lines of Context:
1
 
# Copyright (C) 2005-2010 Canonical Ltd
2
 
#
 
1
# Copyright (C) 2005 Canonical Ltd
 
2
 
3
3
# This program is free software; you can redistribute it and/or modify
4
4
# it under the terms of the GNU General Public License as published by
5
5
# the Free Software Foundation; either version 2 of the License, or
6
6
# (at your option) any later version.
7
 
#
 
7
 
8
8
# This program is distributed in the hope that it will be useful,
9
9
# but WITHOUT ANY WARRANTY; without even the implied warranty of
10
10
# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
11
11
# GNU General Public License for more details.
12
 
#
 
12
 
13
13
# You should have received a copy of the GNU General Public License
14
14
# along with this program; if not, write to the Free Software
15
 
# Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
16
 
 
17
 
"""Base implementation of Transport over http.
18
 
 
19
 
There are separate implementation modules for each http client implementation.
 
15
# Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
 
16
"""Implementation of Transport over http.
20
17
"""
21
18
 
 
19
from bzrlib.transport import Transport, register_transport
 
20
from bzrlib.errors import (TransportNotPossible, NoSuchFile, 
 
21
                           NonRelativePath, TransportError, ConnectionError)
 
22
import os, errno
22
23
from cStringIO import StringIO
23
 
import mimetools
24
 
import re
 
24
import urllib2
25
25
import urlparse
26
 
import urllib
27
 
import sys
28
 
import weakref
29
26
 
30
 
from bzrlib import (
31
 
    debug,
32
 
    errors,
33
 
    ui,
34
 
    urlutils,
35
 
    )
36
 
from bzrlib.smart import medium
37
 
from bzrlib.symbol_versioning import (
38
 
        deprecated_method,
39
 
        )
 
27
from bzrlib.errors import BzrError, BzrCheckError
 
28
from bzrlib.branch import Branch
40
29
from bzrlib.trace import mutter
41
 
from bzrlib.transport import (
42
 
    ConnectedTransport,
43
 
    _CoalescedOffset,
44
 
    get_transport,
45
 
    Transport,
46
 
    )
47
 
 
48
 
# TODO: This is not used anymore by HttpTransport_urllib
49
 
# (extracting the auth info and prompting the user for a password
50
 
# have been split), only the tests still use it. It should be
51
 
# deleted and the tests rewritten ASAP to stay in sync.
52
 
def extract_auth(url, password_manager):
53
 
    """Extract auth parameters from am HTTP/HTTPS url and add them to the given
54
 
    password manager.  Return the url, minus those auth parameters (which
55
 
    confuse urllib2).
56
 
    """
57
 
    if not re.match(r'^(https?)(\+\w+)?://', url):
58
 
        raise ValueError(
59
 
            'invalid absolute url %r' % (url,))
60
 
    scheme, netloc, path, query, fragment = urlparse.urlsplit(url)
61
 
 
62
 
    if '@' in netloc:
63
 
        auth, netloc = netloc.split('@', 1)
64
 
        if ':' in auth:
65
 
            username, password = auth.split(':', 1)
66
 
        else:
67
 
            username, password = auth, None
68
 
        if ':' in netloc:
69
 
            host = netloc.split(':', 1)[0]
70
 
        else:
71
 
            host = netloc
72
 
        username = urllib.unquote(username)
73
 
        if password is not None:
74
 
            password = urllib.unquote(password)
75
 
        else:
76
 
            password = ui.ui_factory.get_password(
77
 
                prompt='HTTP %(user)s@%(host)s password',
78
 
                user=username, host=host)
79
 
        password_manager.add_password(None, host, username, password)
80
 
    url = urlparse.urlunsplit((scheme, netloc, path, query, fragment))
81
 
    return url
82
 
 
83
 
 
84
 
class HttpTransportBase(ConnectedTransport):
85
 
    """Base class for http implementations.
86
 
 
87
 
    Does URL parsing, etc, but not any network IO.
88
 
 
89
 
    The protocol can be given as e.g. http+urllib://host/ to use a particular
90
 
    implementation.
91
 
    """
92
 
 
93
 
    # _unqualified_scheme: "http" or "https"
94
 
    # _scheme: may have "+pycurl", etc
95
 
 
96
 
    def __init__(self, base, _impl_name, _from_transport=None):
 
30
 
 
31
 
 
32
def get_url(url):
 
33
    import urllib2
 
34
    mutter("get_url %s", url)
 
35
    url_f = urllib2.urlopen(url)
 
36
    return url_f
 
37
 
 
38
class HttpTransportError(TransportError):
 
39
    pass
 
40
 
 
41
class HttpTransport(Transport):
 
42
    """This is the transport agent for http:// access.
 
43
    
 
44
    TODO: Implement pipelined versions of all of the *_multi() functions.
 
45
    """
 
46
 
 
47
    def __init__(self, base):
97
48
        """Set the base path where files will be stored."""
98
 
        proto_match = re.match(r'^(https?)(\+\w+)?://', base)
99
 
        if not proto_match:
100
 
            raise AssertionError("not a http url: %r" % base)
101
 
        self._unqualified_scheme = proto_match.group(1)
102
 
        self._impl_name = _impl_name
103
 
        super(HttpTransportBase, self).__init__(base,
104
 
                                                _from_transport=_from_transport)
105
 
        self._medium = None
106
 
        # range hint is handled dynamically throughout the life
107
 
        # of the transport object. We start by trying multi-range
108
 
        # requests and if the server returns bogus results, we
109
 
        # retry with single range requests and, finally, we
110
 
        # forget about range if the server really can't
111
 
        # understand. Once acquired, this piece of info is
112
 
        # propagated to clones.
113
 
        if _from_transport is not None:
114
 
            self._range_hint = _from_transport._range_hint
115
 
        else:
116
 
            self._range_hint = 'multi'
 
49
        assert base.startswith('http://') or base.startswith('https://')
 
50
        super(HttpTransport, self).__init__(base)
 
51
        # In the future we might actually connect to the remote host
 
52
        # rather than using get_url
 
53
        # self._connection = None
 
54
        (self._proto, self._host,
 
55
            self._path, self._parameters,
 
56
            self._query, self._fragment) = urlparse.urlparse(self.base)
 
57
 
 
58
    def should_cache(self):
 
59
        """Return True if the data pulled across should be cached locally.
 
60
        """
 
61
        return True
 
62
 
 
63
    def clone(self, offset=None):
 
64
        """Return a new HttpTransport with root at self.base + offset
 
65
        For now HttpTransport does not actually connect, so just return
 
66
        a new HttpTransport object.
 
67
        """
 
68
        if offset is None:
 
69
            return HttpTransport(self.base)
 
70
        else:
 
71
            return HttpTransport(self.abspath(offset))
 
72
 
 
73
    def abspath(self, relpath):
 
74
        """Return the full url to the given relative path.
 
75
        This can be supplied with a string or a list
 
76
        """
 
77
        assert isinstance(relpath, basestring)
 
78
        if isinstance(relpath, basestring):
 
79
            relpath_parts = relpath.split('/')
 
80
        else:
 
81
            # TODO: Don't call this with an array - no magic interfaces
 
82
            relpath_parts = relpath[:]
 
83
        if len(relpath_parts) > 1:
 
84
            if relpath_parts[0] == '':
 
85
                raise ValueError("path %r within branch %r seems to be absolute"
 
86
                                 % (relpath, self._path))
 
87
            if relpath_parts[-1] == '':
 
88
                raise ValueError("path %r within branch %r seems to be a directory"
 
89
                                 % (relpath, self._path))
 
90
        basepath = self._path.split('/')
 
91
        if len(basepath) > 0 and basepath[-1] == '':
 
92
            basepath = basepath[:-1]
 
93
        for p in relpath_parts:
 
94
            if p == '..':
 
95
                if len(basepath) == 0:
 
96
                    # In most filesystems, a request for the parent
 
97
                    # of root, just returns root.
 
98
                    continue
 
99
                basepath.pop()
 
100
            elif p == '.' or p == '':
 
101
                continue # No-op
 
102
            else:
 
103
                basepath.append(p)
 
104
        # Possibly, we could use urlparse.urljoin() here, but
 
105
        # I'm concerned about when it chooses to strip the last
 
106
        # portion of the path, and when it doesn't.
 
107
        path = '/'.join(basepath)
 
108
        return urlparse.urlunparse((self._proto,
 
109
                self._host, path, '', '', ''))
117
110
 
118
111
    def has(self, relpath):
119
 
        raise NotImplementedError("has() is abstract on %r" % self)
120
 
 
121
 
    def get(self, relpath):
 
112
        """Does the target location exist?
 
113
 
 
114
        TODO: HttpTransport.has() should use a HEAD request,
 
115
        not a full GET request.
 
116
 
 
117
        TODO: This should be changed so that we don't use
 
118
        urllib2 and get an exception, the code path would be
 
119
        cleaner if we just do an http HEAD request, and parse
 
120
        the return code.
 
121
        """
 
122
        try:
 
123
            f = get_url(self.abspath(relpath))
 
124
            # Without the read and then close()
 
125
            # we tend to have busy sockets.
 
126
            f.read()
 
127
            f.close()
 
128
            return True
 
129
        except urllib2.URLError, e:
 
130
            if e.code == 404:
 
131
                return False
 
132
            raise
 
133
        except IOError, e:
 
134
            if e.errno == errno.ENOENT:
 
135
                return False
 
136
            raise HttpTransportError(orig_error=e)
 
137
 
 
138
    def get(self, relpath, decode=False):
122
139
        """Get the file at the given relative path.
123
140
 
124
141
        :param relpath: The relative path to the file
125
142
        """
126
 
        code, response_file = self._get(relpath, None)
127
 
        # FIXME: some callers want an iterable... One step forward, three steps
128
 
        # backwards :-/ And not only an iterable, but an iterable that can be
129
 
        # seeked backwards, so we will never be able to do that.  One such
130
 
        # known client is bzrlib.bundle.serializer.v4.get_bundle_reader. At the
131
 
        # time of this writing it's even the only known client -- vila20071203
132
 
        return StringIO(response_file.read())
133
 
 
134
 
    def _get(self, relpath, ranges, tail_amount=0):
135
 
        """Get a file, or part of a file.
136
 
 
137
 
        :param relpath: Path relative to transport base URL
138
 
        :param ranges: None to get the whole file;
139
 
            or  a list of _CoalescedOffset to fetch parts of a file.
140
 
        :param tail_amount: The amount to get from the end of the file.
141
 
 
142
 
        :returns: (http_code, result_file)
143
 
        """
144
 
        raise NotImplementedError(self._get)
145
 
 
146
 
    def _remote_path(self, relpath):
147
 
        """See ConnectedTransport._remote_path.
148
 
 
149
 
        user and passwords are not embedded in the path provided to the server.
150
 
        """
151
 
        relative = urlutils.unescape(relpath).encode('utf-8')
152
 
        path = self._combine_paths(self._path, relative)
153
 
        return self._unsplit_url(self._unqualified_scheme,
154
 
                                 None, None, self._host, self._port, path)
155
 
 
156
 
    def _create_auth(self):
157
 
        """Returns a dict containing the credentials provided at build time."""
158
 
        auth = dict(host=self._host, port=self._port,
159
 
                    user=self._user, password=self._password,
160
 
                    protocol=self._unqualified_scheme,
161
 
                    path=self._path)
162
 
        return auth
163
 
 
164
 
    def get_smart_medium(self):
165
 
        """See Transport.get_smart_medium."""
166
 
        if self._medium is None:
167
 
            # Since medium holds some state (smart server probing at least), we
168
 
            # need to keep it around. Note that this is needed because medium
169
 
            # has the same 'base' attribute as the transport so it can't be
170
 
            # shared between transports having different bases.
171
 
            self._medium = SmartClientHTTPMedium(self)
172
 
        return self._medium
173
 
 
174
 
    def _degrade_range_hint(self, relpath, ranges, exc_info):
175
 
        if self._range_hint == 'multi':
176
 
            self._range_hint = 'single'
177
 
            mutter('Retry "%s" with single range request' % relpath)
178
 
        elif self._range_hint == 'single':
179
 
            self._range_hint = None
180
 
            mutter('Retry "%s" without ranges' % relpath)
181
 
        else:
182
 
            # We tried all the tricks, but nothing worked. We re-raise the
183
 
            # original exception; the 'mutter' calls above will indicate that
184
 
            # further tries were unsuccessful
185
 
            raise exc_info[0], exc_info[1], exc_info[2]
186
 
 
187
 
    # _coalesce_offsets is a helper for readv, it try to combine ranges without
188
 
    # degrading readv performances. _bytes_to_read_before_seek is the value
189
 
    # used for the limit parameter and has been tuned for other transports. For
190
 
    # HTTP, the name is inappropriate but the parameter is still useful and
191
 
    # helps reduce the number of chunks in the response. The overhead for a
192
 
    # chunk (headers, length, footer around the data itself is variable but
193
 
    # around 50 bytes. We use 128 to reduce the range specifiers that appear in
194
 
    # the header, some servers (notably Apache) enforce a maximum length for a
195
 
    # header and issue a '400: Bad request' error when too much ranges are
196
 
    # specified.
197
 
    _bytes_to_read_before_seek = 128
198
 
    # No limit on the offset number that get combined into one, we are trying
199
 
    # to avoid downloading the whole file.
200
 
    _max_readv_combine = 0
201
 
    # By default Apache has a limit of ~400 ranges before replying with a 400
202
 
    # Bad Request. So we go underneath that amount to be safe.
203
 
    _max_get_ranges = 200
204
 
    # We impose no limit on the range size. But see _pycurl.py for a different
205
 
    # use.
206
 
    _get_max_size = 0
207
 
 
208
 
    def _readv(self, relpath, offsets):
209
 
        """Get parts of the file at the given relative path.
210
 
 
211
 
        :param offsets: A list of (offset, size) tuples.
212
 
        :param return: A list or generator of (offset, data) tuples
213
 
        """
214
 
        # offsets may be a generator, we will iterate it several times, so
215
 
        # build a list
216
 
        offsets = list(offsets)
217
 
 
218
 
        try_again = True
219
 
        retried_offset = None
220
 
        while try_again:
221
 
            try_again = False
222
 
 
223
 
            # Coalesce the offsets to minimize the GET requests issued
224
 
            sorted_offsets = sorted(offsets)
225
 
            coalesced = self._coalesce_offsets(
226
 
                sorted_offsets, limit=self._max_readv_combine,
227
 
                fudge_factor=self._bytes_to_read_before_seek,
228
 
                max_size=self._get_max_size)
229
 
 
230
 
            # Turn it into a list, we will iterate it several times
231
 
            coalesced = list(coalesced)
232
 
            if 'http' in debug.debug_flags:
233
 
                mutter('http readv of %s  offsets => %s collapsed %s',
234
 
                    relpath, len(offsets), len(coalesced))
235
 
 
236
 
            # Cache the data read, but only until it's been used
237
 
            data_map = {}
238
 
            # We will iterate on the data received from the GET requests and
239
 
            # serve the corresponding offsets respecting the initial order. We
240
 
            # need an offset iterator for that.
241
 
            iter_offsets = iter(offsets)
242
 
            cur_offset_and_size = iter_offsets.next()
243
 
 
244
 
            try:
245
 
                for cur_coal, rfile in self._coalesce_readv(relpath, coalesced):
246
 
                    # Split the received chunk
247
 
                    for offset, size in cur_coal.ranges:
248
 
                        start = cur_coal.start + offset
249
 
                        rfile.seek(start, 0)
250
 
                        data = rfile.read(size)
251
 
                        data_len = len(data)
252
 
                        if data_len != size:
253
 
                            raise errors.ShortReadvError(relpath, start, size,
254
 
                                                         actual=data_len)
255
 
                        if (start, size) == cur_offset_and_size:
256
 
                            # The offset requested are sorted as the coalesced
257
 
                            # ones, no need to cache. Win !
258
 
                            yield cur_offset_and_size[0], data
259
 
                            cur_offset_and_size = iter_offsets.next()
260
 
                        else:
261
 
                            # Different sorting. We need to cache.
262
 
                            data_map[(start, size)] = data
263
 
 
264
 
                    # Yield everything we can
265
 
                    while cur_offset_and_size in data_map:
266
 
                        # Clean the cached data since we use it
267
 
                        # XXX: will break if offsets contains duplicates --
268
 
                        # vila20071129
269
 
                        this_data = data_map.pop(cur_offset_and_size)
270
 
                        yield cur_offset_and_size[0], this_data
271
 
                        cur_offset_and_size = iter_offsets.next()
272
 
 
273
 
            except (errors.ShortReadvError, errors.InvalidRange,
274
 
                    errors.InvalidHttpRange), e:
275
 
                mutter('Exception %r: %s during http._readv',e, e)
276
 
                if (not isinstance(e, errors.ShortReadvError)
277
 
                    or retried_offset == cur_offset_and_size):
278
 
                    # We don't degrade the range hint for ShortReadvError since
279
 
                    # they do not indicate a problem with the server ability to
280
 
                    # handle ranges. Except when we fail to get back a required
281
 
                    # offset twice in a row. In that case, falling back to
282
 
                    # single range or whole file should help or end up in a
283
 
                    # fatal exception.
284
 
                    self._degrade_range_hint(relpath, coalesced, sys.exc_info())
285
 
                # Some offsets may have been already processed, so we retry
286
 
                # only the unsuccessful ones.
287
 
                offsets = [cur_offset_and_size] + [o for o in iter_offsets]
288
 
                retried_offset = cur_offset_and_size
289
 
                try_again = True
290
 
 
291
 
    def _coalesce_readv(self, relpath, coalesced):
292
 
        """Issue several GET requests to satisfy the coalesced offsets"""
293
 
 
294
 
        def get_and_yield(relpath, coalesced):
295
 
            if coalesced:
296
 
                # Note that the _get below may raise
297
 
                # errors.InvalidHttpRange. It's the caller's responsibility to
298
 
                # decide how to retry since it may provide different coalesced
299
 
                # offsets.
300
 
                code, rfile = self._get(relpath, coalesced)
301
 
                for coal in coalesced:
302
 
                    yield coal, rfile
303
 
 
304
 
        if self._range_hint is None:
305
 
            # Download whole file
306
 
            for c, rfile in get_and_yield(relpath, coalesced):
307
 
                yield c, rfile
308
 
        else:
309
 
            total = len(coalesced)
310
 
            if self._range_hint == 'multi':
311
 
                max_ranges = self._max_get_ranges
312
 
            elif self._range_hint == 'single':
313
 
                max_ranges = total
314
 
            else:
315
 
                raise AssertionError("Unknown _range_hint %r"
316
 
                                     % (self._range_hint,))
317
 
            # TODO: Some web servers may ignore the range requests and return
318
 
            # the whole file, we may want to detect that and avoid further
319
 
            # requests.
320
 
            # Hint: test_readv_multiple_get_requests will fail once we do that
321
 
            cumul = 0
322
 
            ranges = []
323
 
            for coal in coalesced:
324
 
                if ((self._get_max_size > 0
325
 
                     and cumul + coal.length > self._get_max_size)
326
 
                    or len(ranges) >= max_ranges):
327
 
                    # Get that much and yield
328
 
                    for c, rfile in get_and_yield(relpath, ranges):
329
 
                        yield c, rfile
330
 
                    # Restart with the current offset
331
 
                    ranges = [coal]
332
 
                    cumul = coal.length
333
 
                else:
334
 
                    ranges.append(coal)
335
 
                    cumul += coal.length
336
 
            # Get the rest and yield
337
 
            for c, rfile in get_and_yield(relpath, ranges):
338
 
                yield c, rfile
339
 
 
340
 
    def recommended_page_size(self):
341
 
        """See Transport.recommended_page_size().
342
 
 
343
 
        For HTTP we suggest a large page size to reduce the overhead
344
 
        introduced by latency.
345
 
        """
346
 
        return 64 * 1024
347
 
 
348
 
    def _post(self, body_bytes):
349
 
        """POST body_bytes to .bzr/smart on this transport.
350
 
 
351
 
        :returns: (response code, response body file-like object).
352
 
        """
353
 
        # TODO: Requiring all the body_bytes to be available at the beginning of
354
 
        # the POST may require large client buffers.  It would be nice to have
355
 
        # an interface that allows streaming via POST when possible (and
356
 
        # degrades to a local buffer when not).
357
 
        raise NotImplementedError(self._post)
358
 
 
359
 
    def put_file(self, relpath, f, mode=None):
360
 
        """Copy the file-like object into the location.
 
143
        try:
 
144
            return get_url(self.abspath(relpath))
 
145
        except urllib2.HTTPError, e:
 
146
            if e.code == 404:
 
147
                raise NoSuchFile(msg = "Error retrieving %s: %s" 
 
148
                                 % (self.abspath(relpath), str(e)),
 
149
                                 orig_error=e)
 
150
            raise
 
151
        except (BzrError, IOError), e:
 
152
            raise ConnectionError(msg = "Error retrieving %s: %s" 
 
153
                             % (self.abspath(relpath), str(e)),
 
154
                             orig_error=e)
 
155
 
 
156
    def put(self, relpath, f):
 
157
        """Copy the file-like or string object into the location.
361
158
 
362
159
        :param relpath: Location to put the contents, relative to base.
363
 
        :param f:       File-like object.
 
160
        :param f:       File-like or string object.
364
161
        """
365
 
        raise errors.TransportNotPossible('http PUT not supported')
 
162
        raise TransportNotPossible('http PUT not supported')
366
163
 
367
 
    def mkdir(self, relpath, mode=None):
 
164
    def mkdir(self, relpath):
368
165
        """Create a directory at the given path."""
369
 
        raise errors.TransportNotPossible('http does not support mkdir()')
370
 
 
371
 
    def rmdir(self, relpath):
372
 
        """See Transport.rmdir."""
373
 
        raise errors.TransportNotPossible('http does not support rmdir()')
374
 
 
375
 
    def append_file(self, relpath, f, mode=None):
 
166
        raise TransportNotPossible('http does not support mkdir()')
 
167
 
 
168
    def append(self, relpath, f):
376
169
        """Append the text in the file-like object into the final
377
170
        location.
378
171
        """
379
 
        raise errors.TransportNotPossible('http does not support append()')
 
172
        raise TransportNotPossible('http does not support append()')
380
173
 
381
174
    def copy(self, rel_from, rel_to):
382
175
        """Copy the item at rel_from to the location at rel_to"""
383
 
        raise errors.TransportNotPossible('http does not support copy()')
 
176
        raise TransportNotPossible('http does not support copy()')
384
177
 
385
 
    def copy_to(self, relpaths, other, mode=None, pb=None):
 
178
    def copy_to(self, relpaths, other, pb=None):
386
179
        """Copy a set of entries from self into another Transport.
387
180
 
388
181
        :param relpaths: A list/generator of entries to be copied.
393
186
        # At this point HttpTransport might be able to check and see if
394
187
        # the remote location is the same, and rather than download, and
395
188
        # then upload, it could just issue a remote copy_this command.
396
 
        if isinstance(other, HttpTransportBase):
397
 
            raise errors.TransportNotPossible(
398
 
                'http cannot be the target of copy_to()')
 
189
        if isinstance(other, HttpTransport):
 
190
            raise TransportNotPossible('http cannot be the target of copy_to()')
399
191
        else:
400
 
            return super(HttpTransportBase, self).\
401
 
                    copy_to(relpaths, other, mode=mode, pb=pb)
 
192
            return super(HttpTransport, self).copy_to(relpaths, other, pb=pb)
402
193
 
403
194
    def move(self, rel_from, rel_to):
404
195
        """Move the item at rel_from to the location at rel_to"""
405
 
        raise errors.TransportNotPossible('http does not support move()')
 
196
        raise TransportNotPossible('http does not support move()')
406
197
 
407
198
    def delete(self, relpath):
408
199
        """Delete the item at relpath"""
409
 
        raise errors.TransportNotPossible('http does not support delete()')
410
 
 
411
 
    def external_url(self):
412
 
        """See bzrlib.transport.Transport.external_url."""
413
 
        # HTTP URL's are externally usable as long as they don't mention their
414
 
        # implementation qualifier
415
 
        return self._unsplit_url(self._unqualified_scheme,
416
 
                                 self._user, self._password,
417
 
                                 self._host, self._port,
418
 
                                 self._path)
419
 
 
420
 
    def is_readonly(self):
421
 
        """See Transport.is_readonly."""
422
 
        return True
 
200
        raise TransportNotPossible('http does not support delete()')
423
201
 
424
202
    def listable(self):
425
203
        """See Transport.listable."""
428
206
    def stat(self, relpath):
429
207
        """Return the stat information for a file.
430
208
        """
431
 
        raise errors.TransportNotPossible('http does not support stat()')
 
209
        raise TransportNotPossible('http does not support stat()')
432
210
 
433
211
    def lock_read(self, relpath):
434
212
        """Lock the given file for shared (read) access.
449
227
 
450
228
        :return: A lock object, which should be passed to Transport.unlock()
451
229
        """
452
 
        raise errors.TransportNotPossible('http does not support lock_write()')
453
 
 
454
 
    def _attempted_range_header(self, offsets, tail_amount):
455
 
        """Prepare a HTTP Range header at a level the server should accept.
456
 
 
457
 
        :return: the range header representing offsets/tail_amount or None if
458
 
            no header can be built.
459
 
        """
460
 
 
461
 
        if self._range_hint == 'multi':
462
 
            # Generate the header describing all offsets
463
 
            return self._range_header(offsets, tail_amount)
464
 
        elif self._range_hint == 'single':
465
 
            # Combine all the requested ranges into a single
466
 
            # encompassing one
467
 
            if len(offsets) > 0:
468
 
                if tail_amount not in (0, None):
469
 
                    # Nothing we can do here to combine ranges with tail_amount
470
 
                    # in a single range, just returns None. The whole file
471
 
                    # should be downloaded.
472
 
                    return None
473
 
                else:
474
 
                    start = offsets[0].start
475
 
                    last = offsets[-1]
476
 
                    end = last.start + last.length - 1
477
 
                    whole = self._coalesce_offsets([(start, end - start + 1)],
478
 
                                                   limit=0, fudge_factor=0)
479
 
                    return self._range_header(list(whole), 0)
480
 
            else:
481
 
                # Only tail_amount, requested, leave range_header
482
 
                # do its work
483
 
                return self._range_header(offsets, tail_amount)
484
 
        else:
485
 
            return None
486
 
 
487
 
    @staticmethod
488
 
    def _range_header(ranges, tail_amount):
489
 
        """Turn a list of bytes ranges into a HTTP Range header value.
490
 
 
491
 
        :param ranges: A list of _CoalescedOffset
492
 
        :param tail_amount: The amount to get from the end of the file.
493
 
 
494
 
        :return: HTTP range header string.
495
 
 
496
 
        At least a non-empty ranges *or* a tail_amount must be
497
 
        provided.
498
 
        """
499
 
        strings = []
500
 
        for offset in ranges:
501
 
            strings.append('%d-%d' % (offset.start,
502
 
                                      offset.start + offset.length - 1))
503
 
 
504
 
        if tail_amount:
505
 
            strings.append('-%d' % tail_amount)
506
 
 
507
 
        return ','.join(strings)
508
 
 
509
 
    def _redirected_to(self, source, target):
510
 
        """Returns a transport suitable to re-issue a redirected request.
511
 
 
512
 
        :param source: The source url as returned by the server.
513
 
        :param target: The target url as returned by the server.
514
 
 
515
 
        The redirection can be handled only if the relpath involved is not
516
 
        renamed by the redirection.
517
 
 
518
 
        :returns: A transport or None.
519
 
        """
520
 
        def relpath(abspath):
521
 
            """Returns the path relative to our base.
522
 
 
523
 
            The constraints are weaker than the real relpath method because the
524
 
            abspath is coming from the server and may slightly differ from our
525
 
            base. We don't check the scheme, host, port, user, password parts,
526
 
            relying on the caller to give us a proper url (i.e. one returned by
527
 
            the server mirroring the one we sent).
528
 
            """
529
 
            (scheme,
530
 
             user, password,
531
 
             host, port,
532
 
             path) = self._split_url(abspath)
533
 
            pl = len(self._path)
534
 
            return path[pl:].strip('/')
535
 
 
536
 
        relpath = relpath(source)
537
 
        if not target.endswith(relpath):
538
 
            # The final part of the url has been renamed, we can't handle the
539
 
            # redirection.
540
 
            return None
541
 
        new_transport = None
542
 
        (scheme,
543
 
         user, password,
544
 
         host, port,
545
 
         path) = self._split_url(target)
546
 
        # Recalculate base path. This is needed to ensure that when the
547
 
        # redirected tranport will be used to re-try whatever request was
548
 
        # redirected, we end up with the same url
549
 
        base_path = path[:-len(relpath)]
550
 
        if scheme in ('http', 'https'):
551
 
            # Same protocol family (i.e. http[s]), we will preserve the same
552
 
            # http client implementation when a redirection occurs from one to
553
 
            # the other (otherwise users may be surprised that bzr switches
554
 
            # from one implementation to the other, and devs may suffer
555
 
            # debugging it).
556
 
            if (scheme == self._unqualified_scheme
557
 
                and host == self._host
558
 
                and port == self._port
559
 
                and (user is None or user == self._user)):
560
 
                # If a user is specified, it should match, we don't care about
561
 
                # passwords, wrong passwords will be rejected anyway.
562
 
                new_transport = self.clone(base_path)
563
 
            else:
564
 
                # Rebuild the url preserving the scheme qualification and the
565
 
                # credentials (if they don't apply, the redirected to server
566
 
                # will tell us, but if they do apply, we avoid prompting the
567
 
                # user)
568
 
                redir_scheme = scheme + '+' + self._impl_name
569
 
                new_url = self._unsplit_url(redir_scheme,
570
 
                                            self._user, self._password,
571
 
                                            host, port,
572
 
                                            base_path)
573
 
                new_transport = get_transport(new_url)
574
 
        else:
575
 
            # Redirected to a different protocol
576
 
            new_url = self._unsplit_url(scheme,
577
 
                                        user, password,
578
 
                                        host, port,
579
 
                                        base_path)
580
 
            new_transport = get_transport(new_url)
581
 
        return new_transport
582
 
 
583
 
 
584
 
# TODO: May be better located in smart/medium.py with the other
585
 
# SmartMedium classes
586
 
class SmartClientHTTPMedium(medium.SmartClientMedium):
587
 
 
588
 
    def __init__(self, http_transport):
589
 
        super(SmartClientHTTPMedium, self).__init__(http_transport.base)
590
 
        # We don't want to create a circular reference between the http
591
 
        # transport and its associated medium. Since the transport will live
592
 
        # longer than the medium, the medium keep only a weak reference to its
593
 
        # transport.
594
 
        self._http_transport_ref = weakref.ref(http_transport)
595
 
 
596
 
    def get_request(self):
597
 
        return SmartClientHTTPMediumRequest(self)
598
 
 
599
 
    def should_probe(self):
600
 
        return True
601
 
 
602
 
    def remote_path_from_transport(self, transport):
603
 
        # Strip the optional 'bzr+' prefix from transport so it will have the
604
 
        # same scheme as self.
605
 
        transport_base = transport.base
606
 
        if transport_base.startswith('bzr+'):
607
 
            transport_base = transport_base[4:]
608
 
        rel_url = urlutils.relative_url(self.base, transport_base)
609
 
        return urllib.unquote(rel_url)
610
 
 
611
 
    def send_http_smart_request(self, bytes):
612
 
        try:
613
 
            # Get back the http_transport hold by the weak reference
614
 
            t = self._http_transport_ref()
615
 
            code, body_filelike = t._post(bytes)
616
 
            if code != 200:
617
 
                raise InvalidHttpResponse(
618
 
                    t._remote_path('.bzr/smart'),
619
 
                    'Expected 200 response code, got %r' % (code,))
620
 
        except (errors.InvalidHttpResponse, errors.ConnectionReset), e:
621
 
            raise errors.SmartProtocolError(str(e))
622
 
        return body_filelike
623
 
 
624
 
    def _report_activity(self, bytes, direction):
625
 
        """See SmartMedium._report_activity.
626
 
 
627
 
        Does nothing; the underlying plain HTTP transport will report the
628
 
        activity that this medium would report.
629
 
        """
630
 
        pass
631
 
 
632
 
 
633
 
# TODO: May be better located in smart/medium.py with the other
634
 
# SmartMediumRequest classes
635
 
class SmartClientHTTPMediumRequest(medium.SmartClientMediumRequest):
636
 
    """A SmartClientMediumRequest that works with an HTTP medium."""
637
 
 
638
 
    def __init__(self, client_medium):
639
 
        medium.SmartClientMediumRequest.__init__(self, client_medium)
640
 
        self._buffer = ''
641
 
 
642
 
    def _accept_bytes(self, bytes):
643
 
        self._buffer += bytes
644
 
 
645
 
    def _finished_writing(self):
646
 
        data = self._medium.send_http_smart_request(self._buffer)
647
 
        self._response_body = data
648
 
 
649
 
    def _read_bytes(self, count):
650
 
        """See SmartClientMediumRequest._read_bytes."""
651
 
        return self._response_body.read(count)
652
 
 
653
 
    def _read_line(self):
654
 
        line, excess = medium._get_line(self._response_body.read)
655
 
        if excess != '':
656
 
            raise AssertionError(
657
 
                '_get_line returned excess bytes, but this mediumrequest '
658
 
                'cannot handle excess. (%r)' % (excess,))
659
 
        return line
660
 
 
661
 
    def _finished_reading(self):
662
 
        """See SmartClientMediumRequest._finished_reading."""
663
 
        pass
 
230
        raise TransportNotPossible('http does not support lock_write()')