~bzr-pqm/bzr/bzr.dev

« back to all changes in this revision

Viewing changes to bzrlib/xml.py

  • Committer: Martin Pool
  • Date: 2005-09-15 08:37:41 UTC
  • Revision ID: mbp@sourcefrog.net-20050915083741-70d7550b97c7b580
- some updates for fetch/update function

Show diffs side-by-side

added added

removed removed

Lines of Context:
1
 
# Copyright (C) 2005-2010 Canonical Ltd
2
 
#
 
1
#! /usr/bin/env python
 
2
 
3
3
# This program is free software; you can redistribute it and/or modify
4
4
# it under the terms of the GNU General Public License as published by
5
5
# the Free Software Foundation; either version 2 of the License, or
6
6
# (at your option) any later version.
7
 
#
 
7
 
8
8
# This program is distributed in the hope that it will be useful,
9
9
# but WITHOUT ANY WARRANTY; without even the implied warranty of
10
10
# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
11
11
# GNU General Public License for more details.
12
 
#
 
12
 
13
13
# You should have received a copy of the GNU General Public License
14
14
# along with this program; if not, write to the Free Software
15
 
# Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
 
15
# Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
16
16
 
17
17
"""XML externalization support."""
18
18
 
22
22
# importing this module is fairly slow because it has to load several
23
23
# ElementTree bits
24
24
 
25
 
import re
26
 
 
27
 
from bzrlib.serializer import Serializer
28
 
from bzrlib.trace import mutter
 
25
from bzrlib.trace import mutter, warning
29
26
 
30
27
try:
31
 
    try:
32
 
        # it's in this package in python2.5
33
 
        from xml.etree.cElementTree import (ElementTree, SubElement, Element,
34
 
            XMLTreeBuilder, fromstring, tostring)
35
 
        import xml.etree as elementtree
36
 
        # Also import ElementTree module so monkey-patching below always works
37
 
        import xml.etree.ElementTree
38
 
    except ImportError:
39
 
        from cElementTree import (ElementTree, SubElement, Element,
40
 
                                  XMLTreeBuilder, fromstring, tostring)
41
 
        import elementtree.ElementTree
42
 
    ParseError = SyntaxError
 
28
    from util.cElementTree import (ElementTree, SubElement, Element,
 
29
                                   XMLTreeBuilder, fromstring, tostring)
43
30
except ImportError:
44
 
    mutter('WARNING: using slower ElementTree; consider installing cElementTree'
45
 
           " and make sure it's on your PYTHONPATH")
46
 
    # this copy is shipped with bzr
 
31
    warning('using slower ElementTree; consider installing cElementTree')
47
32
    from util.elementtree.ElementTree import (ElementTree, SubElement,
48
33
                                              Element, XMLTreeBuilder,
49
34
                                              fromstring, tostring)
50
 
    import util.elementtree as elementtree
51
 
    from xml.parsers.expat import ExpatError as ParseError
52
 
 
53
 
from bzrlib import errors
54
 
 
55
 
 
56
 
class XMLSerializer(Serializer):
57
 
    """Abstract XML object serialize/deserialize"""
58
 
 
59
 
    squashes_xml_invalid_characters = True
60
 
 
61
 
    def read_inventory_from_string(self, xml_string, revision_id=None,
62
 
                                   entry_cache=None, return_from_cache=False):
63
 
        """Read xml_string into an inventory object.
64
 
 
65
 
        :param xml_string: The xml to read.
66
 
        :param revision_id: If not-None, the expected revision id of the
67
 
            inventory. Some serialisers use this to set the results' root
68
 
            revision. This should be supplied for deserialising all
69
 
            from-repository inventories so that xml5 inventories that were
70
 
            serialised without a revision identifier can be given the right
71
 
            revision id (but not for working tree inventories where users can
72
 
            edit the data without triggering checksum errors or anything).
73
 
        :param entry_cache: An optional cache of InventoryEntry objects. If
74
 
            supplied we will look up entries via (file_id, revision_id) which
75
 
            should map to a valid InventoryEntry (File/Directory/etc) object.
76
 
        :param return_from_cache: Return entries directly from the cache,
77
 
            rather than copying them first. This is only safe if the caller
78
 
            promises not to mutate the returned inventory entries, but it can
79
 
            make some operations significantly faster.
80
 
        """
81
 
        try:
82
 
            return self._unpack_inventory(fromstring(xml_string), revision_id,
83
 
                                          entry_cache=entry_cache,
84
 
                                          return_from_cache=return_from_cache)
85
 
        except ParseError, e:
86
 
            raise errors.UnexpectedInventoryFormat(e)
87
 
 
88
 
    def read_inventory(self, f, revision_id=None):
89
 
        try:
90
 
            try:
91
 
                return self._unpack_inventory(self._read_element(f),
92
 
                    revision_id=None)
93
 
            finally:
94
 
                f.close()
95
 
        except ParseError, e:
96
 
            raise errors.UnexpectedInventoryFormat(e)
 
35
 
 
36
from bzrlib.inventory import ROOT_ID, Inventory, InventoryEntry
 
37
from bzrlib.revision import Revision, RevisionReference        
 
38
from bzrlib.errors import BzrError
 
39
 
 
40
 
 
41
class Serializer(object):
 
42
    """Abstract object serialize/deserialize"""
 
43
    def write_inventory(self, inv, f):
 
44
        """Write inventory to a file"""
 
45
        elt = self._pack_inventory(inv)
 
46
        self._write_element(elt, f)
 
47
 
 
48
    def write_inventory_to_string(self, inv):
 
49
        return tostring(self._pack_inventory(inv))
 
50
 
 
51
    def read_inventory_from_string(self, xml_string):
 
52
        return self._unpack_inventory(fromstring(xml_string))
 
53
 
 
54
    def read_inventory(self, f):
 
55
        return self._unpack_inventory(self._read_element(f))
97
56
 
98
57
    def write_revision(self, rev, f):
99
58
        self._write_element(self._pack_revision(rev), f)
100
59
 
101
60
    def write_revision_to_string(self, rev):
102
 
        return tostring(self._pack_revision(rev)) + '\n'
 
61
        return tostring(self._pack_revision(rev), f)
103
62
 
104
63
    def read_revision(self, f):
105
64
        return self._unpack_revision(self._read_element(f))
115
74
        return ElementTree().parse(f)
116
75
 
117
76
 
118
 
def escape_invalid_chars(message):
119
 
    """Escape the XML-invalid characters in a commit message.
120
 
 
121
 
    :param message: Commit message to escape
122
 
    :return: tuple with escaped message and number of characters escaped
123
 
    """
124
 
    if message is None:
125
 
        return None, 0
126
 
    # Python strings can include characters that can't be
127
 
    # represented in well-formed XML; escape characters that
128
 
    # aren't listed in the XML specification
129
 
    # (http://www.w3.org/TR/REC-xml/#NT-Char).
130
 
    return re.subn(u'[^\x09\x0A\x0D\u0020-\uD7FF\uE000-\uFFFD]+',
131
 
            lambda match: match.group(0).encode('unicode_escape'),
132
 
            message)
 
77
class _Serializer_v4(Serializer):
 
78
    """Version 0.0.4 serializer
 
79
 
 
80
    You should use the serialzer_v4 singleton."""
 
81
    
 
82
    __slots__ = []
 
83
    
 
84
    def _pack_inventory(self, inv):
 
85
        """Convert to XML Element"""
 
86
        e = Element('inventory')
 
87
        e.text = '\n'
 
88
        if inv.root.file_id not in (None, ROOT_ID):
 
89
            e.set('file_id', inv.root.file_id)
 
90
        for path, ie in inv.iter_entries():
 
91
            e.append(self._pack_entry(ie))
 
92
        return e
 
93
 
 
94
 
 
95
    def _pack_entry(self, ie):
 
96
        """Convert InventoryEntry to XML element"""
 
97
        e = Element('entry')
 
98
        e.set('name', ie.name)
 
99
        e.set('file_id', ie.file_id)
 
100
        e.set('kind', ie.kind)
 
101
 
 
102
        if ie.text_size != None:
 
103
            e.set('text_size', '%d' % ie.text_size)
 
104
 
 
105
        for f in ['text_id', 'text_sha1']:
 
106
            v = getattr(ie, f)
 
107
            if v != None:
 
108
                e.set(f, v)
 
109
 
 
110
        # to be conservative, we don't externalize the root pointers
 
111
        # for now, leaving them as null in the xml form.  in a future
 
112
        # version it will be implied by nested elements.
 
113
        if ie.parent_id != ROOT_ID:
 
114
            assert isinstance(ie.parent_id, basestring)
 
115
            e.set('parent_id', ie.parent_id)
 
116
 
 
117
        e.tail = '\n'
 
118
 
 
119
        return e
 
120
 
 
121
 
 
122
    def _unpack_inventory(self, elt):
 
123
        """Construct from XML Element
 
124
        """
 
125
        assert elt.tag == 'inventory'
 
126
        root_id = elt.get('file_id') or ROOT_ID
 
127
        inv = Inventory(root_id)
 
128
        for e in elt:
 
129
            ie = self._unpack_entry(e)
 
130
            if ie.parent_id == ROOT_ID:
 
131
                ie.parent_id = root_id
 
132
            inv.add(ie)
 
133
        return inv
 
134
 
 
135
 
 
136
    def _unpack_entry(self, elt):
 
137
        assert elt.tag == 'entry'
 
138
 
 
139
        ## original format inventories don't have a parent_id for
 
140
        ## nodes in the root directory, but it's cleaner to use one
 
141
        ## internally.
 
142
        parent_id = elt.get('parent_id')
 
143
        if parent_id == None:
 
144
            parent_id = ROOT_ID
 
145
 
 
146
        ie = InventoryEntry(elt.get('file_id'),
 
147
                            elt.get('name'),
 
148
                            elt.get('kind'),
 
149
                            parent_id)
 
150
        ie.text_id = elt.get('text_id')
 
151
        ie.text_sha1 = elt.get('text_sha1')
 
152
 
 
153
        ## mutter("read inventoryentry: %r" % (elt.attrib))
 
154
 
 
155
        v = elt.get('text_size')
 
156
        ie.text_size = v and int(v)
 
157
 
 
158
        return ie
 
159
 
 
160
 
 
161
    def _pack_revision(self, rev):
 
162
        """Revision object -> xml tree"""
 
163
        root = Element('revision',
 
164
                       committer = rev.committer,
 
165
                       timestamp = '%.9f' % rev.timestamp,
 
166
                       revision_id = rev.revision_id,
 
167
                       inventory_id = rev.inventory_id,
 
168
                       inventory_sha1 = rev.inventory_sha1,
 
169
                       )
 
170
        if rev.timezone:
 
171
            root.set('timezone', str(rev.timezone))
 
172
        root.text = '\n'
 
173
 
 
174
        msg = SubElement(root, 'message')
 
175
        msg.text = rev.message
 
176
        msg.tail = '\n'
 
177
 
 
178
        if rev.parents:
 
179
            pelts = SubElement(root, 'parents')
 
180
            pelts.tail = pelts.text = '\n'
 
181
            for rr in rev.parents:
 
182
                assert isinstance(rr, RevisionReference)
 
183
                p = SubElement(pelts, 'revision_ref')
 
184
                p.tail = '\n'
 
185
                assert rr.revision_id
 
186
                p.set('revision_id', rr.revision_id)
 
187
                if rr.revision_sha1:
 
188
                    p.set('revision_sha1', rr.revision_sha1)
 
189
 
 
190
        return root
 
191
 
 
192
    
 
193
    def _unpack_revision(self, elt):
 
194
        """XML Element -> Revision object"""
 
195
        
 
196
        # <changeset> is deprecated...
 
197
        if elt.tag not in ('revision', 'changeset'):
 
198
            raise BzrError("unexpected tag in revision file: %r" % elt)
 
199
 
 
200
        rev = Revision(committer = elt.get('committer'),
 
201
                       timestamp = float(elt.get('timestamp')),
 
202
                       revision_id = elt.get('revision_id'),
 
203
                       inventory_id = elt.get('inventory_id'),
 
204
                       inventory_sha1 = elt.get('inventory_sha1')
 
205
                       )
 
206
 
 
207
        precursor = elt.get('precursor')
 
208
        precursor_sha1 = elt.get('precursor_sha1')
 
209
 
 
210
        pelts = elt.find('parents')
 
211
 
 
212
        if pelts:
 
213
            for p in pelts:
 
214
                assert p.tag == 'revision_ref', \
 
215
                       "bad parent node tag %r" % p.tag
 
216
                rev_ref = RevisionReference(p.get('revision_id'),
 
217
                                            p.get('revision_sha1'))
 
218
                rev.parents.append(rev_ref)
 
219
 
 
220
            if precursor:
 
221
                # must be consistent
 
222
                prec_parent = rev.parents[0].revision_id
 
223
                assert prec_parent == precursor
 
224
        elif precursor:
 
225
            # revisions written prior to 0.0.5 have a single precursor
 
226
            # give as an attribute
 
227
            rev_ref = RevisionReference(precursor, precursor_sha1)
 
228
            rev.parents.append(rev_ref)
 
229
 
 
230
        v = elt.get('timezone')
 
231
        rev.timezone = v and int(v)
 
232
 
 
233
        rev.message = elt.findtext('message') # text of <message>
 
234
        return rev
 
235
 
 
236
 
 
237
 
 
238
 
 
239
"""singleton instance"""
 
240
serializer_v4 = _Serializer_v4()
 
241