~bzr-pqm/bzr/bzr.dev

« back to all changes in this revision

Viewing changes to bzrlib/diff.py

  • Committer: Martin Pool
  • Date: 2005-05-03 08:00:27 UTC
  • Revision ID: mbp@sourcefrog.net-20050503080027-908edb5b39982198
doc

Show diffs side-by-side

added added

removed removed

Lines of Context:
 
1
#! /usr/bin/env python
1
2
# -*- coding: UTF-8 -*-
2
3
 
3
4
# This program is free software; you can redistribute it and/or modify
14
15
# along with this program; if not, write to the Free Software
15
16
# Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
16
17
 
17
 
from bzrlib.trace import mutter
18
 
from bzrlib.errors import BzrError
19
 
from bzrlib.delta import compare_trees
20
 
 
21
 
# TODO: Rather than building a changeset object, we should probably
22
 
# invoke callbacks on an object.  That object can either accumulate a
23
 
# list, write them out directly, etc etc.
24
 
 
25
 
def internal_diff(old_label, oldlines, new_label, newlines, to_file):
26
 
    import difflib
27
 
    
28
 
    # FIXME: difflib is wrong if there is no trailing newline.
29
 
    # The syntax used by patch seems to be "\ No newline at
30
 
    # end of file" following the last diff line from that
31
 
    # file.  This is not trivial to insert into the
32
 
    # unified_diff output and it might be better to just fix
33
 
    # or replace that function.
34
 
 
35
 
    # In the meantime we at least make sure the patch isn't
36
 
    # mangled.
37
 
 
38
 
 
39
 
    # Special workaround for Python2.3, where difflib fails if
40
 
    # both sequences are empty.
41
 
    if not oldlines and not newlines:
42
 
        return
43
 
 
44
 
    ud = difflib.unified_diff(oldlines, newlines,
45
 
                              fromfile=old_label, tofile=new_label)
46
 
 
47
 
    ud = list(ud)
48
 
    # work-around for difflib being too smart for its own good
49
 
    # if /dev/null is "1,0", patch won't recognize it as /dev/null
50
 
    if not oldlines:
51
 
        ud[2] = ud[2].replace('-1,0', '-0,0')
52
 
    elif not newlines:
53
 
        ud[2] = ud[2].replace('+1,0', '+0,0')
54
 
    # work around for difflib emitting random spaces after the label
55
 
    ud[0] = ud[0][:-2] + '\n'
56
 
    ud[1] = ud[1][:-2] + '\n'
57
 
 
58
 
    for line in ud:
59
 
        to_file.write(line)
60
 
        if not line.endswith('\n'):
61
 
            to_file.write("\n\\ No newline at end of file\n")
62
 
    print >>to_file
63
 
 
64
 
 
65
 
 
66
 
 
67
 
def external_diff(old_label, oldlines, new_label, newlines, to_file,
68
 
                  diff_opts):
69
 
    """Display a diff by calling out to the external diff program."""
70
 
    import sys
71
 
    
72
 
    if to_file != sys.stdout:
73
 
        raise NotImplementedError("sorry, can't send external diff other than to stdout yet",
74
 
                                  to_file)
75
 
 
76
 
    # make sure our own output is properly ordered before the diff
77
 
    to_file.flush()
78
 
 
79
 
    from tempfile import NamedTemporaryFile
80
 
    import os
81
 
 
82
 
    oldtmpf = NamedTemporaryFile()
83
 
    newtmpf = NamedTemporaryFile()
84
 
 
85
 
    try:
86
 
        # TODO: perhaps a special case for comparing to or from the empty
87
 
        # sequence; can just use /dev/null on Unix
88
 
 
89
 
        # TODO: if either of the files being compared already exists as a
90
 
        # regular named file (e.g. in the working directory) then we can
91
 
        # compare directly to that, rather than copying it.
92
 
 
93
 
        oldtmpf.writelines(oldlines)
94
 
        newtmpf.writelines(newlines)
95
 
 
96
 
        oldtmpf.flush()
97
 
        newtmpf.flush()
98
 
 
99
 
        if not diff_opts:
100
 
            diff_opts = []
101
 
        diffcmd = ['diff',
102
 
                   '--label', old_label,
103
 
                   oldtmpf.name,
104
 
                   '--label', new_label,
105
 
                   newtmpf.name]
106
 
 
107
 
        # diff only allows one style to be specified; they don't override.
108
 
        # note that some of these take optargs, and the optargs can be
109
 
        # directly appended to the options.
110
 
        # this is only an approximate parser; it doesn't properly understand
111
 
        # the grammar.
112
 
        for s in ['-c', '-u', '-C', '-U',
113
 
                  '-e', '--ed',
114
 
                  '-q', '--brief',
115
 
                  '--normal',
116
 
                  '-n', '--rcs',
117
 
                  '-y', '--side-by-side',
118
 
                  '-D', '--ifdef']:
119
 
            for j in diff_opts:
120
 
                if j.startswith(s):
121
 
                    break
122
 
            else:
123
 
                continue
124
 
            break
125
 
        else:
126
 
            diffcmd.append('-u')
127
 
                  
128
 
        if diff_opts:
129
 
            diffcmd.extend(diff_opts)
130
 
 
131
 
        rc = os.spawnvp(os.P_WAIT, 'diff', diffcmd)
132
 
        
133
 
        if rc != 0 and rc != 1:
134
 
            # returns 1 if files differ; that's OK
135
 
            if rc < 0:
136
 
                msg = 'signal %d' % (-rc)
137
 
            else:
138
 
                msg = 'exit code %d' % rc
139
 
                
140
 
            raise BzrError('external diff failed with %s; command: %r' % (rc, diffcmd))
141
 
    finally:
142
 
        oldtmpf.close()                 # and delete
143
 
        newtmpf.close()
144
 
    
145
 
 
146
 
 
147
 
def show_diff(b, revision, specific_files, external_diff_options=None,
148
 
              revision2=None, output=None):
149
 
    """Shortcut for showing the diff to the working tree.
150
 
 
151
 
    b
152
 
        Branch.
153
 
 
154
 
    revision
155
 
        None for each, or otherwise the old revision to compare against.
156
 
    
157
 
    The more general form is show_diff_trees(), where the caller
158
 
    supplies any two trees.
 
18
from sets import Set
 
19
 
 
20
from trace import mutter
 
21
 
 
22
 
 
23
 
 
24
def diff_trees(old_tree, new_tree):
 
25
    """Compute diff between two trees.
 
26
 
 
27
    They may be in different branches and may be working or historical
 
28
    trees.
 
29
 
 
30
    Yields a sequence of (state, id, old_name, new_name, kind).
 
31
    Each filename and each id is listed only once.
159
32
    """
160
 
    if output is None:
161
 
        import sys
162
 
        output = sys.stdout
163
 
 
164
 
    if revision is None:
 
33
 
 
34
    ## TODO: Compare files before diffing; only mention those that have changed
 
35
 
 
36
    ## TODO: Set nice names in the headers, maybe include diffstat
 
37
 
 
38
    ## TODO: Perhaps make this a generator rather than using
 
39
    ## a callback object?
 
40
 
 
41
    ## TODO: Allow specifying a list of files to compare, rather than
 
42
    ## doing the whole tree?  (Not urgent.)
 
43
 
 
44
    ## TODO: Allow diffing any two inventories, not just the
 
45
    ## current one against one.  We mgiht need to specify two
 
46
    ## stores to look for the files if diffing two branches.  That
 
47
    ## might imply this shouldn't be primarily a Branch method.
 
48
 
 
49
    ## XXX: This doesn't report on unknown files; that can be done
 
50
    ## from a separate method.
 
51
 
 
52
    old_it = old_tree.list_files()
 
53
    new_it = new_tree.list_files()
 
54
 
 
55
    def next(it):
 
56
        try:
 
57
            return it.next()
 
58
        except StopIteration:
 
59
            return None
 
60
 
 
61
    old_item = next(old_it)
 
62
    new_item = next(new_it)
 
63
 
 
64
    # We step through the two sorted iterators in parallel, trying to
 
65
    # keep them lined up.
 
66
 
 
67
    while (old_item != None) or (new_item != None):
 
68
        # OK, we still have some remaining on both, but they may be
 
69
        # out of step.        
 
70
        if old_item != None:
 
71
            old_name, old_class, old_kind, old_id = old_item
 
72
        else:
 
73
            old_name = None
 
74
            
 
75
        if new_item != None:
 
76
            new_name, new_class, new_kind, new_id = new_item
 
77
        else:
 
78
            new_name = None
 
79
 
 
80
        mutter("   diff pairwise %r" % (old_item,))
 
81
        mutter("                 %r" % (new_item,))
 
82
 
 
83
        if old_item:
 
84
            # can't handle the old tree being a WorkingTree
 
85
            assert old_class == 'V'
 
86
 
 
87
        if new_item and (new_class != 'V'):
 
88
            yield new_class, None, None, new_name, new_kind
 
89
            new_item = next(new_it)
 
90
        elif (not new_item) or (old_item and (old_name < new_name)):
 
91
            mutter("     extra entry in old-tree sequence")
 
92
            if new_tree.has_id(old_id):
 
93
                # will be mentioned as renamed under new name
 
94
                pass
 
95
            else:
 
96
                yield 'D', old_id, old_name, None, old_kind
 
97
            old_item = next(old_it)
 
98
        elif (not old_item) or (new_item and (new_name < old_name)):
 
99
            mutter("     extra entry in new-tree sequence")
 
100
            if old_tree.has_id(new_id):
 
101
                yield 'R', new_id, old_tree.id2path(new_id), new_name, new_kind
 
102
            else:
 
103
                yield 'A', new_id, None, new_name, new_kind
 
104
            new_item = next(new_it)
 
105
        elif old_id != new_id:
 
106
            assert old_name == new_name
 
107
            # both trees have a file of this name, but it is not the
 
108
            # same file.  in other words, the old filename has been
 
109
            # overwritten by either a newly-added or a renamed file.
 
110
            # (should we return something about the overwritten file?)
 
111
            if old_tree.has_id(new_id):
 
112
                # renaming, overlying a deleted file
 
113
                yield 'R', new_id, old_tree.id2path(new_id), new_name, new_kind
 
114
            else:
 
115
                yield 'A', new_id, None, new_name, new_kind
 
116
 
 
117
            new_item = next(new_it)
 
118
            old_item = next(old_it)
 
119
        else:
 
120
            assert old_id == new_id
 
121
            assert old_id != None
 
122
            assert old_name == new_name
 
123
            assert old_kind == new_kind
 
124
 
 
125
            if old_kind == 'directory':
 
126
                yield '.', new_id, old_name, new_name, new_kind
 
127
            elif old_tree.get_file_size(old_id) != new_tree.get_file_size(old_id):
 
128
                mutter("    file size has changed, must be different")
 
129
                yield 'M', new_id, old_name, new_name, new_kind
 
130
            elif old_tree.get_file_sha1(old_id) == new_tree.get_file_sha1(old_id):
 
131
                mutter("      SHA1 indicates they're identical")
 
132
                ## assert compare_files(old_tree.get_file(i), new_tree.get_file(i))
 
133
                yield '.', new_id, old_name, new_name, new_kind
 
134
            else:
 
135
                mutter("      quick compare shows different")
 
136
                yield 'M', new_id, old_name, new_name, new_kind
 
137
 
 
138
            new_item = next(new_it)
 
139
            old_item = next(old_it)
 
140
 
 
141
 
 
142
 
 
143
def show_diff(b, revision, file_list):
 
144
    import difflib, sys
 
145
    
 
146
    if revision == None:
165
147
        old_tree = b.basis_tree()
166
148
    else:
167
 
        old_tree = b.revision_tree(revision.in_history(b).rev_id)
168
 
 
169
 
    if revision2 is None:
170
 
        new_tree = b.working_tree()
171
 
    else:
172
 
        new_tree = b.revision_tree(revision2.in_history(b).rev_id)
173
 
 
174
 
    show_diff_trees(old_tree, new_tree, output, specific_files,
175
 
                    external_diff_options)
176
 
 
177
 
 
178
 
 
179
 
def show_diff_trees(old_tree, new_tree, to_file, specific_files=None,
180
 
                    external_diff_options=None):
181
 
    """Show in text form the changes from one tree to another.
182
 
 
183
 
    to_files
184
 
        If set, include only changes to these files.
185
 
 
186
 
    external_diff_options
187
 
        If set, use an external GNU diff and pass these options.
188
 
    """
 
149
        old_tree = b.revision_tree(b.lookup_revision(revision))
 
150
        
 
151
    new_tree = b.working_tree()
189
152
 
190
153
    # TODO: Options to control putting on a prefix or suffix, perhaps as a format string
191
154
    old_label = ''
199
162
    # TODO: Generation of pseudo-diffs for added/deleted files could
200
163
    # be usefully made into a much faster special case.
201
164
 
202
 
    if external_diff_options:
203
 
        assert isinstance(external_diff_options, basestring)
204
 
        opts = external_diff_options.split()
205
 
        def diff_file(olab, olines, nlab, nlines, to_file):
206
 
            external_diff(olab, olines, nlab, nlines, to_file, opts)
207
 
    else:
208
 
        diff_file = internal_diff
 
165
    # TODO: Better to return them in sorted order I think.
 
166
 
 
167
    if file_list:
 
168
        file_list = [b.relpath(f) for f in file_list]
 
169
 
 
170
    # FIXME: If given a file list, compare only those files rather
 
171
    # than comparing everything and then throwing stuff away.
209
172
    
210
 
 
211
 
    delta = compare_trees(old_tree, new_tree, want_unchanged=False,
212
 
                          specific_files=specific_files)
213
 
 
214
 
    for path, file_id, kind in delta.removed:
215
 
        print >>to_file, '=== removed %s %r' % (kind, path)
216
 
        if kind == 'file':
217
 
            diff_file(old_label + path,
218
 
                      old_tree.get_file(file_id).readlines(),
219
 
                      DEVNULL, 
220
 
                      [],
221
 
                      to_file)
222
 
 
223
 
    for path, file_id, kind in delta.added:
224
 
        print >>to_file, '=== added %s %r' % (kind, path)
225
 
        if kind == 'file':
226
 
            diff_file(DEVNULL,
227
 
                      [],
228
 
                      new_label + path,
229
 
                      new_tree.get_file(file_id).readlines(),
230
 
                      to_file)
231
 
 
232
 
    for old_path, new_path, file_id, kind, text_modified in delta.renamed:
233
 
        print >>to_file, '=== renamed %s %r => %r' % (kind, old_path, new_path)
234
 
        if text_modified:
235
 
            diff_file(old_label + old_path,
236
 
                      old_tree.get_file(file_id).readlines(),
237
 
                      new_label + new_path,
238
 
                      new_tree.get_file(file_id).readlines(),
239
 
                      to_file)
240
 
 
241
 
    for path, file_id, kind in delta.modified:
242
 
        print >>to_file, '=== modified %s %r' % (kind, path)
243
 
        if kind == 'file':
244
 
            diff_file(old_label + path,
245
 
                      old_tree.get_file(file_id).readlines(),
246
 
                      new_label + path,
247
 
                      new_tree.get_file(file_id).readlines(),
248
 
                      to_file)
249
 
 
250
 
 
251
 
 
 
173
    for file_state, fid, old_name, new_name, kind in diff_trees(old_tree, new_tree):
 
174
 
 
175
        if file_list and (new_name not in file_list):
 
176
            continue
 
177
        
 
178
        # Don't show this by default; maybe do it if an option is passed
 
179
        # idlabel = '      {%s}' % fid
 
180
        idlabel = ''
 
181
 
 
182
        # FIXME: Something about the diff format makes patch unhappy
 
183
        # with newly-added files.
 
184
 
 
185
        def diffit(oldlines, newlines, **kw):
 
186
            
 
187
            # FIXME: difflib is wrong if there is no trailing newline.
 
188
            # The syntax used by patch seems to be "\ No newline at
 
189
            # end of file" following the last diff line from that
 
190
            # file.  This is not trivial to insert into the
 
191
            # unified_diff output and it might be better to just fix
 
192
            # or replace that function.
 
193
 
 
194
            # In the meantime we at least make sure the patch isn't
 
195
            # mangled.
 
196
            
 
197
 
 
198
            # Special workaround for Python2.3, where difflib fails if
 
199
            # both sequences are empty.
 
200
            if not oldlines and not newlines:
 
201
                return
 
202
 
 
203
            nonl = False
 
204
 
 
205
            if oldlines and (oldlines[-1][-1] != '\n'):
 
206
                oldlines[-1] += '\n'
 
207
                nonl = True
 
208
            if newlines and (newlines[-1][-1] != '\n'):
 
209
                newlines[-1] += '\n'
 
210
                nonl = True
 
211
 
 
212
            ud = difflib.unified_diff(oldlines, newlines, **kw)
 
213
            sys.stdout.writelines(ud)
 
214
            if nonl:
 
215
                print "\\ No newline at end of file"
 
216
            sys.stdout.write('\n')
 
217
        
 
218
        if file_state in ['.', '?', 'I']:
 
219
            continue
 
220
        elif file_state == 'A':
 
221
            print '*** added %s %r' % (kind, new_name)
 
222
            if kind == 'file':
 
223
                diffit([],
 
224
                       new_tree.get_file(fid).readlines(),
 
225
                       fromfile=DEVNULL,
 
226
                       tofile=new_label + new_name + idlabel)
 
227
        elif file_state == 'D':
 
228
            assert isinstance(old_name, types.StringTypes)
 
229
            print '*** deleted %s %r' % (kind, old_name)
 
230
            if kind == 'file':
 
231
                diffit(old_tree.get_file(fid).readlines(), [],
 
232
                       fromfile=old_label + old_name + idlabel,
 
233
                       tofile=DEVNULL)
 
234
        elif file_state in ['M', 'R']:
 
235
            if file_state == 'M':
 
236
                assert kind == 'file'
 
237
                assert old_name == new_name
 
238
                print '*** modified %s %r' % (kind, new_name)
 
239
            elif file_state == 'R':
 
240
                print '*** renamed %s %r => %r' % (kind, old_name, new_name)
 
241
 
 
242
            if kind == 'file':
 
243
                diffit(old_tree.get_file(fid).readlines(),
 
244
                       new_tree.get_file(fid).readlines(),
 
245
                       fromfile=old_label + old_name + idlabel,
 
246
                       tofile=new_label + new_name)
 
247
        else:
 
248
            bailout("can't represent state %s {%s}" % (file_state, fid))
252
249
 
253
250